Estatística Descritiva

Conceitos e ferramentas para descrever e resumir dados de forma clara e objetiva.

ESTATÍSTICA • DADOS • INTERPRETAÇÃO

Estatística Descritiva

A Estatística Descritiva é o ramo da Estatística responsável por organizar, resumir, visualizar e interpretar dados. Antes de construir modelos, fazer previsões ou testar hipóteses, precisamos compreender o que os dados estão mostrando de maneira clara, objetiva e visualmente acessível.

O que é Estatística Descritiva?

A Estatística Descritiva é o primeiro contato entre o pesquisador e os dados.
Ela não busca, necessariamente, fazer previsões ou generalizações para uma população inteira.
Seu objetivo principal é descrever o conjunto de dados observado.

Em outras palavras, ela responde perguntas como:

Ideia central: antes de interpretar qualquer fenômeno, precisamos transformar dados brutos em informação compreensível.

Por que a Estatística Descritiva é importante?

Imagine uma tabela com milhares de linhas contendo notas de alunos, tempos de atendimento, valores de vendas ou medidas biológicas. Olhar diretamente para todos esses números pode ser confuso e pouco produtivo.

A Estatística Descritiva resolve esse problema ao criar resumos numéricos e visuais.

Organização

Os dados podem ser classificados, ordenados e agrupados em tabelas, facilitando a leitura inicial do fenômeno estudado.

Resumo

Medidas como média, mediana, moda, variância e desvio padrão ajudam a representar grandes conjuntos de dados com poucos números.

Visualização

Gráficos tornam padrões, tendências, dispersões e assimetrias muito mais fáceis de perceber.

Interpretação

A análise descritiva ajuda a transformar números em conclusões práticas, apoiando decisões em diferentes áreas.


Principais medidas da Estatística Descritiva

A Estatística Descritiva costuma ser dividida em três grandes grupos de medidas:

  1. Medidas de tendência central
  2. Medidas de dispersão
  3. Medidas de posição

Cada grupo revela um aspecto diferente do comportamento dos dados.


1. Medidas de tendência central

As medidas de tendência central indicam onde os dados parecem se concentrar.
Elas tentam responder à pergunta:

Qual valor representa bem esse conjunto de dados?

Média aritmética

A média aritmética é uma das medidas mais conhecidas.
Ela é obtida somando todos os valores e dividindo pela quantidade de observações.

$$ \bar{x} = \frac{x_1 + x_2 + x_3 + \cdots + x_n}{n} $$

Também podemos escrever:

$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$

Onde:

Exemplo

Considere as notas:

\[6,\ 7,\ 8,\ 9,\ 10\]

A média será:

$$ \bar{x} = \frac{6 + 7 + 8 + 9 + 10}{5} $$ $$ \bar{x} = \frac{40}{5} $$ $$ \bar{x} = 8 $$

Portanto, a média das notas é 8.


Mediana

A mediana é o valor que ocupa a posição central quando os dados estão ordenados.

Se o número de observações for ímpar, a mediana será o valor do meio.
Se for par, será a média dos dois valores centrais.

Exemplo com quantidade ímpar

Dados:

\[3,\ 5,\ 7,\ 9,\ 11\]

A mediana é:

\[7\]

Exemplo com quantidade par

Dados:

\[4,\ 6,\ 8,\ 10\]

Os dois valores centrais são \(6\) e \(8\). Então:

$$ Md = \frac{6 + 8}{2} $$ $$ Md = 7 $$

Moda

A moda é o valor que aparece com maior frequência em um conjunto de dados.

Exemplo:

\[2,\ 3,\ 3,\ 4,\ 5,\ 5,\ 5,\ 6\]

Nesse caso, a moda é:

\[5\]

porque o número 5 aparece mais vezes.

Um conjunto de dados pode ter uma moda, mais de uma moda ou nenhuma moda.

2. Medidas de dispersão

Enquanto as medidas de tendência central mostram o “centro” dos dados, as medidas de dispersão mostram o quanto os dados estão espalhados.

Duas turmas podem ter a mesma média, mas comportamentos muito diferentes.

Por exemplo:

As duas podem ter média semelhante, mas a Turma B apresenta maior variação.


Amplitude

A amplitude é a diferença entre o maior e o menor valor observado.

$$ A = x_{\max} - x_{\min} $$

Exemplo:

\[4,\ 6,\ 8,\ 10,\ 15\]

Temos:

\[x_{\max} = 15\] \[x_{\min} = 4\]

Logo:

$$ A = 15 - 4 = 11 $$

Variância

A variância mede o afastamento médio dos dados em relação à média.
Quanto maior a variância, mais espalhados estão os valores.

Para uma população:

$$ \sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N} $$

Para uma amostra:

$$ s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1} $$

Onde:


Desvio padrão

O desvio padrão é a raiz quadrada da variância.
Ele é muito utilizado porque volta para a mesma unidade dos dados originais.

$$ s = \sqrt{s^2} $$

Se a variância está em “pontos ao quadrado”, o desvio padrão volta a ser medido em “pontos”.

O desvio padrão é uma das medidas mais importantes da Estatística Descritiva, pois ajuda a entender a estabilidade ou instabilidade de um conjunto de dados.

3. Medidas de posição

As medidas de posição indicam a localização relativa de um valor dentro do conjunto de dados.

As principais são:

Quartis

Os quartis dividem os dados ordenados em quatro partes.

Quartil Interpretação
Q1 25% dos dados estão abaixo desse valor.
Q2 50% dos dados estão abaixo desse valor. É equivalente à mediana.
Q3 75% dos dados estão abaixo desse valor.

Tabelas e gráficos na Estatística Descritiva

Além das medidas numéricas, a Estatística Descritiva usa gráficos para facilitar a interpretação.

Tipo de gráfico Uso principal
Gráfico de barras Comparar categorias.
Histograma Visualizar a distribuição de dados quantitativos.
Boxplot Identificar mediana, quartis e possíveis valores extremos.
Gráfico de linhas Analisar evolução ao longo do tempo.
Gráfico de dispersão Observar relação entre duas variáveis quantitativas.

Exemplo prático

Considere o tempo de atendimento, em minutos, de 8 pessoas:

\[5,\ 7,\ 8,\ 8,\ 10,\ 12,\ 15,\ 18\]

Média

$$ \bar{x} = \frac{5 + 7 + 8 + 8 + 10 + 12 + 15 + 18}{8} $$ $$ \bar{x} = \frac{83}{8} $$ $$ \bar{x} = 10{,}375 $$

A média do tempo de atendimento é aproximadamente:

\[10{,}38 \text{ minutos}\]

Mediana

Como temos 8 valores, a mediana será a média entre o 4º e o 5º valores:

\[8 \quad \text{e} \quad 10\]
$$ Md = \frac{8 + 10}{2} $$ $$ Md = 9 $$

A mediana é:

\[9 \text{ minutos}\]

Moda

O valor que mais se repete é:

\[8\]

Logo, a moda é:

\[Mo = 8\]

Média, mediana e moda: quando usar?

Medida Quando é mais útil?
Média Quando os dados não possuem valores extremos muito fortes.
Mediana Quando há valores muito altos ou muito baixos distorcendo a média.
Moda Quando queremos identificar o valor mais frequente.

Estatística Descritiva e análise exploratória

A Estatística Descritiva está diretamente ligada à Análise Exploratória de Dados, conhecida como EDA.

A ideia da análise exploratória é investigar os dados antes de aplicar modelos mais avançados.
Nesse processo, procuramos:

Uma boa análise estatística começa com uma boa descrição dos dados. Sem isso, qualquer modelo pode se tornar apenas uma fórmula aplicada sem contexto.

Resumo geral

Categoria Principais ferramentas O que revela?
Tendência central Média, mediana e moda O centro dos dados.
Dispersão Amplitude, variância e desvio padrão O espalhamento dos dados.
Posição Quartis, decis e percentis A localização relativa dos valores.
Visualização Tabelas, gráficos, histogramas e boxplots A forma e os padrões dos dados.

Conclusão:
A Estatística Descritiva é a base de toda análise de dados. Ela permite transformar observações isoladas em informação organizada, revelando padrões, tendências, variações e comportamentos que não seriam percebidos apenas olhando para os dados brutos.

“A Estatística é a gramática da ciência.”
— Karl Pearson