Estatística Descritiva
A Estatística Descritiva é o ramo da Estatística responsável por organizar, resumir, visualizar e interpretar dados. Antes de construir modelos, fazer previsões ou testar hipóteses, precisamos compreender o que os dados estão mostrando de maneira clara, objetiva e visualmente acessível.
O que é Estatística Descritiva?
A Estatística Descritiva é o primeiro contato entre o pesquisador e os dados.
Ela não busca, necessariamente, fazer previsões ou generalizações para uma população inteira.
Seu objetivo principal é descrever o conjunto de dados observado.
Em outras palavras, ela responde perguntas como:
- Qual é o valor típico dos dados?
- Os dados estão muito espalhados?
- Existem valores extremos?
- A distribuição é simétrica ou assimétrica?
- Quais padrões aparecem quando organizamos os dados em tabelas ou gráficos?
Por que a Estatística Descritiva é importante?
Imagine uma tabela com milhares de linhas contendo notas de alunos, tempos de atendimento, valores de vendas ou medidas biológicas. Olhar diretamente para todos esses números pode ser confuso e pouco produtivo.
A Estatística Descritiva resolve esse problema ao criar resumos numéricos e visuais.
Organização
Os dados podem ser classificados, ordenados e agrupados em tabelas, facilitando a leitura inicial do fenômeno estudado.
Resumo
Medidas como média, mediana, moda, variância e desvio padrão ajudam a representar grandes conjuntos de dados com poucos números.
Visualização
Gráficos tornam padrões, tendências, dispersões e assimetrias muito mais fáceis de perceber.
Interpretação
A análise descritiva ajuda a transformar números em conclusões práticas, apoiando decisões em diferentes áreas.
Principais medidas da Estatística Descritiva
A Estatística Descritiva costuma ser dividida em três grandes grupos de medidas:
- Medidas de tendência central
- Medidas de dispersão
- Medidas de posição
Cada grupo revela um aspecto diferente do comportamento dos dados.
1. Medidas de tendência central
As medidas de tendência central indicam onde os dados parecem se concentrar.
Elas tentam responder à pergunta:
Qual valor representa bem esse conjunto de dados?
Média aritmética
A média aritmética é uma das medidas mais conhecidas.
Ela é obtida somando todos os valores e dividindo pela quantidade de observações.
Também podemos escrever:
Onde:
- \(\bar{x}\) representa a média;
- \(x_i\) representa cada valor observado;
- \(n\) representa o número total de observações.
Exemplo
Considere as notas:
\[6,\ 7,\ 8,\ 9,\ 10\]A média será:
Portanto, a média das notas é 8.
Mediana
A mediana é o valor que ocupa a posição central quando os dados estão ordenados.
Se o número de observações for ímpar, a mediana será o valor do meio.
Se for par, será a média dos dois valores centrais.
Exemplo com quantidade ímpar
Dados:
\[3,\ 5,\ 7,\ 9,\ 11\]A mediana é:
\[7\]Exemplo com quantidade par
Dados:
\[4,\ 6,\ 8,\ 10\]Os dois valores centrais são \(6\) e \(8\). Então:
Moda
A moda é o valor que aparece com maior frequência em um conjunto de dados.
Exemplo:
\[2,\ 3,\ 3,\ 4,\ 5,\ 5,\ 5,\ 6\]Nesse caso, a moda é:
\[5\]porque o número 5 aparece mais vezes.
2. Medidas de dispersão
Enquanto as medidas de tendência central mostram o “centro” dos dados, as medidas de dispersão mostram o quanto os dados estão espalhados.
Duas turmas podem ter a mesma média, mas comportamentos muito diferentes.
Por exemplo:
- Turma A: \(7,\ 7,\ 7,\ 7,\ 7\)
- Turma B: \(2,\ 5,\ 7,\ 9,\ 12\)
As duas podem ter média semelhante, mas a Turma B apresenta maior variação.
Amplitude
A amplitude é a diferença entre o maior e o menor valor observado.
Exemplo:
\[4,\ 6,\ 8,\ 10,\ 15\]Temos:
\[x_{\max} = 15\] \[x_{\min} = 4\]Logo:
Variância
A variância mede o afastamento médio dos dados em relação à média.
Quanto maior a variância, mais espalhados estão os valores.
Para uma população:
Para uma amostra:
Onde:
- \(\sigma^2\) é a variância populacional;
- \(s^2\) é a variância amostral;
- \(\mu\) é a média populacional;
- \(\bar{x}\) é a média amostral.
Desvio padrão
O desvio padrão é a raiz quadrada da variância.
Ele é muito utilizado porque volta para a mesma unidade dos dados originais.
Se a variância está em “pontos ao quadrado”, o desvio padrão volta a ser medido em “pontos”.
3. Medidas de posição
As medidas de posição indicam a localização relativa de um valor dentro do conjunto de dados.
As principais são:
- quartis;
- decis;
- percentis.
Quartis
Os quartis dividem os dados ordenados em quatro partes.
| Quartil | Interpretação |
|---|---|
| Q1 | 25% dos dados estão abaixo desse valor. |
| Q2 | 50% dos dados estão abaixo desse valor. É equivalente à mediana. |
| Q3 | 75% dos dados estão abaixo desse valor. |
Tabelas e gráficos na Estatística Descritiva
Além das medidas numéricas, a Estatística Descritiva usa gráficos para facilitar a interpretação.
| Tipo de gráfico | Uso principal |
|---|---|
| Gráfico de barras | Comparar categorias. |
| Histograma | Visualizar a distribuição de dados quantitativos. |
| Boxplot | Identificar mediana, quartis e possíveis valores extremos. |
| Gráfico de linhas | Analisar evolução ao longo do tempo. |
| Gráfico de dispersão | Observar relação entre duas variáveis quantitativas. |
Exemplo prático
Considere o tempo de atendimento, em minutos, de 8 pessoas:
\[5,\ 7,\ 8,\ 8,\ 10,\ 12,\ 15,\ 18\]Média
A média do tempo de atendimento é aproximadamente:
\[10{,}38 \text{ minutos}\]Mediana
Como temos 8 valores, a mediana será a média entre o 4º e o 5º valores:
\[8 \quad \text{e} \quad 10\]A mediana é:
\[9 \text{ minutos}\]Moda
O valor que mais se repete é:
\[8\]Logo, a moda é:
\[Mo = 8\]Média, mediana e moda: quando usar?
| Medida | Quando é mais útil? |
|---|---|
| Média | Quando os dados não possuem valores extremos muito fortes. |
| Mediana | Quando há valores muito altos ou muito baixos distorcendo a média. |
| Moda | Quando queremos identificar o valor mais frequente. |
Estatística Descritiva e análise exploratória
A Estatística Descritiva está diretamente ligada à Análise Exploratória de Dados, conhecida como EDA.
A ideia da análise exploratória é investigar os dados antes de aplicar modelos mais avançados.
Nesse processo, procuramos:
- padrões;
- tendências;
- valores atípicos;
- erros de digitação;
- relações entre variáveis;
- possíveis hipóteses para estudos futuros.
Resumo geral
| Categoria | Principais ferramentas | O que revela? |
|---|---|---|
| Tendência central | Média, mediana e moda | O centro dos dados. |
| Dispersão | Amplitude, variância e desvio padrão | O espalhamento dos dados. |
| Posição | Quartis, decis e percentis | A localização relativa dos valores. |
| Visualização | Tabelas, gráficos, histogramas e boxplots | A forma e os padrões dos dados. |
A Estatística Descritiva é a base de toda análise de dados. Ela permite transformar observações isoladas em informação organizada, revelando padrões, tendências, variações e comportamentos que não seriam percebidos apenas olhando para os dados brutos.
“A Estatística é a gramática da ciência.”
— Karl Pearson