Inferência Estatística

Aprenda a fazer inferências sobre populações com base em amostras e testes estatísticos.

INFERÊNCIA • AMOSTRAS • DECISÃO ESTATÍSTICA

Inferência Estatística

A Inferência Estatística é a área da Estatística que permite tirar conclusões sobre uma população a partir de uma amostra. Ela é usada quando não conseguimos observar todos os indivíduos de interesse, mas queremos estimar quantidades, testar hipóteses e tomar decisões com base em dados.

O que é Inferência Estatística?

Na Estatística Descritiva, organizamos e resumimos os dados observados.
Na Probabilidade, estudamos matematicamente a incerteza.
Na Inferência Estatística, juntamos essas duas ideias para responder uma pergunta central:

O que podemos concluir sobre uma população usando apenas uma amostra?

Esse tipo de raciocínio aparece em pesquisas eleitorais, estudos médicos, controle de qualidade, análise de mercado, experimentos científicos, modelos econômicos e muitas outras situações.

Ideia central: a Inferência Estatística transforma dados amostrais em conclusões sobre uma população, sempre levando em conta a incerteza envolvida.

População e amostra

Dois conceitos são fundamentais para entender inferência: população e amostra.

População

É o conjunto completo de elementos que queremos estudar. Pode ser formado por pessoas, empresas, atendimentos, medições, produtos, municípios ou qualquer unidade de interesse.

Amostra

É uma parte da população selecionada para análise. A partir dela, buscamos estimar características da população inteira.

Parâmetro

É uma medida verdadeira da população, geralmente desconhecida, como a média populacional, a proporção populacional ou a variância populacional.

Estatística

É uma medida calculada a partir da amostra, como a média amostral, a proporção amostral ou o desvio padrão amostral.


Parâmetro versus estatística

A diferença entre parâmetro e estatística é uma das ideias mais importantes da Inferência Estatística.

Conceito Representa Exemplo
Parâmetro Uma característica da população. $$\mu$$, $$\sigma^2$$, $$p$$
Estatística Uma característica calculada na amostra. $$\bar{x}$$, $$s^2$$, $$\hat{p}$$

Por exemplo, se queremos saber a renda média de todos os moradores de uma cidade, essa média verdadeira seria um parâmetro:

$$ \mu $$

Mas, se entrevistamos apenas 500 moradores e calculamos a média dessa amostra, obtemos uma estatística:

$$ \bar{x} $$

Por que precisamos de inferência?

Em muitos problemas reais, observar toda a população é impossível, caro ou demorado.

Imagine, por exemplo:

Por isso, usamos amostras.

A grande questão é que amostras variam.
Se retirarmos duas amostras diferentes da mesma população, dificilmente obteremos exatamente a mesma média, proporção ou desvio padrão.

A Inferência Estatística existe justamente porque amostras carregam informação, mas também carregam incerteza.

Estimação pontual

A estimação pontual consiste em usar um único valor amostral para estimar um parâmetro populacional.

Por exemplo, usamos a média amostral para estimar a média populacional:

$$ \bar{x} \approx \mu $$

Também podemos usar a proporção amostral para estimar a proporção populacional:

$$ \hat{p} \approx p $$
Parâmetro populacional Estimador amostral
Média populacional: $$\mu$$ Média amostral: $$\bar{x}$$
Proporção populacional: $$p$$ Proporção amostral: $$\hat{p}$$
Variância populacional: $$\sigma^2$$ Variância amostral: $$s^2$$

Erro amostral

Como a amostra é apenas uma parte da população, existe uma diferença natural entre o valor amostral e o valor populacional.

Essa diferença é chamada de erro amostral.

$$ \text{Erro amostral} = \bar{x} - \mu $$

Na prática, geralmente não conhecemos \(\mu\).
Por isso, não conseguimos saber exatamente o erro amostral, mas conseguimos estimar sua variabilidade.

Essa ideia leva ao conceito de erro padrão.


Erro padrão da média

O erro padrão mede o quanto a média amostral tende a variar de uma amostra para outra.

Quando o desvio padrão populacional \(\sigma\) é conhecido, o erro padrão da média é:

$$ EP(\bar{x}) = \frac{\sigma}{\sqrt{n}} $$

Quando usamos o desvio padrão amostral \(s\) como aproximação:

$$ EP(\bar{x}) = \frac{s}{\sqrt{n}} $$

Onde:

Quanto maior o tamanho da amostra, menor tende a ser o erro padrão.

Distribuição amostral

A distribuição amostral é a distribuição de uma estatística calculada em muitas amostras possíveis.

Por exemplo, se retirássemos várias amostras de tamanho \(n\) da mesma população e calculássemos a média de cada uma, teríamos várias médias amostrais:

$$ \bar{x}_1,\ \bar{x}_2,\ \bar{x}_3,\ \ldots,\ \bar{x}_k $$

A distribuição desses valores é chamada de distribuição amostral da média.

Essa ideia é essencial para construir intervalos de confiança e testes de hipóteses.


Teorema Central do Limite

O Teorema Central do Limite é um dos resultados mais importantes da Estatística.

Ele afirma que, sob certas condições, a distribuição da média amostral tende a se aproximar de uma distribuição normal quando o tamanho da amostra aumenta.

De forma simplificada:

$$ \bar{X} \approx N\left(\mu,\frac{\sigma^2}{n}\right) $$

Isso significa que:

O Teorema Central do Limite explica por que a distribuição normal aparece com tanta frequência na Inferência Estatística.

Intervalo de confiança

A estimação pontual fornece um único valor.
Mas, em muitos casos, é melhor fornecer uma faixa de valores plausíveis para o parâmetro.

Essa faixa é chamada de intervalo de confiança.

Um intervalo de confiança para a média pode ser escrito como:

$$ IC = \bar{x} \pm z_{\alpha/2}\cdot \frac{\sigma}{\sqrt{n}} $$

Quando \(\sigma\) é desconhecido e usamos \(s\), é comum usar a distribuição t de Student:

$$ IC = \bar{x} \pm t_{\alpha/2,\ n-1}\cdot \frac{s}{\sqrt{n}} $$

Onde:


Como interpretar um intervalo de confiança?

Um intervalo de confiança de 95% não significa que há 95% de chance de o parâmetro estar naquele intervalo específico depois que ele foi calculado.

A interpretação frequentista correta é:

Se repetíssemos o processo de amostragem muitas vezes e construíssemos um intervalo de confiança em cada amostra, aproximadamente 95% desses intervalos conteriam o verdadeiro parâmetro populacional.

Exemplo intuitivo

Suponha que uma pesquisa estime a média de tempo de atendimento em:
$$ IC_{95\%} = [8{,}4,\ 10{,}2] $$
Isso indica que, pelo método utilizado, o intervalo de 8,4 a 10,2 minutos é uma faixa plausível para a verdadeira média populacional do tempo de atendimento.

Testes de hipóteses

Os testes de hipóteses são usados para avaliar afirmações sobre parâmetros populacionais.

Eles ajudam a responder perguntas como:

Todo teste de hipótese começa com duas hipóteses:

Hipótese Significado
$$H_0$$ Hipótese nula. Geralmente representa ausência de efeito, ausência de diferença ou valor de referência.
$$H_1$$ ou $$H_a$$ Hipótese alternativa. Representa aquilo que queremos investigar ou encontrar evidência.

Exemplo de hipóteses

Suponha que uma empresa afirme que o tempo médio de atendimento é de 10 minutos.

Queremos verificar se os dados indicam que o tempo médio é diferente de 10 minutos.

As hipóteses seriam:

$$ H_0: \mu = 10 $$ $$ H_1: \mu \neq 10 $$

Nesse caso, temos um teste bilateral, pois estamos interessados em diferenças tanto para cima quanto para baixo.


Estatística de teste

A estatística de teste transforma os dados amostrais em um valor padronizado, que pode ser comparado com uma distribuição conhecida.

Para testar uma média com desvio padrão conhecido, podemos usar:

$$ Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} $$

Quando o desvio padrão populacional é desconhecido, usamos a estatística t:

$$ t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} $$

Onde:


Valor-p

O valor-p, ou p-value, mede o quão compatíveis os dados são com a hipótese nula.

De forma intuitiva:

O valor-p indica a probabilidade de observar um resultado tão extremo quanto o obtido, supondo que a hipótese nula seja verdadeira.

Se o valor-p é muito pequeno, os dados parecem pouco compatíveis com \(H_0\).

Valor-p Interpretação comum
$$p \leq 0{,}01$$ Forte evidência contra $$H_0$$.
$$0{,}01 < p \leq 0{,}05$$ Evidência moderada contra $$H_0$$.
$$p > 0{,}05$$ Não há evidência suficiente para rejeitar $$H_0$$ ao nível de 5%.
Um valor-p alto não prova que $$H_0$$ é verdadeira. Ele apenas indica que os dados não forneceram evidência suficiente contra ela.

Nível de significância

O nível de significância é representado por \(\alpha\).

Ele define o limite usado para decidir se rejeitamos ou não a hipótese nula.

O valor mais comum é:

$$ \alpha = 0{,}05 $$

A regra usual é:

Condição Decisão
$$p \leq \alpha$$ Rejeitamos $$H_0$$.
$$p > \alpha$$ Não rejeitamos $$H_0$$.

Erros do tipo I e tipo II

Como os testes são feitos com amostras, decisões estatísticas podem envolver erro.

Tipo de erro O que acontece? Probabilidade
Erro tipo I Rejeitar $$H_0$$ quando $$H_0$$ é verdadeira. $$\alpha$$
Erro tipo II Não rejeitar $$H_0$$ quando $$H_0$$ é falsa. $$\beta$$

O poder do teste é a probabilidade de rejeitar corretamente \(H_0\) quando ela é falsa:

$$ \text{Poder} = 1 - \beta $$

Teste unilateral e bilateral

A hipótese alternativa pode assumir diferentes formas.

Tipo de teste Hipótese alternativa Quando usar?
Bilateral $$H_1: \mu \neq \mu_0$$ Quando queremos saber se existe diferença em qualquer direção.
Unilateral à direita $$H_1: \mu > \mu_0$$ Quando investigamos se a média é maior que o valor de referência.
Unilateral à esquerda $$H_1: \mu < \mu_0$$ Quando investigamos se a média é menor que o valor de referência.

Principais testes estatísticos

Teste Uso principal
Teste z Testar média quando o desvio padrão populacional é conhecido ou em grandes amostras.
Teste t de Student Testar médias quando o desvio padrão populacional é desconhecido.
Teste qui-quadrado Testar associação entre variáveis categóricas ou aderência a uma distribuição.
ANOVA Comparar médias de três ou mais grupos.
Correlação Avaliar associação linear entre duas variáveis quantitativas.
Regressão Modelar a relação entre uma variável resposta e uma ou mais variáveis explicativas.

Exemplo prático: teste para média

Suponha que uma amostra de 36 atendimentos apresentou:

Queremos testar:

$$ H_0: \mu = 10 $$ $$ H_1: \mu \neq 10 $$

Como o desvio padrão populacional é desconhecido, usamos a estatística t:

$$ t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} $$

Substituindo:

$$ t = \frac{12 - 10}{6/\sqrt{36}} $$ $$ t = \frac{2}{6/6} $$ $$ t = \frac{2}{1} $$ $$ t = 2 $$

O valor da estatística de teste é:

$$ t = 2 $$

Esse valor será comparado com a distribuição t de Student com:

$$ gl = n - 1 = 36 - 1 = 35 $$

Tamanho de efeito

Nem todo resultado estatisticamente significativo é, necessariamente, importante na prática.

Por isso, além do valor-p, é importante analisar o tamanho de efeito.

Um exemplo comum é o d de Cohen:

$$ d = \frac{\bar{x} - \mu_0}{s} $$

No exemplo anterior:

$$ d = \frac{12 - 10}{6} $$ $$ d = \frac{2}{6} $$ $$ d \approx 0{,}33 $$

Isso sugere um efeito pequeno a moderado, dependendo do contexto.

Significância estatística e relevância prática não são a mesma coisa.

Inferência frequentista e inferência bayesiana

Existem diferentes formas de pensar a inferência.

Abordagem Ideia principal
Frequentista Trata os parâmetros como fixos e os dados como variáveis. Usa conceitos como valor-p, intervalos de confiança e testes de hipóteses.
Bayesiana Trata os parâmetros como quantidades incertas e atualiza crenças usando dados, por meio do Teorema de Bayes.

Na inferência bayesiana, a atualização pode ser representada de forma simplificada por:

$$ \text{Posterior} \propto \text{Verossimilhança} \times \text{Prior} $$

Ou seja, combinamos uma informação inicial com a evidência trazida pelos dados.


Cuidados na Inferência Estatística

A Inferência Estatística é poderosa, mas precisa ser usada com cuidado.

Alguns erros comuns são:

Uma boa inferência depende não apenas das fórmulas, mas também do desenho do estudo, da qualidade dos dados e da interpretação correta dos resultados.

Resumo geral

Conceito Ideia principal
População Conjunto completo que queremos estudar.
Amostra Parte da população usada para análise.
Parâmetro Medida desconhecida da população.
Estatística Medida calculada a partir da amostra.
Erro padrão Variabilidade esperada de uma estatística amostral.
Intervalo de confiança Faixa de valores plausíveis para um parâmetro.
Teste de hipótese Procedimento para avaliar evidências contra uma hipótese nula.
Valor-p Medida de compatibilidade entre os dados e a hipótese nula.
Poder do teste Probabilidade de detectar um efeito quando ele realmente existe.

Conclusão:
A Inferência Estatística é a ponte entre a amostra e a população. Ela permite estimar parâmetros, testar hipóteses e tomar decisões em cenários de incerteza. Mais do que aplicar fórmulas, fazer inferência exige interpretar os resultados com cuidado, compreender os pressupostos e reconhecer os limites dos dados disponíveis.

“Todos os modelos estão errados, mas alguns são úteis.”
— George E. P. Box