INFERÊNCIA • AMOSTRAS • DECISÃO ESTATÍSTICA

Inferência Estatística

A Inferência Estatística é a área da Estatística que permite tirar conclusões sobre uma população a partir de uma amostra. Ela é usada quando não conseguimos observar todos os indivíduos de interesse, mas queremos estimar quantidades, testar hipóteses e tomar decisões com base em dados.

O que é Inferência Estatística?

Na Estatística Descritiva, organizamos e resumimos os dados observados.
Na Probabilidade, estudamos matematicamente a incerteza.
Na Inferência Estatística, juntamos essas duas ideias para responder uma pergunta central:

O que podemos concluir sobre uma população usando apenas uma amostra?

Esse tipo de raciocínio aparece em pesquisas eleitorais, estudos médicos, controle de qualidade, análise de mercado, experimentos científicos, modelos econômicos e muitas outras situações.

Ideia central: a Inferência Estatística transforma dados amostrais em conclusões sobre uma população, sempre levando em conta a incerteza envolvida.

População e amostra

Dois conceitos são fundamentais para entender inferência: população e amostra.

População

É o conjunto completo de elementos que queremos estudar. Pode ser formado por pessoas, empresas, atendimentos, medições, produtos, municípios ou qualquer unidade de interesse.

Amostra

É uma parte da população selecionada para análise. A partir dela, buscamos estimar características da população inteira.

Parâmetro

É uma medida verdadeira da população, geralmente desconhecida, como a média populacional, a proporção populacional ou a variância populacional.

Estatística

É uma medida calculada a partir da amostra, como a média amostral, a proporção amostral ou o desvio padrão amostral.

Parâmetro versus estatística

A diferença entre parâmetro e estatística é uma das ideias mais importantes da Inferência Estatística.

Conceito	Representa	Exemplo
Parâmetro	Uma característica da população.	$$\mu$$, $$\sigma^2$$, $$p$$
Estatística	Uma característica calculada na amostra.	$$\bar{x}$$, $$s^2$$, $$\hat{p}$$

Por exemplo, se queremos saber a renda média de todos os moradores de uma cidade, essa média verdadeira seria um parâmetro:

$$ \mu $$

Mas, se entrevistamos apenas 500 moradores e calculamos a média dessa amostra, obtemos uma estatística:

$$ \bar{x} $$

Por que precisamos de inferência?

Em muitos problemas reais, observar toda a população é impossível, caro ou demorado.

Imagine, por exemplo:

entrevistar todos os eleitores de um país;
testar a durabilidade de todos os produtos fabricados;
medir todos os habitantes de uma cidade;
acompanhar todos os pacientes de uma população;
verificar todos os atendimentos de um sistema ao longo de anos.

Por isso, usamos amostras.

A grande questão é que amostras variam.
Se retirarmos duas amostras diferentes da mesma população, dificilmente obteremos exatamente a mesma média, proporção ou desvio padrão.

A Inferência Estatística existe justamente porque amostras carregam informação, mas também carregam incerteza.

Estimação pontual

A estimação pontual consiste em usar um único valor amostral para estimar um parâmetro populacional.

Por exemplo, usamos a média amostral para estimar a média populacional:

$$ \bar{x} \approx \mu $$

Também podemos usar a proporção amostral para estimar a proporção populacional:

$$ \hat{p} \approx p $$

Parâmetro populacional	Estimador amostral
Média populacional: $$\mu$$	Média amostral: $$\bar{x}$$
Proporção populacional: $$p$$	Proporção amostral: $$\hat{p}$$
Variância populacional: $$\sigma^2$$	Variância amostral: $$s^2$$

Erro amostral

Como a amostra é apenas uma parte da população, existe uma diferença natural entre o valor amostral e o valor populacional.

Essa diferença é chamada de erro amostral.

$$ \text{Erro amostral} = \bar{x} - \mu $$

Na prática, geralmente não conhecemos $\mu$.
Por isso, não conseguimos saber exatamente o erro amostral, mas conseguimos estimar sua variabilidade.

Essa ideia leva ao conceito de erro padrão.

Erro padrão da média

O erro padrão mede o quanto a média amostral tende a variar de uma amostra para outra.

Quando o desvio padrão populacional $\sigma$ é conhecido, o erro padrão da média é:

$$ EP(\bar{x}) = \frac{\sigma}{\sqrt{n}} $$

Quando usamos o desvio padrão amostral $s$ como aproximação:

$$ EP(\bar{x}) = \frac{s}{\sqrt{n}} $$

Onde:

$EP(\bar{x})$ é o erro padrão da média;
$s$ é o desvio padrão amostral;
$n$ é o tamanho da amostra.

Quanto maior o tamanho da amostra, menor tende a ser o erro padrão.

Distribuição amostral

A distribuição amostral é a distribuição de uma estatística calculada em muitas amostras possíveis.

Por exemplo, se retirássemos várias amostras de tamanho $n$ da mesma população e calculássemos a média de cada uma, teríamos várias médias amostrais:

$$ \bar{x}_1,\ \bar{x}_2,\ \bar{x}_3,\ \ldots,\ \bar{x}_k $$

A distribuição desses valores é chamada de distribuição amostral da média.

Essa ideia é essencial para construir intervalos de confiança e testes de hipóteses.

Teorema Central do Limite

O Teorema Central do Limite é um dos resultados mais importantes da Estatística.

Ele afirma que, sob certas condições, a distribuição da média amostral tende a se aproximar de uma distribuição normal quando o tamanho da amostra aumenta.

De forma simplificada:

$$ \bar{X} \approx N\left(\mu,\frac{\sigma^2}{n}\right) $$

Isso significa que:

a média das médias amostrais tende a ser igual à média populacional;
a variância das médias amostrais diminui conforme $n$ aumenta;
mesmo que a população original não seja normal, a média amostral pode se aproximar da normalidade para amostras grandes.

O Teorema Central do Limite explica por que a distribuição normal aparece com tanta frequência na Inferência Estatística.

Intervalo de confiança

A estimação pontual fornece um único valor.
Mas, em muitos casos, é melhor fornecer uma faixa de valores plausíveis para o parâmetro.

Essa faixa é chamada de intervalo de confiança.

Um intervalo de confiança para a média pode ser escrito como:

$$ IC = \bar{x} \pm z_{\alpha/2}\cdot \frac{\sigma}{\sqrt{n}} $$

Quando $\sigma$ é desconhecido e usamos $s$, é comum usar a distribuição t de Student:

$$ IC = \bar{x} \pm t_{\alpha/2,\ n-1}\cdot \frac{s}{\sqrt{n}} $$

Onde:

$\bar{x}$ é a média amostral;
$z_{\alpha/2}$ é o valor crítico da distribuição normal padrão;
$t_{\alpha/2,\ n-1}$ é o valor crítico da distribuição t;
$s$ é o desvio padrão amostral;
$n$ é o tamanho da amostra.

Como interpretar um intervalo de confiança?

Um intervalo de confiança de 95% não significa que há 95% de chance de o parâmetro estar naquele intervalo específico depois que ele foi calculado.

A interpretação frequentista correta é:

Se repetíssemos o processo de amostragem muitas vezes e construíssemos um intervalo de confiança em cada amostra, aproximadamente 95% desses intervalos conteriam o verdadeiro parâmetro populacional.

Exemplo intuitivo

Suponha que uma pesquisa estime a média de tempo de atendimento em:

$$ IC_{95\%} = [8{,}4,\ 10{,}2] $$

Isso indica que, pelo método utilizado, o intervalo de 8,4 a 10,2 minutos é uma faixa plausível para a verdadeira média populacional do tempo de atendimento.

Testes de hipóteses

Os testes de hipóteses são usados para avaliar afirmações sobre parâmetros populacionais.

Eles ajudam a responder perguntas como:

A média de uma população é diferente de certo valor?
Duas médias são estatisticamente diferentes?
Uma proporção mudou ao longo do tempo?
Existe associação entre duas variáveis categóricas?
Um tratamento teve efeito mensurável?

Todo teste de hipótese começa com duas hipóteses:

Hipótese	Significado
$$H_0$$	Hipótese nula. Geralmente representa ausência de efeito, ausência de diferença ou valor de referência.
$$H_1$$ ou $$H_a$$	Hipótese alternativa. Representa aquilo que queremos investigar ou encontrar evidência.

Exemplo de hipóteses

Suponha que uma empresa afirme que o tempo médio de atendimento é de 10 minutos.

Queremos verificar se os dados indicam que o tempo médio é diferente de 10 minutos.

As hipóteses seriam:

$$ H_0: \mu = 10 $$ $$ H_1: \mu \neq 10 $$

Nesse caso, temos um teste bilateral, pois estamos interessados em diferenças tanto para cima quanto para baixo.

Estatística de teste

A estatística de teste transforma os dados amostrais em um valor padronizado, que pode ser comparado com uma distribuição conhecida.

Para testar uma média com desvio padrão conhecido, podemos usar:

$$ Z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} $$

Quando o desvio padrão populacional é desconhecido, usamos a estatística t:

$$ t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} $$

Onde:

$\bar{x}$ é a média amostral;
$\mu_0$ é o valor testado na hipótese nula;
$s$ é o desvio padrão amostral;
$n$ é o tamanho da amostra.

Valor-p

O valor-p, ou p-value, mede o quão compatíveis os dados são com a hipótese nula.

De forma intuitiva:

O valor-p indica a probabilidade de observar um resultado tão extremo quanto o obtido, supondo que a hipótese nula seja verdadeira.

Se o valor-p é muito pequeno, os dados parecem pouco compatíveis com $H_0$.

Valor-p	Interpretação comum
$$p \leq 0{,}01$$	Forte evidência contra $$H_0$$.
$$0{,}01 < p \leq 0{,}05$$	Evidência moderada contra $$H_0$$.
$$p > 0{,}05$$	Não há evidência suficiente para rejeitar $$H_0$$ ao nível de 5%.

Um valor-p alto não prova que $$H_0$$ é verdadeira. Ele apenas indica que os dados não forneceram evidência suficiente contra ela.

Nível de significância

O nível de significância é representado por $\alpha$.

Ele define o limite usado para decidir se rejeitamos ou não a hipótese nula.

O valor mais comum é:

$$ \alpha = 0{,}05 $$

A regra usual é:

Condição	Decisão
$$p \leq \alpha$$	Rejeitamos $$H_0$$.
$$p > \alpha$$	Não rejeitamos $$H_0$$.

Erros do tipo I e tipo II

Como os testes são feitos com amostras, decisões estatísticas podem envolver erro.

Tipo de erro	O que acontece?	Probabilidade
Erro tipo I	Rejeitar $$H_0$$ quando $$H_0$$ é verdadeira.	$$\alpha$$
Erro tipo II	Não rejeitar $$H_0$$ quando $$H_0$$ é falsa.	$$\beta$$

O poder do teste é a probabilidade de rejeitar corretamente $H_0$ quando ela é falsa:

$$ \text{Poder} = 1 - \beta $$

Teste unilateral e bilateral

A hipótese alternativa pode assumir diferentes formas.

Tipo de teste	Hipótese alternativa	Quando usar?
Bilateral	$$H_1: \mu \neq \mu_0$$	Quando queremos saber se existe diferença em qualquer direção.
Unilateral à direita	$$H_1: \mu > \mu_0$$	Quando investigamos se a média é maior que o valor de referência.
Unilateral à esquerda	$$H_1: \mu < \mu_0$$	Quando investigamos se a média é menor que o valor de referência.

Principais testes estatísticos

Teste	Uso principal
Teste z	Testar média quando o desvio padrão populacional é conhecido ou em grandes amostras.
Teste t de Student	Testar médias quando o desvio padrão populacional é desconhecido.
Teste qui-quadrado	Testar associação entre variáveis categóricas ou aderência a uma distribuição.
ANOVA	Comparar médias de três ou mais grupos.
Correlação	Avaliar associação linear entre duas variáveis quantitativas.
Regressão	Modelar a relação entre uma variável resposta e uma ou mais variáveis explicativas.

Exemplo prático: teste para média

Suponha que uma amostra de 36 atendimentos apresentou:

média amostral: $\bar{x}=12$ minutos;
desvio padrão amostral: $s=6$ minutos;
valor de referência: $\mu_0=10$ minutos.

Queremos testar:

$$ H_0: \mu = 10 $$ $$ H_1: \mu \neq 10 $$

Como o desvio padrão populacional é desconhecido, usamos a estatística t:

$$ t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} $$

Substituindo:

$$ t = \frac{12 - 10}{6/\sqrt{36}} $$ $$ t = \frac{2}{6/6} $$ $$ t = \frac{2}{1} $$ $$ t = 2 $$

O valor da estatística de teste é:

$$ t = 2 $$

Esse valor será comparado com a distribuição t de Student com:

$$ gl = n - 1 = 36 - 1 = 35 $$

Tamanho de efeito

Nem todo resultado estatisticamente significativo é, necessariamente, importante na prática.

Por isso, além do valor-p, é importante analisar o tamanho de efeito.

Um exemplo comum é o d de Cohen:

$$ d = \frac{\bar{x} - \mu_0}{s} $$

No exemplo anterior:

$$ d = \frac{12 - 10}{6} $$ $$ d = \frac{2}{6} $$ $$ d \approx 0{,}33 $$

Isso sugere um efeito pequeno a moderado, dependendo do contexto.

Significância estatística e relevância prática não são a mesma coisa.

Inferência frequentista e inferência bayesiana

Existem diferentes formas de pensar a inferência.

Abordagem	Ideia principal
Frequentista	Trata os parâmetros como fixos e os dados como variáveis. Usa conceitos como valor-p, intervalos de confiança e testes de hipóteses.
Bayesiana	Trata os parâmetros como quantidades incertas e atualiza crenças usando dados, por meio do Teorema de Bayes.

Na inferência bayesiana, a atualização pode ser representada de forma simplificada por:

$$ \text{Posterior} \propto \text{Verossimilhança} \times \text{Prior} $$

Ou seja, combinamos uma informação inicial com a evidência trazida pelos dados.

Cuidados na Inferência Estatística

A Inferência Estatística é poderosa, mas precisa ser usada com cuidado.

Alguns erros comuns são:

concluir causalidade apenas a partir de correlação;
ignorar o tamanho da amostra;
interpretar valor-p como probabilidade de a hipótese nula ser verdadeira;
escolher testes depois de olhar os resultados;
ignorar pressupostos do modelo;
remover dados sem justificativa;
confundir significância estatística com importância prática.

Uma boa inferência depende não apenas das fórmulas, mas também do desenho do estudo, da qualidade dos dados e da interpretação correta dos resultados.

Resumo geral

Conceito	Ideia principal
População	Conjunto completo que queremos estudar.
Amostra	Parte da população usada para análise.
Parâmetro	Medida desconhecida da população.
Estatística	Medida calculada a partir da amostra.
Erro padrão	Variabilidade esperada de uma estatística amostral.
Intervalo de confiança	Faixa de valores plausíveis para um parâmetro.
Teste de hipótese	Procedimento para avaliar evidências contra uma hipótese nula.
Valor-p	Medida de compatibilidade entre os dados e a hipótese nula.
Poder do teste	Probabilidade de detectar um efeito quando ele realmente existe.

Conclusão:
A Inferência Estatística é a ponte entre a amostra e a população. Ela permite estimar parâmetros, testar hipóteses e tomar decisões em cenários de incerteza. Mais do que aplicar fórmulas, fazer inferência exige interpretar os resultados com cuidado, compreender os pressupostos e reconhecer os limites dos dados disponíveis.

“Todos os modelos estão errados, mas alguns são úteis.”
— George E. P. Box

MorrisonKühlsen

Ex nihilo, ad æternum

Inferência Estatística

Inferência Estatística

O que é Inferência Estatística?

População e amostra

População

Amostra

Parâmetro

Estatística

Parâmetro versus estatística

Por que precisamos de inferência?

Estimação pontual

Erro amostral

Erro padrão da média

Distribuição amostral

Teorema Central do Limite

Intervalo de confiança

Como interpretar um intervalo de confiança?

Exemplo intuitivo

Testes de hipóteses

Exemplo de hipóteses

Estatística de teste

Valor-p

Nível de significância

Erros do tipo I e tipo II

Teste unilateral e bilateral

Principais testes estatísticos

Exemplo prático: teste para média

Tamanho de efeito

Inferência frequentista e inferência bayesiana

Cuidados na Inferência Estatística

Resumo geral