1. Desvio padrão x erro padrão: por que essa confusão acontece?
Na Estatística, é muito comum encontrar os termos desvio padrão e erro padrão em tabelas, gráficos, pesquisas e artigos científicos. Como os dois nomes são parecidos e ambos estão ligados à ideia de “variação”, muita gente acaba tratando os dois como se fossem a mesma coisa, mas eles não são.
O desvio padrão mede a variabilidade dos dados individuais. Ele ajuda a responder perguntas como:
As notas dos alunos, os tempos de atendimento ou as alturas das pessoas estão muito espalhados em torno da média?
Já o erro padrão mede a variabilidade da média amostral. Ele está ligado à precisão da média calculada a partir de uma amostra. Em outras palavras, ajuda a responder:
Se coletássemos outra amostra parecida, a média encontrada mudaria muito?
A diferença principal pode ser resumida assim:
Desvio padrão
Olha para os valores individuais.
Mede o quanto os dados variam em torno da média.
Erro padrão
Olha para a média amostral.
Mede o quanto essa média pode variar de amostra para amostra.
Em forma compacta:
\[\text{desvio padrão} \rightarrow \text{variabilidade dos dados}\] \[\text{erro padrão} \rightarrow \text{variabilidade da média amostral}\]Pergunta central
Estamos tentando entender o quanto os valores variam entre si ou o quanto a média amostral pode variar de amostra para amostra?
2. O que é desvio padrão?
O desvio padrão mede o quanto os dados estão espalhados em torno da média.
Quando o desvio padrão é pequeno, os valores estão próximos da média.
Quando o desvio padrão é grande, os valores estão mais distantes da média.
Imagine duas turmas com notas de prova.
| Turma | Notas | Interpretação |
|---|---|---|
| Turma A | 7, 7, 8, 8, 8 | Notas próximas entre si |
| Turma B | 3, 5, 8, 10, 14 | Notas mais espalhadas |
Mesmo que duas turmas tenham médias parecidas, elas podem ter dispersões muito diferentes.
O desvio padrão ajuda justamente a medir essa dispersão.
Onde:
| Símbolo | Significado |
|---|---|
| $s$ | desvio padrão amostral |
| $x_i$ | cada valor observado na amostra |
| $\bar{x}$ | média amostral |
| $n$ | tamanho da amostra |
| $x_i - \bar{x}$ | distância de cada valor até a média |
| $n-1$ | graus de liberdade usados no cálculo amostral |
A ideia da fórmula é:
- calcular a média;
- medir a distância de cada valor até a média;
- elevar essas distâncias ao quadrado;
- somar tudo;
- dividir por $n-1$;
- tirar a raiz quadrada.
O desvio padrão descreve a variabilidade dos próprios dados. Ele olha para os valores individuais da amostra.
3. O que é erro padrão?
O erro padrão da média mede o quanto a média amostral tende a variar de amostra para amostra.
Essa frase é muito importante.
O erro padrão não mede diretamente o espalhamento dos dados individuais.
Ele mede o espalhamento das médias amostrais.
Imagine que queremos estimar o tempo médio de atendimento em um cartório, banco, hospital ou escola.
Podemos pegar uma amostra de atendimentos e calcular uma média.
Depois, poderíamos pegar outra amostra e calcular outra média.
Depois outra.
Depois outra.
Cada amostra provavelmente teria uma média um pouco diferente.
O erro padrão tenta medir justamente essa variação das médias.
Onde:
| Símbolo | Significado |
|---|---|
| $EP$ | erro padrão da média |
| $s$ | desvio padrão amostral |
| $n$ | tamanho da amostra |
| $\sqrt{n}$ | raiz quadrada do tamanho da amostra |
Essa fórmula mostra algo essencial:
\[EP = \frac{s}{\sqrt{n}}\]Quanto maior o tamanho da amostra, maior será o denominador.
E, quando o denominador aumenta, o erro padrão diminui.
O erro padrão mostra o quanto a média amostral é instável ou incerta como estimativa da média verdadeira da população.
4. A diferença principal entre os dois
A diferença central é esta:
Desvio padrão
Mede a variabilidade dos dados individuais.
Ele responde:
os valores estão muito espalhados em torno da média?
Erro padrão
Mede a variabilidade da média amostral.
Ele responde:
a média calculada é uma estimativa muito incerta?
Em linguagem direta:
\[\text{desvio padrão} \rightarrow \text{variação dos dados}\] \[\text{erro padrão} \rightarrow \text{variação da média}\]| Critério | Desvio padrão | Erro padrão |
|---|---|---|
| O que mede? | A variabilidade dos dados individuais | A variabilidade da média amostral |
| Fórmula | $s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}}$ | $EP = \frac{s}{\sqrt{n}}$ |
| Usado para quê? | Descrever a dispersão dos dados | Medir a precisão da média estimada |
| Pergunta que responde | Os valores variam muito? | A média é muito incerta? |
| Exemplo | As notas dos alunos são parecidas? | A média da turma foi estimada com precisão? |
O erro padrão depende do desvio padrão, mas não é a mesma coisa que o desvio padrão.
5. Exemplo resolvido à mão
Vamos usar um exemplo pequeno para conseguir calcular tudo manualmente.
Imagine que observamos os tempos de atendimento, em minutos, de 4 pessoas:
\[6,\ 8,\ 10,\ 12\]Então:
\[n = 4\]Queremos calcular:
- a média;
- o desvio padrão amostral;
- o erro padrão da média.
Passo 1: calcular a média
A média amostral é:
\[\bar{x} = \frac{x_1 + x_2 + x_3 + x_4}{n}\]Substituindo os valores:
\[\bar{x} = \frac{6 + 8 + 10 + 12}{4}\]Somando o numerador:
\[6 + 8 + 10 + 12 = 36\]Logo:
\[\bar{x} = \frac{36}{4}\] \[\bar{x} = 9\]Portanto:
\[\bar{x} = 9 \text{ minutos}\]Passo 2: calcular os desvios em relação à média
Agora calculamos:
\[x_i - \bar{x}\]Como:
\[\bar{x} = 9\]temos:
| Valor | Cálculo | Desvio |
|---|---|---|
| $6$ | $6 - 9$ | $-3$ |
| $8$ | $8 - 9$ | $-1$ |
| $10$ | $10 - 9$ | $1$ |
| $12$ | $12 - 9$ | $3$ |
Passo 3: elevar os desvios ao quadrado
Agora calculamos:
\[(x_i - \bar{x})^2\]| Valor | Desvio | Desvio ao quadrado |
|---|---|---|
| $6$ | $-3$ | $(-3)^2 = 9$ |
| $8$ | $-1$ | $(-1)^2 = 1$ |
| $10$ | $1$ | $(1)^2 = 1$ |
| $12$ | $3$ | $(3)^2 = 9$ |
Somando os desvios ao quadrado:
\[\sum_{i=1}^{n}(x_i - \bar{x})^2 = 9 + 1 + 1 + 9\] \[\sum_{i=1}^{n}(x_i - \bar{x})^2 = 20\]Passo 4: calcular o desvio padrão amostral
A fórmula é:
\[s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}\]Já sabemos que:
\[\sum_{i=1}^{n}(x_i - \bar{x})^2 = 20\]e:
\[n = 4\]Então:
\[s = \sqrt{\frac{20}{4-1}}\] \[s = \sqrt{\frac{20}{3}}\]Fazendo a divisão:
\[\frac{20}{3} \approx 6{,}6667\]Logo:
\[s = \sqrt{6{,}6667}\] \[s \approx 2{,}58\]Portanto:
\[s \approx 2{,}58 \text{ minutos}\]Passo 5: calcular o erro padrão
Agora usamos:
\[EP = \frac{s}{\sqrt{n}}\]Como:
\[s \approx 2{,}58\]e:
\[n = 4\]temos:
\[EP = \frac{2{,}58}{\sqrt{4}}\]Sabemos que:
\[\sqrt{4} = 2\]Então:
\[EP = \frac{2{,}58}{2}\] \[EP \approx 1{,}29\]Portanto:
\[EP \approx 1{,}29 \text{ minutos}\]A média foi $9$ minutos, o desvio padrão foi aproximadamente $2{,}58$ minutos e o erro padrão foi aproximadamente $1{,}29$ minuto.
6. Como interpretar os resultados?
Encontramos:
\[\bar{x} = 9\] \[s \approx 2{,}58\] \[EP \approx 1{,}29\]Esses três valores contam partes diferentes da história.
A média diz:
o tempo médio de atendimento observado foi de 9 minutos.
O desvio padrão diz:
os tempos individuais de atendimento se afastam da média, em termos típicos, cerca de 2,58 minutos.
O erro padrão diz:
a média amostral de 9 minutos tem uma incerteza típica de aproximadamente 1,29 minuto.
Ou seja:
\[2{,}58\]descreve a dispersão dos atendimentos individuais.
Já:
\[1{,}29\]descreve a incerteza da média calculada.
O desvio padrão fala sobre os dados. O erro padrão fala sobre a média.
7. O que acontece quando o tamanho da amostra aumenta?
O erro padrão é calculado por:
\[EP = \frac{s}{\sqrt{n}}\]Observe que o tamanho da amostra aparece no denominador.
Isso significa que, quando $n$ aumenta, $\sqrt{n}$ também aumenta.
Como estamos dividindo por um número maior, o erro padrão diminui.
Vamos supor que o desvio padrão seja aproximadamente:
\[s = 12\]Agora vamos comparar diferentes tamanhos de amostra.
| Tamanho da amostra | Cálculo | Erro padrão |
|---|---|---|
| $n = 4$ | $EP = \frac{12}{\sqrt{4}} = \frac{12}{2}$ | $6$ |
| $n = 9$ | $EP = \frac{12}{\sqrt{9}} = \frac{12}{3}$ | $4$ |
| $n = 16$ | $EP = \frac{12}{\sqrt{16}} = \frac{12}{4}$ | $3$ |
| $n = 36$ | $EP = \frac{12}{\sqrt{36}} = \frac{12}{6}$ | $2$ |
Repare no padrão:
\[n \uparrow \quad \Rightarrow \quad EP \downarrow\]Mas o erro padrão não cai na mesma velocidade que o tamanho da amostra cresce.
Ele cai com a raiz quadrada de $n$.
Por isso, para reduzir o erro padrão pela metade, em geral precisamos multiplicar o tamanho da amostra por 4.
Aumentar a amostra reduz o erro padrão, mas não resolve automaticamente problemas como viés, dados mal coletados, amostragem ruim ou perguntas mal formuladas.
8. Erros comuns e conexão com intervalo de confiança
Erro 1: interpretar erro padrão como se fosse desvio padrão
Se alguém diz:
o erro padrão foi 1,2
isso não significa necessariamente que os dados individuais variam apenas 1,2 unidade em torno da média.
Significa que a média amostral tem uma incerteza típica de 1,2 unidade.
Para saber a dispersão dos dados, precisamos olhar para o desvio padrão.
Erro 2: achar que erro padrão pequeno significa dados homogêneos
Uma amostra grande pode ter erro padrão pequeno mesmo que os dados individuais sejam bastante variados.
Isso acontece porque:
\[EP = \frac{s}{\sqrt{n}}\]Se $n$ for grande, o denominador fica grande.
Então, mesmo com um desvio padrão alto, o erro padrão pode ficar pequeno.
Exemplo:
\[s = 20\]e:
\[n = 400\]Então:
\[EP = \frac{20}{\sqrt{400}}\] \[EP = \frac{20}{20}\] \[EP = 1\]Nesse caso, o erro padrão é 1, mas o desvio padrão é 20.
Ou seja, os dados individuais ainda variam bastante.
Erro 3: usar desvio padrão quando a pergunta é sobre precisão da média
Se queremos descrever os dados, usamos desvio padrão.
Se queremos falar da precisão da média, usamos erro padrão.
Por exemplo:
As alturas das pessoas variam muito?
Essa pergunta pede desvio padrão.
Agora:
A média de altura estimada pela amostra é precisa?
Essa pergunta pede erro padrão.
Conexão com intervalo de confiança
O erro padrão aparece diretamente na construção de intervalos de confiança.
De forma simplificada, um intervalo de confiança para a média costuma ter a ideia:
\[\text{estimativa} \pm \text{margem de erro}\]No caso da média:
\[\bar{x} \pm \text{valor crítico} \times EP\]Em muitas situações introdutórias, aparece algo como:
\[\bar{x} \pm z \cdot EP\]ou, quando usamos a distribuição t de Student:
\[\bar{x} \pm t \cdot EP\]No nosso exemplo, encontramos:
\[\bar{x} = 9\]e:
\[EP \approx 1{,}29\]Se usássemos, apenas como aproximação didática, um valor crítico igual a 2, teríamos:
\[9 \pm 2 \cdot 1{,}29\]Primeiro calculamos a margem:
\[2 \cdot 1{,}29 = 2{,}58\]Então:
\[9 - 2{,}58 = 6{,}42\]e:
\[9 + 2{,}58 = 11{,}58\]Logo, um intervalo aproximado seria:
\[[6{,}42,\ 11{,}58]\]O erro padrão entra no intervalo de confiança porque ele mede a incerteza da média. Quanto menor o erro padrão, mais estreito tende a ser o intervalo de confiança.
9. Exemplos em Julia
Agora vamos calcular os mesmos conceitos usando Julia.
Primeiro, vamos usar o exemplo dos tempos de atendimento:
\[6,\ 8,\ 10,\ 12\]No cálculo manual, encontramos:
\[\bar{x} = 9\] \[s \approx 2{,}58\] \[EP \approx 1{,}29\]Cálculo manual em Julia
using Statistics
tempos = [6, 8, 10, 12]
n = length(tempos)
media = mean(tempos)
desvios = tempos .- media
desvios_quadrado = desvios .^ 2
soma_desvios_quadrado = sum(desvios_quadrado)
variancia_amostral = soma_desvios_quadrado / (n - 1)
desvio_padrao = sqrt(variancia_amostral)
erro_padrao = desvio_padrao / sqrt(n)
println("Média = ", media)
println("Desvios = ", desvios)
println("Desvios ao quadrado = ", desvios_quadrado)
println("Soma dos desvios ao quadrado = ", soma_desvios_quadrado)
println("Variância amostral = ", variancia_amostral)
println("Desvio padrão amostral = ", desvio_padrao)
println("Erro padrão = ", erro_padrao)
Saída esperada
Média = 9.0
Desvios = [-3.0, -1.0, 1.0, 3.0]
Desvios ao quadrado = [9.0, 1.0, 1.0, 9.0]
Soma dos desvios ao quadrado = 20.0
Variância amostral = 6.666666666666667
Desvio padrão amostral = 2.581988897471611
Erro padrão = 1.2909944487358056
Cálculo com funções prontas
Julia possui funções estatísticas básicas no módulo Statistics.
A função mean() calcula a média.
A função std() calcula o desvio padrão.
Por padrão, std() calcula o desvio padrão amostral, usando a correção com $n-1$.
using Statistics
tempos = [6, 8, 10, 12]
media = mean(tempos)
desvio_padrao = std(tempos)
erro_padrao = desvio_padrao / sqrt(length(tempos))
println("Média = ", media)
println("Desvio padrão = ", desvio_padrao)
println("Erro padrão = ", erro_padrao)
Saída esperada
Média = 9.0
Desvio padrão = 2.581988897471611
Erro padrão = 1.2909944487358056
Usando StatsBase.jl para calcular o erro padrão diretamente
Também podemos usar o pacote StatsBase.jl, que possui a função sem().
O nome sem vem de:
standard error of the mean
Em português:
erro padrão da média.
Primeiro, instalamos o pacote, caso ainda não esteja instalado:
import Pkg
Pkg.add("StatsBase")
Depois usamos:
using Statistics
using StatsBase
tempos = [6, 8, 10, 12]
media = mean(tempos)
desvio_padrao = std(tempos)
erro_padrao = sem(tempos)
println("Média = ", media)
println("Desvio padrão = ", desvio_padrao)
println("Erro padrão com sem() = ", erro_padrao)
Saída esperada
Média = 9.0
Desvio padrão = 2.581988897471611
Erro padrão com sem() = 1.2909944487358056
Exemplo com notas de alunos
Agora vamos usar um contexto de notas.
Imagine as notas de 6 alunos:
\[7,\ 8,\ 6,\ 9,\ 10,\ 8\]Queremos calcular:
- a média da turma;
- o desvio padrão das notas;
- o erro padrão da média.
using Statistics
notas = [7, 8, 6, 9, 10, 8]
media = mean(notas)
desvio_padrao = std(notas)
erro_padrao = desvio_padrao / sqrt(length(notas))
println("Média da turma = ", media)
println("Desvio padrão das notas = ", desvio_padrao)
println("Erro padrão da média = ", erro_padrao)
Saída esperada
Média da turma = 8.0
Desvio padrão das notas = 1.4142135623730951
Erro padrão da média = 0.5773502691896258
A interpretação é:
\[\bar{x} = 8\]A média das notas foi 8.
\[s \approx 1{,}41\]As notas individuais se afastam da média em torno de 1,41 ponto.
\[EP \approx 0{,}58\]A média amostral tem uma incerteza típica de aproximadamente 0,58 ponto.
Para calcular o desvio padrão, use
std(x). Para calcular o erro padrão manualmente, use std(x) / sqrt(length(x)). Com StatsBase.jl, também é possível usar sem(x).
10. Conclusão e resumo em uma frase
Desvio padrão e erro padrão são conceitos conectados, mas não equivalentes.
O desvio padrão nasce da pergunta:
quanto os dados variam?
Já o erro padrão nasce da pergunta:
quanto a média amostral varia como estimativa?
O desvio padrão é uma medida descritiva da variabilidade dos valores observados.
O erro padrão é uma medida inferencial da incerteza da média.
Por isso, quando lemos uma tabela, um artigo, um gráfico ou um relatório, precisamos observar com atenção se o valor mostrado é um desvio padrão ou um erro padrão.
Confundir os dois pode levar a interpretações erradas.
Um erro padrão pequeno não significa necessariamente que os dados são pouco dispersos.
Pode significar apenas que a média foi estimada com maior precisão, especialmente quando o tamanho da amostra é grande.
O desvio padrão mede o quanto os dados individuais variam em torno da média, enquanto o erro padrão mede o quanto a própria média amostral tende a variar de amostra para amostra.
Referências
As explicações deste post foram organizadas didaticamente a partir de materiais clássicos de Estatística Descritiva, Inferência Estatística e documentação oficial de Julia.
As explicações deste post foram organizadas didaticamente a partir de materiais clássicos de Estatística Descritiva, Inferência Estatística e documentação oficial de Julia.
-
Julia — Statistics Standard Library: documentação oficial das funções
mean,std,vare outras funções estatísticas básicas.
https://docs.julialang.org/en/v1/stdlib/Statistics/ -
StatsBase.jl — Scalar Statistics: documentação do pacote
StatsBase.jl, incluindo funções estatísticas adicionais, comosem.
https://juliastats.org/StatsBase.jl/stable/scalarstats/ -
Penn State — STAT 200: Confidence Intervals: material introdutório sobre intervalos de confiança, estimativa pontual, margem de erro e erro padrão.
https://online.stat.psu.edu/stat200/lesson/4/4.2 -
Altman & Bland — Standard deviations and standard errors: artigo curto explicando a diferença entre desvio padrão e erro padrão em contexto científico.
https://pmc.ncbi.nlm.nih.gov/articles/PMC1255808/ -
NIST/SEMATECH — e-Handbook of Statistical Methods: manual técnico com conceitos estatísticos usados em análise de dados, incerteza, variabilidade e métodos estatísticos.
https://www.itl.nist.gov/div898/handbook/
Comentários