Desvio padrão explicado sem mistério

O desvio padrão é provavelmente a medida mais citada em relatórios, artigos e apresentações de dados — e também uma das mais mal interpretadas. Muitas pessoas sabem que ele “mede dispersão”, mas não conseguem explicar o que isso significa de verdade, nem por que a fórmula tem aquela raiz quadrada.

Este post resolve isso de uma vez.

Ilustração do desvio padrão como medida de dispersão em torno da média
Figura: O desvio padrão quantifica o quanto os valores de um conjunto de dados se afastam da média.

O problema que o desvio padrão resolve

Imagine dois grupos de alunos com a mesma nota média:

Grupo Notas Média
A 70, 70, 70, 70, 70 70
B 40, 55, 70, 85, 100 70

A média é idêntica, mas os grupos são completamente diferentes. No grupo A, todos tiraram exatamente 70. No grupo B, as notas variam de 40 a 100. Usar apenas a média para descrever esses grupos seria enganoso.

O desvio padrão mede o quanto os valores se afastam da média. Mais precisamente, ele é a raiz quadrada da média dos desvios ao quadrado — e não a média das distâncias absolutas (essa medida existe e se chama desvio absoluto médio). A distinção será explorada na próxima seção.


Da ideia intuitiva à fórmula

A ideia mais direta seria calcular a média das diferenças entre cada valor e a média. Para o grupo B acima (média = 70):

Aluno Nota (\(x_i\)) Diferença (\(x_i - \bar{x}\))
1 40 −30
2 55 −15
3 70 0
4 85 +15
5 100 +30
Soma 0

O problema: as diferenças positivas e negativas sempre se cancelam, e a soma é zero para qualquer conjunto de dados. Isso não é útil.

Solução 1 — usar o valor absoluto:

\[\text{Desvio médio absoluto} = \frac{1}{n}\sum_{i=1}^{n} |x_i - \bar{x}|\]

Essa medida existe e tem nome: chama-se desvio absoluto médio (DAM). Funciona, mas o valor absoluto tem propriedades matemáticas inconvenientes: não é diferenciável em zero, o que dificulta o uso em otimização e em teoria estatística mais avançada.

Solução 2 — elevar ao quadrado:

Elevar ao quadrado também elimina os sinais, mas usa operações algébricas padrão. O resultado é a variância:

\[\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \mu)^2\]

O único custo é que a variância está em unidades ao quadrado (por exemplo, notas² em vez de notas). Para voltar à unidade original, basta tirar a raiz quadrada — e esse é exatamente o desvio padrão.


A fórmula do desvio padrão

Existem duas versões, dependendo do contexto.

Desvio padrão populacional

Usado quando você tem todos os dados do grupo de interesse (a população inteira):

\[\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (x_i - \mu)^2}\]

Onde:

Desvio padrão amostral

Usado quando você tem apenas uma amostra e quer estimar a dispersão da população:

\[s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2}\]

Onde:

A única diferença está no denominador: $N$ na versão populacional e $n - 1$ na amostral. A razão dessa diferença — o famoso denominador $n - 1$ — merece uma explicação própria.


Por que $n - 1$ e não $n$?

Se você usa $\bar{x}$ (a média da amostra) no lugar de $\mu$ (a média da população), já está cometendo um pequeno erro: $\bar{x}$ é calculado a partir dos mesmos dados que estão sendo usados para medir a dispersão. Isso cria uma dependência que tende a subestimar a variabilidade real da população.

A correção matemática exata é dividir por $n - 1$ em vez de $n$. Esse ajuste é chamado de correção de Bessel, e garante que $s^2$ seja um estimador não viesado de $\sigma^2$ — ou seja, que em média (sobre muitas amostras possíveis) o estimador acerte o valor verdadeiro.

Outra forma de pensar: ao calcular $\bar{x}$, você “consome” 1 grau de liberdade dos dados. Dos $n$ valores, apenas $n - 1$ podem variar livremente depois que a média é fixada — o último valor fica determinado pelos demais. Por isso, divide-se por $n - 1$, não por $n$.

Detalhe: $s^2$ é não viesado, mas $s$ não é

A variância amostral $s^2$ é um estimador não viesado de $\sigma^2$: $E(s^2) = \sigma^2$. No entanto, o desvio padrão amostral $s$ não é exatamente não viesado para $\sigma$: em geral, $E(s) \neq \sigma$. Isso decorre da não-linearidade da raiz quadrada (desigualdade de Jensen). Na prática, para amostras médias ou grandes, o viés de $s$ é pequeno e geralmente ignorado.

Quando usar cada versão?

  • $\sigma$ (populacional): quando você tem os dados de toda a população — por exemplo, as notas de todos os alunos de uma turma específica que você quer descrever, sem pretensão de generalizar.
  • $s$ (amostral): quando você quer estimar a dispersão de uma população maior a partir de uma amostra — situação muito mais comum na prática.

Cálculo passo a passo

Vamos calcular o desvio padrão amostral das notas do grupo B: 40, 55, 70, 85, 100.

Passo 1 — calcule a média amostral $\bar{x}$:

\[\bar{x} = \frac{40 + 55 + 70 + 85 + 100}{5} = \frac{350}{5} = 70\]

Passo 2 — calcule cada desvio ao quadrado $(x_i - \bar{x})^2$:

\(x_i\) \(x_i - \bar{x}\) \((x_i - \bar{x})^2\)
40 −30 900
55 −15 225
70 0 0
85 +15 225
100 +30 900
Soma 2250

Passo 3 — calcule a variância amostral $s^2$:

\[s^2 = \frac{2250}{5 - 1} = \frac{2250}{4} = 562{,}5\]

Passo 4 — tire a raiz quadrada:

\[s = \sqrt{562{,}5} \approx 23{,}72\]

A raiz quadrada não é um detalhe algébrico: a variância $s^2 = 562{,}5$ está em pontos² — uma unidade sem interpretação direta no contexto de notas. A raiz devolve a medida para a escala original dos dados, resultando em pontos.

Interpretação: o desvio padrão das notas do grupo B é de 23,72 pontos. Compare com o grupo A, onde o desvio padrão é zero — todas as notas são iguais à média.


Desvio padrão e variância: qual a diferença?

Variância e desvio padrão medem a mesma coisa, mas em escalas diferentes:

Variância (\(\sigma^2\) ou \(s^2\)) Desvio padrão (\(\sigma\) ou \(s\))
Unidade Unidade original ao quadrado Mesma unidade dos dados
Vantagem Propriedades algébricas convenientes Diretamente comparável aos dados
Uso típico Cálculos teóricos, ANOVA, regressão Comunicação de resultados, intervalos de confiança

Na prática, o desvio padrão é preferido para comunicação porque está na mesma unidade dos dados. A variância é mais usada internamente em derivações matemáticas.


Propriedades importantes

1. O desvio padrão é sempre não negativo

\[\sigma \ge 0 \qquad s \ge 0\]

É igual a zero somente quando todos os valores são idênticos.

2. Não é resistente a valores extremos

Um único valor muito afastado da média pode aumentar drasticamente o desvio padrão. Para dados com outliers marcantes, o intervalo interquartil (IQR) é uma alternativa mais robusta.

3. Efeito de transformações lineares

Se você transformar os dados pela operação $Y = aX + b$, o desvio padrão de $Y$ será:

\[\sigma_Y = |a| \cdot \sigma_X\]

O deslocamento $b$ (somar ou subtrair uma constante) não altera a dispersão. A escala $a$ (multiplicar por uma constante) afeta o desvio padrão proporcionalmente, mas sem elevar ao quadrado.

4. Soma de variáveis independentes

Se $X$ e $Y$ são variáveis aleatórias independentes:

\[\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\] \[\sigma_{X+Y} = \sqrt{\sigma_X^2 + \sigma_Y^2}\]

Note que as variâncias somam, não os desvios padrão. Somar desvios padrão diretamente seria um erro comum.


O coeficiente de variação

O desvio padrão tem uma limitação: seu valor depende da escala dos dados. Um desvio de 5 kg numa pesagem de elefantes é desprezível; o mesmo desvio de 5 g numa pesagem de joias é enorme.

Para comparar dispersões em escalas diferentes, usa-se o coeficiente de variação (CV):

\[CV = \frac{s}{\bar{x}} \times 100\%\]

O CV expressa o desvio padrão como percentual da média, tornando-o comparável entre conjuntos de dados com unidades ou ordens de grandeza distintas.

Referência prática (aproximada):

CV Interpretação
Até 15% Baixa dispersão
15% a 30% Dispersão moderada
Acima de 30% Alta dispersão

Atenção

O CV só é interpretável quando a média é positiva e os dados não incluem zero ou valores negativos. Em dados de temperatura em Celsius, por exemplo, a interpretação do CV pode ser enganosa.

Quando a média é próxima de zero, o CV pode crescer artificialmente e perder qualquer significado prático. Quando a média é negativa, o CV pode apresentar sinal negativo, tornando a comparação entre grupos problemática. Use o CV apenas quando a média estiver bem distante de zero e for positiva.


Exemplo prático: comparando dois grupos

Um pesquisador mede o tempo de resposta (em milissegundos) de dois algoritmos, cada um executado 6 vezes:

Médias:

\[\bar{x}_A = \frac{1270}{6} \approx 211{,}7 \text{ ms} \qquad \bar{x}_B = \frac{1300}{6} \approx 216{,}7 \text{ ms}\]

Desvios padrão (amostral):

\[s_A \approx 2{,}7 \text{ ms} \qquad s_B \approx 19{,}4 \text{ ms}\]

Coeficientes de variação:

\[CV_A \approx 1{,}3\% \qquad CV_B \approx 9{,}0\%\]

O algoritmo A é ligeiramente mais rápido em média — menor tempo de resposta implica maior velocidade — e muito mais consistente. O algoritmo B apresenta maior tempo médio de resposta e variabilidade substancialmente maior: cerca de sete vezes o desvio padrão do A. A diferença de 5 ms na média pode parecer pequena, mas a instabilidade do B (desvio de quase 20 ms) costuma ser o fator decisivo em aplicações sensíveis a latência.


A conexão com a distribuição normal

Quando os dados seguem uma distribuição normal, o desvio padrão ganha um significado preciso graças à regra 68–95–99,7:

\[P(\mu - \sigma \le X \le \mu + \sigma) \approx 68{,}27\%\] \[P(\mu - 2\sigma \le X \le \mu + 2\sigma) \approx 95{,}45\%\] \[P(\mu - 3\sigma \le X \le \mu + 3\sigma) \approx 99{,}73\%\]
Regra 68-95-99,7: concentração de valores em torno da média em desvios padrão
Figura: A regra 68–95–99,7 mostra como o desvio padrão delimita faixas de probabilidade ao redor da média numa distribuição normal.

Isso significa que, numa distribuição normal, saber a média e o desvio padrão é suficiente para descrever completamente a distribuição — e calcular probabilidades para qualquer intervalo.

Fora da normalidade, o Teorema de Chebyshev oferece uma garantia mais fraca, mas válida para qualquer distribuição: para qualquer $k > 1$, pelo menos $1 - 1/k^2$ dos valores estão dentro de $k$ desvios padrão da média.


O escore Z: padronizando com o desvio padrão

O desvio padrão é a unidade natural para medir o “quão distante” uma observação está da média. Essa ideia se formaliza no escore Z (ou valor padronizado):

\[z_i = \frac{x_i - \bar{x}}{s}\]

O escore Z indica quantos desvios padrão a observação $x_i$ está acima (se positivo) ou abaixo (se negativo) da média.

Exemplo com os dados do grupo B ($\bar{x} = 70$, $s \approx 23{,}72$):

A nota $x = 100$ corresponde ao escore:

\[z = \frac{100 - 70}{23{,}72} \approx 1{,}26\]

A nota 100 está aproximadamente 1,26 desvios padrão acima da média. Já a nota $x = 40$:

\[z = \frac{40 - 70}{23{,}72} \approx -1{,}26\]

A nota 40 está 1,26 desvios padrão abaixo da média — simetricamente oposta à nota 100, como esperado.

O escore Z é útil para:

Quando a variável segue uma distribuição normal, o escore Z permite consultar a tabela Z para calcular probabilidades de intervalos — conforme explorado no post sobre distribuição normal.


Erros comuns

Confundir desvio padrão com erro padrão. O desvio padrão ($s$) descreve a variabilidade dos dados individuais. O erro padrão ($SE = s/\sqrt{n}$) descreve a variabilidade da média amostral — ele diminui conforme o tamanho da amostra aumenta. São medidas diferentes para propósitos diferentes.

Somar desvios padrão. Ao somar variáveis aleatórias independentes, as variâncias somam ($\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)$), mas os desvios padrão não se somam diretamente. Para combinar grupos de dados (por exemplo, juntar turma A e turma B num único conjunto), somar variâncias também não basta — é preciso levar em conta os tamanhos dos grupos e a diferença entre as médias. A variância do conjunto combinado de dois grupos é:

\[s_{\text{comb}}^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2 + n_1(\bar{x}_1 - \bar{x})^2 + n_2(\bar{x}_2 - \bar{x})^2}{n_1 + n_2 - 1}\]

onde $\bar{x}$ é a média ponderada dos dois grupos.

Usar o desvio padrão para distribuições muito assimétricas. Em distribuições com assimetria forte, como renda ou preços de imóveis, a média e o desvio padrão podem ser pouco informativos. Prefira a mediana e o IQR nesses casos.


Resumo das fórmulas

Medida Fórmula Uso
Variância populacional \(\sigma^2 = \dfrac{1}{N}\displaystyle\sum(x_i - \mu)^2\) Quando se tem a população inteira
Variância amostral \(s^2 = \dfrac{1}{n-1}\displaystyle\sum(x_i - \bar{x})^2\) Quando se tem uma amostra
Desvio padrão populacional \(\sigma = \sqrt{\sigma^2}\) Descrição da população
Desvio padrão amostral \(s = \sqrt{s^2}\) Estimação e inferência
Coeficiente de variação \(CV = \dfrac{s}{\bar{x}} \times 100\%\) Comparação entre escalas diferentes

Calculando na prática: código em Julia

julia
using Statistics

dados = [40, 55, 70, 85, 100]

media              = mean(dados)
variancia_amostral = var(dados)       # denominador n − 1
desvio_amostral    = std(dados)       # denominador n − 1

println("Média = ", media)
println("Variância amostral = ", variancia_amostral)
println("Desvio padrão amostral = ", round(desvio_amostral, digits=2))

Saída esperada:

# Saída
Média = 70.0
Variância amostral = 562.5
Desvio padrão amostral = 23.72

Para a versão populacional (denominador $N$):

julia
n             = length(dados)
variancia_pop = sum((dados .- mean(dados)).^2) / n
desvio_pop    = sqrt(variancia_pop)

println("Variância populacional = ", variancia_pop)
println("Desvio padrão populacional = ", round(desvio_pop, digits=2))

Saída esperada:

# Saída
Variância populacional = 450.0
Desvio padrão populacional = 21.21

Note que a variância populacional ($450{,}0$) é menor do que a amostral ($562{,}5$), pois divide por $N = 5$ em vez de $n - 1 = 4$.


Referências


Escrito em 06/05/2026