Análise de Dados

Técnicas e métodos para analisar, modelar e interpretar conjuntos de dados.

DADOS • PADRÕES • DECISÃO

Análise de Dados

A Análise de Dados é o processo de coletar, organizar, limpar, transformar, visualizar e interpretar dados com o objetivo de gerar informação útil. Ela combina Estatística, Probabilidade, Computação e pensamento crítico para compreender fenômenos reais e apoiar decisões.

O que é Análise de Dados?

Analisar dados não significa apenas criar gráficos ou calcular médias.
A Análise de Dados é um processo completo que começa com uma pergunta e termina com uma interpretação.

Em geral, ela procura responder questões como:

Ideia central: dados brutos não falam sozinhos. A análise transforma registros dispersos em informação organizada, interpretável e útil.

O ciclo da Análise de Dados

Uma boa análise costuma seguir uma sequência lógica.
Esse ciclo ajuda a evitar conclusões precipitadas e melhora a qualidade dos resultados.

1. Pergunta

Toda análise começa com uma pergunta bem definida. Sem uma pergunta clara, é fácil produzir gráficos bonitos, mas pouco úteis.

2. Coleta

Os dados podem vir de planilhas, bancos de dados, formulários, sistemas, APIs, pesquisas, sensores ou registros administrativos.

3. Limpeza

Antes de analisar, é preciso corrigir erros, tratar valores ausentes, padronizar nomes, remover duplicidades e verificar inconsistências.

4. Exploração

A análise exploratória busca padrões, distribuições, relações entre variáveis e possíveis valores atípicos.

5. Modelagem

Quando necessário, modelos estatísticos ou algoritmos são usados para explicar, prever ou classificar fenômenos.

6. Comunicação

Os resultados precisam ser apresentados de forma clara, visual e honesta, com conclusões compatíveis com os dados.


Dados, informação e decisão

Uma tabela cheia de números ainda não é, necessariamente, informação.

Podemos pensar em três níveis:

Nível Descrição Exemplo
Dado Registro bruto, ainda sem interpretação. Tempo de atendimento: 12 minutos.
Informação Dado organizado e contextualizado. O tempo médio de atendimento foi de 12 minutos.
Decisão Ação tomada com base na interpretação da informação. Aumentar a equipe no horário de maior demanda.
A qualidade da decisão depende da qualidade dos dados, da análise e da interpretação.

Tipos de dados

Antes de escolher uma técnica estatística ou um gráfico, é necessário entender o tipo de variável analisada.

Tipo de variável Descrição Exemplos
Qualitativa nominal Categorias sem ordem natural. Sexo, cor, cidade, tipo de produto.
Qualitativa ordinal Categorias com ordem natural. Satisfação baixa, média ou alta.
Quantitativa discreta Valores numéricos contáveis. Número de filhos, quantidade de protocolos.
Quantitativa contínua Valores numéricos medidos em uma escala contínua. Tempo, peso, altura, renda, temperatura.

Limpeza de dados

A limpeza de dados é uma das etapas mais importantes da análise.
Muitas vezes, ela ocupa mais tempo do que a própria modelagem.

Alguns problemas comuns são:

Exemplo simples

Imagine uma coluna chamada cidade com os seguintes valores:
$$ \text{Petrolina},\ \text{petrolina},\ \text{PETROLINA},\ \text{Petrolina-PE} $$
Apesar de representarem a mesma cidade, o computador pode interpretar esses valores como categorias diferentes. Por isso, é necessário padronizar os registros antes da análise.

Valores ausentes

Valores ausentes aparecem quando alguma informação não foi registrada.

Eles podem ocorrer por falha no sistema, erro humano, recusa de resposta, perda de arquivo, problema de coleta ou simplesmente porque a informação não se aplica ao caso.

Situação Possível tratamento
Poucos valores ausentes Avaliar remoção das linhas, se não prejudicar a análise.
Muitos valores ausentes Investigar a causa e avaliar se a variável ainda é confiável.
Ausência informativa Criar uma categoria ou indicador específico para ausência.
Dados numéricos incompletos Usar imputação com média, mediana ou métodos mais avançados, quando fizer sentido.
Nem todo valor ausente deve ser simplesmente apagado. Às vezes, a ausência também carrega informação.

Valores atípicos

Valores atípicos, também chamados de outliers, são observações muito distantes do padrão geral dos dados.

Eles podem representar:

Uma regra comum para detectar possíveis outliers usa o intervalo interquartil:

$$ IQR = Q_3 - Q_1 $$

Os limites inferior e superior são:

$$ LI = Q_1 - 1{,}5 \cdot IQR $$ $$ LS = Q_3 + 1{,}5 \cdot IQR $$

Valores abaixo de \(LI\) ou acima de \(LS\) podem ser investigados como possíveis outliers.

Um outlier não deve ser removido automaticamente. Primeiro, é preciso entender se ele é erro ou se representa um fenômeno real importante.

Análise Exploratória de Dados

A Análise Exploratória de Dados, também conhecida como EDA, é a etapa em que investigamos os dados antes de aplicar modelos mais complexos.

Nessa etapa, usamos estatísticas, tabelas e gráficos para entender:

Uma boa análise exploratória evita modelos mal aplicados e ajuda a formular hipóteses melhores.

Medidas descritivas úteis

Algumas medidas aparecem com frequência na Análise de Dados.

Medida Fórmula ou ideia Interpretação
Média $$\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i$$ Valor médio do conjunto.
Mediana Valor central dos dados ordenados. Centro resistente a valores extremos.
Desvio padrão $$s = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$$ Grau de dispersão dos dados.
Coeficiente de variação $$CV = \frac{s}{\bar{x}}$$ Dispersão relativa em relação à média.
Correlação Varia de -1 a 1. Força e direção da relação linear entre duas variáveis.

Visualização de dados

Gráficos são ferramentas essenciais para enxergar padrões que uma tabela pode esconder.

Gráfico Quando usar?
Gráfico de barras Comparar categorias.
Histograma Visualizar a distribuição de uma variável quantitativa.
Boxplot Comparar distribuições e identificar possíveis outliers.
Gráfico de linhas Analisar evolução temporal.
Dispersão Observar relação entre duas variáveis quantitativas.
Mapa de calor Visualizar intensidade, correlações ou padrões em matriz.
O melhor gráfico é aquele que comunica a ideia com clareza, sem distorcer a interpretação.

Relação entre variáveis

Muitas análises buscam entender se duas ou mais variáveis estão relacionadas.

Por exemplo:

Para duas variáveis quantitativas, uma medida comum é a correlação de Pearson:

$$ r = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} $$

A interpretação geral é:

Valor de r Interpretação
Próximo de 1 Relação linear positiva forte.
Próximo de -1 Relação linear negativa forte.
Próximo de 0 Ausência de relação linear forte.
Correlação não implica causalidade. Duas variáveis podem se mover juntas sem que uma cause a outra.

Modelagem de dados

Depois de entender os dados, podemos usar modelos para explicar ou prever fenômenos.

Um modelo é uma representação simplificada da realidade.

Por exemplo, em uma regressão linear simples, podemos escrever:

$$ Y = \beta_0 + \beta_1X + \varepsilon $$

Onde:

A ideia é estudar como \(Y\) muda quando \(X\) varia.


Regressão linear

A regressão linear é uma das técnicas mais conhecidas da Análise de Dados.

Ela pode ser usada para responder perguntas como:

Em uma regressão linear simples:

$$ \hat{Y} = b_0 + b_1X $$

A diferença entre o valor observado e o valor previsto é chamada de resíduo:

$$ e_i = y_i - \hat{y}_i $$
Bons modelos não são aqueles que apenas “encaixam” nos dados, mas aqueles que ajudam a explicar ou prever com coerência.

Métricas de avaliação

Quando usamos modelos preditivos, precisamos avaliar seu desempenho.

Métrica Uso Ideia
MAE Regressão Erro absoluto médio.
RMSE Regressão Raiz do erro quadrático médio.
Regressão Proporção da variabilidade explicada pelo modelo.
Acurácia Classificação Proporção de classificações corretas.
Precisão Classificação Entre os positivos previstos, quantos eram realmente positivos.
Revocação Classificação Entre os positivos reais, quantos foram identificados.

Erro absoluto médio

$$ MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i| $$

Raiz do erro quadrático médio

$$ RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2} $$

Coeficiente de determinação

$$ R^2 = 1 - \frac{SQ_{res}}{SQ_{tot}} $$

Treino e teste

Em modelagem preditiva, é comum separar os dados em duas partes:

Conjunto Função
Treino Usado para ajustar o modelo.
Teste Usado para avaliar o desempenho do modelo em dados não vistos.

Essa separação ajuda a verificar se o modelo aprendeu padrões gerais ou apenas decorou os dados.

Um modelo que vai muito bem no treino, mas mal no teste, pode estar sofrendo de overfitting.

Overfitting e underfitting

Problema O que significa? Sintoma comum
Underfitting O modelo é simples demais para capturar o padrão dos dados. Erro alto no treino e no teste.
Overfitting O modelo se ajusta demais aos dados de treino. Erro baixo no treino e alto no teste.
Bom ajuste O modelo captura padrões gerais sem memorizar ruídos. Desempenho razoável tanto no treino quanto no teste.

Exemplo prático: análise de atendimentos

Imagine um conjunto de dados com tempos de atendimento de uma recepção.

Algumas variáveis poderiam ser:

Variável Tipo Possível análise
Data Temporal Analisar volume por dia, mês ou horário.
Atendente Categórica Comparar número de atendimentos por pessoa.
Tempo de espera Quantitativa contínua Calcular média, mediana, quartis e outliers.
Tempo de atendimento Quantitativa contínua Estudar dispersão, distribuição e gargalos.
Tipo de serviço Categórica Comparar demandas por natureza do atendimento.

Uma pergunta inicial poderia ser:

Em quais horários o tempo de espera aumenta?

Para responder, poderíamos calcular o tempo médio de espera por hora:

$$ \bar{x}_{hora} = \frac{x_1+x_2+\cdots+x_n}{n} $$

Depois, poderíamos comparar os horários em uma tabela ou gráfico de linhas.


Exemplo de raciocínio analítico

Suponha os seguintes tempos de espera, em minutos:

$$ 5,\ 8,\ 10,\ 12,\ 15,\ 30 $$

A média é:

$$ \bar{x} = \frac{5+8+10+12+15+30}{6} $$ $$ \bar{x} = \frac{80}{6} $$ $$ \bar{x} \approx 13{,}33 $$

A mediana é a média entre o 3º e o 4º valores:

$$ Md = \frac{10+12}{2} $$ $$ Md = 11 $$

Nesse caso, a média ficou maior que a mediana por causa do valor 30.

Esse exemplo mostra por que a média deve ser interpretada com cuidado quando há valores extremos.

Ferramentas para Análise de Dados

A Análise de Dados pode ser feita com diferentes ferramentas.

Ferramenta Uso comum
Excel ou Google Sheets Análises rápidas, tabelas, filtros e gráficos simples.
SQL Consulta, organização e extração de dados em bancos relacionais.
Python Automação, limpeza, modelagem, ciência de dados e machine learning.
R Análise estatística, gráficos e modelagem.
Julia Computação científica, Estatística, simulações e visualizações de alto desempenho.
Power BI Dashboards, relatórios e análise visual de indicadores.

Boas práticas

Uma análise confiável exige cuidado técnico e honestidade intelectual.

Algumas boas práticas são:

Uma análise de dados bem feita não é apenas aquela que encontra respostas, mas aquela que deixa claro como as respostas foram obtidas.

Cuidados na interpretação

A Análise de Dados pode gerar conclusões equivocadas quando é feita sem contexto.

Alguns cuidados importantes:

Erro comum Por que é perigoso?
Confundir correlação com causalidade Duas variáveis podem estar associadas sem que uma cause a outra.
Ignorar valores ausentes A ausência pode distorcer resultados ou revelar problemas de coleta.
Remover outliers sem justificativa Valores extremos podem representar fenômenos reais importantes.
Escolher só gráficos favoráveis Isso pode gerar uma narrativa enviesada.
Usar média para tudo Em dados assimétricos, a mediana pode representar melhor o centro.
Não considerar o contexto Números sem contexto podem levar a interpretações erradas.

Resumo geral

Etapa Objetivo
Definir pergunta Estabelecer o problema que será investigado.
Coletar dados Obter as informações necessárias para a análise.
Limpar dados Corrigir erros, tratar ausências e padronizar registros.
Explorar dados Entender distribuições, padrões e relações.
Visualizar dados Comunicar informações com gráficos e tabelas.
Modelar dados Explicar, prever ou classificar fenômenos.
Avaliar resultados Verificar qualidade, incerteza e limitações.
Comunicar conclusões Transformar análise em entendimento e decisão.

Conclusão:
A Análise de Dados é uma ponte entre números e decisões. Ela exige técnica, organização, interpretação e senso crítico. Mais do que aplicar fórmulas ou gerar gráficos, analisar dados é compreender um problema, investigar evidências e comunicar conclusões de forma clara, honesta e útil.

“Sem dados, você é apenas mais uma pessoa com uma opinião.”
— W. Edwards Deming