Análise de Dados
A Análise de Dados é o processo de coletar, organizar, limpar, transformar, visualizar e interpretar dados com o objetivo de gerar informação útil. Ela combina Estatística, Probabilidade, Computação e pensamento crítico para compreender fenômenos reais e apoiar decisões.
O que é Análise de Dados?
Analisar dados não significa apenas criar gráficos ou calcular médias.
A Análise de Dados é um processo completo que começa com uma pergunta e termina com uma interpretação.
Em geral, ela procura responder questões como:
- O que os dados mostram?
- Existe algum padrão importante?
- Há valores estranhos ou inconsistentes?
- Quais variáveis parecem estar relacionadas?
- É possível prever ou explicar algum comportamento?
- Que decisão pode ser tomada a partir das evidências?
O ciclo da Análise de Dados
Uma boa análise costuma seguir uma sequência lógica.
Esse ciclo ajuda a evitar conclusões precipitadas e melhora a qualidade dos resultados.
1. Pergunta
Toda análise começa com uma pergunta bem definida. Sem uma pergunta clara, é fácil produzir gráficos bonitos, mas pouco úteis.
2. Coleta
Os dados podem vir de planilhas, bancos de dados, formulários, sistemas, APIs, pesquisas, sensores ou registros administrativos.
3. Limpeza
Antes de analisar, é preciso corrigir erros, tratar valores ausentes, padronizar nomes, remover duplicidades e verificar inconsistências.
4. Exploração
A análise exploratória busca padrões, distribuições, relações entre variáveis e possíveis valores atípicos.
5. Modelagem
Quando necessário, modelos estatísticos ou algoritmos são usados para explicar, prever ou classificar fenômenos.
6. Comunicação
Os resultados precisam ser apresentados de forma clara, visual e honesta, com conclusões compatíveis com os dados.
Dados, informação e decisão
Uma tabela cheia de números ainda não é, necessariamente, informação.
Podemos pensar em três níveis:
| Nível | Descrição | Exemplo |
|---|---|---|
| Dado | Registro bruto, ainda sem interpretação. | Tempo de atendimento: 12 minutos. |
| Informação | Dado organizado e contextualizado. | O tempo médio de atendimento foi de 12 minutos. |
| Decisão | Ação tomada com base na interpretação da informação. | Aumentar a equipe no horário de maior demanda. |
Tipos de dados
Antes de escolher uma técnica estatística ou um gráfico, é necessário entender o tipo de variável analisada.
| Tipo de variável | Descrição | Exemplos |
|---|---|---|
| Qualitativa nominal | Categorias sem ordem natural. | Sexo, cor, cidade, tipo de produto. |
| Qualitativa ordinal | Categorias com ordem natural. | Satisfação baixa, média ou alta. |
| Quantitativa discreta | Valores numéricos contáveis. | Número de filhos, quantidade de protocolos. |
| Quantitativa contínua | Valores numéricos medidos em uma escala contínua. | Tempo, peso, altura, renda, temperatura. |
Limpeza de dados
A limpeza de dados é uma das etapas mais importantes da análise.
Muitas vezes, ela ocupa mais tempo do que a própria modelagem.
Alguns problemas comuns são:
- valores ausentes;
- nomes escritos de formas diferentes;
- datas em formatos inconsistentes;
- números armazenados como texto;
- registros duplicados;
- erros de digitação;
- valores impossíveis;
- unidades de medida misturadas.
Exemplo simples
Imagine uma coluna chamada cidade com os seguintes valores:Valores ausentes
Valores ausentes aparecem quando alguma informação não foi registrada.
Eles podem ocorrer por falha no sistema, erro humano, recusa de resposta, perda de arquivo, problema de coleta ou simplesmente porque a informação não se aplica ao caso.
| Situação | Possível tratamento |
|---|---|
| Poucos valores ausentes | Avaliar remoção das linhas, se não prejudicar a análise. |
| Muitos valores ausentes | Investigar a causa e avaliar se a variável ainda é confiável. |
| Ausência informativa | Criar uma categoria ou indicador específico para ausência. |
| Dados numéricos incompletos | Usar imputação com média, mediana ou métodos mais avançados, quando fizer sentido. |
Valores atípicos
Valores atípicos, também chamados de outliers, são observações muito distantes do padrão geral dos dados.
Eles podem representar:
- erro de digitação;
- falha de medição;
- caso raro, mas verdadeiro;
- mudança real no processo;
- evento extremo.
Uma regra comum para detectar possíveis outliers usa o intervalo interquartil:
Os limites inferior e superior são:
Valores abaixo de \(LI\) ou acima de \(LS\) podem ser investigados como possíveis outliers.
Análise Exploratória de Dados
A Análise Exploratória de Dados, também conhecida como EDA, é a etapa em que investigamos os dados antes de aplicar modelos mais complexos.
Nessa etapa, usamos estatísticas, tabelas e gráficos para entender:
- distribuição das variáveis;
- médias, medianas e dispersões;
- padrões por grupo;
- relações entre variáveis;
- presença de outliers;
- sazonalidades ou tendências;
- inconsistências nos dados.
Medidas descritivas úteis
Algumas medidas aparecem com frequência na Análise de Dados.
| Medida | Fórmula ou ideia | Interpretação |
|---|---|---|
| Média | $$\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i$$ | Valor médio do conjunto. |
| Mediana | Valor central dos dados ordenados. | Centro resistente a valores extremos. |
| Desvio padrão | $$s = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$$ | Grau de dispersão dos dados. |
| Coeficiente de variação | $$CV = \frac{s}{\bar{x}}$$ | Dispersão relativa em relação à média. |
| Correlação | Varia de -1 a 1. | Força e direção da relação linear entre duas variáveis. |
Visualização de dados
Gráficos são ferramentas essenciais para enxergar padrões que uma tabela pode esconder.
| Gráfico | Quando usar? |
|---|---|
| Gráfico de barras | Comparar categorias. |
| Histograma | Visualizar a distribuição de uma variável quantitativa. |
| Boxplot | Comparar distribuições e identificar possíveis outliers. |
| Gráfico de linhas | Analisar evolução temporal. |
| Dispersão | Observar relação entre duas variáveis quantitativas. |
| Mapa de calor | Visualizar intensidade, correlações ou padrões em matriz. |
Relação entre variáveis
Muitas análises buscam entender se duas ou mais variáveis estão relacionadas.
Por exemplo:
- renda e escolaridade;
- tempo de estudo e nota;
- tempo de espera e satisfação;
- preço e quantidade vendida;
- idade e pressão arterial.
Para duas variáveis quantitativas, uma medida comum é a correlação de Pearson:
A interpretação geral é:
| Valor de r | Interpretação |
|---|---|
| Próximo de 1 | Relação linear positiva forte. |
| Próximo de -1 | Relação linear negativa forte. |
| Próximo de 0 | Ausência de relação linear forte. |
Modelagem de dados
Depois de entender os dados, podemos usar modelos para explicar ou prever fenômenos.
Um modelo é uma representação simplificada da realidade.
Por exemplo, em uma regressão linear simples, podemos escrever:
Onde:
- \(Y\) é a variável resposta;
- \(X\) é a variável explicativa;
- \(\beta_0\) é o intercepto;
- \(\beta_1\) é o coeficiente angular;
- \(\varepsilon\) é o erro aleatório.
A ideia é estudar como \(Y\) muda quando \(X\) varia.
Regressão linear
A regressão linear é uma das técnicas mais conhecidas da Análise de Dados.
Ela pode ser usada para responder perguntas como:
- O tempo de estudo ajuda a explicar a nota?
- A renda varia conforme os anos de escolaridade?
- O tempo de espera influencia a satisfação?
- O preço afeta a quantidade vendida?
Em uma regressão linear simples:
A diferença entre o valor observado e o valor previsto é chamada de resíduo:
Métricas de avaliação
Quando usamos modelos preditivos, precisamos avaliar seu desempenho.
| Métrica | Uso | Ideia |
|---|---|---|
| MAE | Regressão | Erro absoluto médio. |
| RMSE | Regressão | Raiz do erro quadrático médio. |
| R² | Regressão | Proporção da variabilidade explicada pelo modelo. |
| Acurácia | Classificação | Proporção de classificações corretas. |
| Precisão | Classificação | Entre os positivos previstos, quantos eram realmente positivos. |
| Revocação | Classificação | Entre os positivos reais, quantos foram identificados. |
Erro absoluto médio
Raiz do erro quadrático médio
Coeficiente de determinação
Treino e teste
Em modelagem preditiva, é comum separar os dados em duas partes:
| Conjunto | Função |
|---|---|
| Treino | Usado para ajustar o modelo. |
| Teste | Usado para avaliar o desempenho do modelo em dados não vistos. |
Essa separação ajuda a verificar se o modelo aprendeu padrões gerais ou apenas decorou os dados.
Overfitting e underfitting
| Problema | O que significa? | Sintoma comum |
|---|---|---|
| Underfitting | O modelo é simples demais para capturar o padrão dos dados. | Erro alto no treino e no teste. |
| Overfitting | O modelo se ajusta demais aos dados de treino. | Erro baixo no treino e alto no teste. |
| Bom ajuste | O modelo captura padrões gerais sem memorizar ruídos. | Desempenho razoável tanto no treino quanto no teste. |
Exemplo prático: análise de atendimentos
Imagine um conjunto de dados com tempos de atendimento de uma recepção.
Algumas variáveis poderiam ser:
| Variável | Tipo | Possível análise |
|---|---|---|
| Data | Temporal | Analisar volume por dia, mês ou horário. |
| Atendente | Categórica | Comparar número de atendimentos por pessoa. |
| Tempo de espera | Quantitativa contínua | Calcular média, mediana, quartis e outliers. |
| Tempo de atendimento | Quantitativa contínua | Estudar dispersão, distribuição e gargalos. |
| Tipo de serviço | Categórica | Comparar demandas por natureza do atendimento. |
Uma pergunta inicial poderia ser:
Em quais horários o tempo de espera aumenta?
Para responder, poderíamos calcular o tempo médio de espera por hora:
Depois, poderíamos comparar os horários em uma tabela ou gráfico de linhas.
Exemplo de raciocínio analítico
Suponha os seguintes tempos de espera, em minutos:
A média é:
A mediana é a média entre o 3º e o 4º valores:
Nesse caso, a média ficou maior que a mediana por causa do valor 30.
Ferramentas para Análise de Dados
A Análise de Dados pode ser feita com diferentes ferramentas.
| Ferramenta | Uso comum |
|---|---|
| Excel ou Google Sheets | Análises rápidas, tabelas, filtros e gráficos simples. |
| SQL | Consulta, organização e extração de dados em bancos relacionais. |
| Python | Automação, limpeza, modelagem, ciência de dados e machine learning. |
| R | Análise estatística, gráficos e modelagem. |
| Julia | Computação científica, Estatística, simulações e visualizações de alto desempenho. |
| Power BI | Dashboards, relatórios e análise visual de indicadores. |
Boas práticas
Uma análise confiável exige cuidado técnico e honestidade intelectual.
Algumas boas práticas são:
- documentar as etapas da análise;
- preservar os dados originais;
- explicar critérios de limpeza;
- verificar unidades de medida;
- analisar dados faltantes;
- evitar conclusões além do que os dados permitem;
- usar gráficos claros;
- comparar média e mediana;
- validar modelos com dados separados;
- comunicar incerteza quando existir.
Cuidados na interpretação
A Análise de Dados pode gerar conclusões equivocadas quando é feita sem contexto.
Alguns cuidados importantes:
| Erro comum | Por que é perigoso? |
|---|---|
| Confundir correlação com causalidade | Duas variáveis podem estar associadas sem que uma cause a outra. |
| Ignorar valores ausentes | A ausência pode distorcer resultados ou revelar problemas de coleta. |
| Remover outliers sem justificativa | Valores extremos podem representar fenômenos reais importantes. |
| Escolher só gráficos favoráveis | Isso pode gerar uma narrativa enviesada. |
| Usar média para tudo | Em dados assimétricos, a mediana pode representar melhor o centro. |
| Não considerar o contexto | Números sem contexto podem levar a interpretações erradas. |
Resumo geral
| Etapa | Objetivo |
|---|---|
| Definir pergunta | Estabelecer o problema que será investigado. |
| Coletar dados | Obter as informações necessárias para a análise. |
| Limpar dados | Corrigir erros, tratar ausências e padronizar registros. |
| Explorar dados | Entender distribuições, padrões e relações. |
| Visualizar dados | Comunicar informações com gráficos e tabelas. |
| Modelar dados | Explicar, prever ou classificar fenômenos. |
| Avaliar resultados | Verificar qualidade, incerteza e limitações. |
| Comunicar conclusões | Transformar análise em entendimento e decisão. |
A Análise de Dados é uma ponte entre números e decisões. Ela exige técnica, organização, interpretação e senso crítico. Mais do que aplicar fórmulas ou gerar gráficos, analisar dados é compreender um problema, investigar evidências e comunicar conclusões de forma clara, honesta e útil.
“Sem dados, você é apenas mais uma pessoa com uma opinião.”
— W. Edwards Deming