Sobre o Projeto
Este projeto demonstra minhas capacidades em Análise Exploratória de Dados (EDA) buscando consumir de forma mais eficaz as funcionalidades da biblioteca YData Profiling (anteriormente conhecida como Pandas Profiling).
A análise foi realizada com configurações padrão - sem customizações ou filtros específicos - demonstrando o que a ferramenta oferece "out of the box" para uma análise completa de dados.
Objetivo
Estatísticas Descritivas
Análise completa de todas as variáveis numéricas e categóricas
Valores Ausentes
Detecção e visualização automática de dados faltantes
Correlações
Matriz de correlação entre todas as variáveis numéricas
Alertas Automáticos
Identificação de problemas potenciais nos dados
Sobre o Dataset
Tipos de Variáveis
| Tipo | Quantidade |
|---|---|
| Numérica (float64) | 6 |
| Categórica (object) | 5 |
| Numérica (int64) | 4 |
| Data/Hora | 1 |
Colunas do Dataset
| Variável | Tipo | Descrição |
|---|---|---|
| Segment | Categórica | Segmento de mercado (Government, Enterprise, etc.) |
| Country | Categórica | País da venda |
| Product | Categórica | Nome do produto |
| Discount Band | Categórica | Faixa de desconto aplicada |
| Units Sold | Numérica | Unidades vendidas |
| Manufacturing Price | Numérica | Preço de fabricação |
| Sale Price | Numérica | Preço de venda |
| Gross Sales | Numérica | Vendas brutas |
| Discounts | Numérica | Valor dos descontos |
| Sales | Numérica | Vendas líquidas |
| COGS | Numérica | Custo dos produtos vendidos |
| Profit | Numérica | Lucro |
| Date | Data | Data da transação |
| Month Number | Numérica | Número do mês |
| nome_mes | Categórica | Nome do mês |
| Year | Numérica | Ano |
Resultados
1️⃣ Overview Geral
O YData Profiling identifica automaticamente:
- 16 variáveis analisadas
- 700 observações no dataset
- 0 linhas duplicadas
- 53 valores ausentes concentrados na coluna "Discount Band"
2️⃣ Distribuições Numéricas
Estatísticas Descritivas Principais
| Variável | Média | Mediana | Mín | Máx |
|---|---|---|---|---|
| Units Sold | 1,608 | 1,542 | 200 | 4,492 |
| Sale Price | $118 | $20 | $7 | $350 |
| Gross Sales | $182,759 | $37,980 | $1,799 | $1,207,500 |
| Sales | $169,609 | $35,540 | $1,655 | $1,159,200 |
| COGS | $145,475 | $22,506 | $918 | $950,625 |
| Profit | $24,134 | $9,242 | -$40,617 | $262,200 |
3️⃣ Variáveis Categóricas
Distribuição por Segmento
| Segmento | Quantidade | % |
|---|---|---|
| Government | 300 | 42.9% |
| Small Business | 100 | 14.3% |
| Channel Partners | 100 | 14.3% |
| Midmarket | 100 | 14.3% |
| Enterprise | 100 | 14.3% |
Distribuição por Produto
| Produto | Quantidade | % |
|---|---|---|
| Paseo | 202 | 28.9% |
| Velo | 109 | 15.6% |
| VTT | 109 | 15.6% |
| Amarilla | 94 | 13.4% |
| Carretera | 93 | 13.3% |
| Montana | 93 | 13.3% |
4️⃣ Matriz de Correlação
Top 5 Correlações Mais Fortes
| Variável 1 | Variável 2 | Correlação |
|---|---|---|
| Gross Sales | Sales | 0.998 |
| Gross Sales | COGS | 0.995 |
| Sales | COGS | 0.992 |
| Sale Price | Gross Sales | 0.808 |
| Sales | Profit | 0.806 |
5️⃣ Interações entre Variáveis
Os gráficos de dispersão revelam:
- Sales vs Profit: Correlação positiva forte (0.81)
- Units Sold vs Sales: Relação linear positiva
- Gross Sales vs COGS: Correlação quase perfeita (0.99)
- Manufacturing Price vs Sale Price: Variação nos preços de venda
6️⃣ Análise de Valores Ausentes
| Variável | Ausentes | % |
|---|---|---|
| Discount Band | 53 | 7.6% |
| Demais variáveis | 0 | 0% |
7️⃣ Resumo de Negócio
Lucro por Segmento
| Segmento | Lucro Total |
|---|---|
| Government | $11,388,173 |
| Small Business | $4,143,168 |
| Channel Partners | $1,316,803 |
| Midmarket | $660,103 |
| Enterprise | -$614,545 ⚠️ |
Lucro por País
| País | Lucro Total |
|---|---|
| 🇫🇷 France | $3,781,021 |
| 🇩🇪 Germany | $3,680,389 |
| 🇨🇦 Canada | $3,529,229 |
| 🇺🇸 United States | $2,995,541 |
| 🇲🇽 Mexico | $2,907,523 |
Alertas Detectados
O YData Profiling detecta automaticamente potenciais problemas nos dados:
Alertas de Correlação
| Alerta | Variáveis | Valor |
|---|---|---|
| ⚠️ Alta correlação | Gross Sales ↔ Sales | 1.00 |
| ⚠️ Alta correlação | Gross Sales ↔ COGS | 0.99 |
| ⚠️ Alta correlação | Sales ↔ COGS | 0.99 |
| ⚠️ Alta correlação | Sale Price ↔ Gross Sales | 0.81 |
| ⚠️ Alta correlação | Sales ↔ Profit | 0.81 |
| ⚠️ Alta correlação | Sale Price ↔ COGS | 0.80 |
| ⚠️ Alta correlação | Gross Sales ↔ Discounts | 0.78 |
| ⚠️ Alta correlação | Gross Sales ↔ Profit | 0.78 |
| ⚠️ Alta correlação | Discounts ↔ COGS | 0.78 |
| ⚠️ Alta correlação | Discounts ↔ Sales | 0.74 |
| ⚠️ Alta correlação | COGS ↔ Profit | 0.73 |
Outros Alertas
Insights Principais
- Segmento Government domina com 43% dos registros e 67% do lucro total
- Enterprise é o único segmento com prejuízo (-$614K)
- Alta correlação entre métricas de vendas indica dados consistentes
- Discount Band é a única variável com valores ausentes (7.6%)
- Paseo é o produto mais vendido (29% das transações)
- França lidera em lucro total ($3.78M)
- Distribuição equilibrada por país (140 registros cada)