You are on page 1of 5

Um distribuidor grossista que opera em diferentes regiões de Portugal tem informação sobre os gastos

anuais de vários artigos nas suas lojas em diferentes regiões e canais. Os dados consistem em 440 gastos
anuais de grandes retalhistas em 6 variedades diferentes de produtos em 3 regiões diferentes (Lisboa, Porto,
Outros) e em diferentes canais de venda (Hotel, Retalho).

1.1 Use métodos de estatística descritiva para resumir os dados. Qual Região e qual Canal gastou mais?
Qual Região e qual Canal gastou menos?

a. Usando a função describe em python, primeiro olhamos para as estatísticas descritivas básicas do
conjunto de dados.

Solução:

Exemplo do conjunto de dados:

Análise Exploratória dos Dados

Vamos verificar os tipos de variáveis & valores ausentes no quadro de dados

Gráfico de Correlação
b. Qual Região e qual Canal gastou mais? Qual Região e qual Canal gastou menos?

Usando gráfico de barras com Região e Canal conseguimos identificar região com gasto máximo e
gasto mínimo. O maior gasto na Região é de Outros e o menor gasto na Região é do Porto , enquanto
o maior gasto no Canal é de Hotel e o menor gasto no Canal é de Varejo.

1.2 Existem 6 variedades diferentes de itens que são considerados. Descrever e comentar/explicar todas as
variedades em toda a Região e Canal? Forneça uma justificativa detalhada para sua resposta.

Medida de Tendência Central - Média, Mediana, Modo Medida de Dispersão - Amplitude, IQR, Desvio
Padrão

A partir das duas funções descritas acima, podemos inferir o seguinte

 Canal tem dois valores únicos, com "Hotel" como mais frequente com 298 de 440 transações. ou seja,
67,7% dos gastos vêm do canal "Hotel".

 O varejo tem três valores únicos, com "Outros" como o mais frequente, com 316 de 440 transações.
ou seja, 71,8% dos gastos vêm da região "Outros".

 O item fresco tem média de 12000,3, desvio padrão de 12647,3, com valor mínimo de 3 e valor
máximo de 112151. O outro aspecto é Q1(25%) é 3127,75, Q3(75%) é 16933,8, com Q2(50%) 8504
intervalo = max-min =112151-3=112,148 & IQR = Q3-Q1 = 16933,8-3127,75 = 13,806.05

 O item leite tem média de 5796,27, desvio padrão de 7380,38, com valor mínimo de 55 e valor
máximo de 73498. O outro aspecto é Q1(25%) é 1533, Q3(75%) é 7190,25, com Q2(50%) 3627.
Intervalo = max-min =73498-55=73443 & IQR = Q3-Q1 = 7190.25-1533 = 5657.25
 O item de supermercado tem média de 7951,28, desvio padrão de 9503,16, com valor mínimo de 3 e
valor máximo de 92780. O outro aspecto é Q1(25%) é 2153, Q3(75%) é 10655.8, com Q2(50%) 4755.5.
Intervalo = max-min =92780-3=92777 & IQR = Q3-Q1 = 10655.8-2153 = 8502.

 Frozen tem média de 3071,93, desvio padrão de 4854,67, com valor mínimo de 25 e valor máximo de
60869. O outro aspecto é Q1(25%) é 742,25, Q3(75%) é 3554,25, com Q2(50%) 1526 Intervalo = max-
min =60869-25=60844 & IQR = Q3-Q1 = 3554,25-742,25 = 2812

 O papel detergente tem média de 2881,49, desvio padrão de 4767,85, com valor mínimo de 3 e valor
máximo de 40827. O outro aspecto é Q1(25%) é 256,75, Q3(75%) é 3922, com Q2(50%)
816,5.Intervalo = max-min =40827-3=40824 & IQR = Q3-Q1 = 3922-256,75 = 3665,25

 Delicatessen tem média de 1524,87, desvio padrão de 2820,11, com valor mínimo de 3 e valor
máximo de 47943. O outro aspecto é Q1(25%) é 408,25, Q3(75%) é 1820,25, com Q2(50%) 965,5.
Intervalo = max-min =47943-3=47940 & IQR = Q3-Q1 = 1820.25-408.25 = 1412

1.3 Com base em uma medida descritiva de variabilidade, qual item apresenta o comportamento mais
inconsistente? Quais itens apresentam comportamento menos inconsistente?

Solução:

Usando o Coeficiente de Variação

Item fresco tem menor coeficiente de Variação, portanto, que é consistente & Item Delicatessen tem
maior coeficiente de Variação, portanto, que é Inconsistente.

1.4 Há algum outlier nos dados? Faça backup de sua resposta com um enredo/técnica adequado com a
ajuda de comentários detalhados.

Solução:

Para descobrir outliers plotamos boxplot e sim há outliers em todos os itens em toda a gama de produtos
(Fresco, Leite, Mercearia, Congelados, Detergentes, Papel e Delicatessen)
1.5 Com base na sua análise, quais são as suas recomendações para o negócio? Como sua análise pode
ajudar o negócio a resolver seu problema? Resposta do ponto de vista do negócio

De acordo com a análise, verifico que há inconsistências nos gastos de diferentes itens (pelo cálculo do
Coeficiente de Variação), que devem ser minimizadas. Os gastos do canal Hotel e Retail são diferentes, que
devem ser mais ou menos iguais. E também os gastos devem ser iguais para diferentes regiões. Precisa focar
em outros itens também além de "Fresco" e "Mercearia"

You might also like