You are on page 1of 5

Un distributeur en gros opérant dans différentes régions du Portugal dispose d'informations sur les

dépenses annuelles consacrées à plusieurs articles dans ses magasins, dans différentes régions et par
différents canaux. Les données portent sur les dépenses annuelles de 440 grands détaillants pour 6 variétés
différentes de produits dans 3 régions différentes (Lisbonne, Porto, autres) et sur différents canaux de vente
(hôtel, commerce de détail).

1.1 Utiliser des méthodes de statistiques descriptives pour résumer les données. Quelle région et quel
canal ont dépensé le plus ? Quelle région et quel canal ont dépensé le moins ?

a. En utilisant la fonction describe de Python, nous avons d'abord examiné les statistiques descriptives
de base de l'ensemble des données.

Solution :

Échantillon de l'ensemble de données :

Analyse exploratoire des données

Vérifions les types de variables et les valeurs manquantes dans la base de


données.

Graphique de corrélation
b. Quelle région et quel canal ont dépensé le plus ? Quelle région et quel canal ont dépensé le moins ?

L'utilisation d'un graphique à barres avec la région et le canal nous a permis d'identifier la région où
les dépenses sont maximales et minimales. Les dépenses les plus élevées dans la région sont celles
des autres et les plus faibles celles de Porto, tandis que les dépenses les plus élevées dans le canal
sont celles de l'hôtellerie et les plus faibles celles de la vente au détail.

1.2 Il y a 6 variétés différentes d'articles qui sont prises en compte. Décrire et commenter/expliquer toutes
les variétés à travers la région et le canal ? Justifiez votre réponse de manière détaillée.

Mesure de la tendance centrale - moyenne, médiane, mode Mesure de la dispersion - étendue, IQR, écart-
type

Des deux fonctions décrites ci-dessus, nous pouvons déduire ce qui suit

 Le canal a deux valeurs uniques, l'"Hôtel" étant le plus fréquent avec 298 transactions sur 440, ce qui
signifie que 67,7 % des dépenses proviennent du canal "Hôtel".

 Le commerce de détail a trois valeurs uniques, la valeur "Autres" étant la plus fréquente avec 316
transactions sur 440. Autrement dit, 71,8 % des dépenses proviennent de la région "Autres".

 L'article frais a une moyenne de 12000,3, un écart-type de 12647,3, une valeur minimale de 3 et une
valeur maximale de 112151. L'autre aspect est que Q1(25%) est 3127.75, Q3(75%) est 16933.8, avec
Q2(50%) 8504 range = max-min =112151-3=112,148 & IQR = Q3-Q1 = 16933.8-3127.75 = 13,806.05

 L'article lait a une moyenne de 5796,27, un écart-type de 7380,38, une valeur minimale de 55 et une
valeur maximale de 73498. L'autre aspect est que Q1(25%) est 1533, Q3(75%) est 7190.25, avec
Q2(50%) 3627. Fourchette = max-min =73498-55=73443 & IQR = Q3-Q1 = 7190.25-1533 = 5657.25
 L'article d'épicerie a une moyenne de 7951,28, un écart-type de 9503,16, une valeur minimale de 3 et
une valeur maximale de 92780. L'autre aspect est que Q1(25%) est 2153, Q3(75%) est 10655.8, avec
Q2(50%) 4755.5. Fourchette = max-min =92780-3=92777 & IQR = Q3-Q1 = 10655.8-2153 = 8502.

 Le gel a une moyenne de 3071,93, un écart-type de 4854,67, une valeur minimale de 25 et une valeur
maximale de 60869. L'autre aspect est que Q1(25%) est 742.25, Q3(75%) est 3554.25, avec Q2(50%)
1526 Plage = max-min =60869-25=60844 & IQR = Q3-Q1 = 3554.25-742.25 = 2812

 Le papier détergent a une moyenne de 2881,49, un écart-type de 4767,85, une valeur minimale de 3
et une valeur maximale de 40827. L'autre aspect est que Q1(25%) est 256.75, Q3(75%) est 3922, avec
Q2(50%) 816.5.Range = max-min =40827-3=40824 & IQR = Q3-Q1 = 3922-256.75 = 3665.25

 La charcuterie a une moyenne de 1524,87, un écart-type de 2820,11, une valeur minimale de 3 et une
valeur maximale de 47943. L'autre aspect est que Q1(25%) est 408.25, Q3(75%) est 1820.25, et
Q2(50%) 965.5. Fourchette = max-min =47943-3=47940 & IQR = Q3-Q1 = 1820.25-408.25 = 1412

1.3 Sur la base d'une mesure descriptive de la variabilité, quel élément présente le comportement le plus
incohérent ? Quels sont les éléments dont le comportement est le moins incohérent ?

Solution :

Utilisation du coefficient de variation

L'article frais a le coefficient de variation le plus faible, ce qui est cohérent, et l'article charcuterie a le
coefficient de variation le plus élevé, ce qui est incohérent.

1.4 Les données présentent-elles des valeurs aberrantes ? Etayez votre réponse par une intrigue/technique
appropriée à l'aide de commentaires détaillés.

Solution :

Pour trouver les valeurs aberrantes, nous avons tracé un boxplot et, effectivement, il y a des valeurs
aberrantes dans tous les articles de la gamme de produits (frais, lait, épicerie, surgelés, détergents, papier et
épicerie fine).
1.5 Sur la base de votre analyse, quelles sont vos recommandations pour l'entreprise ? Comment votre
analyse peut-elle aider l'entreprise à résoudre son problème ? Réponse du point de vue de l'entreprise

L'analyse révèle des incohérences dans les dépenses des différents postes (en calculant le coefficient de
variation), qu'il convient de minimiser. Les dépenses de l'hôtellerie et du commerce de détail sont différentes
et devraient être plus ou moins égales. En outre, les dépenses devraient être identiques dans les différentes
régions. Il faut se concentrer sur d'autres articles que les produits "frais" et "d'épicerie".

You might also like