You are on page 1of 5

Un distribuidor mayorista que opera en diferentes regiones de Portugal dispone de información sobre el

gasto anual de varios artículos en sus tiendas a través de diferentes regiones y canales. Los datos consisten
en el gasto anual de 440 grandes minoristas en 6 variedades diferentes de productos en 3 regiones distintas
(Lisboa, Oporto, Otros) y a través de diferentes canales de venta (Hotel, Minorista).

1.1 Utiliza métodos de estadística descriptiva para resumir los datos. ¿Qué Región y qué Canal gastaron
más? ¿Qué región y qué canal gastaron menos?

a. Utilizando la función describe de python, en primer lugar examinamos las estadísticas descriptivas
básicas del conjunto de datos.

Solución:

Muestra del conjunto de datos:

Análisis exploratorio de datos

Comprobemos los tipos de variables y los valores que faltan en el marco de


datos

Gráfico de correlación
b. ¿Qué región y qué canal gastaron más? ¿Qué región y qué canal gastaron menos?

Mediante un gráfico de barras con la región y el canal, pudimos identificar la región con el gasto
máximo y el gasto mínimo. El mayor gasto en la región corresponde a Otros y el menor a Oporto,
mientras que el mayor gasto en el Canal corresponde a Hoteles y el menor a Minoristas.

1.2 Se consideran 6 variedades diferentes de artículos. ¿Describa y comente/explique todas las variedades
de la región y el canal? Justifique detalladamente su respuesta.

Medida de tendencia central: media, mediana, modo Medida de dispersión: rango, IQR, desviación estándar

De las dos funciones descritas anteriormente, podemos deducir lo siguiente

 El canal tiene dos valores únicos, siendo "Hotel" el más frecuente con 298 de 440 transacciones, es
decir, el 67,7 % del gasto procede del canal "Hotel".

 El comercio minorista presenta tres valores únicos, siendo "Otros" el más frecuente, con 316 de las
440 transacciones. Es decir, el 71,8 % del gasto procede de la región "Otros".

 El artículo fresco tiene una media de 12000,3, una desviación típica de 12647,3, un valor mínimo de 3
y un valor máximo de 112151. El otro aspecto es que Q1(25%) es 3127,75, Q3(75%) es 16933,8, con
Q2(50%) 8504 rango = max-min =112151-3=112.148 & IQR = Q3-Q1 = 16933,8-3127,75 = 13.806,05

 La leche tiene una media de 5796,27, una desviación típica de 7380,38, un valor mínimo de 55 y un
valor máximo de 73498. El otro aspecto es Q1(25%) es 1533, Q3(75%) es 7190,25, con Q2(50%) 3627.
Rango = max-min =73498-55=73443 & IQR = Q3-Q1 = 7190.25-1533 = 5657.25
 El artículo de alimentación tiene una media de 7951,28, una desviación típica de 9503,16, un valor
mínimo de 3 y un valor máximo de 92780. El otro aspecto es que Q1(25%) es 2153, Q3(75%) es
10655,8, y Q2(50%) 4755,5. Rango = max-min =92780-3=92777 & IQR = Q3-Q1 = 10655.8-2153 =
8502.

 Congelado tiene una media de 3071,93, una desviación típica de 4854,67, un valor mínimo de 25 y un
valor máximo de 60869. El otro aspecto es que Q1(25%) es 742,25, Q3(75%) es 3554,25, con Q2(50%)
1526 Rango = max-min =60869-25=60844 & IQR = Q3-Q1 = 3554,25-742,25 = 2812

 Detergentes Papel tiene una media de 2881,49, una desviación estándar de 4767,85, con un valor
mínimo de 3 y un valor máximo de 40827. El otro aspecto es que Q1(25%) es 256,75, Q3(75%) es
3922, con Q2(50%) 816,5. Rango = max-min =40827-3=40824 e IQR = Q3-Q1 = 3922-256,75 = 3665,25.

 Delicatessen tiene una media de 1524,87, una desviación típica de 2820,11, un valor mínimo de 3 y un
valor máximo de 47943. El otro aspecto es que Q1(25%) es 408,25, Q3(75%) es 1820,25, y Q2(50%)
965,5. Rango = max-min =47943-3=47940 & IQR = Q3-Q1 = 1820.25-408.25 = 1412

1.3 Sobre la base de una medida descriptiva de variabilidad, ¿qué elemento muestra el comportamiento
más incoherente? ¿Qué elementos muestran un comportamiento menos incoherente?

Solución:

Uso del coeficiente de variación

El artículo fresco tiene el coeficiente de variación más bajo, por lo que es coherente, y el artículo
delicatessen tiene el coeficiente de variación más alto, por lo que es incoherente.

1.4 ¿Hay valores atípicos en los datos? Apoye su respuesta con un argumento/técnica adecuados con la
ayuda de comentarios detallados.

Solución:

Para encontrar los valores atípicos hemos trazado un diagrama de caja y sí, hay valores atípicos en todos los
artículos de la gama de productos (frescos, leche, comestibles, congelados, detergentes, papel y delicatessen).
1.5 Basándose en su análisis, ¿cuáles son sus recomendaciones para la empresa? ¿Cómo puede tu análisis
ayudar a la empresa a resolver su problema? Respuesta desde la perspectiva empresarial

Según el análisis, descubro que hay incoherencias en el gasto de las distintas partidas (calculando el
Coeficiente de Variación), que deben minimizarse. El gasto de los canales hotelero y minorista es diferente y
debería ser más o menos igual. Además, el gasto debe ser el mismo en las distintas regiones. Necesidad de
centrarse en otros artículos además de "Frescos" y "Comestibles".

You might also like