You are on page 1of 9

Capítulo 4

Distribución bidimensional
4.1. INTRODUCCIÓN Se llama Distribución bidimensional a la distribución estadística en la que intervienen dos variables, ¨x¨ e ¨y¨, y, por tanto, a cada individuo le corresponden dos valores, xi, yi. Estos dos valores se pueden considerar como coordenadas de un punto (xi, yi) representado en un diagrama cartesiano. Así, a cada individuo de la distribución le corresponderá un punto, y toda la distribución se verá representada mediante un conjunto de puntos. Por ejemplo, supongamos que los cinco hijos, A, B, C, D y E, de una familia obtienen las siguientes calificaciones sobre 10, en aptitud musical (MU) y aptitud matemática (MA):
INDIVIDUO VALORACIÓN MU VALORACIÓN MA

A 5 6

B 7 10

C 4 5

D 8 6

E 2 4

Esta tabla es una distribución bidimensional porque intervienen dos variables: valoración Mu, valoración Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6), E(2,4). De este modo se asocia a cada individuo un punto en un diagrama cartesiano:

A (5,6)

B (7,10)

C (4,5)

D (8,6)

E (2,4)

Esta representación gráfica de una distribución bidimensional se llama nube de puntos o diagrama de dispersión. EJERCICIOS Represente los siguientes ejercicios en un plano cartesiano: 1) Cinco estudiantes A, B, C, D y E, de un colegio en décimo año, obtienen las siguientes calificaciones sobre 10, en Dibujo (Di) y Matemática (Ma). Msc. Paco Bastidas Romo 1 Estadística Básica

siendo la velocidad constante. de pacientes: hombres y mujeres es: DIAS HOMBRES MUJERES L 10 8 M 7 9 M 9 7 J 8 10 V 7 6 3. y2. la correlación es la relación entre dos variables de una distribución bidimensional.…. es igual a -1 la correlación es negativa. Ejemplo. Durante 5 días obtuvo los siguientes resultados: Accidentes xi Vehículos yi 5 15 7 18 2 10 1 8 9 20 4. 2. En Estadística. Se mide mediante el coeficiente de correlación (= rho). Cuando  = 1 existe una relación funcional entre las dos variables de modo que el valor de cada variable se puede obtener a partir de la otra. Se presentan los siguientes casos: 1. Recuerde: d v t. Cuando Cuando Cuando Cuando Cuando es igual a 1 la correlación es fuerte. es próximo a 1 la correlación es fuerte y positiva. x2. distancias iguales (y1.INDIVIDUO DIBUJO (Di) MATEMÁTICA (MA) A 6 9 B 7 5 C 9 8 D 10 5 E 7 10 2) El número de consultas médicas que recibe un odontólogo de lunes a viernes en horario de atención 13h00-19h00.2. es próximo a -1 la correlación es fuerte y negativa. yn) en tiempos iguales (x1. Una compañía de seguros considera que el número de vehículos (y) que circulan por una determinada autopista a más de 120 km/h. Los puntos de la nube están todos situados sobre una recta de pendiente positiva. t(s) Msc. 4. La relación entre la distancia y el tiempo es constante y corresponde a la magnitud velocidad. El valor del coeficiente de correlación oscila entre –1 y 1 (-1 ≤  ≤ 1). con movimiento rectilíneo uniforme. Cuando un móvil recorre. Paco Bastidas Romo 0 2 2 4 6 8 Estadística Básica . Puede ponerse en función del número de accidentes (x) que ocurren en ella. 1. 5.…. 3. CORRELACIÓN.  es próxima a 0 la correlación es muy débil. xn). La relación entre las variables es fuerte.

En el caso de las estaturas (x1. Los puntos de la nube se sitúan próximos a una recta de pendiente positiva y se tiene una correlación fuerte y positiva. Ejemplo. A mayor estatura cabe esperar que tengan mayor peso. yn). x2.d(m) 0 10 20 30 40 2. xn) y los pesos (y1. de diversos estudiantes de una misma institución.…. Estatura ( x ) Pesos ( y ) 40 10 20 30 60 15 80 20 30 40 100 25 40 120 30 40 50 140 35 160 40 180 45 50 60 Ejemplo: Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: Matemáticas Física 2 1 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10 Msc. Paco Bastidas Romo 3 Estadística Básica . y2.…. Cuando  es próximo a uno los valores de cada variable tienden a aumentar cuando aumentan los de la otra. pero puede haber excepciones.

3. Ejemplo: Si lanzamos simultáneamente dos dados y anotáramos sus resultados: puntuación del dado rojo. y se tiene una correlación negativa. se obtiene una distribución de este tipo. yi. cuanto mayor sea la renta per cápita menor será el índice de natalidad. Cuando  = -1 todos los puntos de la recta están sobre una recta de pendiente negativa. No existe ninguna relación entre las puntuaciones de los dados en los diversos lanzamientos. Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. pues suele ocurrir que. a grosso modo. y sus índices de natalidad. yi. Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita. 7 6 DADO ROJO 5 4 3 2 1 0 0 2 DADO VERDE 4 6 2 Lanzamientos DADO ROJO (xi) DADO VERDE (yi) 1 1 2 2 1 4 3 2 3 4 2 6 5 3 1 6 3 5 7 4 3 8 5 1 4. Existe una relación funcional entre las dos variables. Cuando  es próximo a -1. Msc. Los puntos de la nube están próximos a una recta de pendiente negativa y se dice que hay una correlación fuerte y negativa. Cuando  es próximo a cero se dice que la correlación es muy débil (prácticamente no hay correlación). xi. puntuación del dado verde. xi. Paco Bastidas Romo 4 Estadística Básica . las variables están muy poco relacionadas. 5.

y sus desviaciones típicas. en metros….4.  es un parámetro sumamente adecuado para calcular la correlación entre dos variables estadísticas. los valores y σx son longitudes. llamado covarianza. Hay además un nuevo parámetro.…. A continuación. que sirve para medir el grado de relación entre las dos variables: cómo varía cada una con relación a la otra. . se calcula mediante la fórmula siguiente: σ y ∑( ̅ )(y ̅ y) n ∑ n y ̅y ̅ La segunda expresión es más cómoda de aplicar cuando las medias .y1). Por todo ello.yn). (x2. σx. El coeficiente de correlación. la covarianza. los valores de y σy son pesos. Para el estudio de la correlación se necesitan sus medias. se realiza el cálculo de los correlación de la siguiente distribución dimensional: parámetros estadísticos para hallar la Ejemplo: Se ha realizado una encuesta preguntando por el número de personas que habitan el hogar familiar y el número de habitaciones que tiene la casa.y2). sin embargo. el coeficiente de correlación es un número abstracto cuyo valor no depende de las unidades en que se hallen los valores de las variables. “yi”. Paco Bastidas Romo 5 Estadística Básica .(xn. σxy. La tabla siguiente recoge la información obtenida: Msc. se obtiene dividiendo la covarianza por el producto de las desviaciones típicas: σ y σ σy Este parámetro no tiene dimensiones. Por ejemplo. PARÁMETROS EN UNA DISTRIBUCIÓN BIDIMENSIONAL Cada una de las dos variables x. y su valor varía según las unidades en que se den “xi”. a modo de ejemplo. σxy. no son números enteros.3. σy. La covarianza de una distribución bidimensional de n individuos dados por los pares de valores (x1. el hecho de que  tome valores entre –1 y 1 (-1 ≤  ≤ 1) hace que resulte muy cómodo interpretar sus resultados. y sus valores varían según que los datos estén dados en centímetros. Además. .  (rho). y de una distribución bidimensional tiene sus propios parámetros. y sus valores varían según las unidades en que se expresen los datos. . es el producto de una longitud por un peso. si la variable “x” es una longitud y la “y” un peso.

. Σxi2 = 158. yi2. . . .Número personas ( X) Número de habitaciones ( Y ) 5 6 7 10 4 5 8 6 2 4 Se empieza situando los datos de modo que resulte sencillo hallar las columnas xi2. débil o la correlación es amorfa. . ̅ y σ √ y EJERCICIOS: En los siguientes ejercicios calcular el coeficiente de correlación. Σyi2 = 213. Paco Bastidas Romo 3 2 5 5 6 6 5 8 8 11 10 13 13 15 15 Estadística Básica .. . . . . xiyi: Xi 5 7 4 8 2 26 Yi 6 10 5 6 4 31 Xi2 25 49 16 64 4 158 Yi2 36 100 25 36 16 213 Xi Yi 30 70 20 48 8 176 Las sumas de las columnas son: Σxi = 26. se han recogido datos sobre el peso perdido desde el inicio de la misma (variable Y) y el tiempo que llevan siguiendo la dieta (variable X). Con estos resultados se obtienen los parámetros del siguiente modo: ̅ . . σ σy √ . determinar si la correlación es fuerte.. . . Σxiyi = 176 Σyi = 31. 1.Para un conjunto de personas que están siguiendo una dieta de adelgazamiento. los cuales se muestran en la siguiente tabla. X(Semanas) Y(Peso perdido en Kg) Msc.

Al obligar a que Σdi2 Σ(yi – axi – b)2 sea mínima. ésta es la recta de regresión. en caballos. RECTAS DE REGRESIÓN Se llama recta de regresión a una recta que marca la tendencia de la nube de puntos. se obtiene la ecuación 7 Estadística Básica Msc.5 450 9 425 10. La tabla adjunta refleja los valores obtenidos. Si la correlación es fuerte (tanto positiva como negativa) y.5 400 12 350 14 325 16 300 18 225 4.2.4. Paco Bastidas Romo .. Matemáticamente hay dos rectas de regresión. en varios modelos de automóviles. por tanto.Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y el número de unidades vendidas. se procedió a recoger datos sobre tales magnitudes durante el pasado mes en una determinada región. la información acerca de su recaudación durante las últimas 7 semanas. presentada en la siguiente tabla de datos.. La recta de regresión de Y sobre X es aquella y = ax + b para la cual la suma de los cuadrados de las desviaciones en el sentido de las ordenadas de cada punto a ella es mínima.Si conocemos que para una gasolinera situada en Sevilla. X(potencia) Y(aceleración) 50 15 75 12 90 10 100 10 120 9 150 8 4. y la aceleración (Y). los datos de potencia del motor (X). medida en el número de segundos necesarios para acelerar de 0 a 100 Km/h.Se han observado. Los resultados obtenidos fueron los siguientes: X(Precio de automóviles en miles de $) Y(Unidades vendidas) 7. así como del número de clientes que acudieron a la misma durante estos períodos. la recta de regresión de Y sobre X y la de X sobre Y. X(Recaudación) Y(Número de clientes) 1 3 10 6 8 5 3 3 5 4 15 8 2 3 3.. los puntos de la nube están próximos a una recta.

Uno de los aspectos principales de la inferencia es la estimación de parámetros estadísticos. es el proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa. 4. Su ecuación es: ̅ y y Que también se expresa de esta forma: σ σ y ( ̅) ̅ σ σ y ̅) (y y Las rectas de regresión tienen las siguientes peculiaridades: • Ambas pasan por el punto ( . en estadística. Msc. las dos rectas de regresión forman un ángulo grande. Las pendientes de las rectas de regresión son byx y 1/byx.5. ) llamado centro de gravedad de la distribución. b y σ σy y Se llaman coeficientes de regresión de Y sobre X y de X sobre Y. las dos rectas de regres ón son muy pró mas (son la m sma s  = ±1).̅ y y σ σ y ( ̅) La recta de regresión de X sobre Y es aquella para la cual la suma de los cuadrados de las desviaciones en el sentido de las abscisas de cada punto a ella es mínima. Paco Bastidas Romo 8 Estadística Básica . Si la correlación es débil. • Los valores by σ σ y . respectivamente. Inferencia Inferencia. • Cuando la correlac ón es fuerte. • Cuando || es próximo a 1 la recta de regresión sirve para realizar estimaciones fiables de una de las variables para nuevos valores de la otra variable.

. entonces el valor de µ. RECORRIDO INTERCUARTÍLICO El recorrido intercuartílico es la diferencia. Q3. y el cuartil inferior. para averiguar la media. Finalmente. puede ser inferido a partir de . Otras medidas de dispersión son el recorrido y el recorrido intercuartílico. Q3 – Q1. µ. la muestra tiene el tamaño adecuado y ha sido seleccionada aleatoriamente). si se quiere mejorar tanto la precisión como el nivel de confianza. (Esto quiere decir que se acertará en el 90% de los estudios realizados en las mismas condiciones que éste y en el 10% restante se cometerá error. desconocido. La inferencia siempre se realiza en términos aproximados y declarando un cierto nivel de confianza. . entonces hay que aumentar el tamaño de la muestra o bien consentir un nivel de confianza menor. El par de parámetros formado por la mediana. se puede llegar a una conclusión del siguiente tipo: la estatura media. se deberá aumentar el tamaño de la muestra.Por ejemplo. si en una muestra de n = 500 soldados se obtiene una estatura media = 172 cm. Paco Bastidas Romo 9 Estadística Básica .) Para mejorar el nivel de confianza. Si el proceso de muestreo está bien realizado (es decir.6. y esta afirmación se realiza con un nivel de confianza de un 90%. Msc. y el recorrido intercuartílico. entre el cuartil superior. de las estaturas de todos los soldados de un reemplazo. es un estimador de la media poblacional. 173. La media de la muestra (media muestral). Por ejemplo. µ. Me. si se quiere aumentar la precisión en la estimación disminuyendo el tamaño del intervalo. µ. o bien disminuir la precisión de la estimación dando un tramo más amplio que el formado por el de extremos 171. 4. hay que tomar una muestra suficientemente grande. Q1. proporciona una buena información sobre la forma de la distribución. Recíprocamente. de todos los soldados del reemplazo está comprendida entre 171 cm y 173 cm. Q3 – Q1. se extrae una muestra y se obtiene su media.