Estad´ ıstica descriptiva de una variable

25 de septiembre de 2013

Distribuci´ on de frecuencias bidimensionales
En muchos casos se miden simult´ aneamente en cada individuo de una poblaci´ on dos o m´ as variables con la finalidad de establecer la existencia (o inexistencia) de relaciones entre ellas. Por ejemplo ¿Existe relaci´ on entre la altura en el peso? ¿Existe relaci´ on entre el g´ enero y la nota que se saca en un determinado examen? ¿Existe relaci´ on entre el g´ enero y el equipo de f´ utbol preferido? Las situaciones que pueden aparecer en este tipo de problemas son muy variadas ya que dependen de la naturaleza de las variables que hayamos medido. En la primera parte del tema nos centraremos en aquellas situaciones en que se han recogido simult´ aneamente dos variables que forman grupos dentro de la poblaci´ on. Dejaremos para m´ as adelante el estudio de la relaci´ on entre dos variables continuas.
Estad´ ıstica descriptiva de una variable

Relaci´ on entre dos variables cualitativas: Un ejemplo

Sea X la clase en que viajaba un pasajero en el titanic e Y la variable que indica si sobrevivi´ o o no (Y = 0 no sobrevivi´ o, Y = 1 s´ ı sobrevivi´ o) X \Y primera segunda tercera Muere 103 146 369 Sobrevive 179 115 131

Estad´ ıstica descriptiva de una variable

ni 1 · · · nij · · · nil . . . . . . Estad´ ıstica descriptiva de una variable . . . . . . es decir el n´ umero de veces que se observ´ o dicho dato. . . nk 1 · · · nkj · · · nkl donde nij es la frecuencia absoluta del dato (xi . xk y1 . . xi . . . . . yj . . . yl n11 · · · n1j · · · n1l . El tama˜ no de la muestra se calcular´ a sumando todas las frecuencias absolutas n= i . .j nij . . . . yj ).Distribuci´ on de frecuencias bidimensionales (I) La informaci´ on recogida se puede entonces representar en una tabla X \Y x1 . .

xi . . . . . . fk 1 · · · fkj · · · fkl Estad´ ıstica descriptiva de una variable . . . . . . yj ) se define como fij = nij . i = 1. yj . fi 1 · · · fij · · · fil . k . . . . xk y1 . . . . j = 1. . . . . . . n que tambi´ en se pueden representar en una tabla X \Y x1 . . . . yl f11 · · · f1j · · · f1l . l . . .Distribuci´ on de frecuencias bidimensionales (II) La frecuencia relativa del dato (xi . . . . . .

Ejemplo En el ejemplo del Titanic obtendr´ ıamos la siguiente tabla de frecuencias relativas X \Y primera segunda tercera Muere 0.10 0.13 Estad´ ıstica descriptiva de una variable .11 0.14 0.35 Sobrevive 0.17 0.

Distribuciones marginales (I) Las distribuciones de frecuencias de las variables X e Y se denominan distribuciones marginales. Se calculan f´ acilmente a partir la distribuci´ on de frecuencias bidimensional. ¿Frecuencia absoluta de X =“segunda”? X \Y primera segunda tercera total Muere 103 146 369 618 Sobrevive 179 115 131 425 total 282 261 500 1043 Estad´ ıstica descriptiva de una variable .

Se calculan f´ acilmente a partir la distribuci´ on de frecuencias bidimensional.Distribuciones marginales (I) Las distribuciones de frecuencias de las variables X e Y se denominan distribuciones marginales. ¿Frecuencia absoluta de Y =“Sobrevive”? X \Y primera segunda tercera total Muere 103 146 369 618 Sobrevive 179 115 131 425 total 282 261 500 1043 Estad´ ıstica descriptiva de una variable .

La frecuencia a mediante n•j (o nY =yj ) mientras absoluta del dato yj se denotar´ que la frecuencia relativa la denotaremos mediante f•j (o fY =yj ).Distribuciones marginales (II) Para la variable X la frecuencia absoluta del valor xi . fi • = n n Algo similar ocurrir´ a para la variable Y intercambiando en este caso las sumas en filas por sumas en columnas. f•j = f1j + f2j + · · · fkj . que denotaremos mediante fi • (o fX =xi ). Su c´ alculo se har´ a a partir de las siguientes f´ ormulas n•j = n1j + n2j + · · · nkj . Su frecuencia relativa. se calcular´ a mediante la f´ ormula ni 1 + · · · + nil ni • = = fi 1 + · · · + fil . se calcular´ los datos de la fila i ni • = ni 1 + ni 2 + · · · nil . que a sumando todos denotaremos mediante ni • (o nX =xi ). Estad´ ıstica descriptiva de una variable .

nk 1 · · · nkj · · · nkl nk • n•1 · · · n•j · · · n•l n Estad´ ıstica descriptiva de una variable . ni 1 · · · nij · · · nil ni • . . xk y1 . . . . yj . . . . xi . . . . .Distribuciones marginales (III) Usualmente las distribuciones marginales aparecer´ an en los m´ argenes de la tabla de frecuencias tal como se muestra a continuaci´ on X \Y x1 . . . . . . . . yl n11 · · · n1j · · · n1l n1• . . . . . . . . . . . . .

Ejemplo: Los datos del u ´ltimo examen parcial de Bioestad´ ıstica aparecen resumidos en la siguiente tabla: X \Y Mujer Hombre Suspenso 14 20 34 Aprobado 36 11 47 50 31 81 ¿Qu´ e porcentaje de presentados aprob´ o? ¿Qu´ e porcentaje de mujeres aprobaron?¿Y de hombres? Estad´ ıstica descriptiva de una variable .Distribuciones condicionadas (I) Las distribuciones condicionales permiten estudiar la influencia de una variable sobre la otra.

La frecuencia absoluta del valor yj en la variable Y |X = xi . ser´ valor Y = yj cuando X = xi . que denotaremos a el n´ umero de veces que se observa el mediante nY =yj |X =xi . Esta nueva variable tomar´ a los mismos valores que la variable marginal Y pero con distinta frecuencia y distinto tama˜ no muestral. esto es nY =yj |X =xi = nij . La tabla de frecuencias absolutas de la variable condicionada se construye entonces a partir de la fila i de la tabla de frecuencias absolutas bidimensional.Distribuciones condicionadas (II) Si queremos analizar la influencia que tiene X sobre Y una posibilidad es observar qu´ e valores toma Y cuando X = xi . En este caso estar´ ıamos hablando de la variable Y condicionada por X = xi y que denotaremos por Y |X = xi . Estad´ ıstica descriptiva de una variable .

Otra forma de escribir la ecuaci´ on anterior es fij = fX =xi × fY =yj |X =xi Estad´ ıstica descriptiva de una variable . la frecuencia relativa del valor la muestra ser´ a por tanto ni • . que denotaremos mediante a fY =yj |X =xi . se calcular´ f Y =y j | X =x i = fij nij nij × n = .Distribuciones condicionadas (III) Para las frecuencias relativas debemos tener en cuenta que el tama˜ no de la muestra ha cambiado ya que solamente estamos no de considerando aquellos datos para los cuales X = xi . = ni • ni • × n fi • En este caso no es cierto que la columna de frecuencias relativas de la variable condicionada se calcule tomando la fila i de la tabla de frecuencias relativas bidimensional. El tama˜ ı. Es necesario dividir la frecuencia que aparece en cada casilla por la frecuencia marginal. As´ Y = yj en la variable Y |X = xj .

que denotaremos mediante X |Y = yj . Estad´ ıstica descriptiva de una variable nij fij = . .Distribuciones condicionadas (IV) Tambi´ en es posible analizar la influencia de la variable Y sobre la variable X estudiando la distribuci´ on de frecuencias de los valores que toma la variable X cuando Y = yj . Esta variable. . la frecuencia absoluta del valor xi en esta x1 . n•j f•j . Adem´ variable condicionada ser´ a nX =xi |Y =yj = nij . Sus valores ser´ as. puede ser caracterizada de la an misma forma que hemos hecho para Y |X = xi . a Como el tama˜ no de la muestra es n•j la frecuencia relativa ser´ f X =x i | Y =y j = que tambi´ en puede escribirse como fij = fY =yj × fX =xi |Y =yj . xk . . .

ser´ a fY =“Aprobado”|X =“Hombre” = 11/81 11 0.17 0. Los valores de esta variable siguen siendo “Aprobado” y “Suspenso”.42 Aprobado 0. condicionada por X = “Hombre”.35 0.14 = = = 0. La frecuencia relativa de aprobado.44 0.39 1 ¿C´ omo calcular´ ıamos las frecuencias relativas de la variable Y |X = “Hombre”?.25 0.58 0.39 31/81 31 An´ alogamente se calcular´ ıa fY =“Suspenso”|X =“Hombre” Estad´ ıstica descriptiva de una variable .Distribuciones condicionadas: Ejemplo Supongamos que s´ olo nos dan las frecuencias relativas de los datos del examen de Bioestad´ ıstica que vimos antes X \Y Mujer Hombre Suspenso 0.61 0.14 0.

k . la distribuci´ on de frecuencias ıa ser similar a la distribuci´ on de de la variable Y |X = xi deber´ frecuencias de la variable Y sin ninguna condici´ on. Eij = n × fi • × f•j = ni • × n•j n Estad´ ıstica descriptiva de una variable . . En cada casilla esperar´ ıamos observar. debemos recurrir a las frecuencias relativas. . O. . fij = fi • × f•j . bajo independencia. si X e Y no est´ an asociadas entonces cabr´ ıa esperar que se verificase fY =yj |X =xi = fY =yj . . As´ ı. Esto quiere decir que los valores que toma X no influyen en los que toma Y . Es decir. i = 1.Independencia Supongamos que X e Y son independientes (no existe asociaci´ on entre X e Y). . dado que los tama˜ nos de las muestras de cada variable son diferentes. Para comparar ambas distribuciones de frecuencias. . equivalentemente. . j = 1. l .

Eij En una tabla 2 × 2. Por tanto. a 3. si el valor obtenido en la muestra sobrepasa dicho valor parece razonable sospechar que X e Y no son independientes (a nivel poblacional).84 s´ olo el 5 % que seleccionemos una el valor de χ2 sobrepasar´ muestra en una poblaci´ on donde X e Y sean independientes. Estad´ ıstica descriptiva de una variable . si X e Y son independientes en la poblaci´ on.j (nij − Eij )2 . El c´ alculo de probabilidades permiten deducir este tipo de conclusiones creando un modelo para el muestreo bajo independencia y analizando los resultados esperados bajo ese modelo.Independencia: el estad´ ıstico χ2 Para cuantificar cu´ anto nos desviamos en nuestra tabla de esta situaci´ on ideal se suele realizar el siguiente c´ alculo χ2 = i .

Hip´ otesis y expectativas El razonamiento anterior es ejemplo de un tipo de razonamiento de tipo probabil´ ıstico-deductivo que aparecer´ a frecuentemente en inferencia: Hip´ otesis ⇒ Expectativas ⇔ Realidad Estad´ ıstica descriptiva de una variable .

47.El estad´ ıstico χ2 : ejemplo A partir de los datos correspondientes a los alumnos X \Y Mujer Hombre Suspenso 14 20 34 Aprobado 36 11 47 50 31 81 podemos construir la tabla de “alumnos esperados” X \Y Mujer Hombre Suspenso ×34 = 5081 = 20.99 13.01 17.01 34 Aprobado ×47 = 5081 = 29. Existen m´ as que fundadas razones para dudar de la independencia de X e Y .99 47 E11 = n1• n•1 n E12 50 31 81 olo se El valor de χ2 es 10. Si X e Y son independientes s´ 2 obtiene un valor de χ mayor o igual que 10.47 aproximadamente el 0.12 % de las veces. Estad´ ıstica descriptiva de una variable .

¿Y si no tenemos una tabla 2 × 2? La siguiente tabla tiene los datos sobre los supervivientes en el hundimiento del Titanic clasificados seg´ un la clase en la que viajaban. ¿Existe asociaci´ on entre la categor´ ıa del billete y la supervivencia? primera segunda tercera Muere 103 146 369 Sobrevive 179 115 131 Estad´ ıstica descriptiva de una variable .

Asociaci´ on no es lo mismo que dependencia Hay que tener cuidado a la hora de interpretar los resultados cuando se encuentra significaci´ on estad´ ıstica en una prueba de asociaci´ on. Cherbourg Queenstown Southampton Muere 80 37 501 Sobrevive 132 13 280 tercera 60 42 398 Cherbourg Queenstown Southampton primera 128 3 151 segunda 24 5 232 Estad´ ıstica descriptiva de una variable .

Estudio conjunto de dos variables continuas Posibilidad de dibujar en el plano los datos (diagramas de dispersi´ on) Posibilidad de establecer relaciones entre las variables que impliquen c´ alculos aritm´ eticos Estad´ ıstica descriptiva de una variable .

Diagrama de dispersi´ on 90 peso 40 50 60 70 80 Pesa 80 kg Mide 180 cm 160 170 180 190 Estad´ ıstica descriptiva de una variable altura .

Ajuste de una recta Ejemplo X =Altura 157 165 172 186 Y =Peso 53 65 64 73 ¿Cu´ al es el peso ideal de una persona que mide x = 165?¿y x = 172? r1 : Y r :Y = X − 100 = β0 + β1 X Cuadro: Datos ejemplo ¿Error cometido? Estad´ ıstica descriptiva de una variable .

En cada punto X = xi tenemos un valor del residuo ˆi . yi ) ˆi ei = yi − y (xi . A la diferencia se le denomina residuo. ei = yi − y (xi . y ˆi = β0 + β1 xi ) Estad´ ıstica descriptiva de una variable .Residuo Y e Y rara vez coincidir´ an por muy bueno que sea el modelo de regresi´ on.

Recta de regresi´ on (I) 1. El error cuadr´ atico medio es la media de los residuos al cuadrado n 1 ei2 . 4. Estad´ ıstica descriptiva de una variable . n i =1 2. La recta de regresi´ on es la recta con menor error cuadr´ atico medio. ¿Cu´ al es su pendiente? Debemos buscar β ∈ R tal que la recta y + β (x − x ) tenga el m´ ınimo error cuadr´ atico posible. Se puede demostrar que la recta de regresi´ on pasa por el punto (x . 3. y ).

Recta de regresi´ on (II) Ejercicio Demuestra que el error cuadr´ atico medio de la recta y + β (x − x ) viene dado por la expresi´ on 2 2 − 2β sXY + β 2 sX . ECM (β ) = sY 2 y s 2 denotan la varianza de X e Y respectivamente y donde sX Y sXY = 1 n n (xi − x )(yi − y ) i =1 es la covarianza de X e Y . Estad´ ıstica descriptiva de una variable .

2 sX Adem´ as su error cuadr´ atico medio de la recta de regresi´ on viene dado por la expresi´ on s2 2 − XY .Recta de regresi´ on (III) Ejercicio Demuestra que la recta de regresi´ on viene dada por la expresi´ on y+ sXY (x − x ). sY 2 sX Ejercicio: Calcula la recta constante con menor error cuadr´ atico medio. Estad´ ıstica descriptiva de una variable .

Su error cuadr´ atico medio es sY Y regresi´ on conseguimos un error cuadr´ atico medio 2 − sY 2 sXY 2 . Usando la recta de ˆ = Y . sX ¿Es muy grande la reducci´ on? Para contestar a esa pregunta es habitual medir la reducci´ on en error cuadr´ atico medio en t´ erminos relativos con respecto al error que se cometer´ ıa si no se usase la recta de regresi´ on. El error cuadr´ atico que obviamente nunca podr´ a ser superior a sY medio se reduce al usar la variable X en una regresi´ on en 2 sXY 2 . sX 2 . R2 = 2 2 sX sY Estad´ ıstica descriptiva de una variable . Esa mejora relativa es el coeficiente de determinaci´ on 2 sXY .Coeficiente de determinaci´ on (I) La mejor recta constante (que no usa la variable X ) es la recta 2 .

La recta de regresi´ on pasa por todos los puntos 4. Si R 2 = 1 entonces la reducci´ cuadr´ atico medio de la recta de regresi´ on es 0. Normalmente si el porcentaje de reducci´ on del error es peque˜ no se prefiere no utilizar la recta de regresi´ on.Coeficiente de determinaci´ on (II) 1. Estad´ ıstica descriptiva de una variable . De hecho el error cuadr´ atico medio de la recta de 2 (1 − R 2 ) regresi´ on viene dado por sY on es del 100 %. As´ ı el error 3. El coeficiente de determinaci´ on es un n´ umero siempre menor o igual que uno 2. Cuanto m´ as pr´ oximo a uno se encuentre el coeficiente de determinaci´ on mayor ser´ a el porcentaje de reducci´ on en el error. El coeficiente de determinaci´ on es el que se suele emplear para decidir si la relaci´ on lineal existente entre X e Y es importante o no.

Coeficiente de correlaci´ on (I) La pendiente de la recta de regresi´ on es sXY 2 . Diremos que existe una dependencia lineal negativa si la covarianza es negativa en cuyo caso la variable Y tiende a disminuir cuando X aumenta. 1. En este caso Y tiende a aumentar cuando lo hace X . 3. sX El signo de la covarianza determina. si la recta de regresi´ on es creciente o no. Si la covarianza es cero no existe tendencia lineal y la recta de regresi´ on es constante. 2. Esto no quiere decir que exista independencia. por tanto. Estad´ ıstica descriptiva de una variable . En este caso no existir´ ıa dependencia lineal. Diremos que existe una dependencia lineal positiva si la covarianza es positiva.

Estad´ ıstica descriptiva de una variable . Un coeficiente que conserva el signo de la covarianza y tiene la ventaja de estar acotado es el coeficiente de correlaci´ on. mide la bondad del ajuste de la recta de regresi´ on y adem´ as nos dice si la dependencia lineal es positiva o negativa. Sin embargo no existe ning´ un criterio para saber si la covarianza es grande o no. Por tanto. sX sY Este coeficiente tiene el mismo signo que la covarianza y tiene la ventaja de que sabremos cu´ ando es grande ya que est´ a comprendido entre -1 y 1. Adem´ as R 2 = r 2 .Coeficiente de correlaci´ on (II) Recordemos que el signo de la covarianza es por tanto importante para determinar el tipo de dependencia lineal (creciente o decreciente) que existe entre los datos. como R . este 2 coeficiente. Lo denotaremos mediante r y se define mediante la f´ ormula r= sXY .

99 r= 0.Coeficiente de correlaci´ on (III) r= 0.5 1 2 3 Y Y −1 −3 −3 −2 −1 0 X 1 2 3 −3 −3 −1 1 2 −2 −1 0 X 1 2 3 r= 0 r= −1 3 2 Y 1 Y −4 −3 −2 −1 X 0 1 2 0 −2 −2 0 1 2 −2 −1 0 1 2 Estad´ ıstica descriptiva deX una variable .

Ejercicio ˆ la variable que toma los valores Sea Y y ˆi = y + Demuestra que 2 sY ˆ = 2 sXY 2 . . Estad´ ıstica descriptiva de una variable . sX ˆi ) demuestra que Si e denota la variable de los residuos (ei = yi − y 2 2 2 = sY sY ˆ + se . n . . sX sXY 2 (xi − x ). . i = 1. .

Sign up to vote on this title
UsefulNot useful