You are on page 1of 10

Apéndice B Tabla de medidas estadísticas .

DISCRETAS  NO INTERVALO CLASIFICACIÓN DE LOS DATOS: o TIPO I: POCAS OBSERVACIONES Y CASI TODAS DISTINTAS. A. o TIPO II: MUCHAS OBSERV. ALEATORIAS CONTINUAS  INTERVALOS . Y POCAS DISTINTAS.V.Capítulo 1 Comenzando con R Los datos pueden ser: • ATRIBUTO • VARIABLE .V. .

la media será la misma que la de antes pero multiplicada por esa cte. DIAGRAMA DE BARRAS  PARA DISTRIB. HISTOGRAMA  PARA DISTRIB. la media de esta distribución será la misma que la anterior pero incrementada el valor de la cte 2. Y POCAS DISTINTAS) 5. Homotecia: si multiplicamos por una cte. DIAGRAMA DE PUNTOS. DIAGRAMA DE TARTAS  ATRIBUTOS 2. SI NO SE PUEDE HACER DIAGRAMA DE BARRAS PORQUE EL PROGRAMA NO ME DEJE.c descriptivamente: MEDIDAS CENTRALES: o MEDIA Propiedades de la media (que yo considero importantes): 1. (no confundir con las propiedades de la varianza) . DIAGRAMA DE SECTORES ATRIBUTOS 3. 4.a. DIAGRAMA DE DISPERSIÓN  PARA DISTRIBUCIONES BIDIMENSIONALES. DE TIPO II (MUCHAS OBSERV. LA RAYA NEGRA MÁS GRUESA ES LA MEDIANA.o TIPO III: MUCHAS OBSERVACIONES Y CASI TODAS DISTINTAS REPRESENTACIONES GRÁFICAS 1. Para describir una v. Traslación: si dan una distribución y a cada valor de la distribución le sumo la misma cte. PUEDO VER CUAL ES LA MODA. HAGO EL HISTOGRAMA. DIAGRAMA DE CAJAS: LO QUE SE ENCUENTRA FUERA DE LA CAJA SON VALORES ANÓMALOS. DE TIPO III (MUCHAS OBSERVACIONES Y CASI TODAS DISTINTAS) 6.

y el 100% solo indica que es el último valor (el mayor). Y= ax + b  S^2(y) = a^2*S^2 (x) DEMOSTRACIÓN DE LAS PROPIEDADES ANTERIORES: Dada la variable x con una media de x = 12 y S de x = 9. menos dispersos estarán los datos (más homogénea será la distrib. El “R” me da los cuartiles P25= Q1. o RECORRIDO  Aquel intervalo formado por el valor menor y el valor mayor. MEDIDAS DE DISPERSIÓN: o VARIANZA/ DESVIACIÓN TÍPICA El “R” me da Sd (cuasidesviación típica) = ^s ^S(al cuadrado) = Sd (al cuadrado) = (n*S (al cuadrado))/n-1 S(al cuadrado) = ((n-1)(Sd(al cuadrado))) / n Desviación típica  S = + √S(cuadrado) Propiedades de la varianza: 1. sabiendo el percentil 50. sé la mediana. la varianza no cambia. puedo decir: Cuanto más cercano a 0 esté. o MODA: es el valor que más se repite. El rango se calcula restándole al último el 1º. En base al Cv que me de. Lo puedo ver con el histograma. la varianza de la nueva variable es igual a la de la antigua variable multiplicada por la cte al cuadrado.5 para admitir que la media representa aceptablemente al conjunto de la distribución. Es invariante respecto a la homotecia (multiplicación) y sensible a la traslación (suma). Si se le multiplica una cte a una variable. Permite comparar la dispersión de varias distribuciones. Puede haber más de una. o COEF. MEDIDAS DE POSICIÓN  CUANTILES. DE VARIACIÓN Cv = S/media de x en valor absoluto. solo indica que es el primer valor (el menor).4 tendrá media y desviación típica: S^2=81 Y=3x-4  y=3^2*S^2 (x)  S^2 de y = 3^2*81 = 729 S de y = √729 = 27 Media de y = 3 * media de x – 4 = 3*12 – 4 = 32 o RANGO  Diferencia entre el valor menor y el valor mayor.) Tb nos da el nivel de representatividad de la media: una media es representativa cuanto más cercano a 0 esté el Cv. la variable y = 3x . Se admite como máximo un valor de Cv = 0. El 0% cuando le das a resúmenes numéricos. 2. P50= Q2 Y P75=Q3. . Si se le suma una cte a una variable.o MEDIANA: distribuye a la distribución en 2 partes iguales. es el valor más alto.

Si g2 < 3  platicúrtica (menos apuntada que la normal) Si g2 = 3  mesocurtica (igual de apuntada que la normal) TRANSFORMACIONES.48º • QUE TEMP HARA COMO MAX EN EL 20% DE LOS DIAS MENOS CALUROSOS? . Cuando me pregunte al tipo: ¿en qué intervalo de centro la media se encuentra. este intervalo tendrá siempre como centro la media de la distribución. De curtosis  g2 = m4/S^4 Con “R”: pongo: kurtosis(nombre) La curtosis sirve para medir el aplastamiento o apuntamiento de la distribución. media de x+aS] Me proporciona una cota inferior para el porcentaje de observaciones en un determinado intervalo.1) (la campana de Gauss) Si g2 > 3  leptocurtica (mas apuntada que la normal).75 saco que a = 2. Sirve para comparar individuos que pertenezcan a distintas distribuciones. Consiste en realizar la siguiente transformación: Z = (x – media de x) / S . Si As < 0  asimétrica negativa o tendida a la derch. donde x es mi variable en estudio. aunque estén en distintas unidades. De simetría  g3= m3/S^3 Con “R”: una vez cargado el paquete pongo: skewness(nombre) Si As > 0  asimétrica positiva o tendida a la izq. media de x+2*S] Ejemplos de percentiles: • QUÉ TEMPERATURA HARÁ COMO MÍNIMO EN EL 90% DE LOS DIAS MAS CALUROSOS? CLAVE: COMO MINIMO HAY QUE CALCULAR EL PERCENTIL 10 12.MEDIDAS DE FORMA: hay que cargar el paquete fBasic (herramientas  cargar paquete) o SIMETRÍA: Coef. Se compara con la distrib. [media de x – aS. IMPORTANTE: cualquier variable tipificada tiene media=0 y S=1. [media de x – 2*S. el 75% de la distribución? 1º saco a usando: 1-(1/a2) = 0. NORMALIZACIÓN O TIPIFICACIÓN. Normal (0. Si As = 0  simétrica o CURTOSIS: Coef. DESIGUALDAD DE ICHEBYCHEV Me relaciona la media con la varianza: f(lxi – la media de xl < o = aS) > o = 1 – (1/a2) a>1 2 1-(1/a )  % de observaciones. Z la variable tipificada y S la desviación típica. al menos.

. X e y son independientes si fi*fj = fij para todo i. se usa el coeficiente de correlación de Pearson o coeficiente de relación lineal (r).C COEFICIENTE DE CORRELACION DE PEARSON (r): Para ver si son dependientes o no. Las variables están INCORRELADAS Si las variables son independientes  son incorreladas.Si la información es nula. MEDIDAD DE DEPENDENCIA V.Si r >0  la relación entre ambas variables es directa . (Intercept) -5. PARA SACAR LA RECTA DE AJUSTE: estadísticos-----> ajuste de modelos-----> regresión lineal.Si la información es parcial hablaremos de dependencia estadística. j.3195 . Si las variables son incorreladas pueden ser o no independientes. 1] SIEMPRE!! Sxy=covarianza .92º Capítulo 2 Análisis Exploratorio de Datos Unidimensional Análisis conjunto de variables Independencia: Tanto la dependencia como la independencia vienen a medir la información de una de las variables a partir del conocimiento de la otra.Si r<0  la relación entre ambas variables es inversa Y será más exacta cuanto más cercana a 1 ó -1 esté. hablaremos de dependencia total o funcional.Si tenemos información total. CÓMO HALLAR r EN EL “R”: estadísticos ------> resúmenes ------> test de correlación. .Si r=0  no hay relación lineal entre ambas. . Estimate Std. .CLAVE: COMO MAX HAY QUE CALCULAR EL PERCENTIL 20 13. . Mide el grado de relación lineal entre 2 variables cuantitativas indicando el sentido “directo” o “inverso” r= Sxy / Sx* Sy ES ADIMENSIONAL! r está dentro de [-1. Sy=desviación típica de y. hablaremos de independencia. Típica de x . Sx= desv.A.

Capítulo 3 Análisis Exploratorio de Datos multidimensional BONDAD O FIABILIDAD DEL AJUSTE (R2): coef. mayor asociación habrá entre los atributos. El modelo adecuado es el que tenga mayor R2. el resto se explicará por otra función.AJUSTE EXPONENCIAL Igual que el anterior y poner: Log(y)= x Lny=ln(abx) Lny=lna+lnbx Lny=lna+xlnb x´=x . La variabilidad de y se explica en dicho porcentaje por la variable x. .anchura 1. R2= (Sy2 *) / (Sy2) Como el ajuste suele ser lineal mi coeficiente de determinación coincide con el de Pearson.7782 COEFICIENTE DE CONTINGENCIA: mide la relación entre atributos. el grado de asociación. y´=lny â=me la da “R” --------> a=âe ^b=me la da “R” -------->b=^be AJUSTE POTENCIAL: Y=axb Lny=lnaxb lny=lna + blnx . De determinación. R2 = r2 (caso lineal) La R2 se expresa en %.AJUSTE PARABÓLICO Y = ax2 + bx + c Estadísticos -----ajuste de modelos -----modelo lineal Dependiente (explicada) = independiente + I (independiente^2) . C= √(X2/(X2 + n)) X2 con el “R”: escribir x-Squared 0<ó=C<ó=1 X2 > ó = 0 Cuanto más cercano al 1 esté.

Como me dice por encima de 20 gramos. contraste si para el conjunto de la población el nivel medio de proteínas está por encima de 20 gramos.En nivel de confianza .AJUSTE HIPERBÓLICO Y=a+(b/x) X´=1/x Y´=y Y=I(1/x) Contrastes: Tipo: c del examen de junio de 2010. asi que la rechazo. Suponiendo que se trata de una muestra aleatoria simple. .95 ^P = p-value ^P > alfa ---> No existen evidencias para rechazar H0 ^P< alfa ---> Rechazo H0. Considere valores de alfa = 0.test t para una muestra. H0: mu > o = 20 H 0 ---> hipótesis nula H1: mu< 20 H1 ---> hipótesis alternativa Alfa=0. ^P>>> alfa o ^P<<<alfa --->decisión bien tomada.99 (primero lo hago para uno y luego para el otro).95 y . Palabra clave: contraste . .Si el p-valor me da mayor que alfa no existen evidencias para rechazar la hipótesis nula.Pongo en hipótesis nula (H0). es decir. Vemos que en el alfa = 0.05 Nivel de significación Nivel de confianza â=a ^b=b 1 – alfa =0. marco media poblacional > mu .01 Alfa=0. .01 y 0.Tengo que hacer un contraste paramétrico unilateral para mu con gamma desconocida. Con “R”: estadísticos ---medias ---.X´=lnx Y´=lny â ^b lo que me da el “R” Para pasar de â y ^b a a y b: a=eâ y b=e^b log(y) =log(x) .99 1 – alfa =0. marco =. mu = 20 .05 no se incluye. para ver en cual se incluye el 20. Ahora hago el contraste bilateral.05.01 si se incluye (por poco) y en el alfa = 0. ^P aprox a alfa ---> prudencia en la decisión tomada.

6+2.4x . Sabiendo que 2 de cada 5 españoles no leen libros. gamma) es: N(mu. x=b´y + a´ B y b´ tienen el mismo signo! b*b´= r F.6 por que? A --> no leer libros (2/5) . sus complementarios tb lo son.6 Si A y B son independientes. Si P(A)=0. x=. G. Ā---> leer libros. Me da la media de x=3 y la media de y=6. gamma/√n) E.5+0. 1) C. Cuando n tiende a infinito se verifica que: tn convergea una N(0.A. Dadas las rectas de regresión y=-0. Si A y B son sucesos independientes: Ā y B(con rayita) son independientes. Si la recta de ajuste de y en función de x es y=0. Dos sucesos independientes si: P(AnB)= P(A)*P(B) Dos sucesos son incompatibles si: P(AnB)= fi (o nulo) P(A/B)=P(AnB)/P(B) = (P(A)*P(B)) / P(B) = P(A) P(AUB)= P(A)+P(B) – P(AnB) . la prob de que un español al azar lea libros es: 0.9 + 1. La distribución de la media muestral de una muestra extraida de una N(mu.5y (media de x. cual podría ser la otra recta? Hay que saber: y=bx+a .4 y P(A/B) =0.6 B. media de y) --------------> punto de intersección Resolviendo el sist. P(Ā)=3/5 =0. entonces P(AnB) es: No se puede calcular porque P(A/B)=(P(AnB))/P(B) y no me dan P(B) D. x .1.6.