Estad´ ıstica Descriptiva - Gui´n de la teor´ o ıa Este documento no pretende ser una presentaci´n exhaustiva y detallada de o los contenidos

te´ricos de Estad´ o ıstica Descriptiva, unicamente presenta de modo ´ esquem´tico la estructura te´rica del tema con objeto de que el estudiante le vaya a o dando cuerpo. Es por esto que se recomienda al estudiante que complete estas notas mediante la consulta de libros de Estad´ ıstica (cualquiera de los recomendados o de los existentes en la biblioteca con t´ ıtulos del tipo “Estad´ ıstica para Ingenieros”), a˜adiendo ejemplos para cada nuevo concepto o t´cnica introducida y con las ideas n e y explicaciones que lanzar´n los profesores en las clases pr´cticas. a a

1

Terminolog´ b´sica ıa a
• Poblaci´n: Llamamos poblaci´n a un conjunto bien definido sobre el que se o o observa o puede observarse una cierta caracter´ ıstica. Puede ser finita o infinita. El tama˜o de la poblaci´n es el n´mero de individuos que tiene, su cardinal, n o u lo denotamos por N . • Individuo: Llamamos individuo o unidad estad´ ıstica a cada uno de los elementos de la poblaci´n. o • Muestra: Una muestra es un conjunto de individuos de la poblaci´n que o refleja las caracter´ ısticas de ´sta lo mejor posible. Si las caracter´ e ısticas quedan bien reflejadas, se dice que la muestra es representativa. El tama˜o de una n muestra es el n´mero de individuos que contiene, lo denotamos por n. Si u muestra y poblaci´n coinciden, se dice que se dispone de un censo. o • Estad´ ıstica descriptiva: se ocupa de la descripci´n de datos experimeno tales; m´s espec´ a ıficamente de la recopilaci´n, organizaci´n y an´lisis de datos o o a sobre alguna caracter´ ıstica de ciertos individuos pertenecientes a la poblaci´n o o universo. • Variable estad´ ıstica: es una caracter´ ıstica de los individuos que conforman una poblaci´n y que se desea analizar estad´ o ısticamente. Se representa, en general, con una letra may´scula, X. Cuando se observa el valor (num´rico u e o no) de la variable en un individuo concreto de la muestra se dice que se ha realizado una observaci´n y el valor obtenido se denomina dato y se o representa, en general, con la misma letra que la variable estad´ ıstica pero en min´sculas, x. u 1

x2 . a˜os de escolaru n izaci´n. a su vez. j=1 2 .. · · · .. se denota por Ni = i nj . Son caracter´ u ısticas susceptibles de ser contadas (n´mero de hijos de una familia. duraci´n de un o aparato electr´nico. se denota por Fi = i fj . o 2 Tabla de frecuencias Es una herramienta utilizada para ordenar y organizar los datos recopilados de una muestra (si fuera un censo. La frecuencia absoluta acumulada del valor i-´simo es la suma de las frecuencias e absolutas hasta dicho valor. xk . como el color de ojos. las creencias religiosas. opiniones pol´ ıticas. Cuando una variable cualitativa solo puede tomar dos valores (S´ o no. Son caracter´ ısticas susceptibles de ser medidas (peso.Tipos de variables estad´ ısticas: Cuantitativas Toman valores en un conjunto prefijado de valores num´ricos.) se denomina variable dicot´mica. e Distinguimos. consideramos una muestra de tama˜o n. n i=1 Si trabajamos con variables cuantitativas. podemos definir las frecuencias acumuladas. Se representa por ni y se cumple que: k n1 + n2 + · · · + nk = i=1 ni = n.. La frecuencia absoluta de un valor xi es el n´mero de veces que dicho valor u aparece en la muestra. se proceder´ igual). por ejemplo). como hemos ordenado los valores de la muestra de menor a mayor. altura. o Cualitativas corresponden a caracter´ ısticas no cuantificables de los individuos. dos tipos: – Continuas: el conjunto es un intervalo (es infinito)... Si la variable es num´rica los consideramos ordee nados de menor a mayor x1 < x2 < · · · < xk . que proporciona n k valores distintos x1 .) o – Discretas: el conjunto es finito o infinito numerable (todos los n´meros naturales.). La frecuencia relativa j=1 acumulada del valor i-´simo es la suma de las frecuencias relativas hasta dicho e valor. Se representa por fi y se cumple que k fi = 1. La frecuencia relativa de un valor xi es el cociente de la frecuencia absoluta (ni ) entre el tama˜o de la muestra (n). ı hombre o mujer. ıa Dada una variable X..

las clases e ser´n de la forma (Li . ci = Li − Li . el tama˜o del intervalo. u 3. de tal modo que la intersecci´n de dos clases distintas ser´ a o a el vac´ La marca de clase ser´ el punto medio del intervalo. a u Denotaremos la i-´sima clase como [Li . Si sucede que Li = Li−1 .1 Medidas de tendencia central Las medidas de tendencia central son valores t´ ıpicos o representativos de un conjunto de datos. Pretenden resumir todos los datos en un unico valor. lo que resulta en s´ ´ ı mismo muy complicado. Li ]. ı Denominamos clase a cada uno de los intervalos en que se agrupan los datos. Las frecuencias har´n ahora referencia al n´mero de datos que hay en cada intervalo. De ah´ que los datos originales se agrupen en intervalos.La informaci´n anterior se recopila en una tabla de frecuencias que se dispone o como sigue: xi ni fi Ni Fi Cuando el n´mero de datos es elevado y los valores no se repiten la tabla anterior u resulta poco informativa. Media (X): se calcula para variables cuantitativas mediante la f´rmula: k ni xi X= i=1 n 3 . n 3 Medidas descriptivas Seg´n su cometido. se distinguen varios tipos de medidas descriptivas. Li ]. mi = (Li + Li )/2 y ıo. Por esta raz´n existen diversas medidas de tendencia ceno tral y la selecci´n de una de ellas depender´ de la naturaleza de nuestros datos y de o a los objetivos del estudio. a la amplitud. Mantenemos la notaci´n presentada en la secci´n anterior o o para presentar tres medidas de tendencia central para una muestra de observaciones de la variable estad´ ıstica X: o 1.

Obs´rvese e que en el c´mputo de la media se utilizan todos los valores. a a 3. • Rango semiintercuart´ ılico: Q = (Q3 − Q1 )/2. media geom´trica o la media recortada al 5%. e indica u que el i% de los valores de la muestra ordenada se encuentra por debajo de ´l. u o • Cuartiles: son tres valores que dividen la muestra en 4 partes. 4 .3 Medidas de dispersi´n o S´lo tienen sentido para variables cuantitativas. respectivamente. o a ı Existen otras medidas de tendencia central menos conocidas que las anteriores. Miden el grado de agrupamiento de o los datos que conforman la muestra en relaci´n a un valor de referencia o de modo o global. se denotan Q1 . Mediana (M e): Se calcula para variables cuantitativas. 50% y 75% de valores de la muestra ordenada se encuentra por debajo de ellos • Percentil i: se denota Pi . donde i es cualquier n´mero entre 0 y 100. Moda (M o): se puede calcular para cualquier tipo de variable.2. Si los datos se encuentran agrupados. e 3. por tanto si hay valores o an´malos (extremos) influir´n notablemente en ella. Es el valor con mayor frecuencia. esto no es as´ con la mediana. Destacamos las siguientes: • Recorrido o rango: Es la diferencia entre el mayor y menor valor de una muestra • Rango intercuart´ ılico: IQR = Q3 − Q1 . Es un n´mero tal u que al menos el 50% de los datos es menor o igual que la mediana y al menos el 50% mayor o igual. que el 25%. que se o e calcula como la media pero eliminando el 5% de valores m´s altos y m´s bajos. 3. como la media arm´nica.2 Medidas de posici´n o Los cuantiles se calculan para variables cuantitativas y al igual que la mediana s´lo tienen en cuenta la posici´n de los valores en la muestra ordenada de menor a o o mayor. la media se calcula con las marcas de clase y la moda se refiere al intervalo modal (si todos son de igual amplitud). Q2 y Q3 e indican. Seg´n su informaci´n se denominan de distinta manera.

• Histograma: es la representaci´n m´s apropiada con datos agrupados (vario a ables continuas o discretas con muchos valores distintos y poco repetidos). la medida se denomina cuasivarianza.• Varianza: es la medida de dispersi´n m´s importante. • Diagrama de barras: apropiado para variables discretas o cualitativas en las que se repitan mucho los valores observados. Est´ formado por un conjunto de rect´ngulos tales que: a a 5 . • Coeficiente de variaci´n: es una medida adimensional y tambi´n puede o e interpretarse como un error relativo.En el eje OX representamos los valores de las variables y levantamos un trazo o barra de longitud igual a la frecuencia absoluta o relativa. SX . Su f´rmula de o c´lculo se corresponde con la del error cuadr´tico: a a k k ni (xi − X) 2 SX = i=1 2 ni x2 i = i=1 n n −X 2 Es importante se˜alar que si en vez de dividir por n en la f´rmula anterior n o dividimos por n − 1. • Diagrama de sectores: se divide un c´ ırculo en sectores cuyo ´ngulo central a es proporcional a la frecuencia absoluta o relativa de cada valor o categor´ ıa. • Desviaci´n t´ o ıpica: es la ra´ cuadrada de la varianza. X 4 Representaciones gr´ficas a La visualizaci´n de los datos mediante gr´ficos constituye una poderosa herramienta o a para organizar y extraer informaci´n de las muestras siempre que el gr´fico se adec´e o a u a la naturaleza de la variable en estudio. Obs´rvese que se ız e mide en las mismas unidades que los datos de la muestra. por lo que orienta sobre el grado de representatividad de la media como medida resumen de los datos muestrales: CV (X) = SX . Mide el grado de o a agrupamiento de los datos alrededor de la media muestral. • Pictogramas: figuras cuya ´rea es la frecuencia (o un valor proporcional) del a valor que representan.

6 . a • Pol´ ıgono de frecuencias: se obtiene uniendo los puntos medios de los extremos superiores de los rect´ngulos que forman el histograma. o bien el m´ ınimo o m´ximo de la muestra si estos l´ a ımites los rebasan. Q1 y Q3 y los l´ ımites interiores. Si los datos son de dos d´ ıgitos. se preparan los datos resumi´ndolos en e dos o tres cifras significativas (expres´ndolos en las unidades adecuadas). a la derecha. 5. Se hallan los l´ ımites interiores Q1 ± 1. Q1 ± 3 ∗ IQR. 2. Si hay tres d´ ıgitos el tallo est´ formado por los dos primeros d´ a ıgitos. pues marca los cuartiles y refleja la presencia de valores an´malos o alejados (muy grandes o muy peque˜os). separadas por una l´ ınea. 4. Se construye como sigue: o n 1. Paralelo a un eje numerado dibujamos un segmento con extremos en los valores menor y mayor que aparecen en la muestra. aparecen las hojas que se escriben ordenadas y todas seguidas. Sus bases coinciden con el intervalo que representan y cuyos valores aparecen en el eje OX. Las hojas son las unidades. a la izquierda (en el tallo) aparece la cifra de las decenas. Dibujamos una caja con extremos en el primer y tercer cuartil y marcamos en ella la mediana. Se unen.5 ∗ IQR y exteriores.1. A a continuaci´n se disponen en una tabla de dos columnas del siguiente modo: o 1. 3. Para dibujarlo. a • Diagrama de tallos y hojas (stem and leaves): es un procedimiento semigr´fico puesto que puede verse como una tabla de frecuencias a la vez que a un histograma girado. Su altura ser´ por tanto fi /ci y la suma de las ´reas de todos a a los rect´ngulos la unidad. con unos segmentos (bigotes). • Diagrama de cajas (box-plot): este diagrama informa sobre la posici´n de o los datos muestrales. 2. El ´rea de cada rect´ngulo debe ser igual a la frecuencia relativa del a a intervalo. 2. Por ultimo se indican los valores at´ ´ ıpicos (aquellos valores de la muestra comprendidos entre los l´ ımites interiores y exteriores) con o y los valores extremos (valores que quedan fuera de los l´ ımites exteriores) con *.

En estos casos es esperable que la media muestral sea mayor que la mediana. a menudo. o a e • As < 0 a distribuci´n ser´ asim´trica a la izquierda. Si la representaci´n gr´fica tiene forma de campana (o U invertida).2 Medida de forma El coeficiente de apuntamiento o curtosis de una variable sirve para medir el grado de concentraci´n de los valores que toma en torno a su media. Una variable es asim´trica si su cola a un lado es m´s larga que su cola e a al otro y sim´trica si ambas colas son igual de largas. se denominan o a colas de una variable a la parte de la gr´fica que representa los valores alejados de a la media. 5.5 Medidas de asimetr´ y de forma ıa Estas medidas tratan de cuantificar caracter´ ısticas de las distribuciones de las variables estad´ ısticas que. • As = 0 la distribuci´n ser´ sim´trica. i=1 3 nSX . siempre y cuando la o distribuci´n de la variable tenga forma de campana. 5.1 Medidas de asimetr´ ıa La asimetr´ de una variable se refiere al grado de simetr´ de la representaci´n ıa ıa o gr´fica de la distribuci´n de una variable (diagrama de barras o histograma) respecto a o de la media muestral. puesto que la cola a la derecha es m´s larga ıa a que la cola a la izquierda. Se elige como referencia una o 7 . El coeficiente de asimetr´ se e ıa calcula como sigue: k ni (xi − X)3 As = y se interpreta: • As > 0 hay asimetr´ a la derecha. por tanto. quedan claras al visualizar el correspondiente diagrama de barras o histograma de la variable y las hacen. innecesarias. La cola a la izquierda es o a e m´s larga que la cola a la derecha y es esperable que la mediana sea mayor a que la media muestral. Ambas colas son igual de largas.

e Y toma l valores distintos. Se calcula como sigue k ni (xi − X)4 Ap = y se interpreta: • Leptoc´rtica. . Los valores u a que toma la variable est´n muy concentrados en torno a su media y hay pocos a valores extremos. e 6. y2 ). yi ). . y las colas de la variable son muy pesadas. . Hay u muchos valores extremos. j = 1. Y ). • Mesoc´rtica. yj ). as´ en el individuo o a ı. es menos apuntada que la normal. Se cumple que k l nij = n. . si Ap < 0. o i = 1. es m´s apuntada que la normal. es decir. si Ap = 0. i=1 4 nSX − 3. k.1 Distribuci´n conjunta y distribuciones marginales o Una muestra de una variable bidimensional se puede expresar de dos maneras. · · · . A toda esta informaci´n se le denomina distribuci´n o o conjunta de la variable bidimensional (X. (x1 . . Denotamos por nij la frecuencia absoluta de individuos en los que ser realiza la observaci´n (xi . Y ). u • Platic´rtica. yl ). l. es decir. yn )} o bien se puede expresar de forma tabular. . . . se pueden escribir las n observaciones de la muestra: {(x1 . Supongamos que X toma k valores distintos. 6 Variables bidimensionales Cuando nos interesan dos caracter´ ısticas de los individuos de una poblaci´n estamos o tratando con una variable bidimensional que se denota vectorialmente (X. . i=1 j=1 8 . . Cada observaci´n de la muestra estar´ compuesta por dos datos. i-´simo tendremos (xi . . .variable con distribuci´n normal (campana de Gauss). (xn . ya que para ella el coeficiente o de apuntamiento es 0. y1 ). (y1 . es tan apuntada como la campana de Gauss. (x2 . xk ). Por una parte. si Ap > 0. · · · . es decir.

xk n.j . nkj n. nkj fi|j n1j n. . De los datos anteriores. La frecuencia absoluta de xi dada cierta condici´n ser´ el n´mero de o a u observaciones en la muestra que cumplen la condici´n y para las que la variable X o toma el valor xi .l ni. es f´cil ya completar la tabla de frecuencias para cada a variable por separado. Se tiene: X|Y = yj x1 . Una tabla de doble entrada de una variable bidimensional sigue la estructura que se presenta a continuaci´n. . . . nk1 n. nkl n.j . X/Y x1 x2 . . Puede ser de frecuencias absolutas ´ ´ o relativas. xk 9 ni|j n1j . en la que tienen cabida las frecuencias marginales (repo resentadas en la ultima fila y ultima columna). . . Se obtienen f´cilmente a partir de la distribuci´n conjunta de a o la variable bidimensional.2 ··· ··· ··· . Se denomina distribuci´n marginal a la distribuci´n de cada una de las variables o o X e Y por separado.La frecuencia relativa de un valor (xi . Ejemplo: Distribuci´n de la variable condicionada X|Y = yj (la condici´n es que o o Y = yj ). .j = i=1 nij . n1. . . . Frecuencia absoluta marginal de yj n. .j y1 n11 n21 . ··· ··· yl n1l n2l . l Frecuencia absoluta marginal de xi ni. n2. yj ) es fij = nij /n. .2 Distribuciones condicionadas Son distribuciones de una variable fijada una condici´n sobre la otra variable (o sobre o ella misma). = j=1 k nij . nk. . nk2 n. n 6. . . . . .1 y2 n12 n22 .

4 El estad´ ıstico chi-cuadrado χ2 El estad´ ıstico χ2 es una medida del grado de independencia entre dos variables. k.3 Independencia estad´ ıstica El inter´s del estudio conjunto de dos variables como variable aleatoria bidimene sional es sacar conclusiones sobre la posible relaci´n de dependencia entre ellas. mayor es el grado de independencia a entre las variables. n. · · · . j = 1.j nij = n n n Es f´cil recordar la definici´n anterior si la relacionas con la definici´n de dos a o o sucesos independientes de teor´ de la probabilidad. o Dos variables son estad´ ısticamente independientes cuando cualquier informaci´n que o tengamos sobre una de ellas no altera la distribuci´n de la otra variable. pero con muchas observaciones repetidas. 6. Esta medida de relaci´n se utiliza cuando se trabaja con variables o de tipo cualitativo o cuantitativo. l: ni. i = 1. 10 . cual ser´ el valor esperado ıa para la frecuencia absoluta nij ?. Importante: En muchos casos se plantea la cuesti´n de la independencia preo guntando ¿si las variables X e Y fueran independiente. j. E[nij ] cuanto m´s cerca se encuentra este valor de cero. n 6.La distribuci´n de frecuencias absolutas ser´ la columna j-´sima de la tabla de o a e doble entrada. Para calcularlo se necesita la distribuci´n conjunta.j (nij − E[nij ])2 . · · · . Se tiene la o siguiente definici´n: o Dos variables X e Y se dicen independientes si para cada para cada par i. An´logamente hablaremos de la distribuci´n de Y condicionada por a o X = xi . y su f´rmula es: o o χ2 = i. sea cual sea el valor que tome Y .j . Se tiene de la definici´n que este valor ser´ o ıa: E[nij ] = ni. n. La relaci´n anterior dice que la ıa o frecuencia relativa de veces que X = xi no se ve alterada.

nij (xi − X)(yj − Y ) SXY = i.positivo o u negativo.b i=1 (yi − (a + bxi ))2 . cuando su valor es cero indica que una relaci´n lineal o entre las variables no tiene sentido. y1 ). El m´todo e ˆ = a+ˆ selecciona de entre todas las posibles rectas a + bX. es e o o m´s natural tratar de encontrar alguna relaci´n de tipo funcional entre ambas. • Nube de puntos o diagrama de dispersi´n: cada valor (xi . yj ) que o aparece en la muestra se representa por un unico punto de abscisa xi y or´ denada yj . con el m´todo de m´ e ınimos cuadrados: de modo muy sint´tico diremos que si disponemos de una muestra e {(x1 . aquella recta Y ˆ bX que hace m´ ınima la distancia: n min a. .j n • Recta de ajuste. En definitiva. . o Cuando dos variables X e Y son cuantitativas.7 Ajuste de una recta a una nube de puntos: regresi´n lineal. . En dicha nube de puntos podemos apreciar la posible relaci´n o funcional entre las variables. . queremos obtener la recta que mejor aproxima los valores de Y (variable dependiente) conocidos los valores de X (variable independiente). La soluci´n es: o ˆ = SXY . no tiene sentido estudiar con las t´cnicas de la secci´n anterior la relaci´n entre ambas. (x2 . . yn )}. respectivamente. y2 ). • Covarianza: Es una medida cuyo signo indica el tipo de relaci´n directa o o inversa entre las variables seg´n su signo sea. (xn . b 2 SX 11 a = Y −ˆ ˆ bX. indica el signo de la pendiente si relacion´ramos ambas a variables con una recta. Para a o ellos introducimos la siguiente metodolog´ ıa. con valores poco repetidos.

si su valor es distinto de cero unicamente por efectos del ´ azar. Este coeficiente toma valores entre 0 o y 1. a a a Es conveniente se˜alar que entre las variables Y y X se pueden plantear otros n ajustes funcionales que no sean la recta. ¿El ajuste obtenido es de buena calidad? Para ello se utiliza el coeficiente R2 o coeficiente de determinaci´n. y se ver´ de modo m´s detenido en la pr´ctica correspondiente. Si lo multiplicamos por 100. La ra´ cuadrada de este coeficiente se denomina coeficiente de ız correlaci´n lineal o de Pearson y se interpreta de modo similar. ¿tiene sentido mantener que hay una relaci´n de tipo lineal entre las variables? Para responder a esta o cuesti´n debemos estudiar si la pendiente de la recta de ajuste es signio ficativa. Aunque el ajuste sea de mala calidad. nos indica qu´ porcentaje de la varianza e de la variable Y es recogido por los valores que proporciona la recta de ˆ ajuste Y . es decir. Para ello utilizaremos una medida denominada estad´ ıstico t de la pendiente. o 2. El procedimiento de m´ ınimos cuadrados tambi´n es v´lido en estos casos.• Sobre la recta anterior nos planteamos dos cuestiones importantes: 1. e a 12 .