STATGRAPHICS – Rev.

4/25/2007

Análisis de Una Variable
Resumen
El procedimiento Análisis de Una Variable es uno de los principales procedimientos para analizar una sola columna de datos numéricos. Calcula estadísticas de resumen, lleva a cabo pruebas de hipótesis, y crea una variedad de gráficos. Los gráficos incluyen gráfico de dispersión, histograma, gráfico de caja y bigotes, gráfico de cuantiles, gráfico de probabilidad normal, densidad suavizada, gráfico de simetría. Las tablas incluyen percentiles y diagrama de tallo y hojas.

StatFolio de Ejemplo: onevar.sgp Datos de Ejemplo:
El archivo bodytemp.sf3 contiene datos que describen la temperatura corporal de una muestra de n = 130 personas. Se obtuvo del Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse data_archive.html) y originalmente apareció en el Journal of the American Medical Association. A continuación se muestran las primeras 20 filas del archivo. Temperature (temperatura) 98.4 98.4 98.2 97.8 98 97.9 99 98.5 98.8 98 97.4 98.8 99.5 98 100.8 97.1 98 98.7 98.9 99 Gender (género) Male Male Female Female Male Male Female Male Female Male Male Male Male Female Female Male Male Female Male Male Heart Rate (ritmo cardiaco) 84 82 65 71 78 72 79 68 64 67 78 78 75 73 77 75 71 72 80 75

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 1

STATGRAPHICS – Rev. 4/25/2007

Ingreso de Datos
Los datos a analizar consisten de una sola columna numérica con n = 2 o más observaciones.

• •

Datos: columna numérica que contiene los datos a resumir. Selección: selección de un subgrupo de datos.

Resumen del Análisis
El Resumen del Análisis muestra el número de observaciones en la columna de datos.
Análisis de Una Variable - Temperature
Datos/Variable: Temperature (degrees) 130 valores con rango desde 96.3 a 100.8

También se muestran el mayor y el menor de los valores.

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 2

STATGRAPHICS – Rev. 4/25/2007

Gráfico de Dispersión
El gráfico de dispersión grafica cada valor de los datos.
Gráfico de Dispersión

96

97

98 99 Temperature

100

101

Los valores de los datos se grafican a lo largo del eje horizontal. A lo largo del eje vertical, los puntos se separan aleatoriamente hacia arriba o hacia abajo. Esto se hace para evitar que puntos con igual valor se traslapen. La cantidad de separación se controla con el botón Separar en la barra de herramientas de análisis:

Reduciendo la cantidad de separación Vertical se reducirá la cantidad de distanciamiento aleatorio:

© 2005 por StatPoint, Inc.

Análisis de Una Variable - 3

Inc.4 . Análisis de Una Variable . © 2005 por StatPoint. 4/25/2007 Gráfico de Dispersión 96 97 98 99 Temperature 100 101 Advierta que la nube de puntos es más densa cerca del rango medio de temperatura y se hace menos densa en los valores superiores o inferiores.8° que parece algo extremo.STATGRAPHICS – Rev. verá que corresponde a la fila #15 del archivo. Si hace clic sobre ese punto. También hay un punto a 100.

0 Media Geométrica 98.2517 Media Winsorizada 5% 98.9 1/6 sextil 97. Promedio o media aritmética (medida de tendencia central) . se puede cambiar la selección usando la Ventana de Opciones. 3.3 Moda 98.00441913 Sesgo Estandarizado -0.3 Máximo 100. Las estadísticas incluidas en la tabla se controlan por las definiciones de configuración en la ventana Stats de la caja de diálogo Preferencias.8 Cuartil Superior 98.el centro de masa de los datos.537558 Desviación Estándar 0. Inc.0643044 Sigma Winsorizada 5% 0. El significado de cada estadística se muestra a continuación. 4/25/2007 Resumen Estadístico La ventana del Resumen Estadístico calcula un número de diferentes estadísticas que comúnmente se usan para resumir una muestra de n observaciones: Resumen Estadístico para Temperature Recuento 130 Promedio 98.2492 Mediana 98.25495E6 La mayoría de las estadísticas caen en una de tres categorías: 1.733183 Coeficiente de Variación 0. Dentro del procedimiento.2 Sesgo -0. 2.6 5/6 sextil 98.780457 Curtosis Estandarizada 1. • • Recuento – el tamaño n de la muestra.8 Rango Intersextil 1.81642 Suma 12772. Medidas de forma – estadísticas que miden la forma de los datos con respecto a una distribución normal.7 Rango Intercuartílico 0.2415 Varianza 0. dado por: © 2005 por StatPoint.5 Cuartil Inferior 97.4 Suma de Cuadrados 1.5 .5 Sbi 0.672257 DAM 0.0205699 Curtosis 0. el número de estradas no faltantes en la columna.746248% Error Estándar 0.2465 Media Recortada 5% 98. Medidas de tendencia central – estadísticas que caracterizan el “centro” de los datos.8 Rango 4. Medidas de dispersión – estadísticas que miden la dispersión de los datos.714878 Mínimo 96.STATGRAPHICS – Rev. Análisis de Una Variable .

Si n es par. Si n es impar. • Media Winsorizada (medida de tendencia central) – una medida robusta que se obtiene calculando la media muestral después de haber remplazado con copias de x(r+1) y x(n-r) los valores de los datos que se eliminarían en una media recortada: TW = 1 ⎧ n−r ⎫ ⎨ ∑ x (i ) + r x ( r +1) + x( n − r ) ⎬ n ⎩i = r +1 ⎭ [ ] (5) La media truncada y la media Winsorizada son ambas menos afectada por valores extremos que la media aritmética. Inc. ya que estará más cerca del pico de la distribución que la media aritmética. donde x(i) representa la iésima observación más pequeña. El programa calcula la estadística promediando el logaritmo natural de los valores de los datos y tomando el antilogaritmo del resultado.6 . esta estadística no se calcula.STATGRAPHICS – Rev. Por omisión. © 2005 por StatPoint. • Media Recortada en 100α% (medida de tendencia central) – la media dela muestra después de remover una fracción α de los valores de los datos más pequeños y la misma fracción de los mayores: T (α ) = n − r −1 1 ⎡ ⎤ k (x( r +1) + x( n − r ) ) + ∑ x ( i ) ⎥ ⎢ n(1 − 2α ) ⎣ i =r +2 ⎦ (4) donde r = ⎣α n ⎦ y k = 1 − (α n − r ) . la mediana muestral es igual al promedio de los dos valores de en medio: x(n / 2 ) + x(1+ n / 2 ) 2 (2) • Moda (medida de tendencia central) – el valor del dato que se presenta con mayor frecuencia (si lo hubiera). aunque este valor puede cambiarse usando las Opciones de Ventana. Media Geométrica (medida de tendencia central) – estima el centro de los datos de acuerdo con ⎛ n ⎞ ⎜ ∏ xi ⎟ ⎜ ⎟ ⎝ i =1 ⎠ 1/ n • (3) Esta estadística se usa frecuentemente para datos que tienen un sesgo positivo. la mediana muestral es igual a x(0. Si ningún valor se presenta con mayor frecuencia que cualquier otro. Análisis de Una Variable . STATGRAPHICS recorta 15% de cada extremo.5+n/2). 4/25/2007 x= • ∑x i =1 n i n (1) Mediana (medida de tendencia central) .el valor de en medio cuando los datos se ordenan de menor a mayor. Nota: esta estadística sólo está definida para una muestra de datos en la cual todos los valores son mayores que 0.

Análisis de Una Variable . • Error Estándar (medida de dispersión) – el error estándar de la media: sx = s n (9) • Sigma Winsorizada en 100α% (medida de dispersión) – una estimación Winsorizada de variabilidad alrededor de la media Winsorizada: ⎧ n−r 2 2 2 ⎫ n ⎨ ∑ (x (i ) − TW ) + r (x( r +1) − TW ) + (x( n − r ) − TW ) ⎬ ⎭ ⎩i = r +1 (n − 2r )(n − 2r − 1) [ ] SW = (10) • DAM – la desviación absoluta mediana: DAM = medianai { xi − ~ } x (11) • Sbi (medida de dispersión) – una estimación basada en una suma ponderada de cuadrados alrededor de la mediana muestral: © 2005 por StatPoint.STATGRAPHICS – Rev. 4/25/2007 • Varianza (medida de dispersión) – una medida de la desviación cuadrada promedio alrededor de la media muestral: s2 = • ∑ (x i =1 n i − x) 2 n −1 (6) Desviación Estándar (medida de dispersión) – la raíz cuadrada de la varianza muestral: s= • ∑ (x i =1 n i − x) 2 n −1 (7) Coeficiente de Variación o desviación estándar relativa (medida de dispersión) – mide la magnitud de la desviación estándar como un porcentaje de la media muestral de acuerdo con: s CV = 100 % (8) x Está definida solo si x > 0 .7 . Inc.

Un sesgo positivo indica una cola superior más larga que la inferior.67ọ percentil. 4/25/2007 n∑ ( xi − ~ ) 1 − u i2 x i =1 n n 2 ( ) 4 S bi = ∑ (1 − u )(1 − 5u ) i =1 2 i 2 i (12) donde ui = xi − ~ x 9 DAM (13) • • • Mínimo . Inc. © 2005 por StatPoint.8 . 5/6 sextil (sextil superior) . Máximo .el valor del dato más pequeño x(1). mientras que un sesgo negativo indica una cola inferior más larga.el 25ọ percentil.la distancia entre los sextiles: (15) RIS = sextil superior – sextil inferior • Sesgo (medida de forma) – una medida de asimetría calculada de acuerdo con: (16) g1 = n ∑ ( xi − x ) i =1 n 3 (n − 1)(n − 2)s 3 (17) Un valor cercano a 0 correspondería a una muestra de datos casi simétrica.el 16.el 83.el 75ọ percentil. Rango (medida de dispersión) .el máximo menos el mínimo: R = x(n) . Aproximadamente 75% de los valores de los datos estarán por debajo de este valor. Rango Intersextil (medida de dispersión) . Análisis de Una Variable . Rango Intercuartílico (medida de dispersión) – la distancia entre los cuartiles: RIC = cuartil superior – cuartil inferior • • • 1/6 sextil (sextil inferior) . Aproximadamente 25% de los valores de los datos estarán por debajo de este valor.el valor del dato más grande x(n).x(1) • • • (14) Cuartil Inferior . Cuartil Superior .33ọ percentil.STATGRAPHICS – Rev.

de podría declarar un sesgo significativo si z1 cae fuera del intervalo (-2. © 2005 por StatPoint. Esta medida generalmente es relevante sólo para caracterizar muestras de datos simétricos.la suma de los valores al cuadrado de los datos. indicando que no hay desviación significativa en forma con respecto a una distribución normal.convierte la estadística de sesgo calculada anteriormente a un valor que tiene aproximadamente una distribución normal estándar en muestras grandes: z1 = g1 6/n (18) Al nivel de significancia del 5%.la suma de los valores de los datos. Suma de Cuadrados . de podría declarar una curtosis significativa si z2 cae fuera del intervalo (-2. +2). Una curtosis negativa indica una distribución que es más aplanada que la normal con colas más cortas. Análisis de Una Variable . Una curtosis positiva indica una distribución que es más picuda en el centro y tiene colas más largas que la normal. • Curtosis (medida de forma) – una medida de lo relativamente picudo o plano comparado con una curva con forma de campana: g2 = n(n + 1)∑ ( xi − x ) i =1 n 4 (n − 1)(n − 2)(n − 3)s 4 − 3(n − 1) (n − 2)(n − 3) 2 (19) Un valor cercano a 0 correspondería a una distribución normal con forma casi de campana. 4/25/2007 Sesgo Estandarizado (medida de forma) .9 . Inc. como debieran ser si la temperatura corporal siguiera una distribución simétrica tal como la normal. Para los datos de temperatura corporal.• STATGRAPHICS – Rev. • Curtosis Estandarizada (medida de forma) – convierte la estadística curtosis calculada anteriormente a un valor que tiene aproximadamente una distribución normal estándar en muestras grandes: z2 = g2 24 / n (20) Al nivel de significancia del 5%. El sesgo y la curtosis estandarizados están ambos entre -2 y +2. todas las medidas de tendencia central son muy similares. • • Suma . +2).

Este es el intervalo cubierto por el 50% central de los valores de los datos cuando se ordenan de menor a mayor. 4/25/2007 Opciones de Ventana Seleccione las estadísticas deseadas. Análisis de Una Variable .STATGRAPHICS – Rev. © 2005 por StatPoint. Inc. un signo de más se coloca en el lugar de la media muestral. Gráfico de Caja y Bigotes Esta ventana presenta el gráfico de caja y bigotes.10 . Se dibuja una línea vertical en la mediana (el valor de en medio). • • Si se solicita. Gráfico de Caja y Bigotes 96 97 98 99 Temperature 100 101 Este gráfico se construye de la siguiente forma: • Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el cuartil superior.

muestra la localización de la media muestral así como la mediana. los bigotes se dibujan a los valores máximo y mínimo que no sean puntos aberrantes. Ejemplo – Gráfico de Caja y Bigotes con Muescas El siguiente gráfico muestra la adición de unas muescas a la mediana a un nivel de confianza del 95%. Si hay presentes puntos aberrantes (extremos o extremos lejanos). indica la localización de los puntos extremos. se agregará una muesca al gráfico que muestra un intervalo de confianza de aproximadamente 100(1-α)% para la mediana al nivel de confianza por omisión del sistema (establecido en la pestaña General de la caja de diálogo de las Preferencias en el menú Editar). El signo de más para la media se encuentra muy cerca de la línea para la mediana.5 veces el rango intercuartílico (ancho de la caja) por arriba o por debajo de la caja. de los cuales no hay. Muesca sobre la Mediana: si se selecciona. © 2005 por StatPoint. Opciones de Ventana • • • • Dirección: la orientación del gráfico. se presentan de manera extremadamente rara. se indican por símbolos de señalamiento. y se indican por símbolos de señalamiento con signos de más superpuestos por arriba de ellos. Mostrar Media: si se selecciona. Puntos extremos lejanos. mientras que los bigotes son aproximadamente de igual longitud. pero generalmente sólo uno o dos. que son puntos a más de 1. Inc. Análisis de Una Variable . se puede esperar que se presenten puntos extremos tan solo por azar como la mitad de las veces.11 . Cuando se muestrean 130 observaciones de una distribución normal.STATGRAPHICS – Rev. El gráfico anterior para los datos de temperatura corporal es muy simétrico. Los puntos extremos. correspondiente a la dirección de los bigotes. Cualesquiera puntos a más de 3 veces el rango intercuartílico por arriba o por debajo de la caja se les llama puntos extremos lejanos. 4/25/2007 • Los bigotes se dibujan desde los extremos de la caja hasta los valores mínimo y máximo de los datos. a menos que haya valores inusualmente muy alejados de la caja (a los cuales Tukey llama puntos extremos). Hay 3 puntos extremos. Mostrar aberrantes: si se selecciona.

Análisis de Una Variable .1567.4433] 96 97 98 99 Temperature 100 101 La muesca cubre el intervalo mediana muestral ± zα / 2 1.STATGRAPHICS – Rev.6°. © 2005 por StatPoint.35 n (21) donde RIC es el rango intercuartílico muestral.12 .25( RIC ) 1.16 a 98. que va de aproximadamente 98. n es el tamaño de la muestra. provee de una indicación del potencial error de muestreo en la mediana. y zα/2 es el valor crítico superior del (α/2)% de una distribución normal estándar. La muesca. 4/25/2007 Gráfico de Caja y Bigotes Intervalos de confianza del 95% para la mediana: [98. Inc.44. Advierta que este intervalo no contiene el valor generalmente citado para la temperatura corporal promedio del humano de 98. 98. suponiendo que los datos son una muestra aleatoria de una población normal.

0000 Frecuencia Acumulada 0 0 2 4 7 13 21 28 51 64 81 99 116 122 127 127 129 129 129 129 130 130 130 130 130 130 Frecuencia Rel.1769 0.875 21 101. Acum.25 101.125 6 97.375 19 100. Límite Superior .2154 0.25 99.5 99.375 3 96.875 5 97.0000 1. Análisis de Una Variable .0154 0.0462 0.75 98.0308 0.9769 0. Frecuencia Relativa .5 99.75 100.0000 0.875 13 99.0 96.9385 0. 0.0154 0.5 101.0 99.0 99.5 100.1000 0.0538 0.9923 0.13 . dada por fj/n.5 96.625 12 98.0154 0.8923 0.25 98.0 1 96.375 7 97.375 11 98.25 100.75 101.0000 0.75 98.5 96.875 9 98.0154 0.0 97.75 99.625 8 97.875 mayor de 102.3923 0.5 100.375 15 99.25 99.1615 0.75 97.9769 0.25 101.5 97.0000 0.75 101.75 96.0385 0.0000 1.625 16 99.0 98.0 97.25 96.9923 0.el límite superior de la clase Punto Medio – el punto medio de la clase (a la mitad del recorrido entre los límites superior e inferior).0000 0.0000 0.0000 0.0000 0.1385 0.75 97.4923 0.0 98. Inc.0462 0.75 100.625 20 100. Frecuencia Acumulada .0231 0.0000 0.25 96.125 18 100.0000 1.625 24 101.733183 Frecuencia Relativa 0.9923 1.STATGRAPHICS – Rev.25 98.5 101.75 102.0 100.5 98.25 97.125 14 99.9923 0.0000 Frecuencia 0 0 2 2 3 6 8 7 23 13 17 18 17 6 5 0 2 0 0 0 1 0 0 0 0 0 Esta tabla está vinculada con el Histograma de Frecuencias y presenta la siguiente información para cada intervalo o “clase”: • • • • • • Límite Inferior – el límite inferior de la clase.0077 0.7615 0.1308 0.875 17 100.75 99.0000 1.0 101.el número de observaciones que caen en la clase actual o en las previas: © 2005 por StatPoint.0 Media = 98.25 97.125 10 98.0538 0.5 97.0000 0.1308 0.125 22 101.0 100.6231 0.0 101.625 4 96.25 100.0 96.2492 Desviación Estándar = 0.0000 1.0000 0. Frecuencia – el número de observaciones fj que son mayores que el límite inferior de la clase y menores o iguales al límite superior.0615 0.0000 0. 4/25/2007 Tabla de Frecuencias Un método común de resumir datos cuantitativos es construir k intervalos que cubran el rango de los datos y luego calcular el número de observaciones que caen dentro de cada intervalo.375 23 101.0000 0.5 98.1000 0.125 2 96. STATGRAPHICS presenta este tipo de tabla en la ventana Tabla de Frecuencias: Tabla de Frecuencias para Temperature Límite Límite Clase Inferior Superior Punto Medio menor o igual 96.la proporción de observaciones que caen en cada clase.

Cada criterio determina el número de intervalos m como una función del tamaño muestral n. Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los datos fuente.322 log(n) ) 10 log10(n): m= ceiling(10 log(n) ) Regla de Scott: m = ceiling[ (max-min) / (3. Los criterios son: Regla de Sturges: m = ceiling(1 + 3. Por omisión. 4/25/2007 ∑f i =1 j i (22) • Frecuencia Relativa Acumulada – la proporción de observaciones que caen en la clase actual o en las previas: ∑f i =1 j i n (23) La columna más a la derecha es de considerable interés. ya que corresponde a la distribución acumulada de las observaciones.STATGRAPHICS – Rev. Opciones de Ventana • • • • Número de Clases: el número de intervalos en los que se dividirán los datos. Por ejemplo. Límite Inferior: límite inferior del primer intervalo.14 © 2005 por StatPoint.31% de los datos es menor o igual a 98. Esto es necesario para que todas las observaciones se exhiban aun cuando algunos de los nuevos datos cayeran fuera de los límites originales.5 s / n1/3) ] (24) (25) (26) Análisis de Una Variable . el número de clases y los límites se recalculan siempre que cambien los datos. . Inc.5°. Los intervalos son adyacentes unos a otros y de la misma amplitud. Límite Superior: límite superior del último intervalo. El número de intervalos en los cuales los datos son agrupados por omisión se establece por el criterio especificado en la pestaña AED de la caja de diálogo de Preferencia en el menú Editar. 62.

Análisis de Una Variable . max es igual al valor del dato más grande. Histograma de Frecuencias La ventana Histograma de Frecuencias presenta el resultado de la tabla de frecuencias en la forma de un diagrama de barras o un gráfico de líneas. Puede experimentar con diferentes criterios para determinar cuál da un buen número de intervalos para su tipo de datos más común. Inc. 4/25/2007 Regla de Freedman-Diaconis: m = ceiling[ (max-min) /(2. © 2005 por StatPoint. y la función ceiling (techo) encuentra el entero más pequeño mayor o igual a su argumento. es decir. dependiendo de las definiciones de configuración de las Opciones de Ventana. Histograma 24 20 frecuencia 16 12 8 4 0 96 97 98 99 100 Temperature 101 102 La altura de cada barra en el gráfico anterior representa el número de observaciones en cada clase.0 RIC/ n1/3) ] Número fijo: m = número pre-definido (27) (28) donde min es igual al valor del dato más pequeño en la muestra. s es igual a la desviación estándar muestral.STATGRAPHICS – Rev.15 . RIC es igual al rango intercuartílico muestral. redondea al entero superior.

Límite Superior: límite superior del último intervalo. la altura representa la proporción de las observaciones con respecto al total en la muestra. Mantener: conserva el número de intervalos y límites seleccionados aún cuando cambien los datos fuente. y de no señalarse la altura representa las observaciones en un solo intervalo. Esto es necesario para que todas las observaciones se exhiban aun cuando algunos de los nuevos datos cayeran fuera de los límites originales. la altura representa las observaciones en el intervalo indicado y en todos los intervalos a su izquierda. el número de clases y los límites se recalculan siempre que cambien los datos. Frecuencia: si es Relativa. Si es Polígono.STATGRAPHICS – Rev. Si es Acumulada. las frecuencias de las clases se mostrarán como un diagrama de barras. Los intervalos son adyacentes unos a otros y de la misma amplitud. Tipo de Gráfico: si es Histograma. • • Ejemplo – Polígono de Frecuencias Acumuladas Estableciendo el Tipo de Gráfico como Polígono y señalando los cuadros de Acumulada y Relativa da una presentación de la distribución acumulada de los datos: © 2005 por StatPoint. y de no señalarse la altura representa el número de observaciones. las frecuencias de las clases se mostrarán usando un gráfico de líneas conectadas. Análisis de Una Variable . Por omisión. 4/25/2007 Opciones de Ventana • • • • Número de Clases: el número de intervalos en los que se dividirán los datos. Inc.16 . Límite Inferior: límite inferior del primer intervalo.

Inc. Se puede ver que alrededor del 50% de los datos caen por debajo de 98.17 . © 2005 por StatPoint.STATGRAPHICS – Rev. 4/25/2007 Histograma 100 80 porcentaje 60 40 20 0 96 97 98 99 100 Temperature 101 102 El gráfico anterior muestra el porcentaje de observaciones en el o por debajo del límite superior de cada intervalo dentro del cual se agruparon los datos. Análisis de Una Variable .3°.

alto) y LO (de low. mostrado a la izquierda de la línea vertical.2°. Llamemos a los dos primeros dígitos (“98”) el tallo. Los números en la columna de hasta la izquierda. Aunque similar a un histograma volcado en su costado. Cada fila del diagrama de tallo y hojas corresponde a valores con el mismo tallo. los puntos aberrantes se pondrán en tallos separados HI (de high.3 96.3°. se grafican en tallos especiales HI y LO (alto y bajo). 3 sujetos con temperatura de 98. llamados profundidades (depths).1 1|2 representa 1.2 BAJO|96. se incluirán en la parte principal del gráfico. Diagrama de Tallo y Hoja para Temperature: unidad = 0.1°. A la derecha de la línea vertical. Por ejemplo.0°. Tukey pensó que el gráfico de tallo y hojas era preferible a un diagrama de barras ya que los valores de los datos podían recuperarse a partir del diagrama.4°. definidos de igual forma que para el gráfico de caja y bigotes. En la fila que contiene la medina.8 Este diagrama. y 9 con una de 98. Puntos extremos. Análisis de Una Variable . Por ejemplo. 5 con 98. Él usaba las profundidades para localizar la median y los cuartiles cuando tabulaba los datos a mano.18 • .4°.STATGRAPHICS – Rev. dan una cuenta acumulada de las observaciones de arriba y abajo hacia el centro del diagrama. De otro modo. Opciones de Ventana Marcar Aberrantes: si se selecciona. en cambio se muestra puesto entre paréntesis el número de observaciones en esa fila. se muestra un solo dígito presentado la hoja para cada valor de los datos. Inc. debido a John Tukey (1977). 10 con 98. la fila que muestra 98|00000000000111222222222233333444444444 indica que hubo 11 sujetos con temperatura de 90. bajo). 4/25/2007 Diagrama de Tallo y Hojas El diagrama de tallo y hojas también presenta una tabla de los datos.4 2 6 19 40 (38) 52 19 4 2 96| 96|7789 97|0111222344444 97|556666777888888899999 98|00000000000111222222222233333444444444 98|555666666666677777777888888888899 99|000001112223344 99|59 100|0 ALTO|100. © 2005 por StatPoint. la temperatura del primer sujeto en la muestra de datos tiene una temperatura de 98. y al tercer dígito (“4”) la hoja. toma cada valor de los datos y lo divide en un tallo y una hoja.

8882 98.1 99.0% 99.7 98.3 98.0% 100.3762 98.6695 100.829 10.3753 99.0308 95.0% 99.7342 Límite Superior 96.8 97. © 2005 por StatPoint.2713 5. Análisis de Una Variable .4677 97.STATGRAPHICS – Rev. El intervalo del 95% de confianza para la temperatura a la cual o debajo de la cual uno encontraría el 90% de todos los individuos semejantes a los del estudio va de 99.1222 75. Inc.0% 97.1°.0% 98. también se pueden incluir los límites inferior y superior de confianza o cotas de confianza unilaterales.227 El informe incluye 95.6102 90.4 96.0% 96. La ventana de Percentiles presenta una tabla de percentiles seleccionados con base en los datos muestrales.7643 97.2774 99.0% 97.8922 99.0% 98. Por ejemplo.0% 97.0 99. 4/25/2007 Percentiles El p-ésimo percentil de una distribución de probabilidad continua se define como el valor de X para el cual la probabilidad de ser menor o igual a X es de p/100. lo que implica que 90% de todos los sujetos tuvo temperatura de 99.2211 97.03° a 99. Por ejemplo.0 96. el 90ọ percentil es el valor por debajo del cual está el 90% de la población. Si se solicitan usando las Opciones de Ventana. el 90ọ percentil de los datos de temperatura corporal es igual a 99.6062 50. Percentiles para Temperature Percentiles Límite Inferior 1.19 .38°.1° o inferior.1232 25. asumiendo que los datos son muestras aleatorias de una distribución normal.25 97.0% de límites de confianza Normal.3 99.

Análisis de Una Variable .STATGRAPHICS – Rev. © 2005 por StatPoint. Inc. Cota inferior o Cota superior. Nivel de Confianza: nivel para los límites o las cotas. Poner en 0 para eliminar el cálculo. para calcular una cota inferior o superior. Incluir Límites Normales: señalar para incluir límites de confianza o cotas con base en el supuesto de que los datos son muestras aleatorias de una distribución normal. 4/25/2007 Opciones de Ventana • • • • Percentiles: los porcentajes a los que se deberán calcular los percentiles.20 . para el percentil. respectivamente. o una cota unilateral. Tipo: seleccione Bi-Lateral para un intervalo de confianza.

los datos se ordenan de menor a mayor y se grafican en las coordenadas j − 0. el Gráfico de Probabilidad Normal muestra los datos de menor a mayor.21 . ⎟ n ⎠ ⎝ (29) La forma de S mostrada arriba es típica de una distribución normal con forma de campana.4 0.5 ⎞ ⎛ ⎜ x( j ) . Gráfico de Probabilidad Normal A semejanza del Gráfico de Cuantiles.2 0 96 97 98 99 Temperature 100 101 En este gráfico. Análisis de Una Variable .8 proporción 0. 4/25/2007 Gráfico de Cuantiles Esta ventana grafica los cuantiles (percentiles) de los datos. Gráfico Cuantil 1 0. Sin embargo.6 0. Inc.STATGRAPHICS – Rev. © 2005 por StatPoint. lo hace de manera que es posible juzgar si los datos provienen o no de una distribución normal.

25 ⎠ ⎠ ⎝ (30) donde Φ −1 (u ) representa la distribución normal estándar inversa evaluada en u. © 2005 por StatPoint. los puntos deberán caer aproximadamente a lo largo de una línea recta. Las etiquetas a lo largo del eje vertical son iguales a 100u%. para valores de u que van de 0. Hay dos opciones para ajustar la línea: 1. si los datos provienen de una distribución normal. Análisis de Una Variable . ya que esencialmente se apoya solo en la mitad central.22 .999. Usando la mediana y los cuartiles muestrales: ˆ μ = mediana muestral ˆ σ = rango intercuartílico / 1. Para ayudar a determinar que tan cercanamente los puntos corresponden a una línea recta. ˆ μ = .001 a 0.35 (31) (32) 2. Para construir el gráfico.1 96 97 98 99 Temperature 100 101 El eje vertical se escala de tal manera que. 4/25/2007 Gráfico de Probabilidad Normal 99.STATGRAPHICS – Rev.375 ⎞ ⎞ ⎜ x( j ) . se puede superponer una línea de referencia en el gráfico que corresponda a una distribución normal con media μ y desviación estándar σ. Valores aberrantes o colas largas tendrán una mayor influencia al usar el método de mínimos cuadrados. los puntos se grafican en las coordenadas ⎛ ⎛ j − 0. Ajustando una regresión por mínimos cuadrados de los cuantiles normales de los valores de los datos ordenados. Φ −1 ⎜ ⎟⎟ ⎜ ⎟ ⎝ n + 0.9 99 95 porcentaje 80 50 20 5 1 0.intercepto / pendiente ˆ σ = 1 / pendiente (33) (34) El primer método es más robusto a desviaciones de la normalidad en las colas de la distribución. Inc.

los demás puntos están muy próximos a la línea. Línea Ajustada: el método usado para ajustar la línea de referencia a los datos. Análisis de Una Variable . Si es Usando Cuartiles. el Porcentaje se presenta en el eje vertical. El primer método basado en los cuartiles da más peso a la forma de los datos cerca del centro y frecuentemente permite mostrar desviaciones de la normalidad en las colas que no serían evidentes usando el método de mínimos cuadrados. Opciones de Ventana • • Dirección: la orientación del gráfico. la opción de mínimos cuadrados muestra un ajuste mucho más cercano a los datos de temperatura: Gráfico de Probabilidad Normal 99. la línea se ajusta con la regresión por mínimos cuadrados de los cuantiles normales de las estadísticas de orden. Si es Vertical.23 . Nota: establezca el método por omisión para ajustar líneas en el gráfico de probabilidad normal usando la ventana AED en la caja de diálogo de las Preferencias. Inc. Si es Usando Mínimos Cuadrados. la línea pasa por la mediana cuando el Porcentaje es de 50 con una pendiente determinada a partir del rango intercuartílico.STATGRAPHICS – Rev.1 96 97 98 99 Temperature 100 101 Excepto por un valor. el Porcentaje se presenta en el eje horizontal. del menú Editar. © 2005 por StatPoint.9 99 95 porcentaje 80 50 20 5 1 0. Si es Horizontal. 4/25/2007 Como generalmente es el caso.

Incluir Bootstrap: incluye intervalos bootstrap en la salida. a causa de la naturaleza aleatoria de este procedimiento. 98. © 2005 por StatPoint. Los intervalos de confianza para la media y la desviación estándar descansan en el supuesto de que los datos provienen de una distribución normal. Tipo de Intervalo: seleccione Bi-Lateral para un intervalo de confianza o para una cota de confianza seleccione Cota Superior o Cota Inferior.STATGRAPHICS – Rev.0% para la media: 98. En este método. se obtendrán diferentes resultados cada vez que el método bootstrap se lleve a cabo. Si se le solicita. la media en la población de la cual los datos fueron muestreados bien puede diferir de esa estimación por 0. Número de Submuestras: el número de submuestras q en las que se basarán los intervalos.25°.127228 [98.2492 +/. 0.e. Si esto no se puede sostener. los intervalos bootstrap pueden diferir considerablemente de los obtenidos analíticamente.653586. Luego se obtienen intervalos de confianza bilaterales o unilaterales usando percentiles de la distribución observada de las estadísticas de las submuestras. se forman q submuestras seleccionando aleatoriamente con reemplazo (i. Intervalos de Confianza para Temperature Intervalos de confianza del 95.835043] Intervalos Bootstrap Media: [98. Si los datos no provienen de una distribución normal. en repetidos muestreos. Para cada una de las q submuestras..1262.833003] Mediana: [98. se calculan la media. la median y la desviación estándar. muestreadas con reemplazo.3938] Desviación Estándar: [0. También puede ver un intervalo de confianza como especificando el “margen de error” de la misma forma como se enuncia cuando se hace una encuesta de opinión. la misma observación puede ser seleccionada más de una vez) m observaciones de la muestra original.3765] Intervalos de confianza del 95. 98. entonces una alternativa es construir intervalos usando el método bootstrap. Opciones de Ventana • • • • Nivel de Confianza: nivel para los intervalos bilaterales o unilaterales.13° en cualquier dirección. 4/25/2007 Intervalos de Confianza La ventana Intervalos de Confianza muestra intervalos de confianza para la media y la desviación estándar. 95% de tales intervalos contendrán el verdadero valor del parámetro que se estima. 98.24 .15. 0. mediana y desviación estándar calculados por el método bootstrap. También.122. Nota: cada submuestra tendrá m = n observaciones.0% para la desviación estándar: [0. aunque la temperatura media en la muestra fue de 98.0. En el ejemplo anterior.624436.4] Los intervalos de confianza al 95% se construyen de tal manera que. Inc. también incluye intervalos para la media. Análisis de Una Variable .

6° que conducirá al rechazo de la hipótesis nula si hay suficiente evidencia en contra de la nula.1 grados de libertad. Realizar una prueba de hipótesis estadística formal.3 Desviación Estándar de la Muestra = 0.05. 4/25/2007 Pruebas de Hipótesis Frecuentemente surgen circunstancias donde es necesario determinar si la muestra proviene de una distribución con una media o desviación estándar particulares. Para correr una prueba de hipótesis. Construir un intervalo de confianza para la media y determinar si 98. son posibles dos enfoques: 1.6°.733183 Prueba t Hipótesis Nula: media = 98. Por ejemplo. La tabla anterior muestra los resultados de esta prueba: • Estadístico t calculado – el valor calculado t = -5.STATGRAPHICS – Rev.6 Alternativa: no igual Estadístico t = -5.6° a la que se le dará el beneficio de la duda.6° está o no dentro del intervalo de confianza.37123E-7 Se rechaza la hipótesis nula para alfa = 0.45482 Valor-P = 4. se formulan dos hipótesis que entran en competencia: • • Hipótesis Nula: una hipótesis tal como μ = 98. Inc. Hipótesis Alternativa: una hipótesis tal como μ ≠ 98.455 © 2005 por StatPoint. La ventana de las Pruebas de Hipótesis da soporte al último enfoque. comúnmente se asume que la temperatura media del ser humano es de 98. Para determinar si esta es o no una aseveración razonable dados los datos que han sido colectados.2492 Mediana Muestral = 98.25 . El valor especificado por la hipótesis nula se etiqueta μ0. Análisis de Una Variable . 2. El enfoque estadístico estándar a este problema es construir una prueba t usando: t= x − μ0 s/ n (35) y comparándola con una distribución t de Student con ν = n . Prueba t para la Media A continuación se muestra la parte superior de la salida: Prueba de Hipótesis para Temperature Media Muestral = 98.

6°. Valores pequeños (por debajo de 0. la hipótesis nula se rechazará si P < 0.05 si se trabaja al nivel de significancia del 5%) conducen al rechazo de la hipótesis nula.6°. En este caso.05.000182057 Se rechaza la hipótesis nula para alfa = 0.• STATGRAPHICS – Rev. Al nivel de significancia α = 5%.26 . En el presente ejemplo.5 Estadístico para Grandes Muestras = 4.74277 (aplicada la corrección por continuidad) Valor-P = 0. Prueba de los signos Hipótesis Nula: mediana = 98. Análisis de Una Variable .6 Alternativa: no igual Número de valores menores a la mediana hipotética: 81 Número de valores mayores a la mediana hipotética: 39 Estadístico para Grandes Muestras = 3. Prueba para la Desviación Estándar También es posible probar hipótesis sobre la desviación estándar de la población.7222 Rango medio de valores mayores a la mediana hipotética: 45. hay una muy fuerte evidencia de que los datos no provienen de una población en la cual la media sea igual a 98. El estadístico de prueba es © 2005 por StatPoint. La Prueba de los Signos se basa en la comparación del número de observaciones por debajo de la mediana hipotética con el número de observaciones por arriba de la misma.00000117545 Se rechaza la hipótesis nula para alfa = 0. STATGRAPHICS realiza dos de tales pruebas: una prueba de los signos y una prueba de rangos con signo. 4/25/2007 Valor de P – un valor que puede ser usado para rechazar la hipótesis nula si es lo suficientemente pequeño.6 Alternativa: no igual Rango medio de valores menores a la mediana hipotética: 67.05. De primordial importancia en la tabla anterior son los Valores de P. Prueba para la Mediana Si la distribución de la que provienen los datos no es normal.86 (aplicada la corrección por continuidad) Valor-P = 0. La Prueba de Rangos con Signo le da rango a las diferencias absolutas entre los datos y la mediana hipotética de menor a mayor y compara el rango promedio de las observaciones por debajo de la media hipotética con el rango promedio de las de por arriba. ambas pruebas rechazan la idea de que la mediana de la temperatura corporal es igual a 98. Una gran discrepancia conduce al rechazo de la hipótesis nula. Inc.05. tal vez sea de mayor interés probar una hipótesis sobre la mediana poblacional más que sobre la media. Prueba de rangos con signo Hipótesis Nula: mediana = 98.

Prueba de los Signos.27 . Inc. Media/Mediana: μ0.10.: la hipótesis alternativa puede ser de dos colas (“Diferente de”) o de una cola (tal como μ < 98. Desviación Estándar: σ0.1 grados de libertad. el valor de la media o mediana especificada por la hipótesis nula. • © 2005 por StatPoint. Éste es igual a la probabilidad de rechazar la hipótesis nula siendo cierta. Prueba de Rangos con Signo. 4/25/2007 2 (36) que se compara con una distribución chi-cuadrada con ν = n . Hipótesis Alternativa. Análisis de Una Variable . solo las concusiones expuestas inmediatamente a continuación del Valor de P. Alfa: el nivel de significancia de la prueba. el valor de la desviación estándar especificada por la hipótesis nula. 0.6 si se especifica “Menor que”). generalmente establecido en 0.Χ2 = (n − 1)s σ 02 STATGRAPHICS – Rev. Prueba Chi-Cuadrada: definen las pruebas que se llevarán a cabo.05 ó 0. Pequeños valores de P conducen al rechazo del valor de la desviación estándar σ0 especificado por la hipótesis nula. No afecta al Valor de P. Opciones de Ventana • • • • Prueba t.01.

Inc. (39) Para los datos muestrales. 4/25/2007 Densidad Suavizada La Densidad Suavizada provee una estimación no paramétrica de la función de densidad de probabilidad de la población de la cual fueron muestreados los datos.28 .2 0.1 0 96 97 98 99 Temperature 100 101 La función de densidad estimada está dada por: 1 n ⎛ x − xi ⎞ f ( x) = ⎟ ∑W ⎜ hn i =1 ⎝ h ⎠ (37) donde h es el ancho de la ventana en unidades de X y W(u) es una función ponderadora determinada por la selección en la caja de diálogo de las Opciones de ventana.STATGRAPHICS – Rev. Densidad Suavizada 0. con el valor deseado de h dependiendo del tamaño de la muestra de datos. Se crea contando el número de observaciones que caen dentro de una ventana de ancho fijo que se mueve a través del rango de los datos. Análisis de Una Variable .4 0. © 2005 por StatPoint. la densidad suavizada se parece mucho a una distribución normal. Se ofrecen dos formas de función ponderadora: Método del Vagón ⎧1 si u ≤ 1 / 2 W (u ) = ⎨ ⎩0 en otro caso Función Coseno (38) ⎧1 + cos(2πu ) si u ≤ 1 / 2 W (u ) = ⎨ en otro caso ⎩0 La última selección generalmente da un resultado más suave.3 densidad 0.

El Método del Vagón pondera todos los valores de igual forma dentro de la ventana. La selección por omisión está determinada por las definiciones de configuración en la pestaña AED de la caja de diálogo de las Preferencias del menú Editar.STATGRAPHICS – Rev. 4/25/2007 Opciones de Ventana • Método: la función ponderadora deseada. Inc. Resolución del Eje X: el número de puntos en los cuales se estimará la densidad. La función coseno da pesos decrecientes a las observaciones más alejadas del centro de la ventana. Análisis de Una Variable .29 . Ancho del Intervalo: el ancho h de la ventana dentro de la cual las observaciones afectan la densidad estimada. como un porcentaje del rango cubierto por el eje x..e. © 2005 por StatPoint. • • Gráfico de Simetría El gráfico de simetría se usa para ayudar a juzgar si los datos provienen de una distribución simétrica. h = 60% no es irrazonable para una muestra pequeña pero puede no dar tanto detalle como lo haría un valor menor en muestras más grandes. i. una distribución que tiene una función de densidad con la misma forma a cada lado de la mediana.

sin embargo.x(68)). Percentiles – los valores de los percentiles exhibidos en la ventana Percentiles.5 1 1. 7. …. La gráfica anterior tiende a desviarse por debajo de la línea diagonal sobre mucho del rango de X. Salvar Resultados Se pueden salvar los siguientes resultados en la hoja de datos: 1. los puntos se desviarán de la línea en una dirección particular. los puntos deberán caer cerca de una línea a 45 grados. Etiquetas de las Estadísticas – las etiquetas para las estadísticas mostradas en la ventana Resumen Estadístico. los puntos ordenados se aparean así: (x(65). Resumen Estadístico – los valores de las estadísticas mostradas en la ventana Resumen Estadístico.x(100)) Se grafica la distancia de cada par por arriba y por debajo de la mediana. 3. los valores de los datos se ordenan y luego se hacen pares con base en su localización con respecto a la mediana.30 . Análisis de Una Variable .5 distancia sobre mediana 2 1. 4. Si no. (x(63). 6. Frecuencias Relativas – las frecuencias relativas de clase exhibidas en la ventana Tabla de Frecuencias.5 1 0.5 distancia abajo mediana 2 2. Por ejemplo.x(67)).5 0 0 0. Frecuencias Relativas Acumuladas – las frecuencias relativas acumuladas de clase exhibidas en la ventana Tabla de Frecuencias. 2. Unos valores extremos al final. con 130 observaciones. © 2005 por StatPoint. Frecuencias Acumuladas – las frecuencias acumuladas de clase exhibidas en la ventana Tabla de Frecuencias.x(66).STATGRAPHICS – Rev. rompen ese patrón. Si los datos provienen de una distribución simétrica. lo que indicaría una cola inferior más larga que la superior. Inc. Frecuencias – las frecuencias de clase exhibidas en la ventana Tabla de Frecuencias. 5. (x(1). 4/25/2007 Gráfico de Simetría 2. (x(64).5 Para crear este gráfico.

2. sea q=p/100. Para el p-ésimo percentile. sea j1 = j2 = floor(1+nq) donde la función floor (piso) devuelve el entero más grande menor o igual a su argumento. 3. 5.STATGRAPHICS – Rev.n −1 ⎣ ⎦ Prueba de los Signos (46) Dada una mediana hipotética θ0. El p-ésimo percentil está dado por x( j1 ) + x( j2 ) 2 Intervalo de Confianza para la Media (40) (41) (42) (43) (44) x ± tα / 2.n −1 ⎥ ⎢ χ α / 2. Si nq es un entero. Análisis de Una Variable . Inc. De otro modo si nq no es un entero. sean j1=nq j2 = 1+nq 4. ⎢ ⎥ 2 χ 12−α / 2. 4/25/2007 Cálculos Percentiles 1.n −1 s n (45) Intervalo de Confianza para la Desviación Estándar ⎡ (n − 1)s 2 (n − 1)s 2 ⎤ . Calcule la estadística de orden x(j) = j-ésimo valor más pequeño de dato.31 .= número de xi < θ0 n+ = número de xi > θ0 Entonces (47) (48) © 2005 por StatPoint. sea n.

asigne el rango a las desviaciones de la mediana hipotética |xi θ0|. Si hay g grupos de observaciones empatadas. y tj es igual al tamaño del j-ésimo grupo de empates.5 − n(n + 1) 4 n(n + 1)(2n + 1) S − 24 48 n(n + 1) 4 n(n + 1)(2n + 1) S − 24 48 (52) z+ = T + − 0. Sea T. solo se usa la estadística correspondiente a la dirección de la hipótesis alternativa. 4/25/2007 (49) se compara con una distribución normal estándar. Inc. entonces S = ∑ t j (t j − 1)(t j + 1) j =1 g (54) Para una prueba de dos colas. la mayor de las dos estadísticas Z se compara con una distribución normal estándar.+ n+ y S=0 a menos que haya observaciones empatadas. Prueba de Rangos con Signo Dada una mediana hipotética θ0.z= max(n− . © 2005 por StatPoint.= suma de rangos para todas las xi < θ0 T+ = suma de rangos para todas las xi > θ0 Entonces (50) (51) z− = T − − 0.32 . Para una prueba de una cola.5 − (53) donde n = n. Análisis de Una Variable .5 − n− + n+ 4 (n− + n+ ) 2 STATGRAPHICS – Rev. n+ ) − 0.

Sign up to vote on this title
UsefulNot useful