You are on page 1of 22

Introducción a la Estadística

1.0 Algebra (1 semana)


1.1 Concepto de Estadística (generalidades)

La Estadística se refiere a las técnicas mediante las cuales se recopilan,


organizan y analizan datos cuantitativos.

1.2 Clasificación de la Estadística

Para su estudio, la Estadística se divide en dos ramas:


Estadística Descriptiva
Estadística Inferencial

1.3 Características de la E. Descriptiva

La E. Descriptiva, incluye las técnicas que se relacionan con el resumen y la


descripción de datos numéricos. Estos métodos pueden ser gráficos o pueden
incluir análisis mediante cálculos.
La estadística descriptiva es una parte de la estadística que
se dedica a analizar y representar los datos. Este análisis es muy básico, pero
fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la
población las primeras conclusiones obtenidas tras un análisis descriptivo, su
poder inferencial es mínimo y debería evitarse tal proceder. Otras ramas de la
estadística se centran en el contraste de hipótesis y su generalización a la
población.

Ejemplos de este tipo de análisis descriptivo pueden encontrarse en


la prensa diaria, en la parte de información económico-social: series de tiempo,
gráfica de barras, índices de precios, resultados de una encuesta y más
elaborado, para más de una variable, en pirámide de edades, comparativas,
etc.

Otros ejemplos:
Índice de precios de consumo, Resultados deportivos, Accidentes laborales y,
en general, hechos cuantificados en valores absolutos (tal cual), en porcentajes
(%) o en índices (con un periodo base inicial = 100).

1.4 Características de la E. Inferencial

Esta rama de la Estadística comprende aquellas técnicas por medio de las


cuales se toman decisiones sobre una población a partir de una muestra
representativa de dicha población. Debido a que estas decisiones se toman en
condiciones de incertidumbre, se requiere el uso de conceptos de probabilidad.

ejemplos:
La inferencia siempre se realiza en términos aproximados y declarando un
cierto nivel de confianza. Por ejemplo, si en una muestra de n = 500 soldados
se obtiene una estatura media 0 = 172 cm, se puede llegar a una conclusión
del siguiente tipo: la estatura media, µ, de todos los soldados del reemplazo
está comprendida entre 171 cm y 173 cm, y esta afirmación se realiza con un
nivel de confianza de un 90%. (Esto quiere decir que se acertará en el 90% de
los estudios realizados en las mismas condiciones que éste y en el 10%
restante se cometerá error.)

1.5 Aplicaciones de la estadística en las ciencias de la conducta

Los psicólogos se valen de los conceptos y técnicas de la estadística, para


medir y comparar la conducta, las actitudes, la inteligencia y las aptitudes.

ejemplos de estadística descriptiva e inferencial

Conceptos básicos en Estadística

2.1 Variable, definición y tipos.


Variable  Es la característica de interés acerca de cada elemento de una
población o una muestra.

Tipos de variables

Variable Cuantitativa  Es la que recoge datos numéricos, resultado de


mediciones u observaciones. Ej. Estatura, diámetros, longitudes, masa,
cantidad de unidades, etc.

Variable Cualitativa  Es aquella que hace mención a cualidades o


características no mesurables (medibles). Ej. Color, estado civil,
respuesta si o no, etc.

Variable Discreta  Es aquella que solo puede tener valores observados


en puntos aislados a lo largo de una escala. Ej. Personas por hogar,
número de artículos en inventario, número de componentes defectuosos,
número de personas de una determinada área de trabajo, etc.

Variable Continua  Supone un valor fraccionario en dentro de un


intervalo específico. Ej. Peso de un embarque, tiempo de falla de un
dispositivo, promedio de personas por hogar de una comunidad grande,
etc.

2.2 Escalas de medición


Escalas de Medición es una sucesión de medidas que permite organizar
datos en orden jerárquico. Las escalas de Medición son clasificadas de
acuerdo a una degradación de las características de las variables. Estas
escalas son; Nominales, Ordinales, Intervalares o de Razón. Según pasa de
una escala a otra el atributo o la cualidad aumenta.

2.2.1 Nominal  Se obtiene este nivel de medición, si los datos


observados simplemente se clasifican en distintas categorías que no implican
orden. Esta escala comprende variables categóricas que se identifican por
atributos o cualidades. Las variables de este tipo nombran e identifican distintas
categorías sin seguir un orden. El concepto nominal sugiere su uso que es
etiquetar o nombrar. El uso de un número es para identificar. Un número no
tiene mayor valor que otro. Ejemplo los números de las camisetas de los
jugadores de un equipo de béisbol. El número mayor no significa que tiene el
mayor atributo que el número menor, es aleatorio o de capricho personal a
quien otorga el número. Algunas de estas variables son: el número de seguro
social, el sexo,los números de teléfono, entre otros.

2.2.2 Ordinal  Si los datos observados se clasifican en categorías distintas


en las que existe algún orden, se obtiene el nivel de medición ordinal. Las
variables de este tipo además de nombrar se considera el asignar un orden a
los datos. Esto implica que un número de mayor cantidad tiene un más alto
grado de atributo medido en comparación con un número menor, pero la
diferencia entre rangos pueden no ser iguales. Por ejemplo; el nivel
socioeconómico, orden de llegada de los corredores, entre otros.

2.2.3 De Intervalo  Es una escala ordenada en la cual la diferencia entre


las mediciones es una cantidad significativa. Escala Intervalar: Estas variables
nombran, ordenan y presentan igualdad de magnitud. En estas variables el
cero no significa ausencia de valor y existe una unidad de igualdad entre los
valores. Como por ejemplo; la temperatura, las puntuaciones de una prueba, la
escala de actitudes, las puntuaciones de IQ, entre otros.

2.2.4 De Razón  Además de que las diferencias son significativas e


iguales en todos los puntos de la escala, existe un cero real que permite
comparar las mediciones en forma de razones. Estas variables nombran,
orden, presentan intervalos iguales y el cero significa ausencia de la
característica. Por ejemplo; el ingreso; el cero representaría que no recibe
ingreso en virtud de un trabajo, la velocidad; el cero significa ausencia de
movimiento. En otras palabras, la escala de razón comienza desde el cero y
aumenta en números sucesivos iguales a cantidades del atributo que está
siendo medido.
Las Escalas de Medición ofrece información sobre la clasificación de la variable
como discreta o continuos. Toda vez que dicha clasificación determina la
selección de la gráfica adecuada.

-----------------------------------Hasta aquí primer parcial-------------------------------------


2.3 Población y muestra

2.3.1 Conceptos

Población. Totalidad de elementos u objetos que se consideran


para estudio.

Muestra. Porción de la población que se selecciona para análisis.

2.3.2 Muestreo probabilístico (exposiciones)

Muestra aleatoria simple  Es aquella en la que los elementos se


escogen de manera individual y al azar de la totalidad de la población.
Para esto, se utliza una tabla de números aleatorios, un programa
computacional que genere dichos números, para identificar los
elementos numerados de la población que serán elegidos para el
estudio.

Muestra sistemática  Es una muestra aleatoria en la cual se


eligen los elementos de la población a intervalos uniformes, a partir de
un listado ordenado,tal como elegir cada décima cuenta por cobrar para
la muestra. La primera se elige al azar (quizá utilizando números
aleatorios). Un problema específico del muestreo sistemático es la
existencia de cualquier factor periódico o cíclico en la lista de la
población que pudiera conducir a un error sistemático en los resultados
muestrales.

Muestreo estratificado  Lo primero que hace el investigador es


clasificarlos elementos de la población en subgrupos separados de
acuerdo con una o más características importantes. Después, se obtiene
por separado una muestra aleatoria simple o sistemática de cada
estrato. Puede utilizarse este tipo de muestreo para asegurar una
representación proporcional de diversos subgrupos en la muestra.
Además, es común que que el tamaño de la muestra que se requiere
para lograr determinado nivel de presición en el muestreo estratificado
sea menor que con muestreo aleatorio simple, con la consiguiente
reducción en los costos.

Muestreo por conglomerados  Los elementos de la población se


dividen forma natural en subgrupos. Así, se eligen al azar los subgrupos
que forman la muestra.

Medidas de Tendencia central


3.1 La media aritmética
suma de todos los valores de una variable dividida entre el
número total de datos de los que se dispone.
Muestra el promedio de los datos de una muestra, y su fórmula para calcularla
es: n

∑ xi
x= i =1

n
donde
x = media
n = número total de observaciones (datos)
i = i-ésimo lugar (lugar que ocupa el dato en el acomodo)
xi = i-ésimo dato
Σ = Sigma, símbolo de suma

ejemplos:

Determine la media y la desviación estándar de las siguientes millas por


galón obtenidas en 20 corridas de prueba realizadas en avenidas urbanas
con un automóvil de tamaño mediano.

19.7 21.5 22.5 22.2 22.6


21.9 20.5 19.3 19.9 21.7
22.8 23.2 21.4 20.8 19.4
22.0 23.0 21.1 20.9 21.3

r. 21.38 y 1.19 mi/gal

Los siguientes son los números de torsiones que se requirieron para


cortar 12 barras de aleación forjada: 33, 24, 39, 48, 26, 35, 38, 54, 23, 34, 29
y 27. Determine, a) la media y b)la mediana.

r. a) 35 b) 34.5

Los siguientes son los números de los minutos durante los cuales una
persona debió esperar el autobús hacia su trabajo en 15 días laborales:
10, 0, 13, 9, 5, 10, 2, 10, 3, 8, 6, 17, 2, 10 y 15. Determine, a) la media, b) la
mediana, c) la moda.

r. a) 8 b) 9 c) 10.
Las notas de inglés de una clase de 40 alumnos han sido las siguientes:

1 7 9 2 5 4 4 3 7 8
4 5 6 7 6 4 3 1 5 9
2 6 4 6 5 2 2 8 3 6
4 5 2 4 3 5 6 5 2 4

Calcula la nota media.

Solución:

4,6.

Halla el número medio de hijos por mujer en 2009 en México a partir de los datos de las
siguientes entidades federativas:
Michoac an 1,28
Guanajuato 1,05
Tlaxcala 0,8
Puebla 1,44
Hidalgo 1,24
Nayarit 0,94
Jalisco 0,91
Oaxaca 1,24
Chiapas 1,21
Sonora 1,17
Durango 1,2
Tabasco 0,9
Sinaloa 1,19
Yucatan 1,41
Veracruz 1,7
Colima 0,97
Tamaulipas 1,12
Aguascalientes 1,87
(Fuente: INEGI)

Solución:
Nº medio de hijos por mujer = 1,20.

Las edades de los jugadores de un equipo de baloncesto son: 27, 18, 28, 26, 25, 19, 31, 19, 24
y 26 años. ¿Cuál es la edad media?

Solución:

24'3 (redondeando, 24 años).

Representa mediante diagrama de barras las ganancias medias de los trabajadores, según el
sexo, en el cuarto trimestre de 2008, que se recogen en la siguiente tabla:

Sueldo en ptas.
Sector Varones Mujeres
Industria 284.363 206.204
Construcción 214.446 205.372
Servicios 263.554 195.447
(Fuente: INEGI)

Solución:

Sueldo medio en pesos.

300,000
250,000
200,000
Varones
150,000
Mujeres
100,000
50,000
0
a
ir n s
ts ó
ic o
ic
c i
u u rv
d rt e
n
I s S
n
o
C
Haz un diagrama de sectores que represente la procedencia de los extranjeros residentes en
México, en diciembre de 2008, recogidos en la siguiente tabla:
Procedencia
Europa 353.556
América 166.709
Asia 66.340
África 213.012
Oceanía 1.013
Desconocida 699
(Fuente: INEGI)

Solución:

Procedencia de extranjeros en
México
Desconoci
Oceanía da

África
Euro pa
Asia
América

Representa mediante un diagrama de barras las ciudades más pobladas (en 1995):

Ciudad Habitantes (en millones)


Tokio (Japón) 26,8
Sao Paulo (Brasil) 16,4
Nueva York (EE.UU.) 16,3
C. De México (México) 15,6
Bombay (India) 15,1
Shangai (China) 15,1
Los Ángeles (EE.UU.) 12,4
Pekín (China) 12,4
Calcuta (India) 11,7
Seúl (Corea del Sur) 11,6
(Fuente: Naciones Unidas)

Solución:
Habita ntes (en millones)

30
25
20
15
10
5
0 … … … … … …
) kr )a i s ) ) a
n lo o i a le a a
ó u o icx d g n
i
i
d re
p a Y n n e h n o
a P a é (I a g I( C
J( o v M y h n C
( (l
a e e a S Á a
t
io u s ín u ú
k S d
. b o k cl e
o N m L e S
T C o P a
B C
Calcula el porcentaje de participación en las elecciones a Cortes Generales de marzo de 2000,
teniendo en cuenta los datos de la tabla siguiente:

Total electores con derecho a voto Votantes


Andalucía 5.916.783 4.068.793
Aragón 1.019.845 728.060
Asturias (Principado de) 981.504 657.553
Baleares (Islas) 652.009 400.559
Canarias 1.393.410 845.348
Cantabria 468.607 336.508
Castilla y León 2.186.659 1.586.950
Castilla-La Mancha 1.420.894 1.084.236
Cataluña 5.293.465 3.388.128
Comunidad Valenciana 3.366.210 2.447.384
Extremadura 878.292 662.393
Galicia 2.547.784 1.656.662
Madrid (Comunidad de) 4.317.146 3.111.662
Murcia (Región de) 917.217 674.516
Navarra (C. Foral de) 463.892 306.494
País Vasco 1.810.666 1.155.999
Rioja (La) 230.427 170.997
Ceuta 55.848 30.801
Melilla 48.985 26.450
ESPAÑA 33.969.640 23.339.490
(Fuente: INE)

Solución:

Total electores con derecho a voto Votantes % Participación


Andalucía 5.916.783 4.068.793 68,77
Aragón 1.019.845 728.060 71,39
Asturias (Principado de) 981.504 657.553 66,99
Baleares (Islas) 652.009 400.559 61,43
Canarias 1.393.410 845.348 60,67
Cantabria 468.607 336.508 71,81
Castilla y León 2.186.659 1.586.950 72,57
Castilla-La Mancha 1.420.894 1.084.236 76,13
Cataluña 5.293.465 3.388.128 64,01
Comunidad Valenciana 3.366.210 2.447.384 72,7
Extremadura 878.292 662.393 75,42
Galicia 2.547.784 1.656.662 65,02
Madrid (Comunidad de) 4.317.146 3.111.662 72,08
Murcia (Región de) 917.217 674.516 73,54
Navarra (C. Foral de) 463.892 306.494 66,07
País Vasco 1.810.666 1.155.999 63,84
Rioja (La) 230.427 170.997 74,21
Ceuta 55.848 30.801 55,15
Melilla 48.985 26.450 54
ESPAÑA 33.969.640 23.339.490 68,71

Media aritmética ponderada ( xw ).

Esta media se usa cuando el peso que tiene cada uno de los datos de
la muestra es diferente, se calcula de la siguiente manera:
k

∑ wi xi
xw = i =1
k

∑ wi
i =1

donde:
xw = media aritmética ponderada
xi = dato i
wi = peso del dato i

Ejemplo:
A continuación se mencionan las materias que Luis Pérez llevó en el primer
semestre de Ingeniería Química, el número de créditos y la calificación
obtenida;

MATERIA NUMERO CREDITOS CALIFICACIÓN


Metodología de la 8 90.5
investigación
Matemáticas I 10 100.0
Programación 8 81.0
Química 10 78.0
Dibujo 4 100.0
Economía 8 84.0
Determine la calificación promedio que obtuvo Luis Pérez en su
primer semestre.

Solución:

( 8 x90.5 ) + ( 10 x100.0 ) + ( 8 x81.0 ) + ( 10 x78.0 ) + ( 4 x100 ) + ( 8 x84.0 )


Xw =
8 + 10 + 8 + 10 + 4 + 8 =

724 + 1000 + 648 + 780 + 400 + 672 4224


= = = 88.0
48 48

Nota: Sí comparamos este promedio con el que se obtiene usando simplemente la


media aritmética, que es un 88.91, nos damos cuenta de que este último es mayor,
por no tomar en cuenta el peso o número de créditos que aporta cada materia a la
carrera que se estudia, el promedio de esta persona es menor al de la media
aritmética debido a que obtiene una calificación baja es Química que es una de las
materias que aporta más créditos.

Media geométrica
La media geométrica es un promedio muy útil en conjuntos de números que
son interpretados en orden de su producto, no de su suma (tal y como
ocurre con la media aritmética). Por ejemplo, las velocidades de
crecimiento.
Por ejemplo, la media geométrica de la serie de números 34, 27, 45, 55, 22,
34 (seis valores) es de: (34×27×45×55×22×34)
1/6 = 1,699,493,4001/6 ≈ 34.545.
Otro ejemplo, la media de 1, 3 y 9 seria

Las siguientes temperaturas han sido tomadas de un proceso químico,


13.4oC, 12.8, 11.9, 13.6, determine la temperatura promedio de este
proceso.

Solución:

G = 13.4 x12.8 x11.9 x13.6 = 27758.7968 = 12.9077 oC


4 4

Las siguientes temperaturas han sido tomadas de un proceso para fabricar


queso chihuahua, 21.4oC, 23.1, 20.2, 19.7, 21.0, determine la temperatura
promedio de este proceso.

Solución:

G=
5
21.4 x 23.1x 20.2 x19.7 x 21.0 = 5 4131070.852 = 21.048 oC

Media armónica
La media armónica es un promedio muy útil en conjuntos de números que se definen en
relación con alguna unidad, por ejemplo la velocidad (distancia por unidad de tiempo).

Por ejemplo, la media armónica de los números: 34, 27, 45, 55, 22, y 34 es:

Medias generalizadas
Media exponencial l
Las medias generalizadas, también conocidas como medias exponenciales o medias de
Hölder, son una abstracción de las medias cuadráticas, aritméticas, geométricas y
armónicas. Se definen y agrupan a través de la siguiente expresión:
3.2 La mediana

Dato central de un arreglo de datos. es el valor que deja a la mitad de los datos
por encima de dicho valor y a la otra mitad por debajo Cuando el número de
datos (n) es grande, se utiliza la fórmula:

non, Mediana = x ( n +1)


2
Si n es x n  + x n 
    +1
par, Mediana = 2 2

3.3 El modo (moda)

Valor que se presenta con mayor frecuencia en un arreglo de datos. Cuando se


presentan varias modas dentro de un arreglo, decimos que dicho arreglo es
multimodal.

Medidas de dispersión

4.1 La varianza

Es la diferencia de cada uno de los datos y la media del grupo. En otras


palabras es la media de los cuadrados de las diferencias entre cada valor de la
variable y la media aritmética de la distribución. Está dada por la siguiente
fórmula:

∑(x
2
i − x)
s 2
=
n −1
Donde:
s2 = varianza
xi = i-ésimo dato del arreglo
x = media del arreglo
n = cantidad de datos de la muestra
∑ i ) = suma de los datos menos la media, al cuadrado
2
( x − x

4.2 Desviación estándar

Es la raíz cuadrada de diferencia de cada uno de los datos y la media


del grupo. Está dada por la siguiente fórmula:

∑ (x
2
i − x)
s=
n −1
Donde:
s = desviación estándar
xi = i-ésimo dato del arreglo
x = media del arreglo
n = cantidad de datos de la muestra
∑ ( xi − x ) = suma de los datos menos la media, al cuadrado
2

La desviación estándar

Para abordar las cuestiones que comentábamos en el


párrafo anterior, nos valemos de herramientas como la varianza y la desviación
estándar. Ambas medidas están estrechamente relacionadas ya que definimos
una a partir de la otra.
La varianza representa la media aritmética de las desviaciones de la media
elevadas al cuadrado. Si atendemos a la colección completa de datos (la
población en su totalidad) obtenemos la varianza poblacional; y si por el
contrario prestamos atención sólo a una muestra de la población, obtenemos
en su lugar la varianza muestral. Las expresiones de estas medidas son las
que aparecen a continuación.
Expresión de la varianza muestral:

Expresión de la varianza poblacional:

Una vez entendida la formulación de la varianza podemos


pasar a obtener la desviación estándar, tomando la raíz cuadrada positiva de la
varianza. Así, si efectuamos la raíz de la varianza muestral, obtenemos la
desviación típica muestral; y si por el contrario, efectuamos la raíz sobre la
varianza poblacional, obtendremos la desviación típica poblacional.

Expresión de la desviación estándar muestral:

Expresión de la desviación estándar poblacional:

El término desviación estándar fue incorporado a la estadística por Karl


Pearson en 1894.
Interpretación y aplicación

La desviación estándar es una medida del grado de


dispersión de los datos del valor promedio. Dicho de otra manera, la desviación
estándar es simplemente el "promedio" o variación esperada con respecto de la
media aritmética.

Una desviación estándar grande indica que los puntos están


lejos de la media, y una desviación pequeña indica que los datos están
agrupados cerca de la media.

Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6,
6, 8, 8) cada una tiene una media de 7. Sus desviaciones estándar son 7, 5 y 1,
respectivamente. La tercera muestra tiene una desviación mucho menor que
las otras dos porque sus valores están más cerca de 7.

La desviación estándar puede ser interpretada como una


medida de incertidumbre. La desviación estándar de un grupo repetido de
medidas nos da la precisión de éstas. Cuando se va a determinar si un grupo
de medidas está de acuerdo con el modelo teórico, la desviación estándar de
esas medidas es de vital importancia: si la media de las medidas está
demasiado alejada de la predicción (con la distancia medida en desviaciones
estándar), entonces consideramos que las medidas contradicen la teoría. Esto
es de esperarse, ya que las mediciones caen fuera del rango de valores de los
cuales sería razonable esperar que ocurrieran si el modelo teórico fuera
correcto.

Desglose

La desviación estándar (DS/DE), también conocida como


desviación típica, es una medida de dispersión usada en estadística que nos
dice cuánto tienden a alejarse los valores puntuales del promedio en una
distribución. De hecho, específicamente, la desviación estándar es "el
promedio de la distancia de cada punto respecto del promedio". Se suele
representar por una S o con la letra sigma, .
La desviación estándar de un conjunto de datos es una medida de cuánto se
desvían los datos de su media. Esta medida es más estable que el recorrido y
toma en consideración el valor de cada dato.

Es posible calcular la desviación estándar de una variable


aleatoria continua como la raíz cuadrada de la integral

Donde
La DS es la raíz cuadrada de la varianza de la distribución

Así la varianza es la media de los cuadrados de las diferencias entre cada valor
de la variable y la media aritmética de la distribución.
Aunque esta fórmula es correcta, en la práctica interesa realizar inferencias
poblacionales, por lo que en el denominador en vez de n, se usa n-1
(Corrección de Bessel)

También hay otra función más sencilla de realizar y con menos riesgo de tener
equivocaciones :

Ejemplo
Aquí se muestra cómo calcular la desviación estándar de un conjunto de datos.
Los datos representan la edad de los miembros de un grupo de niños. { 4, 1,
11, 13, 2, 7 }
1. Calcular el promedio o media aritmética .

.
En este caso, N = 6 porque hay seis datos:

i=número de datos para sacar desviación estándar

Sustituyendo N por 6

Este es el promedio.

2. Calcular la desviación estándar


Sustityendo N por 6

Sustituyendo por 6.33

Ésta es la desviación estándar.

El precio de un interruptor magentotérmico en 10 comercios de electricidad de una


ciudad son: 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27 baros. Hallar la media, moda,
mediana, desviación estándar, varianza y diagrama de barras.

Demuestre que la media, mediana, moda, varianza y desviación estándar son


verdaderas.

20.56 21.75 22.06 Media = 35.02


30.18 30.32 39.77 Mediana = 40.38
41.00 42.19 42.30 Varianza =
42.91 43.15 44.08 88.347675
Desviación E. =
Determine la media, mediana, moda, varianza9.39934439
y la desviación estándar de las siguientes
millas por galón obtenidas en 12 corridas de prueba realizadas en avenidas urbanas con
un automóvil de tamaño mediano, además divídalos en 4 clases.

9.7 19.3 20.5


21.1 21.4 21.5 Media = 21.38 Mi/gal
Mediana = 21.7
21.9 22 22.5
Varianza = 13.32 Mi/gal
22.8 23 23.2
D S = 3.65 Mi/gal

-----------------------------Hasta aquí segundo parcial-----------------------------------

4.3 Coeficiente de variación


Como medida relativa, el coeficiente de variación es útil cuando se
compara la variabilidad de dos o más conjuntos de datos expresados en
diferentes unidades, o si están medidos en las mismas unidades, pero que
difieren en tal medida que una comparación directa de las respectivas
desviaciones estándar no resulta muy útil.

Está dada por la siguiente fórmula:


s
CV = * 100
x
donde:
CV = coeficiente de variación
s = desviación estándar
x = media

4.4 Curtosis y asimetría

Una propiedad importante de un conjunto de datos es su forma, que es


la manera en que se distribuyen los datos. Una distribución de datos puede ser
simétrica o no. Si la distribución de datos no es simétrica, se le denomina
asimétrica o sesgada.
Todo lo que se requiere para descubrir la forma, es comparar la media y
la mediana. Si estas dos medidas son iguales, por lo general se considera que
los datos son simétricos (o con sesgo cero). Por otro lado, si la media es
superior a la mediana, por lo general los datos tienen sesgo positivo o hacia la
derecha. Si la mediana es mayor que la media, los datos tendrán un sesgo
negativo o hacia la izquierda.

Media > mediana: sesgo positivo o hacia la derecha


Media = mediana: simetría o sesgo cero
Media < mediana: sesgo negativo o hacia la izquierda

Asimetría negativa Simétrica Simetría positiva

En términos de kurtosis, una curva de frecuencias puede ser:


platikúrtica: plana, con las observaciones distribuidas de manera
relativamente uniforme en todas las clases; leptokúrtica: puntiaguda, con las
observaciones centradas en un estrecho rango de valores; mesokúrtica: ni
plana ni puntiaguda, en términos de la distribución de los valores observados.
Platikúrtica Mesokúrtica Léptokurtica

Ordenamiento de datos

5.1 Datos agrupados y no agrupados

Los datos organizados en una distribución de frecuencias se denominan


datos agrupados. Por el contrario, para los datos no agrupados, se enumeran
todos los valores observados de la variable aleatoria.

5.2 Distribución de frecuencias

Una distribución de frecuencias, es una tabla en la cual se agrupan en


clases los valores posibles para una variable y se registra el número de valores
observados que corresponden a cada clase.

En el siguiente ejemplo, se muestra una distribución de frecuencias de


salarios semanales. Nótese que las cantidades están dadas hasta el peso más
cercano.
Distribución de frecuencias de los
salarios semanales de 100 trabajadores

Salario semanal ($) No. de obreros (f)


2400-2599 7
2600-2799 20
2800-2999 33
3000-3199 25
3200-3399 11
3400-3599 4
Total 100

Intervalos de clase

El intervalo de clase indica el rango de los valores incluidos dentro de una clase
y puede ser determinado restando el límite exacto inferior de clase de su límite
exacto superior.

TRATAMIENTO PARA DATOS AGRUPADOS.

Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en


clases y a partir de estas determinar las características de la muestra y por
consiguiente las de la población de donde fue tomada.
Antes de pasar a definir cuál es la manera de determinar las características de
interés (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de
la muestra, es necesario que sepamos cómo se agrupan los datos.
ejemplo:
En una clase de un IES hemos medido la altura de los 25 alumnos. Sus medidas, en cm, son:

167 159 168 165 150 170 172 158 163 156
151 173 175 164 153 158 157 164 169 163
160 159 158 174 164

Elabora una tabla que represente estos resultados con sus frecuencias absolutas, relativas y
porcentajes. Toma intervalos de amplitud 5 cm comenzando por 150.

Alturas F. absolutas F. relativas Porcentajes


[150, 155) 3 0,12 12%
[155, 160) 7 0,28 28%
[160, 165) 6 0,24 24%
[165, 170) 4 0,16 16%
[170, 175) 5 0,2 20%
En una clase de 25 alumnos hemos preguntado la edad de cada uno, obteniendo estos
resultados:

14, 14, 15, 13, 15, 14, 14, 14, 14, 15, 13, 14, 15, 16, 14, 15, 13, 14, 15, 13, 14, 14, 14, 15, 14

Haz una tabla donde aparezcan las frecuencias absolutas acumuladas y las frecuencias
relativas acumuladas.

Solución:

Edad F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada


13 4 4 0,16 0,16
14 13 17 0,52 0,68
15 7 24 0,28 0,96
16 1 25 0,04 1

Se ha hecho una encuesta sobre el número de hijos en 50 familias, con los siguientes
resultados:

0 2 1 2 5 2 1 1 1 4 0 0 2
0 4 4 1 1 2 2 3 1 2 3 0
3 1 3 2 2 3 3 1 5 4 3 3
1 2 2 2 3 2 2 1 0 2 2 1
1

Haz una tabla donde se recojan estos datos con sus frecuencias absolutas acumuladas y
relativas acumuladas.

Solución:

Nº hijos F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada


0 6 6 0,12 0,12
1 13 19 0,26 0,38
2 16 35 0,32 0,7
3 9 44 0,18 0,88
4 4 48 0,08 0,96
5 2 50 0,04 1

Pasos para agrupar datos.


a. Determinar el rango o recorrido de los datos.
Rango = Valor mayor – Valor menor

b. Establecer el número de clases (k) en que se van a agrupar los datos


tomando como base para esto la siguiente tabla.

Tamaño de muestra o No. De datos Número de clases


Menos de 50 5a7
50 a 99 6 a 10
100 a 250 7 a 12
250 en adelante 10 a 20

El uso de esta tabla es uno de los criterios que se puede tomar en cuenta para
establecer el número de clases en las que se van a agrupar los datos, existen otros
para hacerlo.

c. Determinar la amplitud de clase para agrupar (C).

d. Formar clases y agrupar datos.


Para formar la primera clase, se pone como límite inferior de la primera clase un
valor un poco menor que el dato menor encontrado en la muestra y posteriormente
se suma a este valor C, obteniendo de esta manera el límite superior de la primera
clase, luego se procede a obtener los límites de la clase siguiente y así
sucesivamente.

Ejemplo:
Los siguientes datos se refieren al diámetro en pulgadas de un engrane.

6.75 7.00 7.00 6.75 6.50 6.50 7.15 7.00


6.50 6.50 6.50 6.25 6.25 6.50 6.65 7.00
7.25 6.70 6.00 6.75 6.00 6.75 6.75 7.10
7.00 6.70 6.50 6.75 6.25 6.65 6.75 7.10
7.25 6.75 6.25 6.25 7.00 6.75 7.00 7.15
a) Agrupe datos, considere k=6.
b) Obtenga: Histograma, polígono de frecuencias y ojiva.
c) Obtenga: media, mediana, moda y desviación estándar.
Solución:
a) Agrupando datos;

1. R= VM - Vm = 7.25 – 6.00 = 1.25


2. k=6

3.

4. Formando clases.
Para formar la primera clase se toma un valor un poco menor que el valor menor
encontrado en la muestra; luego,

LI LS Frecuencia Marca deLímite realLímite realFrecuencia Frecuencia


clase inferior superior relativa Relativa
acumulada
5.97 – 6.18 2 6.075 5.965 6.185 2/40 = 0.05 0.05
6.19 – 6.40 5 6.295 6.185 6.405 5/40=0.125 0.175
6.41 – 6.62 7 6.515 6.405 6.625 0.175 0.350
6.63 – 6.84 13 6.735 6.625 6.845 0.325 0.675
6.85 – 7.06 7 6.955 6.845 7.065 0.175 0.850
7.07 – 7.28 6 7.175 7.065 7.285 0.15 1.000
Total 40 1.000
d) Gráficas:

a) Media ( ).

Donde:
k = número de clases
xi = marca de clase i
fi = frecuencia de la clase i

n= número de datos en la muestra

b) Mediana (Xmed).

Donde:
Li = límite real inferior de la clase que contiene a la mediana
Fme-1 = sumatoria de las frecuencias anteriores a la clase en donde se encuentra la
mediana
fme = frecuencia de la clase en donde se encuentra la mediana
A = amplitud real de la clase en donde se encuentra la mediana
A = LRS-LRI
LRS = límite real superior de la clase que contiene a la mediana
LRI = límite real inferior de la clase que contiene a la mediana
N = número de datos en la muestra

f) Moda (Xmod).

Donde:
Li = límite real inferior de la clase que contiene a la moda
d1 = =
d2 = =
fmo = frecuencia de la clase que contiene a la moda
fmo-1= frecuencia de la clase anterior a la que contiene a la moda
fmo+1= frecuencia de la clase posterior a la que contiene a la moda
A = amplitud real de la clase que contiene a la moda
A = LRS – LRI
LRS = límite real superior de la clase que contiene a la moda
LRI = límite real inferior de la clase que contiene a la moda

g) Desviación estándar (S).


=
Donde:
xi = marca de clase i

= media aritmética
fi = frecuencia de la clase i

= número total de datos en la muestra

Formulas de la Z: z = (X - μ)/ (σ/√n)

You might also like