You are on page 1of 31

Instituto Tecnolgico Superior de Salvatierra

Estadstica Descriptiva
Probabilidad y Estadstica

Bautista Duarte Elizabeth Garca Meja Claudia Alejandra Prez Montalvo Ana Lilia

Salvatierra, Gto. a 15 de Febrero del 2012

Indice

1. Introduccin..3 2. Marco terico4 a. Probabilidad......4 b. Estadstica.4 i. Descriptiva.4 ii. Inferencial..4 c. Datos agrupados..

....4
i. Marca de clase.....4 ii. Amplitud de la clase....

5
iii. Lmites de clase5 iv. Distribucin de frecuencias agrupadas...5 d. Medidas de tendencia central6 i. Media.

.6
ii. Mediana.....6 iii. Moda.....

.....7
e. Medidas de dispersin.......

.....7
20

Probabilidad y Estadstica |

i. Varianza........7 ii. Desviacin estndar......

......7
f. Medidas de posicin8 g. Representacin grfica

8
i. Histograma.

8
ii. Polgono de frecuencia8 iii. Diagrama de pie o

pastel.8
3. Recoleccin de datos..9 a. Datos agrupados..9 4. Analisis de los datos..10 a. Medidas de tendencia central..10

i. Media 10 ii. Mediana 11 iii. Moda.1 2


b. Medidas de dispersin..13 i. Varianza..13

20

Probabilidad y Estadstica |

ii. Desviacin estndar..14 iii. Coeficiente de Asimetra de Pearson.14

iv. Coeficiente de variacin15


c. Medidas de posicin..15 5. Interpretacin de los datos...17 a. Histograma..17 b. Polgono

de

frecuencia..18
c. Diagrama de pastel19 6. Conclusin..20 7. Bibliografa..21

20

Probabilidad y Estadstica |

1. Introduccin

En este trabajo llevaremos a cabo la recoleccin, anlisis e interpretacin de datos, tomando en cuenta las calificaciones de 50 alumnos del Tecnolgico Superior de Salvatierra, en la materia de matemticas.

Son datos confidenciales por lo que no se darn a conocer ningn dato de los respectivos dueos de estas calificaciones.

Por las cuales determinaremos todo lo que involucra la estadstica descriptiva como es:

Determinar la media, moda, mediana, desviacin estndar, la varianza y se dar la explicacin de cmo se comportan los datos obtenidos mediante la interpretacin de estos.

Tambin se demostraran algunas grficas para demostrar y ver el comportamiento de los datos.

Adems de que demostraremos los conocimientos obtenidos en el transcurso de esta unidad, esto no es ms que un ejercicio en el cual
20

Probabilidad y Estadstica |

determinaremos si el conocimiento obtenido podemos llevarlo a la prctica, y demostrar que es aplicable.

2. Marco terico
a. Probabilidad

20

Probabilidad y Estadstica |

La probabilidad de un suceso es un nmero, comprendido entre 0 y 1, que indica las posibilidades que tiene de verificarse cuando se realiza un experimento aleatorio.

b. Estadstica

La Estadstica es la parte de las Matemticas que se encarga del estudio de una determinada caracterstica en una poblacin, recogiendo los datos, organizndolos en tablas, representndolos grficamente y analizndolos para sacar conclusiones de dicha poblacin.

Segn se haga el estudio sobre todos los elementos de la poblacin o sobre un grupo de ella, vamos a diferenciar dos tipos de Estadstica:

i. Estadstica descriptiva

Realiza el estudio sobre la poblacin completa, observando una caracterstica de la misma y calculando unos parmetros que den informacin global de toda la poblacin.

ii.

Estadstica inferencial.

Realiza el estudio descriptivo sobre un subconjunto de la poblacin llamado muestra y, posteriormente, extiende los resultados obtenidos a toda la poblacin.

c. Datos agrupados i. Marca de clase


20

Probabilidad y Estadstica |

Es el punto medio de cada intervalo y es el valor que se representa a todo el intervalo para el clculo de algunos parmetros.

N de clases: K= 1+3.332 N de clases: K = No. Total de observaciones 9-16 17-32 33-64 65-128 129-256 257-512 513-1024 No. Recomendado de clases 4 5 6 7 8 9 10

ii. Amplitud de la clase


Es la diferencia entre el lmite superior e inferior de clase. C=

iii. Lmites de clase


Los limites inferiores y superiores son los valores mnimos y mximos de una distribucin. Cada clase est limitada por el lmite inferior de la clase y el lmite superior de la clase.

iv. Distribucin de frecuencias agrupadas

20

Probabilidad y Estadstica |

La distribucin de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un nmero grande de valores o la variable es continua.

Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.

20

Probabilidad y Estadstica |

d. Medidas de tendencia central

i. Media
Tambin denominada promedio, es la que se utiliza principalmente y se define como la suma de los valores de todas las observaciones divididas por el nmero total de datos. Se representa por x o por la letra segn se calcule en una muestra o en la poblacin, respectivamente. Dado que se tiene una distribucin de frecuencias el promedio se calcula por:

Donde: Mi: marca de clase. Fi: frecuencia absoluta.

ii. Mediana
Se define como el valor que deja igual nmero de observaciones a su izquierda que a su derecha, es decir, divide al conjunto de datos en dos partes iguales y se denota por Med. Si los datos no estn tabulados la mediana se determina, ordenando las observaciones de menor a mayor y determinando el valor central. Si la cantidad de datos es impar, la mediana se representa justamente por ese valor. En cambio, si la cantidad es par, la mediana es el promedio de los datos centrales. Si los datos estn agrupados la mediana se calcula observando los siguientes pasos: primero se debe determinar cunto es n/2, luego se ver en cul intervalo estar contenido este valor. Una vez ubicado el intervalo que lo contiene se procede a reemplazar en la siguiente frmula:

Donde: Li: Lmite inferior de la clase mediana. (f)1: suma las frecuencias anteriores a la clase mediana.

20

Probabilidad y Estadstica |

iii. Moda
Es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. Puede haber ms de una moda en una distribucin. Se denota por Mo. La frmula es:

Donde: C: amplitud de clase. LMo: lmite inferior de la clase modal. d1: diferencia entre la clase modal y la clase anterior. d2: diferencia entre la clase modal y la clase siguiente.

e. Medidas de dispersin

i. Varianza

ii. Desviacin estndar


Es una medida de dispersin usada en estadstica que nos dice cunto tienden a alejarse los valores puntuales del promedio en una distribucin. Especficamente, la desviacin estndar es "el promedio de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, segn se calcule en una muestra o en la poblacin.

20

Probabilidad y Estadstica |

f. Medidas de posicin

i. Cuartiles
Son los tres valores que dividen al conjunto de datos ordenados en cuatro porciones iguales, son un caso particular de los percentiles, correspondiendo a los percentiles 25, 50 y 75. El primer cuartil Q1 es el valor de la variable que deja a la izquierda el 25% de la distribucin. El segundo cuartil Q2 (la mediana), es el valor de la variable que deja a la izquierda el 50% de la distribucin. El tercer cuartil Q3 es el valor de la variable que deja a la izquierda el 75% de la distribucin.

Donde:

Li: Lmite inferior exacto del intervalo que contiene Q1. J: No. De datos que faltan para llegar al primer cuartil una vez que se ha alcanzado el lmite inferior exacto del intervalo que contiene al primer cuartil. FQ1: Frecuencia del primer cuartil. C: Ancho de clase.

g. Representacin grafica

i. Histograma
20

Probabilidad y Estadstica |

Los histogramas constituyen una forma grfica de representarlas. Un histograma se constituye asignando a las medidas de las clases la escala horizontal y a las frecuencias de cada una de las clases la escala vertical. En general no es conveniente emplear histogramas cuando algunas clases son abiertas o cuando los intervalos de las clases no son iguales.

ii. Polgono de frecuencia


En los polgonos de frecuencias cada clase se representa por un punto cuya coordenada horizontal es la marca de clase y cuya coordenada vertical es la frecuencia de la clase.

iii. Diagrama de pie o pastel


Es donde las categoras son representadas como sectores o rebanadas proporcionales al tamao de las categoras.

3. Recoleccin de datos

Dentro de la recoleccin de datos nos dimos a la tarea de investigar las calificaciones de 50 alumnos inscritos en el ITESS de la materia en la cual cremos que sera ms variable en comportamiento de los datos como las matemticas ya que dentro de esta materia a muchos de nosotros se nos complica por varias razones.

Los datos que obtuvimos son:

0, 83, 12, 81, 75, 80, 73, 71, 72, 70, 91, 72, 92, 71, 83, 73, 0, 80, 76, 80, 71, 73, 81, 83, 0, 70, 75, 78, 95, 80, 75, 73, 77, 86, 70, 87, 96, 72, 99, 86, 71, 84, 73, 85, 92, 77, 88, 84, 96, 100

Posteriormente se calcul el nmero de clases para agrupar los datos obtenidos mediante la frmula:
K= 20

Probabilidad y Estadstica |

En donde k ser el nmero de clases y n es el nmero total de los datos que tenemos. Al realizar la operacin obtenemos que el nmero de clases con las que trabajaremos sea 7 clases.

Antes de determinar las clases tenemos que obtener la amplitud que deben tener cada una para lo que utilizaremos la frmula de amplitud que es: C= DM-Dm/K

Donde la amplitud es la diferencia entre el dato mayor y el dato menor de los datos divididos entre el nmero de clases que es 7. Y obtenemos el resultado de 14.2 y lo redondeamos en 14, esta ser la amplitud que tendremos entre el lmite inferior y el lmite superior en cada una de las clases. Ahora podemos determinar la distribucin de frecuencias.

Calificaci n 0-14 15-29 30-44 45-59 60-74 75-89 90-104

Frecuencia (fi) 4 0 0 0 15 23 8

En esta tabla estn determinadas las 7 clases con la amplitud de 14, en la segunda columna encontramos la frecuencia de la clases, que no es ms que el nmero de datos que entran en esa clase.
20

Probabilidad y Estadstica |

4. Analisis de los datos


a. Medidas de tendencia central Media
Posterior mente se determinara la media mediante la frmula:
=

En donde nos dice que la media la obtendremos de la sumatoria de la marca de clase por la frecuencia de la clase, entre el nmero de datos.
Calificac in 0-14 15-29 30-44 45-59 60-74 75-89 90-104 Frecuenci a (fi) 4 0 0 0 15 23 8 Marca de Clase (mi) 7 22 37 52 67 82 97

Para esto le agregaremos una columna a nuestra tabla en donde determinaremos la marca de clase, la cual la obtenemos de la suma de los limites interior y superior dividiendo entre 2, lo cual significa que la marca de clase es el punto medio de la clase.
20

Probabilidad y Estadstica |

Calificaci n 0-14 15-29 30-44 45-59 60-74 75-89 90-104

Frecuencia (fi) 4 0 0 0 15 23 8

Marca de Clase (mi) 7 22 37 52 67 82 97 =

mifi 28 0 0 0 1005 1886 776 3695

Al realizar la operacin de multiplicar la frecuencia por la marca de clase los resultados los resultados se suman y se dividen entre 50 que son el nmero total de nuestros datos, el resultado de esto es el promedio o media.

=3695/50

En donde el resultado nos indica que el promedio de las calificaciones de los 50 alumnos del ITESS, en la materia de matemticas es de:

=73.9

Mediana
20

Probabilidad y Estadstica |

Para determinar la mediana necesitamos saber en qu clase se encuentra el dato de la mediana, para esto necesitaremos la frmula:
Med =

En donde al nmero de datos le sumanos 1 y se divide entre dos para determinar el nmero de dato al que le corresponde por su posicin ser la mediana.

Despus utilizaremos la siguiente formula:

Li+ (

)c

En donde Li es el lmite inferior de la clase en donde se encuentra el dato que determinamos anteriormente.

Que en este caso es 25.5, buscamos en la tabla en la columna de la frecuencia acumulada y el lmite inferior de esa clase es que se utilizara para determinar la mediana, posteriormente el nmero de datos los dividimos entre dos, le sumamos la frecuencia acumulada anterior, lo dividimos entre la frecuencia que tiene la clase en la que se encuentra la mediana, este resultado lo multiplicamos por la amplitud y por ultimo le sumamos el lmite inferior y obtendremos la mediana.

20

Probabilidad y Estadstica |

Calificaci n 0-14 15-29 30-44 45-59 60-74 75-89 90-104

Frecuencia (fi) 4 0 0 0 15 23 8

Marca de Clase (mi) 7 22 37 52 67 82 97 =

mifi 28 0 0 0 1005 1886 776 3695

Frecuencia Acumulada (fa) 4 4 4 4 19 42 50

En este caso la mediana se encuentra en la sexta clase porque nos dice la frecuencia acumulada que la quinta clase termina en el dato nmero 19 y la sexta comienza del dato 20 hasta el 42, por eso esta ser la clase la cual emplearemos para determinar la mediana. Por lo tanto nuestra formula quedara de la siguiente manera sustituyendo los valores que ya sabemos. Med = 75+ ( ) 14

En donde nos da como resultado:

Med=78.64

Esto es que la mediana, la calificacin que se encuentra justo en medio de las 50 calificaciones es la de 78.64.

Moda

20

Probabilidad y Estadstica |

Para determinar la moda de las calificaciones utilizaremos la siguiente formula:


Mo= +( )c

Para obtener la moda necesitamos el lmite de la clase en donde est la moda, esto es la clase que tiene la mayor frecuencia, en la segunda parte de la formula ser la divisin de d1 entre la suma de d1 y d2, en donde d1 es la diferencia de la frecuencia de la clase modal y la clase anterior, d2 es la diferencia de la frecuencia de la clase modal y la frecuencia de la siguiente clase, el resultado de esta divisin se multiplica por la amplitud y se suma el lmite inferior de la clase modal.

Esto queda de la siguiente manera: Mo=75+ ( ) 14

Mo= 77.94

Donde el resultado obtenido de 77.94 nos dice que la calificacin que ms se repite es el 77.94 o sus ms cercanos en promedio la mayora de los alumnos estn entre el 75 y 80 de calificacin.

b. Medidas de dispersin

Varianza

La varianza es la diferencia promedio entre los datos. Y se determina por la siguiente formula: S2=

20

Probabilidad y Estadstica |

En donde Sxx lo determinamos por:

Sxx=

mi2fi ((mifi)2/n)

n- 1

Entonces para que estas operaciones nos sean ms fciles agregamos columnas a nuestra tabla.

Calificaci n 0-14 15-29 30-44 45-59 60-74 75-89 90-104

Frecuencia (fi) 4 0 0 0 15 23 8 50

Marca de Clase (mi) 7 22 37 52 67 82 97

mifi 28 0 0 0 1005 1886 776 3695

Frecuencia Acumulada (fa) 4 4 4 4 19 42 50

mi2 49 484 1369 2704 4489 6724 9409

mi2fi 196 0 0 0 67335 154652 75272 297455

Ahora sustituimos los valores en nuestra formula: Sxx= 297455- (3695)2 50 49 El resultado que obtenemos es: Sxx= 497.8

20

Probabilidad y Estadstica |

Si en realidad es una cantidad muy grande para que sea la varianza pero esto sucede porque los datos que agrupamos van de cero hasta 100 por lo que la varianza es tan grande pero ahora veremos la desviacin estndar.

Desviacin Estndar

La desviacin estndar la tenemos dada por la frmula: S=

En donde se realiza la misma operacin que en la varianza pero en este caso se le saca raz cuadrada. En donde el resultado obtenido es: S=22.3 Esta quiere decir que los datos estn concentrados entre este promedio, ya que si le sumamos a la media este valor no da en donde estn ms cargados los datos, como quien dice en donde es la escala en donde se encuentra concentrada la mayor cantidad de datos, es el marco de error, hacia sonde se desvan los datos.

Coeficiente de Asimetra de Pearson

Para determinar la asimetra de Pearson necesitamos la frmula: Asimetra = 3 ( -Med) S Al sustituirla obtenemos: Asimetra = 3 (73.9-78.64) 22.3

El resultado final es de:


20

Probabilidad y Estadstica |

Asimetra = - 0.63

Esto nos servir para determinar qu tipo de simetra es cuando tenemos el siguiente enunciado si es igual a 0 es simtrica, si es diferente a 0 es asimtrica dependiendo de las formas de curva, al igual que lo determinaremos con las diferentes representaciones graficas ms adelante.

Coeficiente de variacin
Para obtener el coeficiente de variacin necesitamos la frmula: Cv = S (100%)

Que sustituyendo obtenemos: Cv = 22.3 (100%) 73.9

Donde el resultado es: Cv = 30%

En donde sabemos que la varianza va a tener un marco de error del 30%.

c. Medidas de posicin

Para determinar las medidas de posicin, solo calcularemos los cuartiles para lo cual necesitamos la siguiente formula:

Q= Li + J FQ

(C)

20

Probabilidad y Estadstica |

En donde necesitaremos determinar primero la posicin de cada uno de los cuartiles con la frmula: Q= n/4

En este caso iremos multiplicando n por el nmero de cuartil que vayamos a calcular. J es la diferencia de la posicin que obtengamos entre la frecuencia de la clase en donde estar el cuartil y la frecuencia acumulada anterior, y c es a amplitud.

Para determinar el primer cuartil obtenemos:

Q1= 50/4 = 12.5

Posteriormente solo sustituimos los valores.

Q1= 60 + (12.5-4) (14) 15

Donde nos el resultado nos dice que el cuartil numero uno es:

Q1= 67.84

Para el cuartil nmero 2 y 3 desarrollamos los mismos pasos.

Q2= 2(50)/4 = 25

Q2= 75 + (25-19) (14)

20

Probabilidad y Estadstica |

23

Q2= 78.64

Q3= 3(50)/4 = 37.5

Q2= 75 + (37.5-19) (14) 23

Q3= 89.8

Adems de que los cuartiles no dicen en donde esta divididos nuestros datos en cuartos, determinando los 25% de estos. El cuartil uno nos dice que el 25% de los datos esta desde 0 hasta el dato 67.84. El cuartil dos nos dice que el 50% de las calificaciones estn hasta el 78.64, y el cuartil tres nos dice que el 75% de las calificaciones esta hasta el 89.8. Por lo tanto que el determinar el cuarto cuartil ya no es necesario ya que este nos dar el 100% de los datos.

Tanto que podemos ver que el cuartil dos y tres se encuentran en la misma clase.

20

Probabilidad y Estadstica |

5.

Interpretacin de los datos


a. Histograma

Parte de la interpretacin de los datos obtenidos ya se estuvo dando dentro de los apartados anteriores, ahora solo se analizara el comportamiento de estos mediante las diferentes representaciones grficas.

20

Probabilidad y Estadstica |

Comenzaremos con el histograma, en el que empleamos en el eje de las x las clases, en el eje de las y la frecuencia por lo tanto obtenemos lo que se representa en la figura siguiente.

Podemos ver lo que se vea en la tabla pero ahora en grfica, vemos que la que tiene ms frecuencia es en la clase nmero 6, seguida de la 5 y as sucesivamente.

Al igual que nos dice que la media, moda y mediana se encuentran en la sexta clase por lo tanto ahora podemos decir que nuestra muestra de datos es un asimtrica negativa ya que las tres medidas de tendencia centran se encuentran dentro de la misma clase, nos muestra que las frecuencias tienen tendencia hacia la derecha.

20

Probabilidad y Estadstica |

b. Polgono de frecuencia

En el polgono de frecuencia los datos que empleamos son: la frecuencia y en este caso la marca de clase. Para que obtengamos el punto medio ms alto de la frecuencia dentro de la clase por eso se emplea la marca de clase porque es el punto medio de la clase.

Como podemos ver, los puntos estn en los centros de las clases porque como lo mencione anteriormente se toma como referencia la marca de clase, y la frecuencia es el nmero de alumnos que tienen esa calificacin.

Ahora, se denomina polgono de frecuencia ya que se observa como en la primera clase solo 4 de los 50 alumnos son reprobados, que es una calificacin menor a 20.

20

Probabilidad y Estadstica |

En las siguientes 3 clases la frecuencia es de 0, en donde estas clases abarcan las calificaciones de 15 a 60 de calificacin, por lo que continuamos con un indice de 4 con calificacin ms baja.

Como podemos ver en la siguiente parte hay un incremento de cero 15 los alumnos que comenzaron a ser parte de los alumnos que con el mnimo de calificacin alcanzaron a pasar en la materia de matemticas.

Posteriormente vemos que hay otro incremento donde 23 de los 50 alumnos tienen una calificacin entre el 75 y 89, pero despus hay un decremento donde solo 8 de los 50 alumnos tienen una calificacin de 90 a 100 que es la calificacin mxima.

c. Diagrama de pastel

El diagrama de pastel es una circunferencia en la cual delimitamos el porcentaje de los datos, que porcentaje ocupan del 100%.

20

Probabilidad y Estadstica |

Aqu podemos ver que la primera clase que es de 0 a 14 de calificacin le corresponde 8%, en cambio de las clases 2, 3, 4, no aparecen dentro de la grfica porque tienen un valor de cero ya que no hay alumnos con la calificacin que se encuentran dentro de esas clases.

La quinta clase tiene un porcentaje del 16%, la sexta tiene un 46% y finalmente la sptima cuenta con un 30%.

Por lo tanto confirmamos que el 76% tiene una calificacin mayor a 75, por lo que podemos deducir que ms del 70% de los alumnos del ITESS son buenos en matemticas pero como en todos lados hay sus excepciones.

6. Conclusin
Para finalizar este pequeo anlisis en donde aplicamos todo lo aprendido de la primera unidad.

Nos dimos cuenta de que en el Tecnolgico Superior de Salvatierra no son muchos los que reprueban, y son ms los que aprueban en la materia de matemticas, en un segundo anlisis llevaremos a cabo la investigacin solo de un grupo pero tomando en cuenta todas las materias que se lleven en ese
20

Probabilidad y Estadstica |

semestre para s determinar cul es el aprovechamiento de los alumnos en el ITESS.

Pues como ya lo demostramos, al finalizar esta unidad de la materia de probabilidad y estadstica, los conocimientos adquiridos fueron, desde datos no agrupados a datos agrupados, calcular las medidas de tendencia central, medidas de desviacin y medidas de posicin, adems de que aprendimos a graficas los resultados que esto nos arrojaba.

Adems de que en su momento lo aplicaremos en la industria.

20

Probabilidad y Estadstica |

7. Bibliografa
http://www.vitutor.com/pro/2/a_1.html http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensi onal_lbarrios/definicion_est.htm http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/3.html Estadstica bsica, Guillermo Pastor, Editorial Trillas.

20

Probabilidad y Estadstica |