UNIVERSIDAD NACIONAL EXPERIMENTAL “FRANCISCO DE MIRANDA” AREA DE TECNOLOGIA UNIDAD CURRICULAR: ESTADISTICA PROFESOR(A): ING. MERLY ROJAS.

UNIDAD TEMATICA I. ESTADISTICA DESCRIPTIVA. INTRODUCCION Y CONCEPTO DE ESTADISTICA. La estadística es el área de las matemáticas que permite recoger, organizar, resumir, presentar y analizar datos sobre fenómenos y procesos. Pero, el trabajo del especialista en estadística no consiste sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa información para obtener conclusiones y tomar decisiones basadas en esos análisis. INICIOS DE LA ESTADISTICA. Su aplicación es muy amplia, por ejemplo, en la interpretación de fenómenos físicos, meteorológicos, biológicos, de las ciencias sociales y de las organizaciones. El avance de la computación numérica y el desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística, ayuda a investigar en todas las áreas de las Ciencias de la vida (biología, ecología, medicina, entre otras) en donde los datos observados presentan una gran variabilidad. Con la divulgación del método científico en el siglo XIX, para estudiar los fenómenos de ciencias naturales y sociales, los investigadores comenzaron a reducir la información a valores numéricos para una mayor comprensión de los fenómenos observados.

Año 3000 a.c ↓ Se utilizaban aplicaciones de la estadística como Símbolos tallados en → distintos materiales (piedra, pieles, maderas, cuevas, tablillas de arcilla). → Censos, datos numéricos, pagos de impuestos, pagos agrícolas.

Representaciones Graficas.

ALGUNOS CONCEPTOS. La estadística se aplica sobre la variabilidad, y la relación existente entre la población y la muestra, clasificándola en: a.- Estadística Inferencial: permite generalizar los datos de las muestras a un número más grande de individuos, es decir que pretende obtener información de toda la población analizando cualquier muestra posible. b.- Estadística Descriptiva: se dedica a la presentación, organización y resumen de los datos observados, y busca obtener información de la muestra conociendo la población. El mundo presenta una enorme variabilidad, por ejemplo los seres vivos son distintos entre si, y aportan diversidad a la población. Muchas son las características que pueden variar de un individuo a otro (sexo, nacionalidad, color de cabello, color de ojos, color de piel, edad, reacción a medicinas, a tratamientos, al sol), se les llama variables y se les clasifica en variable cualitativa y variable cuantitativa. Concepto Variable: Es aquella característica que toma valores numéricos y es la que varía de un elemento a otro. El valor asumido por la variable en cada caso es llamado Dato. a.- Variable Cualitativa: Es aquella que expresa cualidades, características. No se puede medir numéricamente. Ejemplo: El color de una solución cuando se quiere saber su acidez o basicidad. b.- Variable Cuantitativa: Es aquella que se expresa en valores numéricos, pueden medirse. Ejemplo: La temperatura, la presión. Se clasifica en: b.1.- Variable cuantitativa discreta: Variable que se expresa en números enteros. No admite valores intermedios. Ejemplo: El número de soluciones con las que se trabajará.

b.2.- Variable cuantitativa continua: Variable que admite números reales, admite cualquier valor dentro de un rango numérico intermedio. Ejemplo: La temperatura, y sus valores estarán dentro de un rango entre 145,5 y 165,7: 145,5 - 148,7 – 158,45 – 164,6 – 165,7. Cuando se estudia el comportamiento de una variable en una Población, hay que tomar en cuenta que ésta es demasiado grande para poder abarcarla, entonces se toma una Muestra formada por miembros seleccionados de la población y que es suficientemente representativa. Concepto de Población: Conjunto grande Parámetro. Esta puede ser: a.- Finita: Es limitada. Se puede contar y enumerar. Ejemplo: Cantidad de intercambiadores en una Refinería, dentro de una Planta específica. b.- Infinita: se puede contar más no enumerar. Ejemplo: Cantidad de intercambiadores de calor en las refinerías petroleras. Concepto de Muestra: Subconjunto de la población, limitada a la cual se le realizan las mediciones para obtener la información sobre la población en estudio. Se denota con la letra n. Se estudian muestras mayores de 30(donde se trabajan con intervalos), y menores o iguales a 30( donde se trabajan con variables). Toda medida de una muestra se llama Estadístico. de elementos o individuos que poseen una

característica en común. Se denota con la letra N. Toda medida de la población se llama

Población. (N > n)

Muestra.

Además debe recordarse que cada elemento de la población es estudiado, donde éste proceso se le llama Censo, con el cual se le realiza un estudio a cada uno de los elementos que conforman una población. Se tiene como principal ejemplo el censo que se realiza cada 10 años, que permite conocer la tasa de natalidad y mortalidad de dicha población.

Conociendo ya conceptos básicos se puede conocer el método utilizado para la representación de datos cuantitativos. REPRESENTACION DE DATOS CUANTITATIVOS. Cuando se toman datos de una muestra, estos son inicialmente conspilados en una base de datos que se llama Distribución de Frecuencia, para luego ser representados en forma gráfica ayudando a visualizar e interpretar la variación de los datos. Distribución de Frecuencia: representación estructurada en forma de tabla de toda la información que se obtiene sobre la variable que se estudia. Para realizar la distribución de frecuencia según el tamaño de la muestra con la cual se trabaja se deben seguir unos pasos y conocer como obtener cada uno de los datos necesarios. Pasos para construir una Distribución de Frecuencia: 1.- Determinar el número de clases o intervalos (Ni): Se obtiene con la raíz cuadrada del tamaño de muestra. Este debe estar entre 5 y 15. Ni = √n Pero, ¿que es el número de clases o intervalos? El número total de grupos en que se clasifica la información, contienen los límites de clase que son los puntos extremos del intervalo, los cuales pueden ser aparentes o reales, abiertos o cerrados: a.- Aparentes: son los límites que se obtienen de los datos proporcionados por el ejercicio. Son denotados (Xi – Xs), limite aparente inferior y limite aparente superior, son números enteros. b.- Reales: son los límites que se obtienen sumando o restándole 0,5 a la última cifra significativa. Son denotados (Li – Ls), limite real inferior y limite superior. c.- Abierto: es aquel conformado por un límite. En el caso de los aparentes (X), en este caso se dice que se trabaja con la variable. d.- Cerrado: es aquel conformado por los dos límites tanto el inferior como el superior. 2.- Determinar la amplitud de los intervalos (A): La amplitud es la diferencia entre los límites aparentes de una clase. Se obtiene de la relación existente entre el rango y el número de intervalos. Se conoce como obtener el número de intervalos, pero, ¿como se obtiene el rango?. El rango se obtiene por la diferencia de los límites tanto aparentes como reales. Rango limites aparentes: R = Xs – Xi – 1

Rango limites reales: R = Ls – Li En el caso de obtener la amplitud se trabaja con limites aparentes ya que estos son los proporcionados por el ejercicio ya que los limites reales son aquellos que se conocen sumándoles o restándoles 0,5 a la ultima cifra significativa , pero, ¿ a quienes?, a los limites aparentes. Entonces: A= R / Ni

3.- Determinar el punto inicial de la primera clase o intervalo: Se obtendrá el primer limite aparente o el menor valor de la serie de datos, el cual será el punto inicial del primer intervalo formado. 4.- Construir la distribución de frecuencia o tabla de datos: Se procede entonces a tabular los datos que se conocen de la serie proporcionada por la variable estudiada en dicho ejercicio. Xi - Xs Donde: a.- Limites Aparentes (Xi – Xs) = 16 – 20. b.- Frecuencia absoluta (f): Es el número de veces que se repite un valor. c.- Frecuencia absoluta acumulada (F): Indica cuantos casos hay por debajo o por encima de un determinado valor. Y se obtiene sumando los valores de la frecuencia absoluta, siempre tomando el primer valor de la frecuencia absoluta como el primer valor de la frecuencia absoluta acumulada. d.- Frecuencia Relativa (h): Indica la proporción que representa la frecuencia absoluta de cada intervalo de clase en relación al total. El total esta representado por n, que es el tamaño de muestra con que se trabaja. Entonces: menor a 1. e.- Frecuencia Relativa acumulada (H): Indica la proporción de datos que se encuentra por debajo o por encima de cierto valor. Y se obtiene sumando los valores de la frecuencia relativa, siempre tomando el primer valor de la frecuencia relativa como el primer valor de la frecuencia relativa acumulada. f.- Porcentaje: El porcentaje se obtiene multiplicando cada uno de los valores de la frecuencia relativa acumulada por 100 %. g.- Marca de clase o Punto medio (Xm): Punto medio del intervalo de clase. Este se obtiene con la siguiente formula: Para limites aparentes: Xm = Xi + Xs / 2. h = f / n. La suma al final debe dar como resultado 1 o f F h H % Xm Li - Ls

Y para limites reales Xm = Li + Ls / 2. Trabajando entonces con los límites aparentes los cuales son aquellos que en principio se conocen por la serie de datos. h.- Limites Reales (Li – Ls): 15,5 – 20,5.
Xi - Xs 16 –20 f f1 = 4 F F1= f1 4 21 - 25 f2 = 3 F2= f1+f2= 7 26 - 30 f3 = 5 F3= f2+f3= 12 h h1=f1/n= 4/30=0,13 h2=f2/n= 3/30=0,1 h3=f3/n= 5/30=0,16 H H1=h1= 0,13 H2=h1+h2= 0,13+0,1 =0,23 H3=H2+h3= 0,23+0,16 =0,39 31 - 35 f4 =12 F4= f3+f4= 24 36 - 40 f5 = 6 F5= f4+f5= 30 n = 30 h4=f4/n= 12/30=0,4 h5=f5/n= 6/30= 0,2 ∑=h1+h2+h3+h4+h5 =0,99≈1 H4=H3+h4= 0,39+0,4 =0,79 H5=H4+h5= 0,79 + 0,2 =0,99 ≈ 1 H4*100%= 79% H5*100%= 100% 28 31+35/2 = 33 36+40/2 = 38
35,5-40,5 30,5-35,5

% H1*100%= 13% H2^*00%= 23% H3*100%= 39%

Xm 16+20/2 = 18 21+25/2 = 23 26+30/2 =

Li - Ls
15,5-20,5

20,5-25,5

25,5-30,5

Debe tenerse en cuenta que la suma total de la frecuencia absoluta es igual al tamaño de la muestra y la suma total de la frecuencia relativa es igual o menor a 1. Luego de conocer como se realiza la distribución de frecuencia donde se tabulan los datos obtenidos del estudio de la variable, se desea conocer donde están ubicados sus valores, es por ello que se hace necesario el conocimiento de las medidas existentes las cuales darán el conocimiento de la variabilidad, dispersión de los valores de dicha variable y su representación grafica y que significa cada uno de sus valores. En principio se tiene las Medidas de Posición Central.

MEDIDAS PARA CONOCER DATOS MAS REPRESENTATIVOS DE LA DISTRIBUCION. a.- Medidas de Posición Central: Son aquellas que dan información de los valores medios de una serie de datos. Representan una característica de centro. Entre ellas se mencionan tres, la media, la mediana y la moda Todas ellas para dos casos, cuando se trabaja con un tamaño de

muestra menor o igual a 30 y para un tamaño de muestra mayor de 30, un valor poblacional (µ), y un valor muestral ( X ), dependiendo del caso en estudio. a.1.- Media (x): Valor medio promedio de una serie de datos. Representa el centro de la distribución de los datos. Y se obtiene para dos casos, uno poblacional y otro muestral. Para n ≤ 30: Para n > 30: Donde: Xi = Valor total que asume la variable en caso de trabajar con una muestra menor o igual a 30. fi = frecuencia absoluta. N= población. n = tamaño de muestra. Xmi = Valor total que asume la marca de clase en caso de trabajar con una muestra mayor de 30. µ = ∑ Xi * fi / N µ = ∑ Xmi * fi / N X= ∑ Xi * fi / n X= ∑ Xmi * fi / n

a.2.- Mediana ( Xd ): Valor de la serie de datos que se sitúa en el centro de la muestra, obteniéndose 50 % por encima y 50 % por debajo. Para n ≤ 30: Xd = Xi = en el caso de trabajar con una muestra menor o igual a 30, el valor de Xd, estará dado por el valor que se obtenga buscando el lugar. serie de datos es par y cuando es impar. Se trabaja entonces con una formula que dará el lugar donde se encontrara el valor que se busca: L = n + 1/ 2 Donde L será el lugar donde se encuentra Xd. Entonces se trabaja de la siguiente manera para cada caso: Caso Par: Se da una serie de datos: 4 11 13 2 9 5 Se procede a ordenar los datos de menor a mayor: 2 4 5 9 11 13 En este caso n = 6, porque se tiene 6 datos. Se busca el valor del lugar: L = n + 1 / 2 = 6 + 1/ 2 = 7/ 2 = 3,5 Teniendo el valor del lugar se va a la serie de datos y se cuenta los lugares: Serie de datos: 2 L=1 4 2 3 5 9 4 11 5 13 6 En este caso se presenta dos casos, cuando la

Se toman los valores de la serie de datos que están a los lados de la recta que la divide, en este caso están el 5 y el 9. Teniendo estos valores se procede a : Xd = 5 + 9 / 2 = 14 / 2 = 7 Entonces se tiene que Xd = 7. Caso Impar: Se da una serie de datos: 8 10 9 14 17 Se procede a ordenar los datos de menor a mayor: 8 9 10 14 17 En este caso n = 5, porque se tiene 5 datos. Se busca el valor del lugar: L = n + 1 / 2 = 5 + 1/ 2 = 6/ 2 = 3. Teniendo el valor del lugar se va a la serie de datos y se cuenta los lugares: Serie de datos: 8 L= 1 9 2 10 3 14 4 17 5

En este caso se obtuvo un valor del lugar igual a tres, se verifica en la serie de datos y se obtiene que 10 esta en el lugar 3, entonces: Xd = 10

Para n > 30: En este caso se trabaja con una formula. Recordando que los valores para sustituir en dicha formula los proporcionará, el valor que se obtenga del lugar. Xd = Li + ( L – Fii / fi ) * A Donde: Li = Limite real inferior donde se encuentra Xd. L = Lugar obtenido por la formula: n + 1 / 2. Fii = Frecuencia absoluta acumulada anterior a la frecuencia absoluta acumulada donde se encuentra Xd. fi = frecuencia absoluta donde se encuentra Xd. A = amplitud, obtenida al principio de la tabulación. a.3.- Moda ( Xo ): Es el valor que más se repite en la serie de datos. Es aquel que tiene el valor mayor de frecuencia absoluta. Para n ≤ 30: Xo = Xi = con frecuencia absoluta mayor.

Para n > 30: En este caso se tiene una formula, la cual se obtendrá el valor que se busca, proporcionados por aquel intervalo con mayor frecuencia absoluta. Xo = Li + ( di / di + ds )* A Donde: Li = Limite real inferior donde se encuentra Xo. di = distancia inferior y esta dada por: di= frecuencia absoluta mayor – frecuencia absoluta anterior a ella. ds = distancia superior y esta dada por: ds= frecuencia absoluta mayor – frecuencia absoluta posterior a ella. A = amplitud. b.- Medidas de Dispersión: Indican el grado de variabilidad de los datos. b.1.- Rango: es la diferencia entre el mayor y el menor valor de la serie de datos. Se tiene para límites aparentes y para límites reales. R = Xs – Xi – 1 (para limites aparentes). R = Ls – Li (para limites reales). b.2.- Varianza: Valor promedio de la desviaciones al cuadrado de las distribuciones con respecto a la media. Se tiene para valor muestral ( S 2) y para valor poblacional ( σ2), dependiendo del caso que se presente. Para n ≤ 30: S2 = ∑ fi * [ ( Xi - X )2 / n – 1 ] Para n > 30: S2 = ∑ fi * [ ( Xmi - X )2 / n – 1 ] σ2 = ∑ fi * [ ( Xi - µ )2 / N – 1 ] σ2 = ∑ fi * [ ( Xi -µ )2 / N – 1 ]

b.3.- Desviación Estándar: Indica el grado de dispersión de los datos. Para n ≤ 30: S = √ ∑ fi * [ ( Xi - X )2 / n – 1 ] Para n > 30: S =√ ∑ fi * [ ( Xmi - X )2 / n – 1 ] σ =√ ∑ fi * [ ( Xi - µ )2 / N – 1 ] σ =√ ∑ fi * [ ( Xi -µ )2 / N – 1 ]

b.4.- Coeficiente de Varianza: Es el valor porcentual de la relación existente entre la desviación estándar y la media . Indica el porcentaje de representatividad y homogeneidad de los datos. Cv = ( S/ X )* 100 % Para saber que tipo de homogeneidad presentan los datos, se da una tabla con % que indicaran que tipo de relación se tiene.

Cv ( % ) 26 – mas 16 – 25 11 – 15 0 - 10

Tipo de Relación Muy heterogénea Heterogénea Homogénea Muy homogénea

Cuando se obtienen valores de coeficiente de varianza entre 0 y 15 se habla que el valor de la media obtenido es representativo de la serie de datos, mientras que si se obtienen valores de coeficiente de varianza mayores entre 16 y mas se dice que el valor de la media calculado no es representativo de serie de datos, lo que puede arrojar un error o problema en la variable que se estudia y debe explicarse el porque de estos valores. c.- Medidas de Posición: Son valores que dividen la distribución en n partes iguales. Se pueden conocer otros puntos característicos de la distribución que no son los valores centrales. Se clasifican en: c.1.- Cuartiles: medida que divide un conjunto de datos en cuatro partes iguales ( Q ). Con el se conoce el 25 % de la información en cada división que se obtiene. Ejemplo: Q1= cuartil uno o primer cuartil. c.2.- Deciles: medida que divide un conjunto de datos en 10 partes iguales ( D ). Con el se conoce el 10 % de la información en cada una de las partes que se tienen. c.3.- Percentiles o Centiles: medida que divide un conjunto de datos en 100 partes iguales (Xp ). Se obtiene en cada división el 1 % de la información. Xp = Li + ( L – F.ant / fi )* A Donde : Xp = percentil.

Li = limite real inferior donde se encuentra Xp. L = n * p / 100 L = lugar donde se encuentra Xp. n = tamaño de la muestra. p = proporción. F.ant = frecuencia absoluta acumulada anterior al lugar donde se encuentra Xp. fi = frecuencia absoluta correspondiente a Xp. A = amplitud. d.- Medidas de Forma: Son medidas que permiten conocer que forma tiene la curva que representa la serie de datos. Para ello se debe conocer el concepto de sesgo: d.1.- Concepto de Sesgo: Se origina cuando no se puede fijar un punto medio que divida la curva en dos partes iguales, creando una mayor concentración en uno de los extremos de la curva. De acuerdo a si se presenta o no esta condición, se conocen dos tipos de distribuciones:

1) Simétrica: Se da cuando la recta vertical divide la distribución en dos partes iguales,
localizándose todas las medidas de posición central en el centro de la distribución.

Xd=X=Xo

2) Asimétrica: Se origina cuando la distribución presenta un sesgo, esta puede ser:
* Positiva: cuando la distribución presenta un sesgo a la derecha, la media se desplaza hacia la derecha de la moda, y todos los datos se concentran por debajo de la media, X > Xd > Xo.

Xo

X

Xd

*Negativa: cuando la distribución presenta un sesgo a la izquierda, la media se desplaza hacia la izquierda de la moda, los datos se concentran por encima de la media. Xo > Xd > X.

X Xo Xd De acuerdo al tipo de asimetría se presenta una ecuación y de acuerdo al valor que se obtenga se presenta una tabla de la cual se podrá conocer el tipo de distribución que se tiene. d.2.- Coeficiente de Asimetría: se utiliza para determinar el tipo de asimetría de una distribución de datos. Ca = X – Xo / S

Ca +-0,31 - +-1 +-0,11 - +-0,30 +-0,01 - +-0,1 0

Tipo de Distribución Marcadamente asimétrica Moderadamente asimétrica Ligeramente asimétrica Simétrica

Ca = 0 → Simétrica. Ca > 0 → Asimétrica positiva. Ca < 0 → Asimétrica negativa.

d.3.- Curtosis: Indica el grado de apuntamiento o altura de la curva o de la distribución. Su ecuación es la ecuación del percentil, ya que el percentil es la altura de la curva. Cu = X75 – X25 2(X90 – X10)

Donde: 75, 25, 90,10 = proporción. X75 = Xp = Li ( L – Fant/ fi ) * A

Esta curtosis se clasifica en tres tipos de acuerdo al grado de apuntamiento que presente la curva o distribución, estas son:

Mesocurtica (Cu = 0,263): Curva que presenta un apuntamiento igual a la curva normal.

Xd = X = Xo

Platocurtica (Cu < 0,263): Curva que presenta menor apuntamiento que la curva normal.

X

Leptocurtica (Cu >0,263): Curva que presenta mayor apuntamiento que la curva normal.

Xo REPRESENTACION GRAFICA DE DATOS. Existen varios tipos de gráficos para representar datos, en este caso solo se estudiaran algunos: a.- Grafico de Barras: Procedimiento gráfico empleado para representar los datos. Se representa por barras, siendo éstas proporcionales a la frecuencia o número de miembros de esa clase. Se estudiaran dos tipos de diagrama de barras, entre ellos, barras verticales simples y barras verticales con leyenda, y barras horizontales. En el estudio se tratara el diagrama de barras vertical simple.

Las barras del grafico deben estar separadas una de otra, teniendo en cuenta una distancia igual, es decir tomar en cuenta una escala. b.- Polígono de Frecuencia: Son gráficos de líneas trazadas sobre las marcas de clase. Se pueden obtener uniendo los puntos medios de los techos de los rectángulos en el histograma, apropiado para representar distribuciones de frecuencia, la altura es igual a la frecuencia; el polígono es cerrado, su amplitud es igual a las demás clases, pero con frecuencia igual a cero.

El polígono de frecuencia se da en dos casos, para datos agrupados y datos no agrupados. Para datos no agrupados se trabaja con variables y datos agrupados se trabaja con intervalos.

c.- Histograma de Frecuencia: apropiado cuando los datos están agrupados en distribuciones de frecuencia por clases. Está formado por rectángulos unidos a otros, la altura de cada rectángulo es proporcional a la frecuencia del intervalo respectivo, su base representa la amplitud del intervalo, los vértices de la base coinciden con los límites de los intervalos y su centro es la marca de clase.

d.- Diagrama de Pareto: se utiliza para organizar diversas clasificaciones de datos. Por orden descendente de izquierda a derecha; por medio de barras sencillas, muestra grupos de causas de error ordenadas según su frecuencia de aparición, ordenándolas desde la más común a la menos frecuente.

En diagrama de pareto, sigue el 80 % - 20 %, la cual da la respuesta correcta a los problemas mas persistentes de algún caso en particular. El 80 % de los problemas dan a conocer el 20 % de las causas que los producen, es decir las más importantes. Las causas deben estar ordenadas de mayor a menor, en caso contrario el diagrama no podrá mostrar la respuesta correcta. Conociendo ya, lo que estudia la Estadística Descriptiva, se podrá entonces realizar ejercicios que fortalezcan la teoría, donde se aplicaran todas las medidas existentes para conocer la representatividad de los datos y que forma arrojan en lo que respecta a su grafica.