ESTADÍSTICA.

ESTADÍSTICA DESCRIPTIVA: Estadística descriptiva se refiere a la recolección, presentación, descripción, análisis e interpretación de una colección de datos. Esencialmente consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadística Descriptiva es el método de obtener de un conjunto de datos conclusiones sobre sí mismos que no sobrepasan el conocimiento proporcionado por éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se conocen los elementos de una muestra. ESTADÍSTICA INFERENCIAL: La estadística Inferencia, es el proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa. Uno de los aspectos principales de la inferencia es la estimación de parámetros estadísticos. Para que éstas generalizaciones sean válidas la muestra deben ser representativa de la población y la calidad de la información debe ser controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad que con que se pueden cometer esos errores. POBLACIÓN: Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. MUESTRA: En estadística una muestra (también llamada muestra aleatoria) es un subconjunto de casos o individuos de una población estadística, que se obtienen con a intención de inferir propiedades de la totalidad de la población. Son representativas de la población. El número de sujetos que componen la muestra suele ser inferior al de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. VARIABLE ESTADÍSTICA. Es una característica (magnitud, vector o número) que puede ser medida, adoptando diferentes valores en cada uno de los casos de un estudio. CLASIFICACIÓN DE LAS VARIABLES. Se pueden clasificar según la escala de medición o la influencia que asignemos a unas variables sobre otras. • Según su escala de medición. -Variables cualitativas: Son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Pueden ser dictónomicas si sólo pueden tomar dos valores (como sí o no, hombre o mujer…) o politócmicas si pueden adquirir tres o más valores. Dentro de ellas podemos distinguir entre variable cualitativa ordinal (en la que la variable puede tomar distintos valores ordenados siguiendo una escala establecida) y variable cualitativa nominal (en la que los valores de la variable no están sometidos a ningún criterio de orden). -Variables cuantitativas: Son las variables que se expresan mediante cantidades numéricas. Las variables cuantitativas además pueden ser discretas si presentan separaciones o interrupciones en la escala de valores que puede tomar, o continuas si la variable puede adquirir cualquier valor dentro de un intervalo específico de valores. • Según la influencia que asignemos a unas variables y otras, pueden ser: -Variables independientes: Pueden modificar a las variables dependientes. -Variables dependientes. Son las variables de respuesta que se observan en el estudio y están influenciadas por los valores de las variables independientes. FRECUENCIA ESTADÍSTICA. Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Existen varios tipos de frecuencias. Frecuencia absoluta (ni) de una variable estadística Xi. Es el número de veces que aparece en el estudio este valor. La suma de todas las frecuencias absolutas debe dar el total de la muestra estudiada (N). Frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el tamaño de la muestra (N). Corresponde a la siguiente fórmula, siendo el fi para todo el conjunto de i. Se suele presentar en una tabla. Si se multiplica por 100 se obtiene el porcentaje o tanto por ciento de valores que presentan esta característica dentro del conjunto N.

Frecuencia absoluta acumulada (Ni), es el número de veces ni en la muestra N con un valor igual o menor al de la variable. La última frecuencia absoluta acumulada deberá ser igual a N. Frecuencia relativa acumulada (Fi), es el cociente entre la frecuencia absoluta acumulada y el número total de datos, N. Es decir, Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi)), que al igual que Fi deberá de resultar al final el 100% de N.

MEDIDAS DE CENTRALIZACIÓN. Indican los valores más representativos de un conjunto de datos. Son la media, la mediana y la moda.

MEDIA -Media Aritmética. Es la suma ponderada de los valores de la variable por sus frecuencias relativas. Se le llama X. xi representa el valor de la variable o en su caso la marca de clase.

-Media Geométrica. La media geométrica de N observaciones es la raíz de índice N del producto de todas las observaciones. Se representa con la letra G. Sólo se puede calcuar si no hay observaciones negativas. No es muy usual.

-Media Armónica. La media armónica de N observaciones es la inversa de la media de las inversas de las observaciones. Se le llama H. Su utilización es poco frecuente.

MEDIANA. La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide la muestra en dos. Si el N es impar se utiliza la siguiente fórmula:

Si el N es par, hay dos términos centrales:

la mediana será la medida de dos valores.

MODA. La moda es el valor de la variable que tenga mayor frecuencia absoluta. CUARTIL. Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales. Se le denomina Q. El primer cuartel es :

En el segundo y tercer cuartil, n será 2n y 3n respectivamente. PERCENTIL. Son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. MEDIDAS DE DISPERSIÓN: Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad; cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. Son el recorrido, la varianza, la desviación típica y la cuasivarianza. RECORRIDO. El rango o recorrido de un conjunto de datos es la diferencia entre el mayor y el menor valor de los datos. VARIANZA: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las difrencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.

DESVIACIÓN TÌPICA: La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística.

Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1. Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por:

Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones. CUASIVARIANZA. Es una medida de dispersión, cuya única diferencia con la varianza es que dividimos por N-1, la representaremos por o y la calcularemos de la siguiente forma.

COEFICIENTE DE CURTOSIS. El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis: -Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). -Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. -Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Los resultados pueden ser los siguientes: g2 = 0 (distribución mesocúrtica) . g2 > 0(distribución leptocúrtica ). g2 < 0 (distribución platicúrtica) .

COEFICIENTE DE ASIMETRÍA. Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o asimetría) que presenta una distribución de probabilidad de una variable aleatoria sin tener que hacer su representación gráfica. Como eje de simetría consideramos una recta paralela al eje de ordenadas que pasa por la media de la distribución. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo. Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. Diremos que

hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda. El coeficiente de asimetría de Fisher, representado por γ1, se define como: donde μ3 es el tercer momento en torno a la media y σ es la desviación estándar. Si γ1 = 0, la distribución es simétrica. Si γ1 > 0, la distribución es asimétrica positiva o a la derecha. Si γ1 < 0, la distribución es asimétrica negativa o a la izquierda. Coeficiente de asimetría de Pearson Sólo se puede utilizar en distribuciones campaniformes, unimodales y moderadamente asimétricas. Se basa en que en distribuciones simétricas la media de la distribución es igual a la moda. Si la distribución es simétrica, μ = moda y Ap = 0. Si la distribución es asimétrica positiva la media se sitúa por encima de la moda y, por tanto, Ap = 0. Coeficiente de asimetría de Bowley Está basado en la posición de los cuartiles y la mediana, y utiliza la siguiente expresión:

En una distribución simétrica el tercer cuartil estará a la misma distancia de la mediana que el primer cuartil. Por tanto AB = 0. Si la distribución es positiva o a la derecha, AB = 0. VARIABLE ESTADÍSTICA BIDIMENSIONAL: Una distribución bidimensional es aquella que se obtiene al estudiar un fenómeno respecto de dos variables estadísticas unidimensionales. Estas variables las representamos por el par de caracteres X e Y, donde X es una variable unidimensional que toma los valores x1, x2…xn; e Y es otra variable unidimensional que toma los valores y1, y2…yn. NUBE DE PUNTOS. Es una forma de representar gráficamente una variable bidimensional de coordenadas cartesianas. Cada punto representa la puntuación que el sujeto obtiene en las dos variables, determinando su puntuación por la lectura de los valores que aparecen en la escala vertical y horizontal. Supongamos los datos de la siguiente tabla, se representarían en la siguiente gráfica. Es una forma de verificar el tipo de relación que se establece entre las dos variables. X 1 2 3 4 5 Y 1 2 3 5 5

COVARIANZA. La covarianza de dos variables X e Y se representa S(X,Y) y se define con la siguiente fórmula:

-Si Sxy > 0 hay dependencia directa o positiva, lo que significa que a grandes valores de x corresponden grandes valores de y. -Si Sxy = 0 no existe una relación lineal entre las dos variables estudiadas. -Si Sxy < 0 hay dependencia inversa o negativa, lo que significa que a grandes valores de x corresponden pequeños valores de y. CORRELACIÓN. La correlación es la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Consideramos que dos variables aleatorias están relacionadas, cuando al variar los valores de una, también varían sistemáticamente los de la otra, y viceversa. La relación entre dos de estas variables se representa mediante la línea de mejor ajuste trazada a partir de la nube de puntos. Los principales componentes de una correlación (y de una línea de ajuste) son la fuerza, el sentido y la forma. La fuerza mide el grado en que la línea representa la nube de puntos (si es recta es fuerte, si es circular es débil); el sentido mide la variación de los valores de una variable respecto a la otra, y la forma establece el tipo de línea que define mejor el ajuste (línea rectal, curva monotónica o curva no monotónica). COEFICIENTES DE CORRELACIÓN. Los coeficientes de correlación miden el grado de correlación, adaptándose a la naturaleza de los datos. El más conociedo es el coeficiente de correlación de Pearson, que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar. Siendo: σXY la covarianza de (X,Y) σX y σY las desviaciones típicas de las distribuciones marginales.

REGRESIÓN LINEAL. La regresión lineal o ajuste lineal es un método matemático para modelizar la relación entre una variable dependiente Y, una variable independiente X y un término aleatorio ε. Se expresa como:

Donde β0 es la intersección o término “constante”, el número de parámetros independientes a tener en cuenta. Es la recta que mejor se ajusta a la nube de puntos.

son los parámetros respectivos de cada variable independiente, y p es

RECTA DE REGRESIÓN. La recta de regresión permite pronosticar la puntuación que alcanzará cada sujeto en una variable conociendo su puntuación en otra variable. Ecuación de la recta de regresión de Y sobre X. Se utiliza para pronosticar los valores de la Y a partir de los valores de la X.

Ecuación de la recta de regresión de X sobre Y. Se utiliza para pronosticar los valores de la X a partir de los valores de la Y.