Professional Documents
Culture Documents
Conceptos generales
Estadística → una ciencia que recoge, ordena y analiza los datos de una muestra extraída
de una determinada población, para hacer inferencias acerca de esa población valiéndose
del cálculo de probabilidades.
La estadística se basa en un razonamiento probabilístico para analizar la variabilidad, por
lo que pretende entender cómo se comportan los valores estadísticos (promedios).
Estadística teórica → investigar y proponer métodos formalmente válidos para organizar los
datos y realizar inferencias.
Ciencias formales → no hay necesidad de entrar en contacto con el mundo real (ej.
matemáticas).
- Leyes de la deducción lógica (conclusiones verdaderas a partir de premisas
verdaderas)
La utilización de una u otra técnica de análisis no determina, por ella misma, el tipo de
conclusiones que es posible extraer de un análisis. (una técnica de análisis no permite
saber a qué se deben las diferencias y relaciones detectadas)
Medir consiste en hacer corresponder dos sistemas de relaciones: uno empírico (el de las
propiedades que se desea medir) y otro formal (el de los números que se asignan en la
medición).
Tipo de aproximación
El hecho de que las cuatro escalas de medida descritas sean exhaustivas (cualquier
característica puede ser medida con alguna de ellas) y mutuamente exclusivas (no se
solapan), constituye un verdadero problema a la hora de trabajar con algunas
características.
!!! NO existe ninguna herramienta estadística cuya mecánica no pueda seguirse porque los
números asignados al efectuar la medición no sean los apropiados. Pero una herramienta
estadística no quita ni pone significado a los números que analiza.
Fumadores 70 0.35 35
Exfumadores 20 0.10 10
Una tabla de frecuencias ofrece la información sobre dos de las propiedades que utilizamos
para describir una variable:
- Centro → Que valor es más frecuente, tiene la frecuencia más alta. Le llamamos
moda.
- Forma de la distribución → visible a partir del tamaño de las frecuencias, que son las
que indican dónde tienden a agruparse los valores y qué categorías tienen
frecuencias pequeñas. Importante valorar:
- Presencia de categorías con frecuencia nula o muy pequeña
- En variables ordinales, si las frecuencias se agrupan en torno al centro
(simetría) o están desplazadas hacia uno de los extremos (asimetría).
Se mide mediante 2 características: asimetría (existen casos que se alejan del centro
más por uno de los extremos que por el otro) y curtosis (expresa el grado en que una
distribución acumula casos en sus colas en comparación con los casos que
acumulan las colas de una curva normal con la misma media y con la misma
desviación típica).
- Leptocúrtica → más puntiaguda que la curva normal.
- Platicúrtica → más aplastada que la curva normal.
- Mesocúrtica → igual a la curva normal.
En el caso de la dispersión, la calcularemos usando un estadístico → índice de variación
cualitativa (IVC) (toma valores entre 0 y 1):
Σ𝑁 𝑁
𝐼𝐶𝑉 = 𝐼 𝐼'
2
𝐼(𝐼−1)(𝑁/𝐼) /2
70(20)+70(110)+20(110) 11.300
𝐼𝐶𝑉𝑡𝑎𝑏𝑎𝑞𝑢𝑖𝑠𝑚𝑜 = 2 = 13.333,33
= 0. 85
3(3−1)(200/3) /2
Valor 0 → frecuencias están concentradas en una sola categoría (dispersión mínima o nula)
Valor 1 → frecuencias están uniformemente repartidas entre todas las categorías (dispersión
máxima).
● Histograma
Eje horizontal se colocan los valores de la variable ordenados de menor a mayor
(comenzando por la izquierda). Eje vertical se colocan las frecuencias (número de
veces que se repite cada valor) y sobre cada valor se levanta una barra o rectángulo
de altura proporcional a su frecuencia (la anchura de las barras no es relevante).
● Cuantiles
Los cuartiles son tres valores (Q1, Q2, Q3) que dividen la distribución en cuatro partes
iguales (el 25 % de los casos en cada parte).
Los deciles son nueve valores (D1, D2, ..., D9) que dividen la distribución en diez partes
iguales (el 10 % de los casos en cada parte).
Los centiles son noventa y nueve valores (C1, C2, ..., C99) que dividen la distribución en
cien partes iguales (el 1% de los casos en cada parte).
GRUPOS EDADES 𝑛𝑗
Hombres 18 19 20 22 24 26 29 31 35 45 61 11
Mujeres 19 20 21 22 23 24 25 27 28 29 30 31 32 35 14
● Media Aritmética
Σ𝑌𝑖
Suma de todas las puntuaciones dividida por el número de puntuaciones → 𝑌 = 𝑛
Utiliza las propiedades cuantitativas de los datos
Propiedades de la media
1. Puntuaciones diferenciales o de desviación → diferencias entre cada puntuación y la
media. Su suma vale 0.
Centro de gravedad de la variable: las desviaciones de la media pesan exactamente
lo mismo a cada lado de la media (la suma de puntuaciones diferenciales negativas
es igual que la suma de las positivas = 0).
2. Si a las puntuaciones de una variable se les multiplica y/o se les suma una
constante, la media de la variable también queda multiplicada y/o sumada por esa
misma constante
3. Media ponderada → Si todos los grupos tienen el mismo tamaño, la media total
coincide con la media de las medias de los grupos. Si los grupos tienen distinto
tamaño, esta correspondencia no se sostiene (y la media total es la media
ponderada).
● Mediana (𝑀𝑑𝑛𝑦)
Es el valor que ocupa la posición central cuando los casos están ordenados.
- Si el número de casos es impar, la mediana es el valor que ocupa la posición i = (n +
1) / 2
- Si el número de casos es par, la mediana es el punto medio (media aritmética) entre
los dos valores que ocupan las posiciones i1 = n / 2 , i2 = (n / 2) + 1.
Estadísticos resistentes
La mediana es un estadístico más resistente que la media.
Por ejemplo, en un caso, si se cambia el valor más alto de la distribución (33) por 74, la
media del grupo pasa de 25,09 a 28,82. → mientras que el cambio de un sólo dato
altera la media en más de tres puntos y medio, la mediana permanece inalterada.
Estadísticos de dispersión
Nos permiten conocer el grado de dispersión, es decir, el grado de parecido entre los datos
en el sentido de concentración o alejamiento entre ellos.
El grado de dispersión puede contribuir de forma importante a describir un conjunto de
datos.
● Amplitudes
Amplitud total o rango → la diferencia entre el valor más grande y el más pequeño.
Estadístico muy poco resistente, porque una gran amplitud puede indicar que un solo valor
muy extremo haga variar el valor de la amplitud.
● Desviaciones promedio
Cuando se utiliza la varianza muestral para hacer inferencias sobre la varianza poblacional,
utilizar n en el denominador da como resultado un valor muestral que tiende a ser menor
que el valor poblacional. Este sesgo desaparece simplemente restando 1 al tamaño
muestral en el denominador:
2
2 Σ(𝑌𝑖− 𝑌)
𝑆𝑌(𝑛) = 𝑛−1
La varianza puede servir para comparar entre sí distintos grupos (lógicamente, en la misma
variable) y saber en cuál de ellos hay mayor dispersión, pero no sirve para formarse una
idea sobre el grado de dispersión (porque los valores están elevados al cuadrado.
Así, para medir el grado de dispersión se utiliza:
● Desviación típica
Raíz de la varianza, siempre se toma la raíz positiva:
2
2 Σ(𝑌𝑖− 𝑌)
𝑆𝑌(𝑛) = 𝑛−1
La desviación típica tomará un valor tanto más alejado del de la media de las desviaciones
cuanto más asimétrica sea la distribución.
Por los mismos argumentos que, según hemos visto ya, es tarea obligada informar del valor
de la media aritmética a pesar de su baja resistencia, también lo es informar de la
desviación típica (por las puntuaciones típicas que nos obliga a calcular).
!!! Los estadísticos de dispersión NO se alteran cuando a los valores de una variable se les
suma o resta una constante. Pero, todos ellos, excepto la varianza, varían si se multiplica o
se divide. Por ejemplo, triplican su valor cuando los valores originales de la variable se
multiplican por 3.
A excepción de la varianza, todos los estadísticos estudiados cuantifican la dispersión en la
misma métrica que la variable original.
Forma de la distribución
Estudiar la forma de una distribución implica, básicamente, valorar dos características:
asimetría y curtosis.
➢ Asimetría → forma en que los datos se distribuyen por encima y por debajo del
centro. Cuando los casos más alejados del centro se encuentran en la zona alta de
la distribución, decimos que existe asimetría positiva; cuando se encuentran en la
zona baja, asimetría negativa.
➢ La curtosis de una distribución se refiere a su grado de apuntamiento. Se valora por
comparación con una distribución teórica llamada curva normal (referente de curtosis
media).
○ Una distribución leptocúrtica es más puntiaguda que la curva normal y,
además, acumula más casos que ésta en sus colas.
○ Una distribución platicúrtica es más aplastada que la curva normal y, además,
acumula menos casos que ésta en sus colas. A la curva normal (referente de
curtosis media) se le llama mesocúrtica.
Histograma
Parecido a gráfico de barras pero con las barras juntas.
- En el eje horizontal se colocan los valores de la variable ordenados de menor a
mayor (comenzando por la izquierda) → utilizar intervalos en vez de cada valor
individual.
- En el vertical se colocan las frecuencias (número de veces que se repite cada valor)
- Sobre cada valor se levanta una barra o rectángulo de altura proporcional a su
frecuencia (la anchura de las barras no es relevante)
Asimetría positiva → los casos más alejados del centro se encuentran en la zona alta de la
distribución.
Uniendo con una línea los puntos medios de los bordes superiores de cada barra del
histograma se obtiene el polígono de frecuencias.
Diagrama de caja y bigotes (boxplot)
Permite formarse una idea de: centro, dispersión y forma.
- Grado de dispersión → longitud relativa de los bigotes, es decir, en la longitud de los
bigotes comparada con la altura de la caja;
- centro de la distribución → mediana
- Forma de la distribución → longitud de los dos bigotes de cada diagrama y la
presencia o no de casos atípicos y extremos
En el salario de un país es mejor dar la mediana que la media, porque si damos la media no
estamos teniendo en cuenta que hay gente que es muy extremadamente rica y esto hace
que la media sea superior. En la mediana daríamos el valor central que no estaría sesgado
por el gran número de gente rica de un país.
Cuanta más desigualdad en el país = más asimetría = peor representación de la centralidad
con la media
CT03. Puntuaciones típicas y escalas derivadas.
Con variables cuantitativas hay dos herramientas estadísticas que ayudan de forma
importante a completar la información que ofrecen el centro, la dispersión y la forma de la
distribución.
Para poder comparar variables, nos encontramos que muchas veces tiene diferente métrica
(por ejemplo, kg y metros), diferente centro (por ejemplo, un 4 en lengua se trata de la peor
calificación; en matemáticas, de una calificación intermedia) y diferente dispersión.
● Las puntuaciones de distribuciones distintas no admiten una comparación directa a
no ser que esas distribuciones tengan el mismo centro, la misma dispersión y la
misma métrica
Esto no significa que haya que renunciar a comparar las puntuaciones que no cumplan esos
tres requisitos. Es más, para abordar esta tarea disponemos de dos estrategias distintas.
1. Cuartiles
En los cuartiles hay 3 cortes para dividir en 4 partes iguales (25% de los datos ordenados
de menor a mayor)
El primer cuartil deja el 25% debajo, el segundo deja el 50% y el tercero deja el 75%.
EJ. Una persona tiene percentil 50 y otras percentil 70, la persona de percentil 70 tiene más
extroversión porque el 70% de personas tiene igual de extroversión que ella o menos, solo
el 30% tiene más extroversión que ella.
Los deciles hacen 9 cortes, tengo 10 trozos con un un 10% de los datos.
El decil 1 deja por debajo el 10% de los datos, el decil 3 deja por debajo el 30% de los
casos, el decil 2 deja el 20%...
Los centiles hacen 99 cortes, tengo 100 trozos con un 1% de los datos.
Los cuartiles permiten conocer la posición relativa que ocupa cada puntuación dentro de su
distribución tomando como base de cálculo el porcentaje de casos acumulados.
➢ Con esta estrategia, las puntuaciones originales o directas (cualquiera que sea su
métrica) se transforman en posiciones relativas que pasan a tener el mismo centro
(50, en los percentiles el centro es 50, en el caso de los cuartiles es el 2 → no
sabemos cuanto vale pero sabemos que es el medio), la misma dispersión (0 - 100,
todos los percentiles van entre 0 y 100, la unidad es el porcentaje de casos) y la
misma métrica (unidades porcentuales
Ejemplo.
1. Puntuaciones: 3, 4, 8 → media =5 // Puntuaciones diferenciales: -2, -1, 3 → media = 0
2. Puntuaciones: 20,40,80 → media aprox = 46 // Puntuaciones: diferenciales: (20-46) -26,
-6, 34 → media = 0
Rango 1: 8-3 = 5
Rango 2: 80-20 = 40
La 2 está más dispersa, y las diferenciales de la 2 también están más dispersas = las
diferenciales respetan la dispersión de la original. Por eso, con las puntuaciones
diferenciales solo muevo la media (centro) a 0 y respeto la dispersión.
RECORDAR!!
Por ejemplo.
El CI es una escala tipificada donde la media es 100, y tiene una desviación típica de 15 →
si tu CI es 115, en desviaciones típicas es 1. Porque estas a 1 desviación típica de la media.
Se transformó la escala a una escala con media 100 y desviación típica 15, porque a las
personas no les gustaba que les dijesen que tenían un CI de 0 o un CI de -1. Sino que un CI
de 115 o un CI de 85 suena mejor, aunque en la práctica es lo mismo.
Sabemos que si a una variable se le multiplica y suma una constante, la media queda
alterada; en concreto, si X = a + bY, entonces 𝑋 = 𝑎 + 𝑏𝑌
También sabemos que la desviación típica no se altera por la constante sumada pero sí
por la multiplicada; en concreto, si X = a + bY, entonces 𝑆𝑋 = |𝑏|𝑆𝑌. En consecuencia, la
transformación → T = a + bZ, tendrá una media 𝑇= a (pues la media de las puntuaciones Z
vale cero) y una desviación típica 𝑆𝑇 = | b | (pues la desviación típica de las puntuaciones Z
vale uno).
- a= lo que sumo a la tipica
- b= por lo que multiplicó la desviación típica.
Toda variable cuantitativa, cualquiera que sea su métrica, puede ser transformada en otra
variable equivalente con media y desviación típica conocidas.
Este tipo de transformaciones sirven para que un conjunto de puntuaciones (por ejemplo,
las puntuaciones de un test) puedan expresarse en la métrica deseada.
En el caso de la escala de CI:
● Transformar a típicas y luego sumar 100 → así paso de media 0 a media 100.
● Multiplico la desviación típica (=1) por 15, así paso de desviación típica 1 a 15.
Entonces las distancias a la media se calcularán de 15 en 15.
Curva normal
Conocer la distribución teórica de una variable permite conocer las probabilidades asociadas
a cada posible resultado muestral.
- Se conocen las características poblacionales de una variable categórica, es decir,
las frecuencias relativas asociadas a cada valor de la variable (por ejemplo, la
proporción de fumadores)
- Distribución binomial para conocer la probabilidad concreta asociada a cada
resultado muestral (por ejemplo, la probabilidad de encontrar un determinado número
de fumadores al extraer una muestra aleatoria de tamaño n de esa población) → nos
dice el porcentaje en que es probable obtener un resultado entre dos posibles al
realizar un número n de pruebas. La probabilidad de cada posibilidad no puede ser
más grande que 1 y no puede ser negativa.
Muchos de los procedimientos estadísticos que estudiaremos asumen que los datos
proceden de poblaciones normales. Además la curva normal sirve como referente para
describir cómo se distribuyen muchos de los datos. La justificación de esta regularidad se
encuentra en el teorema del límite central:
● ‘’Si los datos que se recogen son debidos a la suma de cierto número de causas
independientes entre sí, cada una con un efecto parcial, la distribución de los datos
recogidos se asemejará tanto más a la curva normal cuantos más datos se recojan
(cualquiera que sea la distribución original de esos efectos parciales y siempre que la
desviación típica de estos efectos sea finita).’’
● = a no ser que la asimetría sea muy grande, puedo asumir que si tomo un número de
sujetos lo suficientemente grande, la variable real se parecerá más a la distribución
normal teórica (TEOREMA DEL LÍMITE CENTRAL)
Para indicar que una variable se distribuye normalmente utilizaremos la siguiente expresión:
𝑌 ∼ 𝑁(µ𝑌, σ𝑌)
Cambiando los valores µ𝑌 𝑦 σ𝑌, se obtienen distintas curvas normales. Pero todas comparten
las mismas características:
La mayor parte del trabajo con variables distribuidas normalmente consiste en hallar el
tamaño relativo que cada porción de área representa respecto del área total (proporción de
área). Hablar de proporción de área es equivalente a hablar de probabilidad.
Estas probabilidades se obtienen a partir de las densidades que ofrece la función. No
obstante, para evitar este tipo de cálculos, se han construido tablas con las probabilidades
(proporciones de área bajo la curva) ya calculadas.
● Estas tablas recogen las probabilidades de una curva normal muy especial llamada
curva normal tipificada o estandarizada → tiene media 0 y desviación típica 1; lo cual
se expresa mediante N (0, 1).
R/ Esto significa que la puntuación 4,5 en la distribución N (6, 1,5) ocupa la misma posición
relativa que la puntuación -1 en la distribución N (0, 1). Y esto implica que la probabilidad de
encontrar valores menores (o mayores) que 4,5 en su distribución es la misma que la de
encontrar valores menores (o mayores) que -1 en la suya.
𝑛! π 𝑛−𝑛1
𝑃(𝑛1) = 𝑛1! (𝑛−𝑛1)!
π11 (1 − π1)
● Centro de la distribución → valor que cabe esperar con más probabilidad. Valor
esperado (v. discreta) → 𝐸(𝑛1) = µ𝑛 = 𝑛π1
1
2 2 2
● Grado de dispersión → Varianza = 𝑉(𝑋) = σ𝑋 = 𝐸(𝑋 ) − [𝐸(𝑋)]
Para poder utilizar las probabilidades normales en lugar de las binomiales es necesario
comenzar tipificando la variable binomial, es decir, tipificando la variable n1 = «número de
éxitos en n ensayos». Para ello, sabemos que el valor esperado de n1 es n π1 y su varianza
𝑛π1(1 − π1)
CT05. Probabilidad
La unión (U) de dos sucesos es el conjunto de resultados distintos que forman parte de uno
u otro suceso.
La diferencia entre dos sucesos es el conjunto de resultados que pertenecen al primer
suceso y no al segundo.
La intersección (∩) de dos sucesos es el conjunto de resultados que forman parte tanto de
uno como de otro suceso
Concepto de probabilidad
La probabilidad de un suceso es algo más que lo fácil o difícil que es observarlo: es un
número que intenta cuantificar lo fácil o difícil que es observarlo.
● Punto de vista a priori → asume que todos los sucesos elementales de un espacio
muestral tienen las mismas posibilidades de ocurrir, cuantifica la probabilidad
𝑛𝑆
asociada a un suceso concreto (S ) como su frecuencia relativa teórica: 𝑃 (𝑆) = 𝑛
○ 𝑛𝑠 → número de resultados favorables al suceso (ns)
○ n → número de resultados posibles
Adoptar uno u otro punto de vista no tiene implicaciones relevantes sobre las conclusiones
Tanto las probabilidades a priori como las a posteriori se conciben como frecuencias
relativas (teóricas en el primer caso y empíricas en el segundo), sus propiedades son
idénticas:
1. La probabilidad de todos los sucesos del espacio muestral (el suceso seguro) vale 1.
Es decir, P (E ) = 1.
2. La probabilidad de un suceso es siempre no negativa. Es decir, P(S) ≥ 0.
3. La probabilidad de la unión de dos o más sucesos mutuamente exclusivos es igual a
la suma de las probabilidades individuales de cada suceso. Es decir,
𝑃 (𝑆1𝑈 𝑆2𝑈 𝑆3 𝑢 ...) = 𝑃(𝑆1) + 𝑃(𝑆2) + 𝑃(𝑆3) ...
Regla de la multiplicación
Probabilidad condicional → probabilidad de que ocurra un suceso cuando se impone la
condición de que haya ocurrido otro previamente.
𝑃 (𝑆1 | 𝑆2), ‘’“probabilidad condicional de S1 dado S2’’
𝑃 (𝑆1∩𝑆2)
𝑃 (𝑆1 | 𝑆2) = 𝑃 (𝑆2)
Sirve para formular la regla de la multiplicación (también llamada regla del producto):
La probabilidad de la intersección de dos sucesos es igual a la probabilidad individual
de uno de ellos multiplicada por la probabilidad condicional del otro.
𝑃 (𝑆1 ∩ 𝑆2) = 𝑃(𝑆1)𝑃(𝑆1 | 𝑆2)
Cuando dos sucesos no ven alteradas sus respectivas probabilidades individuales por la
presencia del otro, decimos que esos sucesos son independientes, y la regla de
multiplicación cambia:
𝑃 (𝑆1|𝑆2) = 𝑃(𝑆1)
Ejemplo
Regla de la suma
Si dos sucesos son mutuamente exclusivos, la probabilidad de su unión es la suma de sus
probabilidades individuales: 𝑃 (𝑆 ∪ 𝑆 ) = 𝑃(𝑆 ) + 𝑃(𝑆 )
1 2 1 2
Muestra aleatoria
● Todos los elementos poblacionales tienen la misma probabilidad de ser elegidos
(misma probabilidad de salir = muestra representativa)
● El resultado de cada extracción no afecta ni depende del resultado de cualquier otra.
○ Muestreo aleatorio sistemático (útil si se tiene un listado de la población).
EJ. Así, para extraer una muestra aleatoria de tamaño 100 de una población
de 2.000 elementos, se comienza elaborando una lista asignando a cada
elemento un número de 1 a 2.000. La constante que se debe utilizar es k =
N/n = 2.000/100 = 20. Después, se selecciona al azar un elemento entre los
20 primero. Si, por ejemplo, el elemento seleccionado es el que ocupa la
posición i = 9, el resto de los elementos de la muestra serán los que ocupen
en la lista las posiciones 29, 49, 69, 89, ..., 1949, 1969, 1989
Una variable aleatoria es una función que asigna un número real, y sólo uno, a cada uno
de los sucesos elementales de un espacio muestral (al menos dos números).
- Si la variable es categórica (por ejemplo, sexo), los posibles valores distintos serán
pocos (hombre y mujer).
Análisis de datos es, sobre todo, análisis de variables aleatorias, es decir, análisis de los
números que se asignan a los resultados del muestreo aleatorio.
● Centro → valor que más se repite (variables categóricas) o el promedio del conjunto
de valores (variables cuantitativas). (Cálculo típico: valor esperado o esperanza
matemática)
Una distribución teórica que asigna una probabilidad (o una densidad) concreta a cada
uno de los valores que puede tomar un estadístico en todas las muestras del mismo tamaño
que es posible extraer de una determinada población.
Aunque las 25 muestras son equiprobables (todas tienen la misma probabilidad de ser
elegidas), los posibles valores del estadístico 𝑌 no lo son: hay unos valores de Y que son
más probables que otros porque unos pueden obtenerse en un mayor número de muestras
que otros.
104−100
𝑃(𝑌 ≥ 104) = 𝑃 (𝑍 ≥ 2,12
) = 𝑃 (𝑍 ≥ 1. 89) = 1 − 𝐹(1, 89) = 1 − 0. 9706 = 0. 0294
(se busca, en la tabla de curva normal, la probabilidad acumulada hasta 1,89 y se resta de
uno)
Es muy poco probable (0,0284) encontrar medias mayores que 104.
103−100
𝑃 (𝑌 ≥ 103) = 𝑃 (𝑇 ≥ 4,36
) = 𝑃(𝑇 ≥ 0. 688)
Propiedades que debe reunir un estadístico para poder ser considerado un buen
estimador (estadístico):
1. Carencia de sesgo → ofrecer, en promedio, estimaciones correctas. Si su media
coincide con el parámetro que estima.
2. Eficiencia → tanto más eficiente cuanto menor es su varianza.(media es más
eficiente que la mediana = varía menos de una muestra a otra).
A los extremos del intervalo se les llama límites de confianza → límite inferior (Li) y límite
superior (Ls).
Para construir un intervalo de confianza para el parámetro θ, al correspondiente
estimador puntual θ se le suma y se le resta una cantidad llamada error máximo (Emax):
𝐼𝐶θ = θ ± 𝐸𝑚á𝑥
El error máximo representa la diferencia máxima que, con una determinada probabilidad,
cabe esperar encontrar entre el verdadero valor del parámetro estimado, θ, y el valor
concreto del estadístico utilizado para estimarlo, θ.
Nivel de confianza: probabilidad con la que cabe esperar que el intervalo construido incluya
el verdadero valor del parámetro estimado → 1 − α
𝑃(𝐿𝑖 ≤ θ ≤ 𝐿𝑆) = 1 − α
Ejemplo.
Población formada por Yi = {1, 2, 3, 4, 5}. Si extraemos de ella, con reposición, todas las
posibles muestras aleatorias de tamaño n = 2 y en cada una de ellas calculamos el
estadístico 𝑌, podemos construir la distribución muestral de la media:
La tabla incluye
las 25 muestras de tamaño n = 2 que es
posible extraer de la población definida, los
distintos valores que puede tomar el
estadístico 𝑌, y la frecuencia relativa
asociada a cada uno de ellos.
𝐸(𝑌) = µ𝑌 = 3
σ𝑌
σ𝑌 = = 2 2= 2
𝑛
𝐿𝑖 = 𝑌 − σ𝑌 ; 𝐿𝑠 = 𝑌 + σ𝑌
Es claro que cuanto mayor sea Emáx, mayor será la amplitud del intervalo y mayor también
la probabilidad de que el intervalo construido incluya el verdadero valor de θ
Y cuanto mayor sea Emáx, menor será la precisión de la estimación, pues se estará
atribuyendo al parámetro un rango más amplio de valores.
Para construir intervalos de confianza, todo lo que se necesita es conocer la distribución
muestral del estadístico utilizado como estimador: la distribución muestral de un
estimador informa de la probabilidad asociada a cada uno de sus valores y eso es todo lo
que hace falta para seguir la estrategia descrita.
Ejercicio
Una muestra aleatoria de 100 estudiantes universitarios responde a una prueba de
inteligencia especial (Y) en la que obtiene una media de 80 y una desviación típica
insesgada de 10. ¿Entre qué límites cabe esperar que se encuentre la verdadera
inteligencia espacial media de los estudiantes universitarios, con un nivel de confianza de
0.95?
Vamos a utilizar la T (hay infinitas distribuciones T y tenemos que encontrar la que tiene n-1
grados de libertad)
Jamovi:
1. Poner los 99 grados de libertad de t
2. Poner que estoy buscando valores de t : le pido el acumulativo que me deja por
dejao el 2.5% (0.025). → quantil 0.025 = -1.98
3. Como es simétrico el otro quantil es 1.98
(t es K)
IC = 𝑦 ± K σ𝑦 = 80 ± 1. 98 · 1
𝐼𝐶1 = 80 − 1. 98 = 78. 02 → límite inferior
𝐼𝐶2 = 80 + 1. 98 = 81. 98 → límite superior
IC = (78. 02, 81. 98)
R/ Hemos hecho una estimación por intervalos, con un 95% de confianza la verdadera
inteligencia espacial de los estudiantes universitarios está entre 78 y 82.
Segundo paso: Hacer el contraste de hipótesis. Si una hipótesis concreta referida a una
distribución poblacional es cierta, al extraer una muestra de esa población debe encontrarse
un resultado muestral similar al que esa hipótesis propone para la distribución poblacional.
Hipótesis estadísticas
Una hipótesis estadística se refiere a algún aspecto de una distribución de probabilidad
!!! El signo igual (=), tanto si va solo (μA = μB) como si va acompañado (πacierto ≤ 0,5),
siempre va en la hipótesis nula.
Son hipótesis exhaustivas (agotan todas las posibilidades) y mutuamente exclusivas (no se
solapan), lo cual implica que si una es verdadera, la otra es necesariamente falsa.
La regla de decisión
La hipótesis nula se mantiene o rechaza dependiendo de su grado de compatibilidad con los
datos; y los datos están resumidos en el estadístico del contraste.
➔ Los valores incluidos dentro del intervalo de confianza pueden interpretarse como el
conjunto de hipótesis aceptables del correspondiente contraste bilateral; y los
no incluidos, como el conjunto de hipótesis rechazables.
Con una variable cuantitativa suele interesar estudiar tanto el centro de su distribución (a
través de algún estadístico de tendencia central), como su grado de dispersión (a través
de algún estadístico de dispersión) y la forma de su distribución (generalmente para
valorar si se parece o no a una distribución normal o a alguna otra distribución de
probabilidad teórica conocida).
Este tipo de prueba permite hacerse preguntas como: ¿consigue un nuevo tratamiento más
recuperaciones de las que se vienen obteniendo con el tratamiento convencional?, ¿es
posible afirmar que la proporción de sujetos que tienen intención de votar en las próximas
elecciones es mayor que la registrada en las elecciones pasadas?, ¿ha acertado un sujeto
más preguntas de las esperables por azar en una determinada prueba de rendimiento?, etc
Ejemplo.
Al parecer, la sintomatología del 30 % de los pacientes neuróticos remite espontáneamente
durante los tres primeros meses del trastorno. Según esto, es lógico pensar que una terapia
eficaz con este tipo de trastornos deberá conseguir a lo largo de los tres primeros meses un
porcentaje de recuperaciones mayor que el que se produce de forma espontánea. Los
resultados obtenidos con 20 sujetos a los que se les ha aplicado una determinada terapia
indican que, en los tres primeros meses, ha habido 9 recuperaciones. ¿Puede afirmarse que
el número de recuperaciones que se obtienen con esa terapia es mayor que el esperable
por simple recuperación espontánea? (α = 0,05).
9−20(0.30)
𝑍 = = 1, 46
20(0,30)(1−0.30)
Distribuciones muestrales
- n1 y P1 se distribuyen binomialmente con parámetros n = 20 y π1 = 0,30.
- Z se aproxima a N (0, 1).
Como P (n1 ≥ 9) = P (P1≥ 0,45) = 0,113 es mayor que α = 0,05, se mantiene H0.
Como Z = 1,46 es menor que Z0,95 = 1,645, se mantiene H0.
Nivel crítico
Con los estadísticos n1 y P1 ya lo hemos calculado: P (X≥9) = P (P ≥0,45) = 0,113.
Con el estadístico Z: p = P (Z ≥ Zh) = P (Z ≥1,46) = 1-F(1,46) = 1-0,9279 = 0,0721
Intervalo de confianza.
| |
𝐼𝐶𝑛1 = 𝑃1 ± |𝑍 α | 𝑃1(1 − 𝑃1)/𝑛 = 0. 45 ± 1, 645 0, 45(0, 55)/20 = 0, 45 ± 0, 183 = (0, 267; 0, 633)
| 2|
Por tanto, estimamos, con una confianza del 95 %, que la verdadera proporción de
recuperaciones se encuentra entre 0,267 y 0,633.
Este intervalo de confianza, además de dar pistas sobre el verdadero valor del parámetro
π1, sirve para contrastar H0: como el valor 0,30 propuesto para π1 en H0 se encuentra
dentro de los límites del intervalo de confianza, se está estimando que el valor 0,30 es uno
de los posibles valores del parámetro π1; por tanto, no es razonable rechazar H0.
pag, 261
CT11+12 T de Student
Sabemos por el teorema del límite central que, cualquiera que sea la forma de las
poblacionales originales, las distribuciones muestrales de 𝑌1 𝑦 𝑌2 tienden a la normal a
medida que los tamaños muestrales van aumentando.
La cantidad Emáx se obtiene a partir del error típico del estimador, intentando abarcar un
área de la distribución muestral tal que la probabilidad de encontrar valores dentro de ella
valga 1-α. En consecuencia:
Exercici pag 234
No asumiendo varianzas iguales
Definir un nuevo estadístico al que llamaremos T’ para distinguirlo de T :
Tanto si se utilizan los mismos sujetos como si se utilizan sujetos emparejados, lo que
caracteriza a este tipo de datos es que no son independientes entre sí
Puesto que las puntuaciones de cada par están relacionadas, pueden transformarse en
diferencias: 𝐷 = 𝑌1 − 𝑌2
De esta forma, a cada sujeto o par le corresponde una única puntuación. Estas
puntuaciones (diferencias) valen cero cuando las dos puntuaciones del mismo par son
iguales, son negativas cuando la primera puntuación del par es menor que la segunda y son
positivas cuando la primera puntuación del par es mayor que la segunda. En el caso de
diseños antes-después o pre-post, la diferencia entre las puntuaciones de cada par refleja el
cambio (pérdida o ganancia) entre los dos momentos.
2
Tenemos una única población (la población de diferencias D) con media µ𝐷 y varianza σ𝐷.
Seleccionando de esa población una muestra aleatoria de n observaciones y definiendo el
estadístico → 𝐷 = 𝑌1 − 𝑌2
Ahora bien, como la varianza de la población de diferencias es, por lo general, un valor
desconocido, es necesario estimarlo mediante
CT13. Comparación de proporciones
2
En la prueba 𝑋 tenemos 2 variables categóricas (dicotómicas o no)
La prueba X2 se pregunta → ¿Son las dos variables dependientes entre sí?¿Tienen una
relación las dos variables?
Las frecuencias conjuntas son las dos de enmedio porque tienen en cuenta 2 variables. Por
ejemplo, mujeres y tener insomnio: 552 o ser hombre y tener insomnio: 248.
Las frecuencias marginales son las totales porque solo tienen en cuenta una variables. Por
ejemplo, el total de mujeres = 2400
552
𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜/𝑀𝑢𝑗𝑒𝑟) = 2400
= 0. 23
248
𝑃 (𝐻𝑜𝑚𝑏𝑟𝑒/𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 800
= 0. 31
Una variable depende de la otra (son dependientes) cuando la presencia de una afecta a la
otra. Por ejemplo, cuando la probabilidad de tener insomnio se ve afectado por tu sexo.
Y dos variables son independientes cuando la presencia de una no modifica a la otra.
En este caso, diremos que el insomnio y el sexo son independientes si el porcentaje de
personas con insomnio en mujeres (u hombres) es igual al porcentaje en el conjunto total de
sujetos. Si las variables son independientes, habrá el mismo porcentaje de Insomnio en
hombres que en mujeres, y este porcentaje coincidirá con el porcentaje general
552
- Probabilidad de insomnio en mujeres: 𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜 /𝑀𝑢𝑗𝑒𝑟) = 2400
= 0. 23
- Probabilidad de insomnio en hombres:
552
𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜/𝐻𝑜𝑚𝑏𝑟𝑒𝑠) = 2400
= 0. 23
800
- Probabilidad insomnio en general: 𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 4000
= 0. 23
No es tan fácil como comparar porcentajes, sino que tenemos que responder preguntas
como:
- ¿Significa esto que las variables son dependientes?
- ¿Cómo sabemos que estas diferencias no se deben al azar muestral?
- ¿Cómo de grandes tienen que ser las diferencias para que consideremos que las
variables son realmente dependientes?
2
Por eso, la prueba 𝑋 mira si la diferencia en los porcentajes es suficientemente
significativa como para decir que las variables son dependientes.
Mira como de diferentes son las proporciones entre sí → como de independientes son las
variables.
2
Para comprobar esto realizaremos un estadístico de contraste 𝑋
A este estadístico le vamos a pedir:
- Nos aporte información sobre si las variables son o no independientes (+ grande el
estadístico = + independientes las variables)
- Tenga una distribución probabilística teórica conocida.
Pero si las dos variables (ser mujer y tener insomnio) son independientes, la regla de la
multiplicación se puede simplificar (quitando el condicional):
2400 800
𝑃 (𝑀𝑢𝑗𝑒𝑟 ∩ 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 𝑃(𝑀𝑢𝑗𝑒𝑟) · (𝑃 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 4000
· 4000
= 12%
Si ser mujer y tener insomnio son sucesos independientes, entonces (los % los calculamos
usando la regla de la multiplicación para variables independientes):
Voy a buscar qué número quedaría en cada celda si las variables fuesen independientes:
Para eso voy a usar la regla multiplicación para independientes:
𝑃 (𝑀𝑢𝑗𝑒𝑟 ∩ 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 𝑃(𝑀𝑢𝑗𝑒𝑟) · (𝑃 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 0. 6 · 0. 2 = 0. 12%
Vamos a preguntarnos: ¿Cómo tendrían que ser las frecuencias conjuntas de la tabla
(número) para que las variables fuesen completamente independientes?
Si llamamos a la frecuencia conjunta de la casilla π𝑖𝑗 . Por ejemplo: a 552 le llamamos 𝑛11 (el
1er numero es fila i el segons columna)
𝐻0: 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 → π11 = π1+ · π+1 → π𝑖𝑗 = π𝑖+ · π+𝑗
Expreso regla de la multiplicació en independents amb aquesta fórmula, per això ho poso a
la hipótesis nula → si aquesta regla es compleix significa que són independents,
Si los sucesos son independientes la regla de la multiplicación se va a cumplir para
cualquier celda, por eso lo convertimos a letra (i es fila, j es columna).
Objetivo → calcular qué número será el 552 si las variables fueran independientes, y así
con todas las celdas. Esto son las frecuencias esperadas (𝑚) y se calculan con la
siguiente fórmula:
π𝑖+ · π+𝑗
𝑚𝑖𝑗 = 𝑁
2400 · 3200
𝑚12 = 4000
= 1920
1600 · 800
𝑚21 = 4000
= 320
1600 · 3200
𝑚22 = 4000
= 1280
Insomnio No insomnio Total
Para cuantificar “cómo de independientes” son las variables puedo calcular un estadístico
que represente la diferencia entre las frecuencias obtenidas (reales, 𝑛𝑖𝑗) , y las frecuencias
esperadas (𝑚 ):
𝑖𝑗
Si los sucesos fueran independientes las frecuencias esperadas serían muy iguales a las
obtenidas. Así que cuanto más diferentes sean más dependientes serán.
2
2 (𝑛𝑖𝑗 − 𝑚𝑖𝑗)
Estadístico de contraste → 𝑋 = Σ𝑖Σ𝑗
𝑚𝑖𝑗
- Cuando las variables sean completamente independientes, el estadístico valdrá 0.
2
2 (𝑛𝑖𝑗 − 𝑚𝑖𝑗)
𝑋 = Σ𝑖Σ𝑗 →
𝑚𝑖𝑗
2 2 2 2
(552−480) (1848−1920) (248−320) (1352−1280)
480
+ 1920
+ 320
+ 1280
=
= 10. 8 + 2. 7 + 16. 2 + 4. 05 = 33. 75
Cuando chi cuadrado se acerca más a 0, más independientes son las variables porque
las diferencias entre las obtenidas y las esperadas son más pequeñas. Cuanto más grande
chi cuadrado, más dependientes son porque las diferencias son más grandes.
Ahora debemos calcular los grados de libertad, así consigo la distribución teoría. Con esta,
voy a calcular un punto crítico para compararlo con el estadístico de contraste
Fórmula de los grados de libertad: número de filas (I) - 1 · número de columnas (J) - 1
𝑔𝑙 = (𝐼 − 1) · (𝐽 − 1)
El estadístico de contraste tiene una distribución teórica conocida.
La distribución chi cuadrado es diferente dependiendo de los grados de libertad de mi
problema.
La zona de rechazo va siempre a la derecha, porque cuanto más se acerca al 0 chi
cuadrado, más independientes son mis variables.
La zona de rechazo dice que debo rechazar la hipótesis nula (son independientes), y sin
más independientes son cuanto más se acercan a 0.
Cuanto más a la izquierda la chi cuadrado más independientes son
No tiene sentido hacer una prueba bilateral porque rechazó valores cercanos al 0 que son
los más independientes son
2
● Por eso en pruebas 𝑋 debo hacer PRUEBAS UNILATERALES DERECHAS (zona
de rechazo en la parte derecha de la distribución).
Definir una zona de rechazo que acumula una probabilidad dada por el nivel de riesgo α , y
una zona de aceptación que acumula una probabilidad de 1- α.
Rechazaré la hipótesis si el estadístico que obtenga está en la zona crítica:
Calcular el punto crítico con Jamovi, y miro si está en la zona de rechazo o aceptación.
El punto crítico, si tomamos nivel de confianza del 95% y 1 grado de libertad:
2 2
𝑋 ≥ 𝑋1; 0.95 = 3. 84
2
Como 33.75 (𝑋 ) >3.84 (punto crítico), podemos rechazar la hipótesis nula, y afirmar que
las variables son dependientes.
Ejercicios p.291 y 301
Diagramas de dispersión
Cada sujeto, se representa con un punto.
La forma de la nube de puntos informa sobre el tipo de relación existente
Relación lineal:
Ausencia de relación:
Relación cuadrática:
Relación cúbica
Cuando no existe relación lineal, bien porque no existe ningún tipo de relación, como en el
diagrama c (altura e inteligencia, por ejemplo).
Covarianza →
El valor de la covarianza es tanto mayor (en valor absoluto) cuanto mayor es el grado de
relación lineal. Y el signo de la covarianza refleja el sentido positivo o negativo de la relación
Aunque su valor mínimo es cero, su valor máximo depende del grado de dispersión de
las variables (esto dificulta su interpretación).
Por tanto, el valor máximo que puede tomar la covarianza en cada situación concreta
depende de las variables estudiadas y de la muestra utilizada → es el producto
de las desviaciones típicas de esas dos variables.
El hecho de que un coeficiente de correlación (es un valor muestral) sea distinto de cero no
constituye, en sí mismo, evidencia suficiente para afirmar que existe relación lineal en la
población: ¿El valor muestral obtenido refleja o no un grado de parecido (grado de relación
lineal) mayor del que cabría esperar por puro azar entre dos variables realmente
independientes en la población?
ANOVA de un factor:
- Variable independiente
- Variable dependiente cuantitativa
Los diseños de investigación se diferencian, entre otras cosas, por la forma de asignar las
unidades de análisis a las condiciones del estudio.
Por lo general, esta asignación de las unidades de análisis a las condiciones del estudio
se realiza de forma aleatoria (variables extrañas compartidas).
Hay dos estrategias básicas de asignación aleatoria que suelen recibir el nombre de grupos
aleatorios y bloques aleatorios:
● Grupos aleatorios → cada sujeto (=unidad de análisis) es aleatoriamente
seleccionada y asignada a un nivel del factor. Se selecciona aleatoriamente una
muestra de pacientes, se forman aleatoriamente tres grupos y se asigna, también
aleatoriamente, cada grupo a uno de los tres niveles del factor. La asignación
aleatoria es la mejor estrategia para formar grupos equivalentes, pero no siempre es
posible.
● Bloques aleatorios → intenta ejercer mayor control sobre posibles variables extrañas.
Si se sospecha que existe alguna variable que puede alterar de forma apreciable las
conclusiones del estudio, se puede ejercer sobre ella un control directo modificando
la forma de asignar las unidades de análisis a las condiciones del estudio
● Modelo intra sujetos → caso extremo de bloqueo. El bloque está formado por un
único sujeto: a todos y cada uno de los sujetos se le aplican todos y cada uno de los
niveles del factor. La homogeneidad dentro de cada bloque es máxima (y por tanto
mínima la presencia de variables extrañas atribuibles a diferencias entre los sujetos)
porque todas las puntuaciones dentro de un mismo bloque pertenecen a un mismo
sujeto.
1. Fijando los niveles que se desea estudiar (por ejemplo, cantidad de fármaco: 0 mg,
250 mg, 500 mg) o utilizando los niveles que posee el factor (por ejemplo, nivel
educativo: sin estudios, primarios, secundarios, medios, superiores)
2. Seleccionando aleatoriamente unos pocos niveles de la población de posibles
niveles del factor (por ejemplo, seleccionando una muestra aleatoria de los
hospitales de una ciudad).
Lógica del análisis de varianza
Cuando se tienen más de dos medias, no es posible compararlas simultáneamente con una
resta. NO en el análisis de las medias de las distribuciones, sino en el de sus varianzas.
Cada grupo tiene una varianza, la cual nos indica la dispersión entre las variables:
● Población
● Extraemos la muestra 1 de tamaño n:
● Extraemos la muestra 2 de tamaño n:
● Extraemos la muestra 3 de tamaño n:
CT19. ANOVA: Análisis de la Varianza de un Factor
Media de las varianzas de los 3 niveles. Tiene en cuenta la varianza/dispersión de cada grupo
individualmente.
Media cuadrática
intergrupos (MCI)
Contraste de hipótesis
𝑀𝐶𝐴
𝐹 = 𝑀𝐶𝐸
El ANOVA básico solo busca las diferencias entre las tres medias (son las tres medias
iguales o no), pero no qué pares son diferentes.
CT20. ANOVA: Análisis de la Varianza Factorial. Interacción
En el modelo de dos factores es necesario utilizar tres subíndices (ijk) para identificar cada
valor de Y : el primero de ellos (i) se refiere a los diferentes elementos (generalmente
sujetos) de la misma muestra o casilla: i = 1, 2, ..., n; el segundo ( j), a los diferentes niveles
del factor A; y el tercero (k), a los diferentes niveles del factor B
El signo “+” colocado como subíndice se refiere a todos los valores del subíndice al que
sustituye
Los totales de cada casilla (𝑇𝑗𝑘) se obtienen sumando desde 1 hasta n todas las
puntuaciones de esa casilla:
Los totales correspondientes a cada nivel del factor A (𝑇𝑗+) se obtienen sumando todas las
puntuaciones de la fila j:
Los totales correspondientes a cada nivel del factor B (𝑇𝐾+) se obtienen sumando todas las
puntuaciones de la columna k:
Y el gran total (T ) se obtiene sumando todas las puntuaciones de la tabla, lo cual puede
hacerse de diferentes maneras:
A partir de estos totales pueden obtenerse las medias de cada casilla, de cada fila, de cada
columna y el total de la tabla simplemente dividiendo los correspondientes totales por el
número de puntuaciones utilizadas para obtenerlos.