You are on page 1of 64

CT01.

Conceptos generales

Estadística → una ciencia que recoge, ordena y analiza los datos de una muestra extraída
de una determinada población, para hacer inferencias acerca de esa población valiéndose
del cálculo de probabilidades.
La estadística se basa en un razonamiento probabilístico para analizar la variabilidad, por
lo que pretende entender cómo se comportan los valores estadísticos (promedios).

Estadística descriptiva → describir la información contenida en un conjunto de datos


(generalmente una muestra); es lo que se corresponde con lo que hemos llamado resumir y
organizar datos.

Estadística inferencial → conjunto particular de datos (muestra) al conjunto total de datos


(población) a los que representan; es lo que se corresponde con lo que hemos llamado
extraer información y elaborar conclusiones. Es necesario efectuar una correcta selección
de los datos. Salto de lo particular a lo general.

Estadística teórica → investigar y proponer métodos formalmente válidos para organizar los
datos y realizar inferencias.

Estadística aplicada → aplicar esos métodos a datos reales. → Análisis de datos:


1. Selección y recopilación de datos
2. Aplicación de herramientas descriptivas (organizar y resumir info. de los datos)
3. Aplicación de herramientas inferenciales (comparaciones y estudiar relaciones)

Inducción o generalización inductiva → conclusiones sobre lo que ocurrirá


con la totalidad de una clase particular de eventos se extraen a partir de la observación de
sólo unos pocos eventos de esa clase.

Ciencias formales → no hay necesidad de entrar en contacto con el mundo real (ej.
matemáticas).
- Leyes de la deducción lógica (conclusiones verdaderas a partir de premisas
verdaderas)

Ciencias empíricas → el objetivo fundamental es el de encontrar relaciones


de tipo general (leyes) capaces de explicar el comportamiento de uno o varios eventos
reales cuando se dan las circunstancias apropiadas.
- Generalización inductiva → ir desde lo que se observa que ocurre en un conjunto
reducido de observaciones hasta la afirmación de que eso mismo es válido también
para el total de observaciones de la misma clase (particular a lo general).

La más importante aplicación del análisis de datos → incertidumbre (tendencia de un


resultado a variar cuando se efectúan repetidas observaciones del mismo bajo condiciones
idénticas)
Niveles de indagación
1. Descriptivo: dar respuesta a la pregunta de cómo son las cosas. Intenta obtener
conocimiento sobre algo desconocido, identificar problemas de investigación y
generar ideas (posibles soluciones a los problemas) para ser estudiadas a otros
niveles.
2. Relacional: dar respuesta a la pregunta cómo unas cosas se relacionan con otras.
Descubrir qué hechos se encuentran relacionados –y en qué medida– y predecir
unos a partir de otros.
3. Explicativo: dar respuesta a la pregunta cómo las cosas han llegado a ser de la
forma que son o, dicho de otra forma, por qué las cosas son como son.

Una técnica de análisis de datos no determina el nivel de indagación en el que es posible


situar las conclusiones de un estudio. Esto viene condicionado, no por la técnica de análisis,
sino por la estrategia de recogida de datos adoptada.
La recogida de datos se realiza en el contexto de un diseño de investigación, que puede
seguir dos caminos (varía el grado de control):
1. Diseño observacional → esperando que aparezca el fenómeno que se desee
estudiar y observándolo cuando ocurre (mínimo control).
2. Diseño correlacional → no existe asignación aleatoria de los sujetos a las
condiciones del estudio (control medio). !! NO es posible conocer con certeza si las
diferencias y relaciones encontradas se deben a las condiciones del estudio (sexo,
tabaquismo, etc.) o a la presencia de variables que no se han podido controlar.
3. Diseño experimental → provocando que ocurra bajo circunstancias controladas y
registrándolo al producirse (máximo control).

La utilización de una u otra técnica de análisis no determina, por ella misma, el tipo de
conclusiones que es posible extraer de un análisis. (una técnica de análisis no permite
saber a qué se deben las diferencias y relaciones detectadas)

● En términos generales, se puede afirmar que las metodologías observacional y


selectiva generan, básicamente, investigación descriptiva y relacional, mientras que
la metodología experimental genera, básicamente, investigación explicativa.

Para poder analizar datos, es necesario asignar números a las características


de las personas u objetos que se desea estudiar.

Medir consiste en hacer corresponder dos sistemas de relaciones: uno empírico (el de las
propiedades que se desea medir) y otro formal (el de los números que se asignan en la
medición).
Tipo de aproximación

Clasificación Escala Características Ejemplos

Nominal -Categorías no numéricas Sexo, estado


civil, marca,
-Igualdad/desigualdad (solo se pueden
países de
si tienen la misma etiqueta o es
nacimiento,
diferente, no se puede decir si es mejor
medicación…
o peor).
-Todos hemos de poder estar
Categórica clasificados en una etiqueta.

Ordinal -Categorías no numéricas. Grado de


educación,
-Nos permite establecer un orden.
clase social,
-Nos permite establecer un grado: Mayor grados de
o menor, superior o inferior. cáncer…
-Distancia entre categorías
desconocidas

De intervalo -Unidad numérica constante Tallas,


temperatura,
-Comparación por diferencia.
CI, fechas,
Cuantitativa -No existe el cero absoluto. horas,
- Discreta: -No multiplicable calificaciones
No decimal
- Continua: De razón -Unidades numéricas Ingresos,
Decimal edad, peso,
-Existe el cero absoluto.
tiempo, nº de
-Comparables por cociente hijos…
(doble/mitad...)
Rol de las escalas de medida
La elección de los diferentes procedimientos estadísticos está, en buena medida,
condicionada por el tipo de mediciones de que se dispone. Pero hay otros autores que dicen
que es irrelevante.

El hecho de que las cuatro escalas de medida descritas sean exhaustivas (cualquier
característica puede ser medida con alguna de ellas) y mutuamente exclusivas (no se
solapan), constituye un verdadero problema a la hora de trabajar con algunas
características.

!!! NO existe ninguna herramienta estadística cuya mecánica no pueda seguirse porque los
números asignados al efectuar la medición no sean los apropiados. Pero una herramienta
estadística no quita ni pone significado a los números que analiza.

Ejercicios página 27 manual I

Análisis descriptivo de variables categóricas


● Centro → valor que más se repite (variables categóricas) o el promedio del conjunto
de valores (variables cuantitativas). (Cálculo típico: valor esperado o esperanza
matemática)

● Dispersión → grado de concentración o alejamiento de los valores en torno al centro


de la variable. (Cálculo habitual: desviación típica)

● Forma de la distribución → permite detectar dónde tienden a agruparse los valores


y si existen valores que se alejan llamativamente de los demás; y cuál es la
probabilidad asociada a cada valor de la variable.
○ Distribuciones empíricas → cómo se distribuyen los valores de una variable.
(valores que toma una variable + frecuencias relativas asociadas a cada
valor).
Combinación formada por los valores de una variable aleatoria y por las
probabilidades asociadas a cada uno de esos valores se le llama función de
probabilidad o distribución de probabilidad.
○ Distribuciones teóricas → fórmula matemática que facilita el trabajo con
variables aleatorias.

Tabla o distribución de frecuencias


Tabla para ordenar datos, que contiene una variable categórica y en el número de veces
que se repite cada valor:
- Frecuencias absolutas (𝑛𝑖): núm veces que se repìte cada valor.
- Frecuencias relativas o proporciones (𝑃𝑖): dividiendo las correspondientes
frecuencias absolutas entre el número total de casos.
- Frecuencias porcentuales (%𝑖): multiplicando por 100 las frecuencias relativas.
X 𝑛𝑖 𝑃𝑖 %𝑖

Tabaquismo Frec. absolutas Frec. relativas Frec. porcentuales

Fumadores 70 0.35 35

Exfumadores 20 0.10 10

No fumadores 110 0.55 55

200 1.00 100

Con variables ordinales es posible también calcular:


- Frecuencia absoluta acumulada (𝑛𝑎𝑖): número de veces que se repite un valor más
cualquier otro inferior a él.
- Frecuencia relativa acumulada (𝑃𝑎𝑖): dividiendo la frecuencia absoluta acumulada
entre el número total de casos
- Frecuencia porcentual acumulada (%𝑎𝑖): multiplicando por 100 la frecuencia relativa
acumulada.

!!! Frecuencias absolutas (incluido el n total) siempre están presentes.

Una tabla de frecuencias ofrece la información sobre dos de las propiedades que utilizamos
para describir una variable:
- Centro → Que valor es más frecuente, tiene la frecuencia más alta. Le llamamos
moda.
- Forma de la distribución → visible a partir del tamaño de las frecuencias, que son las
que indican dónde tienden a agruparse los valores y qué categorías tienen
frecuencias pequeñas. Importante valorar:
- Presencia de categorías con frecuencia nula o muy pequeña
- En variables ordinales, si las frecuencias se agrupan en torno al centro
(simetría) o están desplazadas hacia uno de los extremos (asimetría).

Se mide mediante 2 características: asimetría (existen casos que se alejan del centro
más por uno de los extremos que por el otro) y curtosis (expresa el grado en que una
distribución acumula casos en sus colas en comparación con los casos que
acumulan las colas de una curva normal con la misma media y con la misma
desviación típica).
- Leptocúrtica → más puntiaguda que la curva normal.
- Platicúrtica → más aplastada que la curva normal.
- Mesocúrtica → igual a la curva normal.
En el caso de la dispersión, la calcularemos usando un estadístico → índice de variación
cualitativa (IVC) (toma valores entre 0 y 1):

Σ𝑁 𝑁
𝐼𝐶𝑉 = 𝐼 𝐼'
2
𝐼(𝐼−1)(𝑁/𝐼) /2

70(20)+70(110)+20(110) 11.300
𝐼𝐶𝑉𝑡𝑎𝑏𝑎𝑞𝑢𝑖𝑠𝑚𝑜 = 2 = 13.333,33
= 0. 85
3(3−1)(200/3) /2

Valor 0 → frecuencias están concentradas en una sola categoría (dispersión mínima o nula)
Valor 1 → frecuencias están uniformemente repartidas entre todas las categorías (dispersión
máxima).

Gráficos para variables categóricas

● Gráfico de barras: no es informativo en variables


cuantitativas (sólo cuantitativas discretas de pocos
valores)! Eje horizontal se colocan los valores de la
variable. Eje vertical, las frecuencias. Barras separadas.

● Histograma: agrupa valores y permite comparar


frecuencias de valores de distancias iguales

● Gráfico de sectores: dividiendo un círculo en tantos


sectores como valores distintos (categorías) toma la
variable representada y asignando a cada valor un sector
de tamaño proporcional a su frecuencia. Pierde eficacia
cuando hay muchas categorías.
Gráficos para variables cuantitativas

● Histograma
Eje horizontal se colocan los valores de la variable ordenados de menor a mayor
(comenzando por la izquierda). Eje vertical se colocan las frecuencias (número de
veces que se repite cada valor) y sobre cada valor se levanta una barra o rectángulo
de altura proporcional a su frecuencia (la anchura de las barras no es relevante).

● Diagrama de caja y bigotes


Incluye la mediana, los percentiles 25 y 75, y una serie de puntos que identifican a
los valores que se alejan excesivamente del centro.
Interpretación:
- Intentamos identificar el centro de la distribución (mediana)
- Valorar el grado de dispersión hay que interpretar correctamente la altura de
la caja y la longitud de los bigotes → longitud de los bigotes comparada con
la altura de la caja.
- La longitud de los dos bigotes de cada diagrama y la presencia o no de casos
atípicos y extremos están informando de la forma de la distribución.
Si el bigote superior es mucho mayor que el inferior, indica que las
distribuciones son asimétricas. Si se observan bigotes de igual longitud y un
número aproximadamente igual de casos atípicos y extremos en ambas colas
de la distribución, indica de una distribución simétrica.
CT02. Medidas de tendencia central y variación
Estadísticos para identificar el centro de una variable → medidas de tendencia central ( en
este apartado hablamos de estos).
Estadísticos que permiten cuantificar el grado de dispersión (alejamiento) de las
puntuaciones respecto de su centro → medidas de dispersión o medidas de variación o
de variabilidad.

● Cuantiles

Los cuartiles son tres valores (Q1, Q2, Q3) que dividen la distribución en cuatro partes
iguales (el 25 % de los casos en cada parte).
Los deciles son nueve valores (D1, D2, ..., D9) que dividen la distribución en diez partes
iguales (el 10 % de los casos en cada parte).
Los centiles son noventa y nueve valores (C1, C2, ..., C99) que dividen la distribución en
cien partes iguales (el 1% de los casos en cada parte).

!!! Los cuantiles no son porcentajes, sino valores de la variable.

Se comienza ordenando los casos de forma ascendente por su valor en Y, y calculando i = k


(n + 1)/100; a continuación:
- Si i es un número entero, entonces Pk = Yi [4.1]
- Si i es un número decimal, entonces Pk = (1! d ) Yi + (d ) Yi +1

Donde k es el porcentaje de casos acumulados que se busca; Yi es el valor de la variable


que ocupa la posición correspondiente a la parte entera de i; y d es la parte decimal de i.

Método de cálculo haverage

GRUPOS EDADES 𝑛𝑗

Hombres 18 19 20 22 24 26 29 31 35 45 61 11

Mujeres 19 20 21 22 23 24 25 27 28 29 30 31 32 35 14

Posición (i) 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª11ª 12ª13ª 14ª

Calculamos el primer Cuartil (Q1) o Percentil 25 (𝑃25) en el grupo de hombres:


1. Calculamos la posición que corresponde a este percentil: i = 25 (11 + 1) / 100 = 3
● Valor entero → el percentil 25 es el valor (la edad) que ocupa la 3ª posición

Calculamos el primer Cuartil (Q1) o Percentil 25 (P25) en el grupo de mujeres:


1. Calculamos la posición que corresponde a este percentil: i = 25 (14 + 1) / 100 = 3,75
● Valor NO entero (i = 3 y d = 0,75) → P25 = (1 ! 0,75) Y3 + (0,75) Y4 = (0,25)
21 + (0,75) 22 = 21,75.
Aplicaciones:
- Elaboración de tablas de clasificación (asignar a cada resultado, por ejemplo de una
prueba, una posición)
- Comparar posiciones relativas entre grupo. Por ejemplo, si un alumno saca un 6 en
un examen donde la media de clase es 4, se situará en un percentil más alto que si
la media de clase fuese 8.

Estadísticos de tendencia central


En una variable cuantitativa el valor que más se repite (la moda) no tiene porque estar en el
centro. Por eso existen estas medidas.

● Media Aritmética
Σ𝑌𝑖
Suma de todas las puntuaciones dividida por el número de puntuaciones → 𝑌 = 𝑛
Utiliza las propiedades cuantitativas de los datos

Propiedades de la media
1. Puntuaciones diferenciales o de desviación → diferencias entre cada puntuación y la
media. Su suma vale 0.
Centro de gravedad de la variable: las desviaciones de la media pesan exactamente
lo mismo a cada lado de la media (la suma de puntuaciones diferenciales negativas
es igual que la suma de las positivas = 0).

2. Si a las puntuaciones de una variable se les multiplica y/o se les suma una
constante, la media de la variable también queda multiplicada y/o sumada por esa
misma constante

3. Media ponderada → Si todos los grupos tienen el mismo tamaño, la media total
coincide con la media de las medias de los grupos. Si los grupos tienen distinto
tamaño, esta correspondencia no se sostiene (y la media total es la media
ponderada).

● Mediana (𝑀𝑑𝑛𝑦)
Es el valor que ocupa la posición central cuando los casos están ordenados.
- Si el número de casos es impar, la mediana es el valor que ocupa la posición i = (n +
1) / 2
- Si el número de casos es par, la mediana es el punto medio (media aritmética) entre
los dos valores que ocupan las posiciones i1 = n / 2 , i2 = (n / 2) + 1.

Estadísticos resistentes
La mediana es un estadístico más resistente que la media.
Por ejemplo, en un caso, si se cambia el valor más alto de la distribución (33) por 74, la
media del grupo pasa de 25,09 a 28,82. → mientras que el cambio de un sólo dato
altera la media en más de tres puntos y medio, la mediana permanece inalterada.
Estadísticos de dispersión
Nos permiten conocer el grado de dispersión, es decir, el grado de parecido entre los datos
en el sentido de concentración o alejamiento entre ellos.
El grado de dispersión puede contribuir de forma importante a describir un conjunto de
datos.

● Amplitudes
Amplitud total o rango → la diferencia entre el valor más grande y el más pequeño.
Estadístico muy poco resistente, porque una gran amplitud puede indicar que un solo valor
muy extremo haga variar el valor de la amplitud.

Amplitud intercuartil → la distancia existente entre los cuartiles primero y tercero.


Mide el grado de dispersión del 50 % de los casos centrales (normalmente, los más
representativos del conjunto de datos). Por esto, se puede estar desechando información
relevante.

La amplitud total sólo debería utilizarse con distribuciones simétricas o aproximadamente


simétricas. Si no se da esta circunstancia, es preferible utilizar la amplitud intercuartil.

● Desviaciones promedio

Si la desviación que una puntuación individual experimenta respecto de la media de su


distribución está expresando el grado de dispersión de esa puntuación, la suma de todas las
desviaciones de un conjunto de datos debería estar expresando la dispersión total del
conjunto. Sin embargo, sabemos que esto no es así porque la suma de las desviaciones de
la media vale cero (recordemos que las desviaciones positivas se anulan con las negativas).
Para evitar este problema basta con aplicar algún tipo de transformación que haga tomar a
todas las desviaciones un valor positivo.
- Las transformaciones más habituales consisten en tomar el valor absoluto de las
desviaciones o en elevarlas al cuadrado.

Media de las desviaciones o desviación media → las desviaciones se toman en valor


absoluto y su suma se divide por el número de puntuaciones para obtener la desviación
promedio. Representa el promedio del conjunto de distancias a la media.
| |
Σ 𝑦𝑖
𝑌|𝑑𝑒𝑠𝑣| = 𝑛
Esta media sigue siendo sensible a la presencia de valores extremos por una de las dos
colas de la distribución, por eso existe:

Mediana de las desviaciones → mediana de las distancias a la mediana.


Conforme la distribución se vaya haciendo más asimétrica, el valor de la media de las
desviaciones se verá más alterado que el de la mediana de las desviaciones
|
𝑀𝑑𝑛|𝑑𝑒𝑠𝑣| = 𝑀𝑑𝑛 𝑌𝑖 − 𝑀𝑑𝑛𝑌 |
● Varianza
Promedio de las desviaciones de la media elevadas al cuadrado
2
2 Σ(𝑌𝑖− 𝑌)
𝑆𝑌(𝑛) = 𝑛

Cuando se utiliza la varianza muestral para hacer inferencias sobre la varianza poblacional,
utilizar n en el denominador da como resultado un valor muestral que tiende a ser menor
que el valor poblacional. Este sesgo desaparece simplemente restando 1 al tamaño
muestral en el denominador:
2
2 Σ(𝑌𝑖− 𝑌)
𝑆𝑌(𝑛) = 𝑛−1

La varianza puede servir para comparar entre sí distintos grupos (lógicamente, en la misma
variable) y saber en cuál de ellos hay mayor dispersión, pero no sirve para formarse una
idea sobre el grado de dispersión (porque los valores están elevados al cuadrado.
Así, para medir el grado de dispersión se utiliza:

● Desviación típica
Raíz de la varianza, siempre se toma la raíz positiva:
2
2 Σ(𝑌𝑖− 𝑌)
𝑆𝑌(𝑛) = 𝑛−1

La desviación típica tomará un valor tanto más alejado del de la media de las desviaciones
cuanto más asimétrica sea la distribución.
Por los mismos argumentos que, según hemos visto ya, es tarea obligada informar del valor
de la media aritmética a pesar de su baja resistencia, también lo es informar de la
desviación típica (por las puntuaciones típicas que nos obliga a calcular).

!!! Los estadísticos de dispersión NO se alteran cuando a los valores de una variable se les
suma o resta una constante. Pero, todos ellos, excepto la varianza, varían si se multiplica o
se divide. Por ejemplo, triplican su valor cuando los valores originales de la variable se
multiplican por 3.
A excepción de la varianza, todos los estadísticos estudiados cuantifican la dispersión en la
misma métrica que la variable original.

Forma de la distribución
Estudiar la forma de una distribución implica, básicamente, valorar dos características:
asimetría y curtosis.
➢ Asimetría → forma en que los datos se distribuyen por encima y por debajo del
centro. Cuando los casos más alejados del centro se encuentran en la zona alta de
la distribución, decimos que existe asimetría positiva; cuando se encuentran en la
zona baja, asimetría negativa.
➢ La curtosis de una distribución se refiere a su grado de apuntamiento. Se valora por
comparación con una distribución teórica llamada curva normal (referente de curtosis
media).
○ Una distribución leptocúrtica es más puntiaguda que la curva normal y,
además, acumula más casos que ésta en sus colas.
○ Una distribución platicúrtica es más aplastada que la curva normal y, además,
acumula menos casos que ésta en sus colas. A la curva normal (referente de
curtosis media) se le llama mesocúrtica.

● Gráficos para variables cuantitativas

Histograma
Parecido a gráfico de barras pero con las barras juntas.
- En el eje horizontal se colocan los valores de la variable ordenados de menor a
mayor (comenzando por la izquierda) → utilizar intervalos en vez de cada valor
individual.
- En el vertical se colocan las frecuencias (número de veces que se repite cada valor)
- Sobre cada valor se levanta una barra o rectángulo de altura proporcional a su
frecuencia (la anchura de las barras no es relevante)

Asimetría positiva → los casos más alejados del centro se encuentran en la zona alta de la
distribución.

Uniendo con una línea los puntos medios de los bordes superiores de cada barra del
histograma se obtiene el polígono de frecuencias.
Diagrama de caja y bigotes (boxplot)
Permite formarse una idea de: centro, dispersión y forma.
- Grado de dispersión → longitud relativa de los bigotes, es decir, en la longitud de los
bigotes comparada con la altura de la caja;
- centro de la distribución → mediana
- Forma de la distribución → longitud de los dos bigotes de cada diagrama y la
presencia o no de casos atípicos y extremos

Índices de asimetría y curtosis


Aunque la inspección de un gráfico (histograma, diagrama de caja) ya permite formarse una
primera idea sobre el grado de asimetría y curtosis de una distribución, utilizar estadísticos
permite valorar ambas características con mayor precisión.

● Variable con simetria → media =mediana=moda


● Variable con asimetría derecha (casos extremos=pocos casos) a la derecha) →
media está por encima de la mediana. En el boxplot hay muchos datos alejados
por arriba.
● Variable con asimetría izquierda (casos extremos a la izquierda) → media por
debajo de la mediana. En el boxplot hay muchos datos alejados por debajo.

En el salario de un país es mejor dar la mediana que la media, porque si damos la media no
estamos teniendo en cuenta que hay gente que es muy extremadamente rica y esto hace
que la media sea superior. En la mediana daríamos el valor central que no estaría sesgado
por el gran número de gente rica de un país.
Cuanta más desigualdad en el país = más asimetría = peor representación de la centralidad
con la media
CT03. Puntuaciones típicas y escalas derivadas.
Con variables cuantitativas hay dos herramientas estadísticas que ayudan de forma
importante a completar la información que ofrecen el centro, la dispersión y la forma de la
distribución.

Para poder comparar variables, nos encontramos que muchas veces tiene diferente métrica
(por ejemplo, kg y metros), diferente centro (por ejemplo, un 4 en lengua se trata de la peor
calificación; en matemáticas, de una calificación intermedia) y diferente dispersión.
● Las puntuaciones de distribuciones distintas no admiten una comparación directa a
no ser que esas distribuciones tengan el mismo centro, la misma dispersión y la
misma métrica

Esto no significa que haya que renunciar a comparar las puntuaciones que no cumplan esos
tres requisitos. Es más, para abordar esta tarea disponemos de dos estrategias distintas.

1. Cuartiles
En los cuartiles hay 3 cortes para dividir en 4 partes iguales (25% de los datos ordenados
de menor a mayor)
El primer cuartil deja el 25% debajo, el segundo deja el 50% y el tercero deja el 75%.
EJ. Una persona tiene percentil 50 y otras percentil 70, la persona de percentil 70 tiene más
extroversión porque el 70% de personas tiene igual de extroversión que ella o menos, solo
el 30% tiene más extroversión que ella.

Los deciles hacen 9 cortes, tengo 10 trozos con un un 10% de los datos.
El decil 1 deja por debajo el 10% de los datos, el decil 3 deja por debajo el 30% de los
casos, el decil 2 deja el 20%...
Los centiles hacen 99 cortes, tengo 100 trozos con un 1% de los datos.

Los cuartiles permiten conocer la posición relativa que ocupa cada puntuación dentro de su
distribución tomando como base de cálculo el porcentaje de casos acumulados.
➢ Con esta estrategia, las puntuaciones originales o directas (cualquiera que sea su
métrica) se transforman en posiciones relativas que pasan a tener el mismo centro
(50, en los percentiles el centro es 50, en el caso de los cuartiles es el 2 → no
sabemos cuanto vale pero sabemos que es el medio), la misma dispersión (0 - 100,
todos los percentiles van entre 0 y 100, la unidad es el porcentaje de casos) y la
misma métrica (unidades porcentuales

El problema de los cuartiles es que NO respetan distancias: el decil que corresponde a


una puntuación de una persona es una variable ordinal (hay orden pero no se respetan
distancias)
Por ejemplo, en una cursa hay un orden de ganadores: primero, segundo.. pero no hay
distancias porque a lo mejor el primero se diferencia del segundo en 2 minutos, en cambio,
el segundo del tercero en 6 minutos.
2. Puntuaciones diferenciales

El problema de los percentiles se puede resolver utilizando las distancias a la media →


puntuaciones diferenciales.
En este caso, resolvemos el problema del centro pero no resolvemos el diferente grado de
dispersión ni la distinta métrica (unidades)
➢ Puedo comparar distancias dentro de una distribución, pero no entre distribuciones
distintas. Porque tengo distinta dispersión y distinta métrica.

Ejemplo.
1. Puntuaciones: 3, 4, 8 → media =5 // Puntuaciones diferenciales: -2, -1, 3 → media = 0
2. Puntuaciones: 20,40,80 → media aprox = 46 // Puntuaciones: diferenciales: (20-46) -26,
-6, 34 → media = 0

Rango 1: 8-3 = 5
Rango 2: 80-20 = 40

La 2 está más dispersa, y las diferenciales de la 2 también están más dispersas = las
diferenciales respetan la dispersión de la original. Por eso, con las puntuaciones
diferenciales solo muevo la media (centro) a 0 y respeto la dispersión.

La solución a esto está en transformar las distancias a la media en puntuaciones que


además de tener el mismo centro (=la media de las distancias a la media vale cero), tengan
la misma dispersión y la misma métrica (unidades):

3. Puntuaciones típicas (Z)

Se consigue la misma dispersión, métrica y centro dividiendo las distancias a la media


entre la desviación típica:
𝑌−𝑌
𝑍 = 𝑆𝑌

Al dividir entre la desviación típica, las distancias a la media quedan expresadas en


unidades de desviación típica (en unidades de dispersión) y con ello se obtienen unas
nuevas puntuaciones que cumplen los tres requisitos necesarios para comparar
puntuaciones de distintos grupos o variables:
● Puntuaciones con el mismo centro: cualquiera que sea la media de la variable
original, la media de las nuevas puntuaciones Z vale cero (suma de las desviaciones
de la media vale cero)
● Puntuaciones con la misma dispersión: cualquiera que sea el grado de dispersión de
la variable original, la varianza y la desviación típica de las nuevas puntuaciones Z
vale uno.
● Puntuaciones con la misma métrica: cualquiera que sea la métrica original de la
variable tipificada, la métrica de las nuevas puntuaciones Z cambia a unidades de
desviación típica.
!!! Independientemente de las características de la distribución original, las puntuaciones Z
mayores que 3 o menores que -3 suelen estar delatando casos atípicos

Es importante señalar que, aunque la transformación en puntuaciones Z cambia tanto el


centro como la dispersión de la variable original, la forma de la distribución permanece
inalterada. Esto no pasa con los cuartiles (la transformación en percentiles convierte la
métrica original en ordinal –posiciones relativas– y, con ello, se altera por completo
la forma de la distribución).

RECORDAR!!

Las medias se podían modificar, con las


desviaciones típicas pasa lo mismo.

Por ejemplo.
El CI es una escala tipificada donde la media es 100, y tiene una desviación típica de 15 →
si tu CI es 115, en desviaciones típicas es 1. Porque estas a 1 desviación típica de la media.

Se transformó la escala a una escala con media 100 y desviación típica 15, porque a las
personas no les gustaba que les dijesen que tenían un CI de 0 o un CI de -1. Sino que un CI
de 115 o un CI de 85 suena mejor, aunque en la práctica es lo mismo.

La escala de CI es una escala típica transformada!!

4. Transformar la Z a escalas derivadas

Sabemos que si a una variable se le multiplica y suma una constante, la media queda
alterada; en concreto, si X = a + bY, entonces 𝑋 = 𝑎 + 𝑏𝑌

También sabemos que la desviación típica no se altera por la constante sumada pero sí
por la multiplicada; en concreto, si X = a + bY, entonces 𝑆𝑋 = |𝑏|𝑆𝑌. En consecuencia, la
transformación → T = a + bZ, tendrá una media 𝑇= a (pues la media de las puntuaciones Z
vale cero) y una desviación típica 𝑆𝑇 = | b | (pues la desviación típica de las puntuaciones Z
vale uno).
- a= lo que sumo a la tipica
- b= por lo que multiplicó la desviación típica.

Toda variable cuantitativa, cualquiera que sea su métrica, puede ser transformada en otra
variable equivalente con media y desviación típica conocidas.
Este tipo de transformaciones sirven para que un conjunto de puntuaciones (por ejemplo,
las puntuaciones de un test) puedan expresarse en la métrica deseada.
En el caso de la escala de CI:
● Transformar a típicas y luego sumar 100 → así paso de media 0 a media 100.
● Multiplico la desviación típica (=1) por 15, así paso de desviación típica 1 a 15.
Entonces las distancias a la media se calcularán de 15 en 15.
Curva normal
Conocer la distribución teórica de una variable permite conocer las probabilidades asociadas
a cada posible resultado muestral.
- Se conocen las características poblacionales de una variable categórica, es decir,
las frecuencias relativas asociadas a cada valor de la variable (por ejemplo, la
proporción de fumadores)
- Distribución binomial para conocer la probabilidad concreta asociada a cada
resultado muestral (por ejemplo, la probabilidad de encontrar un determinado número
de fumadores al extraer una muestra aleatoria de tamaño n de esa población) → nos
dice el porcentaje en que es probable obtener un resultado entre dos posibles al
realizar un número n de pruebas. La probabilidad de cada posibilidad no puede ser
más grande que 1 y no puede ser negativa.

En variables cuantitativas ocurre algo parecido → aunque las distribuciones de las


variables cuantitativas pueden adoptar formas muy diversas, muchas de las variables que
medimos tienen una forma particular: la mayoría de los valores se encuentran próximos al
centro de la distribución y van siendo menos frecuentes a medida que va aumentando la
distancia al centro → Distribución teórica llamada curva normal.

Muchos de los procedimientos estadísticos que estudiaremos asumen que los datos
proceden de poblaciones normales. Además la curva normal sirve como referente para
describir cómo se distribuyen muchos de los datos. La justificación de esta regularidad se
encuentra en el teorema del límite central:
● ‘’Si los datos que se recogen son debidos a la suma de cierto número de causas
independientes entre sí, cada una con un efecto parcial, la distribución de los datos
recogidos se asemejará tanto más a la curva normal cuantos más datos se recojan
(cualquiera que sea la distribución original de esos efectos parciales y siempre que la
desviación típica de estos efectos sea finita).’’
● = a no ser que la asimetría sea muy grande, puedo asumir que si tomo un número de
sujetos lo suficientemente grande, la variable real se parecerá más a la distribución
normal teórica (TEOREMA DEL LÍMITE CENTRAL)

¿Que significa que una variable cuantitativa se distribuya de manera normal?


Muchas variables cuantitativas se distribuyen de manera normal. y eso significa que:
● El centro es el valor más esperado de la variable, por ejemplo el peso. (este valor
suele ser la media)
● Los valores de la variable son menos probables cuanto más alejados del centro
están.
● Valores muy alejados por encima y valores muy alejados por debajo tienen
probabilidades pequeñas y similares.

Para indicar que una variable se distribuye normalmente utilizaremos la siguiente expresión:
𝑌 ∼ 𝑁(µ𝑌, σ𝑌)
Cambiando los valores µ𝑌 𝑦 σ𝑌, se obtienen distintas curvas normales. Pero todas comparten
las mismas características:

● Tienen un único máximo en µ𝑌


● Tienen forma de campana, valores centrales son más probables que los que se van
alejando del centro.
● Son simétricas respecto al eje central situado en µ𝑌. Por tanto las medidas de
tendencia central coinciden (mediana=moda=media)

La mayor parte del trabajo con variables distribuidas normalmente consiste en hallar el
tamaño relativo que cada porción de área representa respecto del área total (proporción de
área). Hablar de proporción de área es equivalente a hablar de probabilidad.
Estas probabilidades se obtienen a partir de las densidades que ofrece la función. No
obstante, para evitar este tipo de cálculos, se han construido tablas con las probabilidades
(proporciones de área bajo la curva) ya calculadas.
● Estas tablas recogen las probabilidades de una curva normal muy especial llamada
curva normal tipificada o estandarizada → tiene media 0 y desviación típica 1; lo cual
se expresa mediante N (0, 1).

La probabilidad de encontrar valores menores (o mayores) que una puntuación directa es


exactamente la misma que la de encontrar valores menores (o mayores) que su
correspondiente puntuación típica.
Para conocer la probabilidad de encontrar valores menores (o mayores) que una
puntuación directa es necesario:
1) transformar esa puntuación directa en puntuación típica
2) Utilizar la tabla de áreas bajo la curva normal para conocer la probabilidad buscada
Por ejemplo, para calcular la proporción de área que queda por debajo de la puntuación 4,5
en una distribución N (6, 1,5), comenzamos transformando esa puntuación directa en
puntuación Z siguiendo la ecuación:
4,5−6
𝑍(𝑦 = 4,5) = 1.5
= − 1

R/ Esto significa que la puntuación 4,5 en la distribución N (6, 1,5) ocupa la misma posición
relativa que la puntuación -1 en la distribución N (0, 1). Y esto implica que la probabilidad de
encontrar valores menores (o mayores) que 4,5 en su distribución es la misma que la de
encontrar valores menores (o mayores) que -1 en la suya.

Tabla de la curva normal


Recoge la probabilidad (tamaño relativo del área bajo la curva) asociada a cada puntuación
Z → los valores del interior de la tabla corresponden siempre a probabilidades acumuladas.
De acuerdo con esto, el primer valor de la primera fila de la tabla indica que la puntuación
Z = -3,00 deja por debajo de sí (acumula) una probabilidad de 0,0013.

Siempre que una puntuación Z aparezca con una


probabilidad como subíndice, éste estará indicando la
probabilidad que acumula esa puntuación Z.
Por ejemplo, 𝑍0.1271 = − 1. 14

!!! Si dos puntuaciones Z de dos variables


diferentes son iguales, significa que las puntuaciones son equivalentes.

Aproximación de la distribución binomial a la normal


Distribución binomial → referente teórico de las probabilidades asociadas al número de
éxitos observados en un conjunto de n ensayos o réplicas de una variable dicotómica
Sirve para trabajar con variables dicotómicas. Pero no exactamente con los dos valores que
toma una variable dicotómica X (uno-cero; éxito-fracaso), sino con el número de éxitos (n1)
o el número de fracasos (n0) observados en un conjunto de n ensayos.

𝑛! π 𝑛−𝑛1
𝑃(𝑛1) = 𝑛1! (𝑛−𝑛1)!
π11 (1 − π1)

● n se refiere al número de ensayos


● 𝑛1 es el valor concreto de la variable número de éxitos (caras, recuperaciones) cuya
probabilidad se desea conocer
● π1es la probabilidad teórica de éxito.
Esta ecuación permite calcular la probabilidad de que la variable n1 = «número de
éxitos» tome cada uno de sus posibles valores: 0, 1, 2, ..., n.
El único requisito para obtener estas probabilidades es que los ensayos sean
independientes entre sí.
● La forma de la distribución binomial → simétrica cuando π1 vale 0,5 (gráfico del
centro) y (2) se va volviendo más y más asimétrica a medida que el valor de π1 se va
alejando de 0,5.

● Centro de la distribución → valor que cabe esperar con más probabilidad. Valor
esperado (v. discreta) → 𝐸(𝑛1) = µ𝑛 = 𝑛π1
1

2 2 2
● Grado de dispersión → Varianza = 𝑉(𝑋) = σ𝑋 = 𝐸(𝑋 ) − [𝐸(𝑋)]

Para conocer las probabilidades de una distribución binomial no es necesario


efectuar cálculos a mano → La tabla que ofrece las probabilidades binomiales tiene una
utilidad algo limitada porque sólo incluye algunos valores de n (número de ensayos) y π1
(probabilidad de éxito).
Para valores de n o π1 de los que incluye la tabla podemos utilizar Jamovi o la siguiente
estrategia.

La distribución binomial (como otras muchas) se va pareciendo más y más a la distribución


normal a medida que el tamaño muestral va aumentando. → El grado de parecido es alto
incluso con tamaños muestrales relativamente pequeños.
● Si π1 toma un valor centrado (próximo a 0,5), tamaños muestrales tan pequeños
como 5 permiten obtener ya una buena aproximación; cuanto más se aleja π1 de 0,5,
mayor necesita ser el tamaño muestral para que la aproximación sea buena

Para poder utilizar las probabilidades normales en lugar de las binomiales es necesario
comenzar tipificando la variable binomial, es decir, tipificando la variable n1 = «número de
éxitos en n ensayos». Para ello, sabemos que el valor esperado de n1 es n π1 y su varianza
𝑛π1(1 − π1)

Por tanto, cualquier valor de 𝑛 puede transformarse en puntuación Z de la siguiente


1
manera:
𝑛1 − 𝑛π1
𝑍 =
𝑛π1(1−π1)

Esta transformación Z propuesta tenderá a distribuirse N (0, 1).

Cuando se utilizan las probabilidades normales en lugar de las binomiales, se está


utilizando una distribución continua (la normal) en lugar de una distribución discreta (la
binomial) → porque la probabilidad de obtener 𝑛1 éxitos en n ensayos es discreta (no
permite decimales, 1 éxito pero no 1,2 éxitos).
Así, para que el grado de parecido entre la distribución binomial (discreta) y la distribución
normal (continua) aumente, se puede intentar que los valores discretos se conviertan en
continuos → corrección por continuidad. Consiste en considerar que obtener 3 éxitos
equivale a obtener éxitos comprendidos entre 2,5 y 3,5; o que obtener menos de 3 éxitos
equivale a obtener menos de 2,5 éxitos.

CT04. Correlación y regresión

CT05. Probabilidad

Espacio muestral y sucesos


El espacio muestral (E) es el conjunto de posibles resultados de un experimento aleatorio
(cualquier acción cuyo resultado no puede predecirse con certeza, por ejemplo, lanzar una
moneda al aire).
EJ. si el experimento aleatorio consiste en lanzar una moneda dos veces, el espacio
muestral está formado por cuatro posibles resultados: cara-cara, cara-cruz, cruz-cara,
cruz-cruz;

Un suceso (S) es un subconjunto de un espacio muestral.


● Un suceso simple o elemental está formado por un único resultado (por ejemplo,
obtener “cara-cara” en dos lanzamientos de una moneda)
● Un suceso compuesto está formado por más de un resultado (por ejemplo, obtener
“una cara” en dos lanzamientos; es decir, obtener “cara-cruz” o “cruz-cara”).
● Suceso seguro: suceso formado por todos los resultados del espacio muestral
● Suceso imposible: resultados que no forman parte del espacio muestral

La unión (U) de dos sucesos es el conjunto de resultados distintos que forman parte de uno
u otro suceso.
La diferencia entre dos sucesos es el conjunto de resultados que pertenecen al primer
suceso y no al segundo.
La intersección (∩) de dos sucesos es el conjunto de resultados que forman parte tanto de
uno como de otro suceso

Dos sucesos se consideran iguales cuando incluyen los mismos resultados.


Exclusivos cuando no tienen ningún resultado en común.
Un suceso tiene su complementario en todos los resultados del espacio muestral que no
forman parte de él.

Concepto de probabilidad
La probabilidad de un suceso es algo más que lo fácil o difícil que es observarlo: es un
número que intenta cuantificar lo fácil o difícil que es observarlo.
● Punto de vista a priori → asume que todos los sucesos elementales de un espacio
muestral tienen las mismas posibilidades de ocurrir, cuantifica la probabilidad
𝑛𝑆
asociada a un suceso concreto (S ) como su frecuencia relativa teórica: 𝑃 (𝑆) = 𝑛
○ 𝑛𝑠 → número de resultados favorables al suceso (ns)
○ n → número de resultados posibles

● Punto de vista a posteriori → concibe la probabilidad de un suceso como el límite al


que tiende su frecuencia relativa. La probabilidad que se asigna a un suceso la
proporción de veces que se observa el suceso al realizar el experimento aleatorio un
número infinito de veces (= frecuencia relativa empírica)
𝑛𝑆
𝑃 (𝑆) = lim 𝑛
𝑛→∞
Como no es posible realizar un experimento un número infinito de veces, la
probabilidad a posteriori de un suceso hay que estimarla realizando el experimento
muchas veces, tantas como sea necesario hasta observar que el valor de su
frecuencia relativa se estabiliza.

Adoptar uno u otro punto de vista no tiene implicaciones relevantes sobre las conclusiones
Tanto las probabilidades a priori como las a posteriori se conciben como frecuencias
relativas (teóricas en el primer caso y empíricas en el segundo), sus propiedades son
idénticas:
1. La probabilidad de todos los sucesos del espacio muestral (el suceso seguro) vale 1.
Es decir, P (E ) = 1.
2. La probabilidad de un suceso es siempre no negativa. Es decir, P(S) ≥ 0.
3. La probabilidad de la unión de dos o más sucesos mutuamente exclusivos es igual a
la suma de las probabilidades individuales de cada suceso. Es decir,
𝑃 (𝑆1𝑈 𝑆2𝑈 𝑆3 𝑢 ...) = 𝑃(𝑆1) + 𝑃(𝑆2) + 𝑃(𝑆3) ...

De estas propiedades se obtienen dos reglas: la regla o teorema de la multiplicación


(referida a la intersección de sucesos) y la regla o teorema de la suma (referida a la unión de
sucesos).

Regla de la multiplicación
Probabilidad condicional → probabilidad de que ocurra un suceso cuando se impone la
condición de que haya ocurrido otro previamente.
𝑃 (𝑆1 | 𝑆2), ‘’“probabilidad condicional de S1 dado S2’’

La probabilidad condicional del suceso S1 dado el suceso S2 es igual a la probabilidad


de la intersección de ambos sucesos dividida entre la probabilidad del suceso dado:

𝑃 (𝑆1∩𝑆2)
𝑃 (𝑆1 | 𝑆2) = 𝑃 (𝑆2)

Sirve para formular la regla de la multiplicación (también llamada regla del producto):
La probabilidad de la intersección de dos sucesos es igual a la probabilidad individual
de uno de ellos multiplicada por la probabilidad condicional del otro.
𝑃 (𝑆1 ∩ 𝑆2) = 𝑃(𝑆1)𝑃(𝑆1 | 𝑆2)

Cuando dos sucesos no ven alteradas sus respectivas probabilidades individuales por la
presencia del otro, decimos que esos sucesos son independientes, y la regla de
multiplicación cambia:
𝑃 (𝑆1|𝑆2) = 𝑃(𝑆1)
Ejemplo

¿Qué proporción tiene Internet?


P(Internet=sí) = 4509/6145 = 0,73

P ∩ A → probabilidad de intersección (probabilidad de una cosa y otra)


¿Qué proporción están suscritos a un periódico y tienen internet?
P(Periódico ∩ Internet) = 2001/6145 = 0,325

¿Qué proporción de los tienen internet están suscritos a un periódico?


P(Periódico | Internet) = 2001/4509 = 0,443

¿Qué proporción de los tienen internet están suscritos a un periódico?


P(Periódico | Internet) = P(Periódico ∩ Internet) = 2001/6145 = 0,325 = 0,73
P(Internet) 4509/6145 0,44

¿Qué proporción están suscritos a un periódico y tienen internet?


P(Periódico ∩ Internet) = P(Internet) P(Periódico | Internet)
P(Periódico ∩ Internet) = P(Periódico) P(Internet | Periódico)

¿Probabilidad de leer el periódico si es hombre?


P(Periódico|Hombre) = P(Periódico ∩ Hombre) = 1393 /6400 = 1393 = 43
P(Hombre) 3221/6400 3221
= P(Periódico) = 2768/6400 = 0,43

Probabilidad de estar suscrito a un periódico o tener internet


𝑃 (𝑝𝑒𝑟𝑖ó𝑑𝑖𝑐𝑜 = 𝑠í ∪ 𝑖𝑛𝑡𝑒𝑟𝑛𝑒𝑡 = 𝑠í) = 𝑃 (𝑝𝑒𝑟𝑖ó𝑑𝑖𝑐𝑜 = 𝑠í) + 𝑃 (𝑖𝑛𝑡𝑒𝑟𝑛𝑒𝑡 = 𝑠í)− 𝑃 (𝑝𝑒𝑟í𝑜𝑑𝑖𝑐𝑜 = 𝑠í ∩
𝑖𝑛𝑡𝑒𝑟𝑛𝑒𝑡 = 𝑠í) =0,43+0,73-0,33= 0,84
➔ Notad que esto es lo mismo que la 𝑷 (𝒑𝒆𝒓𝒊ó𝒅𝒊𝒄𝒐 = 𝒏𝒐 ∩ 𝒊𝒏𝒕𝒆𝒓𝒏𝒆𝒕 = 𝒏𝒐)

Probabilidad de estar suscrito a un periódico o ser hombre

𝑃 (𝑝𝑒𝑟𝑖ó𝑑𝑖𝑐𝑜 = 𝑠í ∪ ℎ𝑜𝑚𝑏𝑟𝑒 = 𝑠í) = 𝑃 (𝑝𝑒𝑟𝑖ó𝑑𝑖𝑐𝑜 = 𝑠í) + 𝑃 (ℎ𝑜𝑚𝑏𝑟𝑒 = 𝑠í) − 𝑃 (𝑝𝑒𝑟í𝑜𝑑𝑖𝑐𝑜 = 𝑠í ∩


ℎ𝑜𝑚𝑏𝑟𝑒 = 𝑠í) =0,43+0,50-0,21= 0,72
➔ Notad que esto es lo mismo que la 𝑷 (𝒑𝒆𝒓𝒊ó𝒅𝒊𝒄𝒐 = 𝒏𝒐 ∩ 𝒉𝒐𝒎𝒃𝒓𝒆 = 𝒏o)

Regla de la suma
Si dos sucesos son mutuamente exclusivos, la probabilidad de su unión es la suma de sus
probabilidades individuales: 𝑃 (𝑆 ∪ 𝑆 ) = 𝑃(𝑆 ) + 𝑃(𝑆 )
1 2 1 2

Si los sucesos no son exclusivos (tienen algún elemento en común), la probabilidad de la


unión hay que restarle la parte que tienen en común (intersección):
𝑃 (𝑆1 ∪ 𝑆2) = 𝑃(𝑆1) + 𝑃(𝑆2) − 𝑃 (𝑆1 ∩ 𝑆2)

CT06. Muestreo y variables aleatorias


Una variable es la representación numérica de una característica sometida a medición.
- Variables categóricas → mediciones resultantes de aplicar una escala nominal (ej.
sexo o tipo de tratamiento)
- Variables cuantitativas → mediciones que resultan al aplicar una escala de intervalos
o de razón (ej. temperatura en grados Celsius o altura en cm).
- Discreta: entre dos valores consecutivos no puede darse un valor intermedio.
- Continua: entre dos valores consecutivos siempre es posible encontrar un
valor intermedio.

Una población o universo es un conjunto de elementos (sujetos, objetos, entidades


abstractas, etc.) que poseen una o más características en común. (conjunto total de
elementos que interesa estudiar y queda definida cuando se hacen explícitas las
características que esos elementos comparten)

Una muestra es un subconjunto de elementos de una población.


Un parámetro es un valor numérico que describe una característica poblacional. En una
población es posible considerar otras muchas características en las que no todos los
elementos poblacionales coinciden. Por ejemplo, dentro de la población, ser hombres,
españoles y mayores de 30 años, pueden no coincidir en el estado civil, el peso o el nivel de
educación.
Características:
● Son valores poblacionales desconocidos (poblaciones son demasiado grandes)
● Son valores numéricos constantes en el sentido de que son valores únicos (es decir,
no son variables).
● Letras griegas minúsculas: μ, σ, π, ρ, β, etc.

Un estadístico es un valor numérico que describe una característica muestral.


● Cada parámetro poblacional posee su réplica muestral en un estadístico concreto
susceptible de ser calculado → Los estadísticos muestrales se van a utilizar para
intentar formarnos una idea sobre los verdaderos valores de sus correspondientes
parámetros poblacionales desconocidos (estimación).
● El valor del estadístico varía de una muestra a otra. Un estadístico no es un valor
numérico constante sino que es una variable.
● Un estadístico es un valor conocido o susceptible de ser conocido
● Letras latinas mayúsculas (𝑋, S, P, R, B, etc.).
!!! Utilizar muestras representativas del total de la población.
Muestreo se refiere al proceso seguido para extraer una muestra de una población.
- Probabilístico → se conoce (o puede calcularse) la probabilidad asociada a cada una
de las muestras que es posible extraer de una determinada población; y cada
elemento poblacional tiene asociada una probabilidad conocida (o calculable) de
pertenecer a la muestra.
Sólo el muestreo probabilístico ofrece una base adecuada para inducir las
propiedades de una población a partir de la información muestral.
- No-probabilístico → se desconoce o no se tiene en cuenta la probabilidad asociada a
cada posible resultado muestral.

Muestra aleatoria
● Todos los elementos poblacionales tienen la misma probabilidad de ser elegidos
(misma probabilidad de salir = muestra representativa)
● El resultado de cada extracción no afecta ni depende del resultado de cualquier otra.
○ Muestreo aleatorio sistemático (útil si se tiene un listado de la población).
EJ. Así, para extraer una muestra aleatoria de tamaño 100 de una población
de 2.000 elementos, se comienza elaborando una lista asignando a cada
elemento un número de 1 a 2.000. La constante que se debe utilizar es k =
N/n = 2.000/100 = 20. Después, se selecciona al azar un elemento entre los
20 primero. Si, por ejemplo, el elemento seleccionado es el que ocupa la
posición i = 9, el resto de los elementos de la muestra serán los que ocupen
en la lista las posiciones 29, 49, 69, 89, ..., 1949, 1969, 1989

○ Muestreo aleatorio estratificado. Con el muestreo aleatorio simple existe la


posibilidad de que alguno de los estratos no esté suficientemente
representado. Se elaboran k listas (una por estrato) con los elementos de
cada estrato debidamente numerados y se procede a extraer aleatoriamente
una muestra de cada estrato mediante muestreo aleatorio simple o mediante
muestreo aleatorio sistemático. La muestra total estará formada por las k
submuestras extraídas.

○ Muestreo por conglomerados. La población está formada por k conjuntos o


conglomerados de elementos. Se selecciona aleatoriamente uno o varios de
esos conglomerados y se acepta como muestra el conjunto de todos los
elementos que forman parte de ese o esos conglomerados seleccionados.
Útil para poblaciones muy grandes: no se necesita un listado de todos los
elementos de aquellos que forman parte de los conglomerados
seleccionados.

○ Muestreo polietápico. En la primera etapa se divide la población en k


conglomerados y se elige uno o varios de ellos (unidades muestrales
primarias); en la segunda, los conglomerados elegidos se dividen en
conglomerados más pequeños y se vuelve a elegir uno o varios de ellos
(unidades muestrales secundarias); etc. La muestra definitiva la componen
todos los elementos de los conglomerados seleccionados en la última etapa

Una variable aleatoria es una función que asigna un número real, y sólo uno, a cada uno
de los sucesos elementales de un espacio muestral (al menos dos números).
- Si la variable es categórica (por ejemplo, sexo), los posibles valores distintos serán
pocos (hombre y mujer).

Análisis de datos es, sobre todo, análisis de variables aleatorias, es decir, análisis de los
números que se asignan a los resultados del muestreo aleatorio.

Propiedades descriptivas de una variable aleatoria

● Centro → valor que más se repite (variables categóricas) o el promedio del conjunto
de valores (variables cuantitativas). (Cálculo típico: valor esperado o esperanza
matemática)

● Dispersión → grado de concentración o alejamiento de los valores en torno al centro


de la variable. (Cálculo habitual: desviación típica)

● Forma de la distribución → permite detectar dónde tienden a agruparse los valores


y si existen valores que se alejan llamativamente de los demás; y cuál es la
probabilidad asociada a cada valor de la variable.
○ Distribuciones empíricas → cómo se distribuyen los valores de una variable.
(valores que toma una variable + frecuencias relativas asociadas a cada
valor).
Combinación formada por los valores de una variable aleatoria y por las
probabilidades asociadas a cada uno de esos valores se le llama función de
probabilidad o distribución de probabilidad.
○ Distribuciones teóricas → fórmula matemática que facilita el trabajo con
variables aleatorias.
CT07. Distribuciones de probabilidad

Recordar!! La tabla de frecuencias contiene información sobre la forma de la distribución de


una variable categórica. Las frecuencias relativas
(proporciones) de una tabla de frecuencias indican con qué probabilidad cabe esperar
encontrar cada uno de los valores de la variable
Tabla de frecuencias relativas → distribución que contiene todos los valores de la variable
junto con la probabilidad asociada a cada uno de ellos.
Esto también pasa en variables cuantitativas.

En ambos casos estamos hablando de distribuciones empíricas, es decir, de


distribuciones construidas a partir de los datos observados
También existen distribuciones teóricas como la binomial o la normal.

Distribución de probabilidad = valores de la variable combinados con la frecuencia con la


que se da cada uno de ellos, informa sobre el centro, la dispersión y la forma de la
distribución.
● Los estadísticos son variables, por eso como cualquier otra variable tienen su propia
distribución de probabilidad. → el término distribución muestral se refiere a la
distribución de probabilidad (o de densidad) de une estadístico.

Una distribución teórica que asigna una probabilidad (o una densidad) concreta a cada
uno de los valores que puede tomar un estadístico en todas las muestras del mismo tamaño
que es posible extraer de una determinada población.

La distribución muestral de la media


𝑌, en cuanto estadístico que es, su valor concreto depende de la muestra concreta en la que
se calcula.
De una población cualquiera es posible extraer más de una muestra de tamaño n. Si en
cada una de esas muestras calculamos 𝑌, podremos comprobar que no siempre toma el
mismo valor → Estos posibles valores del estadístico 𝑌 constituyen su distribución
muestral.

Aunque las 25 muestras son equiprobables (todas tienen la misma probabilidad de ser
elegidas), los posibles valores del estadístico 𝑌 no lo son: hay unos valores de Y que son
más probables que otros porque unos pueden obtenerse en un mayor número de muestras
que otros.

El error estándar (típico)


Normalmente solo tenemos una oportunidad para muestrear (no infinitas)
No es probable que encontremos una media exactamente igual a la de la población
Pero…Si conocemos la variabilidad podemos estimar cómo de lejos estamos lejos de la
población.
Conociendo la variabilidad de la muestra tenemos un contexto para valorar lo cerca que
puede estar de la población nuestra muestra.
Si la variabilidad es grande estamos menos seguros que si es pequeña → 𝐶𝑟𝑒𝑐𝑒 𝑐𝑜𝑛 σ𝑦 𝑦
𝑑𝑖𝑠𝑚𝑖𝑛𝑢𝑦𝑒 𝑐𝑜𝑛 𝑛.

Ejemplo 1. Distribución muestral del estadístico media (desv típica conocida)


1. Obtener la distribución muestral de un estadístico a partir de las diferentes
muestras de tamaño n que es posible extraer de una determinada población
(buscar-ho)
2. Transformar un estadístico en una variable con distribución de probabilidad
conocida.
Supongamos que la población de estudiantes universitarios se distribuye normalmente
con media 100 y desviación típica 15 en una escala de inteligencia espacial (Y). Si
extraemos una muestra aleatoria de 50 estudiantes:

● ¿Cuál es la probabilidad de obtener una media de 104 o mayor?


La distribución de la variable Y, es normal y el valor de σY conocido, la transformación Z se
distribuirá según el modelo de probabilidad normal con media 0 y desviación típica 1, es
decir:

104−100
𝑃(𝑌 ≥ 104) = 𝑃 (𝑍 ≥ 2,12
) = 𝑃 (𝑍 ≥ 1. 89) = 1 − 𝐹(1, 89) = 1 − 0. 9706 = 0. 0294
(se busca, en la tabla de curva normal, la probabilidad acumulada hasta 1,89 y se resta de
uno)
Es muy poco probable (0,0284) encontrar medias mayores que 104.

● ¿Cuál es la probabilidad de obtener una media comprendida entre 96 y 104?


96−100 104−100
𝑃(96 ≤ 𝑌 ≤ 104) = 𝑃 ( 2.12
≤ 𝑍 ≤ 2,12
) = 𝑃 (− 1, 89 ≤ 𝑍 ≤ 1. 89) = 𝐹(1, 89) − 𝐹(− 1, 89)
= 0.9706 - 0.0294 = 0.9412

Es muy probable (0,9412) encontrar medias comprendidas entre 96 y 104.

Ejemplo 2. Desviación típica desconocida


Supongamos ahora que la población de estudiantes universitarios se distribuye
normalmente con media 100 y desviación típica desconocida en una escala de inteligencia
espacial (Y). Supongamos además que en una muestra aleatoria de 20 estudiantes
obtenemos una desviación típica insesgada de 19,5.
● ¿Cuál es la probabilidad de que la media de esa muestra sea mayor que 103?
Al no conocer la desviación típica poblacional, no es posible utilizar la transformación Z.
No obstante, como la población de partida es normal, sabemos que la transformación T se
distribuye según el modelo de probabilidad t de Student con n-1 = 20 -1 = 19 grados de
libertad, es decir,

103−100
𝑃 (𝑌 ≥ 103) = 𝑃 (𝑇 ≥ 4,36
) = 𝑃(𝑇 ≥ 0. 688)

La probabilidad de encontrar medias mayores que 103 en su distribución muestral es igual a


la probabilidad de encontrar valores T mayores que 0,688 en la distribución t de Student con
19 grados de libertad. El valor 0,688 acumula, aproximadamente, una probabilidad de 0,75.
Por tanto, en este nuevo escenario, la probabilidad de obtener una media muestral mayor
que 103 vale 0,25.

CT08 y CT09. Inferencia 1: Estimación de parámetros I (estimación puntual y


por intervalos)
Aplicación de herramientas inferenciales para llevar a cabo comparaciones y estudiar
relaciones.
Procede de lo particular a lo general: intenta extraer conclusiones de tipo general a partir de
unos pocos datos particulares.
Estas inferencias (comparaciones, relaciones) pueden realizarse utilizando dos estrategias
distintas: la estimación de parámetros y el contraste de hipótesis.
● El contraste de hipótesis pone el énfasis en intentar detectar la presencia de un
efecto significativo (una diferencia entre grupos, una relación entre variables)
● La estimación de parámetros pone el énfasis en intentar cuantificar el tamaño de ese
efecto (cómo de grande es la diferencia entre los grupos, cómo de intensa es la
relación entre las variables).

La estimación de parámetros es el proceso mediante el cual la información muestral es


utilizada para inferir valores poblacionales. Estos valores poblacionales son, lógicamente,
parámetros y, es obvio decirlo, la estimación sólo tiene sentido con parámetros
desconocidos (si se conociese el parámetro no sería necesario estimarlo).
● Parámetro cualquiera (μY, σY, π1, etc.), utilizaremos la letra griega (theta): θ
● Y a los estadísticos utilizados para efectuar: θ

Dos tipos de estimación: puntual y por intervalos.


Estimación puntual
Asignar un valor muestral concreto al valor poblacional que se desea estimar.
(=atribuir un valor concreto al parámetro estimado)
El valor muestral concreto asignado en la estimación depende del método de estimación
adoptado → método de los momentos (atribuir al parámetro que se desea estimar el valor
que toma su correspondiente estadístico). EJ. media muestral 𝑌 para estimar la media
poblacional μY → la cantidad de estadísticos que es posible calcular en una muestra
cualquiera es prácticamente ilimitada.
Dada la definición de estadístico (valor numérico que describe una característica muestral),
siempre resulta posible, en una muestra cualquiera, definir múltiples estadísticos diferentes.
Y no existe una forma natural de determinar cuál de todos ellos es el ideal para efectuar una
estimación correcta.

Propiedades que debe reunir un estadístico para poder ser considerado un buen
estimador (estadístico):
1. Carencia de sesgo → ofrecer, en promedio, estimaciones correctas. Si su media
coincide con el parámetro que estima.
2. Eficiencia → tanto más eficiente cuanto menor es su varianza.(media es más
eficiente que la mediana = varía menos de una muestra a otra).

Estimación por intervalos


En la estimación puntual siempre cabe la posibilidad de encontrar error muestra (el valor que
tome un estadístico en una muestra concreta no tiene por qué coincidir exactamente
con el valor del parámetro estimado):
𝐸 = |θ − θ|

En la estimación puntual no se puede conocer el valor de E pero en la estimación por


intervalos sí porque es importante conocer la precisión.

➔ La estimación por intervalos consiste en asignar al parámetro que se desea estimar,


no un valor concreto, sino un rango de valores (intervalo de confianza, IC) entre los
que se espera que pueda encontrarse el verdadero valor del parámetro con una
probabilidad conocida.

A los extremos del intervalo se les llama límites de confianza → límite inferior (Li) y límite
superior (Ls).
Para construir un intervalo de confianza para el parámetro θ, al correspondiente
estimador puntual θ se le suma y se le resta una cantidad llamada error máximo (Emax):

𝐼𝐶θ = θ ± 𝐸𝑚á𝑥

El error máximo representa la diferencia máxima que, con una determinada probabilidad,
cabe esperar encontrar entre el verdadero valor del parámetro estimado, θ, y el valor
concreto del estadístico utilizado para estimarlo, θ.
Nivel de confianza: probabilidad con la que cabe esperar que el intervalo construido incluya
el verdadero valor del parámetro estimado → 1 − α
𝑃(𝐿𝑖 ≤ θ ≤ 𝐿𝑆) = 1 − α

Ejemplo.
Población formada por Yi = {1, 2, 3, 4, 5}. Si extraemos de ella, con reposición, todas las
posibles muestras aleatorias de tamaño n = 2 y en cada una de ellas calculamos el
estadístico 𝑌, podemos construir la distribución muestral de la media:

La tabla incluye
las 25 muestras de tamaño n = 2 que es
posible extraer de la población definida, los
distintos valores que puede tomar el
estadístico 𝑌, y la frecuencia relativa
asociada a cada uno de ellos.

𝐸(𝑌) = µ𝑌 = 3
σ𝑌
σ𝑌 = = 2 2= 2
𝑛

Qué ocurre al intentar estimar el parámetro µ𝑌, el valor de 𝑌 va a depender de la muestra


concreta elegida (de entre las 25 combinaciones posibles).
Estimación por intervalos → el verdadero valor de µ𝑌 no se alejará del estadístico 𝑌 en más
de una determinada cantidad (Emáx):

𝐿𝑖 = 𝑌 − σ𝑌 ; 𝐿𝑠 = 𝑌 + σ𝑌

Al atribuir al parámetro un rango de valores comprendidos entre Li y Ls, el error máximo


que estamos dispuestos a admitir es de 1 error típico: Emáx = σ𝑌

Es claro que cuanto mayor sea Emáx, mayor será la amplitud del intervalo y mayor también
la probabilidad de que el intervalo construido incluya el verdadero valor de θ
Y cuanto mayor sea Emáx, menor será la precisión de la estimación, pues se estará
atribuyendo al parámetro un rango más amplio de valores.
Para construir intervalos de confianza, todo lo que se necesita es conocer la distribución
muestral del estadístico utilizado como estimador: la distribución muestral de un
estimador informa de la probabilidad asociada a cada uno de sus valores y eso es todo lo
que hace falta para seguir la estrategia descrita.

Al interpretar un intervalo de confianza hay que evitar la palabra probabilidad (porque ya


estaremos hablando de parámetros) → el valor del parámetro se encontrará o no dentro de
los límites concretos del intervalo.

Ejercicio
Una muestra aleatoria de 100 estudiantes universitarios responde a una prueba de
inteligencia especial (Y) en la que obtiene una media de 80 y una desviación típica
insesgada de 10. ¿Entre qué límites cabe esperar que se encuentre la verdadera
inteligencia espacial media de los estudiantes universitarios, con un nivel de confianza de
0.95?

Zona de rechazo (α)→ 100-95 = 0.05 (5%)


Media estimada (𝑁𝑦)= 80
10
Error típico (σ𝑦) = = 1
100

Vamos a utilizar la T (hay infinitas distribuciones T y tenemos que encontrar la que tiene n-1
grados de libertad)

Jamovi:
1. Poner los 99 grados de libertad de t
2. Poner que estoy buscando valores de t : le pido el acumulativo que me deja por
dejao el 2.5% (0.025). → quantil 0.025 = -1.98
3. Como es simétrico el otro quantil es 1.98

(t es K)

IC = 𝑦 ± K σ𝑦 = 80 ± 1. 98 · 1
𝐼𝐶1 = 80 − 1. 98 = 78. 02 → límite inferior
𝐼𝐶2 = 80 + 1. 98 = 81. 98 → límite superior
IC = (78. 02, 81. 98)
R/ Hemos hecho una estimación por intervalos, con un 95% de confianza la verdadera
inteligencia espacial de los estudiantes universitarios está entre 78 y 82.

CT10. Inferencia 3: Contraste de Hipótesis

Primer paso: formular estadísticamente la hipótesis científica que se desea contrastar


Por ejemplo, la hipótesis científica los tratamientos antidepresivos A y B son igualmente
eficaces implica, en términos estadísticos, μA = μB; es decir, que el promedio μA de la
distribución de la variable depresión en la población de pacientes que reciben el tratamiento
A es igual al promedio μB de esa misma distribución en la población de pacientes que
reciben el tratamiento B.

Segundo paso: Hacer el contraste de hipótesis. Si una hipótesis concreta referida a una
distribución poblacional es cierta, al extraer una muestra de esa población debe encontrarse
un resultado muestral similar al que esa hipótesis propone para la distribución poblacional.

Si el resultado muestral encontrado no coincide con la afirmación establecida


en la hipótesis, pueden estar ocurriendo dos cosas diferentes:
1) La hipótesis planteada no es cierta y, por tanto, es incapaz de ofrecer predicciones
correctas
2) La hipótesis es cierta y la discrepancia observada entre la hipótesis y los datos es
sólo producto de las fluctuaciones propias del azar muestral.

Tercer paso: regla de decisión en términos de probabilidad,.

Hipótesis estadísticas
Una hipótesis estadística se refiere a algún aspecto de una distribución de probabilidad

● La hipótesis nula, representada por H0 → es la que se pone a prueba (exacta)


● La hipótesis alternativa, representada por H1 → negación de H0 (inexacta)

Cuando en H1 aparece el signo distinto (≠), se dice que el contraste es bilateral o


bidireccional. Cuando en H1 aparece el signo menor que (<) o mayor que (>) se dice que el
contraste es unilateral o unidireccional

!!! El signo igual (=), tanto si va solo (μA = μB) como si va acompañado (πacierto ≤ 0,5),
siempre va en la hipótesis nula.

Son hipótesis exhaustivas (agotan todas las posibilidades) y mutuamente exclusivas (no se
solapan), lo cual implica que si una es verdadera, la otra es necesariamente falsa.

Supuestos del contraste


Para que una hipótesis estadística pueda predecir un resultado muestral con cierta exactitud
es necesario que la distribución muestral con la que se va a trabajar esté completamente
especificada.
Establecer condiciones adicionales a las que impone la hipótesis nula
Estadístico de contraste y su distribución muestral
El estadístico de contraste:
● Ofrece información relevante sobre la afirmación establecida en la hipótesis nula y
● Tiene distribución muestral conocida.

La regla de decisión
La hipótesis nula se mantiene o rechaza dependiendo de su grado de compatibilidad con los
datos; y los datos están resumidos en el estadístico del contraste.

● Zona de rechazo o crítica: la zona en la que se encuentran los datos poco


compatibles con H0. La probabilidad asociada a esta zona de rechazo o crítica se
denomina nivel de significación o nivel de riesgo y se representa con la letra
griega α.
● Zona de aceptación: la zona en la que se encuentran los datos compatibles con H0.
La probabilidad asociada a esta zona de aceptación se denomina nivel de
confianza y se representa mediante 1 - α.

La probabilidad asociada al estadístico del contraste indica el grado de compatibilidad


existente entre la hipótesis nula y los datos. Esta probabilidad (grado de compatibilidad)
recibe el nombre de nivel crítico (p) → p representa la probabilidad de encontrar, en la
distribución muestral definida por H0, los datos de hecho encontrados.

Rechazar H0 si p < α ; mantenerla en caso contrario

La forma de dividir la distribución muestral en zona de rechazo y zona de aceptación


depende de que el contraste sea bilateral o unilateral.
En un contraste bilateral o bidireccional no se tiene una idea previa sobre la dirección en la
que pueden aparecer resultados muestrales incompatibles con H0. Esto es lo que ocurre,
por ejemplo, cuando se desea comprobar si un parámetro toma o no un determinado valor:

H0 : πacierto = 0,5; H1 : πacierto ≠ 0,5.


H0 será rechazada tanto si πacierto es mayor que 0,5 como si es menor; en el caso
La decisión
Tal decisión se toma, siempre, sobre H0, y siempre consiste en rechazarla o mantenerla de
acuerdo con las condiciones establecidas en la regla de decisión
● Si se rechaza una H0 particular se está afirmado que ha quedado probado (con las
limitaciones de un procedimiento basado en probabilidades) que esa hipótesis es
falsa
● Si se mantiene, no se está afirmando que ha quedado probado que es verdadera;
simplemente se está afirmando que se considera compatible con los datos.

Estimación por intervalos y contraste de hipótesis


Un intervalo de confianza también sirve para contrastar hipótesis.
Un intervalo con un nivel de confianza de, por ejemplo, 0,95, se está afirmando
que, de cada 100 intervalos que se construyan con muestras del mismo tamaño extraídas
en las mismas condiciones, 95 de ellos incluirán el verdadero valor del parámetro estimado

➔ Los valores incluidos dentro del intervalo de confianza pueden interpretarse como el
conjunto de hipótesis aceptables del correspondiente contraste bilateral; y los
no incluidos, como el conjunto de hipótesis rechazables.

El contraste sobre una proporción (prueba binomial)


Con una variable categórica suele interesar estudiar cómo se reparten las frecuencias
entre las diferentes categorías de la variable. Si la variable es dicotómica (sólo dos
categorías), esto significa dirigir la atención al número o proporción de éxitos; y, dado que
una proporción es una media, esto equivale a estudiar el centro de la distribución. Si la
variable es politómica (más de dos categorías), estudiar cómo se reparten las frecuencias
entre las diferentes categorías de la variable significa estudiar la forma de la distribución.

Con una variable cuantitativa suele interesar estudiar tanto el centro de su distribución (a
través de algún estadístico de tendencia central), como su grado de dispersión (a través
de algún estadístico de dispersión) y la forma de su distribución (generalmente para
valorar si se parece o no a una distribución normal o a alguna otra distribución de
probabilidad teórica conocida).

● Con una variable categórica dicotómica haremos inferencias sobre el parámetro


proporción
● Con una variable categórica politómica sobre la forma de su distribución
● Con una variable cuantitativa, sobre el centro, sobre la dispersión y sobre la
forma de su distribución.

Este tipo de prueba permite hacerse preguntas como: ¿consigue un nuevo tratamiento más
recuperaciones de las que se vienen obteniendo con el tratamiento convencional?, ¿es
posible afirmar que la proporción de sujetos que tienen intención de votar en las próximas
elecciones es mayor que la registrada en las elecciones pasadas?, ¿ha acertado un sujeto
más preguntas de las esperables por azar en una determinada prueba de rendimiento?, etc
Ejemplo.
Al parecer, la sintomatología del 30 % de los pacientes neuróticos remite espontáneamente
durante los tres primeros meses del trastorno. Según esto, es lógico pensar que una terapia
eficaz con este tipo de trastornos deberá conseguir a lo largo de los tres primeros meses un
porcentaje de recuperaciones mayor que el que se produce de forma espontánea. Los
resultados obtenidos con 20 sujetos a los que se les ha aplicado una determinada terapia
indican que, en los tres primeros meses, ha habido 9 recuperaciones. ¿Puede afirmarse que
el número de recuperaciones que se obtienen con esa terapia es mayor que el esperable
por simple recuperación espontánea? (α = 0,05).

Tenemos una variable dicotómica (pacientes recuperados, pacientes no recuperados) y


una muestra de n = 20 observaciones de esa variable.
● Llamaremos π1 a la proporción poblacional de la categoría pacientes recuperados.
Hemos observado n1 = 9 recuperaciones y, por tanto, la proporción observada de
recuperaciones vale P1 = 9/20 = 0,45.

Vamos a realizar un contraste sobre el parámetro π1 para decidir si la verdadera proporción


de pacientes recuperados con la terapia es o no superior a la que cabe esperar por simple
recuperación espontánea (es decir, superior a 0,30):

Hipótesis: H0 : π1 ≤ 0,30; H1 : π1 > 0,30. → contraste unilateral derecho

Estadístico del contraste:


n1 = 9.
P1 = 0,45.

9−20(0.30)
𝑍 = = 1, 46
20(0,30)(1−0.30)

Distribuciones muestrales
- n1 y P1 se distribuyen binomialmente con parámetros n = 20 y π1 = 0,30.
- Z se aproxima a N (0, 1).

Consultando la tabla de la distribución binomial, con n = 20 y π1 = 0,30, se obtiene P (n1 ≥


9) = P (P1 ≥0,45) = 1-F(8) = 1-0,887 = 0,113

Como P (n1 ≥ 9) = P (P1≥ 0,45) = 0,113 es mayor que α = 0,05, se mantiene H0.
Como Z = 1,46 es menor que Z0,95 = 1,645, se mantiene H0.

Es decir, tanto los estadísticos n1 y P1 como el estadístico Z llevan a la misma decisión.


La conclusión razonable es que los datos disponibles no permiten afirmar que la proporción
de mejoras que se obtiene con la terapia sea más alta que la proporción de mejoras
que se producen de forma espontánea.

Nivel crítico
Con los estadísticos n1 y P1 ya lo hemos calculado: P (X≥9) = P (P ≥0,45) = 0,113.
Con el estadístico Z: p = P (Z ≥ Zh) = P (Z ≥1,46) = 1-F(1,46) = 1-0,9279 = 0,0721
Intervalo de confianza.
| |
𝐼𝐶𝑛1 = 𝑃1 ± |𝑍 α | 𝑃1(1 − 𝑃1)/𝑛 = 0. 45 ± 1, 645 0, 45(0, 55)/20 = 0, 45 ± 0, 183 = (0, 267; 0, 633)
| 2|

Por tanto, estimamos, con una confianza del 95 %, que la verdadera proporción de
recuperaciones se encuentra entre 0,267 y 0,633.
Este intervalo de confianza, además de dar pistas sobre el verdadero valor del parámetro
π1, sirve para contrastar H0: como el valor 0,30 propuesto para π1 en H0 se encuentra
dentro de los límites del intervalo de confianza, se está estimando que el valor 0,30 es uno
de los posibles valores del parámetro π1; por tanto, no es razonable rechazar H0.

pag, 261
CT11+12 T de Student

La prueba T de Student para muestras independientes


● Variable categorica dicotomica
● Variable cuantitativa

Comparar en una variable cuantitativa un grupo experimental y un grupo control, o dos


tratamientos, o dos colectivos distintos (hombres y mujeres; fumadores y no fumadores;
etc.). La prueba T permite averiguar si dos grupos difieren; sólo eso; no permite ir más allá

El mejor estimador de la diferencia entre dos medias poblacionales es


justamente la diferencia entre las correspondientes medias muestrales: 𝑌1 − 𝑌2

¿Cuáles son las características de esta distribución muestral? Como 𝑌1 − 𝑌2 es el


resultado de combinar dos variables aleatorias independientes entre sí, se verifica que:
Si las dos poblaciones muestreadas son normales, también serán normales las
distribuciones muestrales de 𝑌1 𝑦 𝑌2.

Sabemos por el teorema del límite central que, cualquiera que sea la forma de las
poblacionales originales, las distribuciones muestrales de 𝑌1 𝑦 𝑌2 tienden a la normal a
medida que los tamaños muestrales van aumentando.

Por tanto, el estadístico 𝑌1 − 𝑌2, bajo las mencionadas circunstancias, se distribuye


normalmente con el valor esperado y la varianza definidos En la Figura está representada la
distribución muestral de 𝑌1 − 𝑌2 junto con su valor esperado y su error típico (raíz
cuadrada de la varianza).

Si la diferencia entre las medias muestrales (𝑌1 − 𝑌2) se distribuye normalmente,


entonces la transformación se distribuye N (0, 1). Por tanto, la transformación Z
puede utilizarse, junto con la distribución N (0, 1), para conocer las probabilidades
asociadas al estadístico (𝑌1 − 𝑌2) en su distribución
muestral. Pero la utilidad del estadístico Z es bastante escasa debido a que exige
conocer el valor de las varianzas poblacionales.
● Lo habitual es, más bien, que las varianzas poblacionales sean, al igual que
las medias, desconocidas → el error típico de la distribución muestral de
𝑌1 − 𝑌2 (el denominador de la ecuación) será igualmente desconocido y
habrá que estimarlo.
Asumiendo varianzas iguales
Si se asume que las varianzas poblacionales son iguales sólo será necesario estimar un
2 2 2
parámetro (σ𝑌). Y puesto que los dos estimadores de ese parámetro (𝑆𝑦1 𝑦 𝑆𝑦2) son
independientes entre sí (recordemos que proceden de muestras independientes), lo
2
razonable será combinar ambos para obtener una única estimación de σ𝑌 .

El estadístico de contraste es:

Ya no se distribuye N (0, 1), sino según el modelo de probabilidad t de Student con:


n1 + n2 - 2.

Es posible utilizar la transformación T junto con la distribución t para conocer las


probabilidades asociadas al estadístico 𝑌1 − 𝑌2.
Además, conociendo la distribución muestral del estadístico 𝑌1 − 𝑌2 y su error típico,
también es posible construir intervalos de confianza para el parámetro μ1 - μ2.
Sumar y restar al estadístico utilizado como estimador una cantidad que llamamos
error máximo. En el caso de la diferencia entre dos medias tendremos:

La cantidad Emáx se obtiene a partir del error típico del estimador, intentando abarcar un
área de la distribución muestral tal que la probabilidad de encontrar valores dentro de ella
valga 1-α. En consecuencia:
Exercici pag 234
No asumiendo varianzas iguales
Definir un nuevo estadístico al que llamaremos T’ para distinguirlo de T :

La diferencia entre T y T’ está únicamente en la forma de estimar el error típico del


denominador. → la distribución muestral de T’ no sea la misma que la de T.
El estadístico T’ sigue siendo una variable distribuida
según la t de Student, pero con un número desconocido de grados de libertad:

El resultado se redondea al entero más próximo.


Y para construir el intervalo de confianza hay que tener en cuenta que el error típico de la
diferencia entre las medias muestrales (σ𝑦 −𝑦 ) ha cambiado, se obtiene a partir de:
1 2
La prueba T de Student para muestras relacionadas
● Variable cuantitativa
● Variable cuantitativa

Tanto si se utilizan los mismos sujetos como si se utilizan sujetos emparejados, lo que
caracteriza a este tipo de datos es que no son independientes entre sí

La comparación se basa en los centros (promedios) de las variables; la relación se basa en


la forma de variar las puntuaciones.
Una importante consecuencia de esta diferencia entre comparar y relacionar es que sólo
tiene sentido comparar variables que se encuentran en la misma métrica. Por el contrario,
siempre es posible relacionar dos variables cuantitativas independientemente de la métrica
en la que se encuentren.

Puesto que las puntuaciones de cada par están relacionadas, pueden transformarse en
diferencias: 𝐷 = 𝑌1 − 𝑌2
De esta forma, a cada sujeto o par le corresponde una única puntuación. Estas
puntuaciones (diferencias) valen cero cuando las dos puntuaciones del mismo par son
iguales, son negativas cuando la primera puntuación del par es menor que la segunda y son
positivas cuando la primera puntuación del par es mayor que la segunda. En el caso de
diseños antes-después o pre-post, la diferencia entre las puntuaciones de cada par refleja el
cambio (pérdida o ganancia) entre los dos momentos.

2
Tenemos una única población (la población de diferencias D) con media µ𝐷 y varianza σ𝐷.
Seleccionando de esa población una muestra aleatoria de n observaciones y definiendo el
estadístico → 𝐷 = 𝑌1 − 𝑌2

La distribución muestral de 𝐷 también es normal:

Lo cual significa que podemos utilizar la transformación Z y la distribución normal tipificada


para conocer las probabilidades asociadas a los diferentes valores del estadístico 𝐷.

Ahora bien, como la varianza de la población de diferencias es, por lo general, un valor
desconocido, es necesario estimarlo mediante
CT13. Comparación de proporciones

CT14. Tablas de contingencia y prueba χ2

La T student se preguntaba si la media de la variable cuantitativa es diferentes entre los dos


grupos

2
En la prueba 𝑋 tenemos 2 variables categóricas (dicotómicas o no)
La prueba X2 se pregunta → ¿Son las dos variables dependientes entre sí?¿Tienen una
relación las dos variables?

Una tabla de contingencia sirve para resumir los datos:

Insomnio No insomnio Total

Mujer 552 (23%) 1848 (77%) 2400 (100%)

Hombre 248 (15.5%) 1352 (84.5%) 1600 (100%)

Total 800 (20%) 3200 (80%) 4000

Las frecuencias conjuntas son las dos de enmedio porque tienen en cuenta 2 variables. Por
ejemplo, mujeres y tener insomnio: 552 o ser hombre y tener insomnio: 248.
Las frecuencias marginales son las totales porque solo tienen en cuenta una variables. Por
ejemplo, el total de mujeres = 2400

Los porcentajes de las celdas interiores corresponden a las probabilidades de las


intersecciones:
552
𝑃 (𝑀𝑢𝑗𝑒𝑟 ∩ 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 4000
= 0. 138

Los porcentajes de las celdas exteriores corresponden a las probabilidades de las


generales de cada variable:
800
𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 40000
= 0. 20

Los porcentajes de fila corresponden a los porcentajes de las columnas condicionadas


para cada fila. A estas se les llama probabilidad condicional ( porque es la probabilidad de
tener insomnio condicionada por ser mujer):

552
𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜/𝑀𝑢𝑗𝑒𝑟) = 2400
= 0. 23

También puedo hacerlo al revés → porcentajes de columna. Sería, por ejemplo, la


probabilidad de ser hombre condicionada a tener insomnio:

248
𝑃 (𝐻𝑜𝑚𝑏𝑟𝑒/𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 800
= 0. 31
Una variable depende de la otra (son dependientes) cuando la presencia de una afecta a la
otra. Por ejemplo, cuando la probabilidad de tener insomnio se ve afectado por tu sexo.
Y dos variables son independientes cuando la presencia de una no modifica a la otra.
En este caso, diremos que el insomnio y el sexo son independientes si el porcentaje de
personas con insomnio en mujeres (u hombres) es igual al porcentaje en el conjunto total de
sujetos. Si las variables son independientes, habrá el mismo porcentaje de Insomnio en
hombres que en mujeres, y este porcentaje coincidirá con el porcentaje general

Si el sexo y el insomnio son independientes, la probabilidad de tener insomnio


será igual en mujeres que en hombres; en este ejemplo:

552
- Probabilidad de insomnio en mujeres: 𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜 /𝑀𝑢𝑗𝑒𝑟) = 2400
= 0. 23
- Probabilidad de insomnio en hombres:
552
𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜/𝐻𝑜𝑚𝑏𝑟𝑒𝑠) = 2400
= 0. 23
800
- Probabilidad insomnio en general: 𝑃 (𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 4000
= 0. 23

● Si las variables fueran independientes, ¡estas tres probabilidades serían


iguales!

No es tan fácil como comparar porcentajes, sino que tenemos que responder preguntas
como:
- ¿Significa esto que las variables son dependientes?
- ¿Cómo sabemos que estas diferencias no se deben al azar muestral?
- ¿Cómo de grandes tienen que ser las diferencias para que consideremos que las
variables son realmente dependientes?

2
Por eso, la prueba 𝑋 mira si la diferencia en los porcentajes es suficientemente
significativa como para decir que las variables son dependientes.
Mira como de diferentes son las proporciones entre sí → como de independientes son las
variables.

2
Para comprobar esto realizaremos un estadístico de contraste 𝑋
A este estadístico le vamos a pedir:
- Nos aporte información sobre si las variables son o no independientes (+ grande el
estadístico = + independientes las variables)
- Tenga una distribución probabilística teórica conocida.

Las hipótesis estadísticas son:


𝐻0: 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
𝐻1: 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
Regla de la multiplicación
Probabilidad de la intersección entre 2 sucesos. Se cumple en cualquier variable
(dependientes o independientes.
Por ejemplo, la probabilidad de ser mujer y tener insomnio:
2400 552
𝑃 (𝑀𝑢𝑗𝑒𝑟 ∩ 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 𝑃(𝑀𝑢𝑗𝑒𝑟) · (𝑃 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜/𝑀𝑢𝑗𝑒𝑟) = 4000
· 2400
= 13. 8%

Pero si las dos variables (ser mujer y tener insomnio) son independientes, la regla de la
multiplicación se puede simplificar (quitando el condicional):
2400 800
𝑃 (𝑀𝑢𝑗𝑒𝑟 ∩ 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 𝑃(𝑀𝑢𝑗𝑒𝑟) · (𝑃 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 4000
· 4000
= 12%

● Vamos que el hecho de ser mujer no afecta en la probabilidad de tener insomnio


porque con las dos fórmulas el % es similar (cuando quitamos en la fórmula la
condición de ser mujer nos da casi lo mismo que con el condicional de mujer).
Podríamos decir que las variables son independientes. porque una no depende de
la otra.

Vamos a usar la probabilidad de la multiplicación para hacer el estadístico de contraste.

Si ser mujer y tener insomnio son sucesos independientes, entonces (los % los calculamos
usando la regla de la multiplicación para variables independientes):

Voy a buscar qué número quedaría en cada celda si las variables fuesen independientes:
Para eso voy a usar la regla multiplicación para independientes:
𝑃 (𝑀𝑢𝑗𝑒𝑟 ∩ 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 𝑃(𝑀𝑢𝑗𝑒𝑟) · (𝑃 𝐼𝑛𝑠𝑜𝑚𝑛𝑖𝑜) = 0. 6 · 0. 2 = 0. 12%
Vamos a preguntarnos: ¿Cómo tendrían que ser las frecuencias conjuntas de la tabla
(número) para que las variables fuesen completamente independientes?
Si llamamos a la frecuencia conjunta de la casilla π𝑖𝑗 . Por ejemplo: a 552 le llamamos 𝑛11 (el
1er numero es fila i el segons columna)

Insomnio No insomnio Total

Mujer 𝑛11 552 𝑛121848 𝑛1+2400

Hombre 𝑛21248 𝑛221352 𝑛2+1600

Total 𝑛+1800 𝑛+2 3200 𝑛 4000

𝐻0: 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 → π11 = π1+ · π+1 → π𝑖𝑗 = π𝑖+ · π+𝑗
Expreso regla de la multiplicació en independents amb aquesta fórmula, per això ho poso a
la hipótesis nula → si aquesta regla es compleix significa que són independents,
Si los sucesos son independientes la regla de la multiplicación se va a cumplir para
cualquier celda, por eso lo convertimos a letra (i es fila, j es columna).

𝐻1: 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑠𝑜𝑛 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 → π21 ≠ π1+ · π+1

π es probabilidad, pero me interesan las frecuencias (números completos). Si yo sé las


probabilidades puedo transformarlas a frecuencias.

Objetivo → calcular qué número será el 552 si las variables fueran independientes, y así
con todas las celdas. Esto son las frecuencias esperadas (𝑚) y se calculan con la
siguiente fórmula:
π𝑖+ · π+𝑗
𝑚𝑖𝑗 = 𝑁

Calculemos las frecuencias esperadas (𝑚


𝑖𝑗
) para cada celda de nuestra tabla:
2400 · 800
𝑚11 = 4000
= 480 (número mujeres por número personas con insomnio,
dividido del total.)

2400 · 3200
𝑚12 = 4000
= 1920
1600 · 800
𝑚21 = 4000
= 320
1600 · 3200
𝑚22 = 4000
= 1280
Insomnio No insomnio Total

Mujer 552 (480) 1848 (1920) 2400

Hombre 248 (320) 1352 (1280) 1600

Total 800 3200 4000

Para cuantificar “cómo de independientes” son las variables puedo calcular un estadístico
que represente la diferencia entre las frecuencias obtenidas (reales, 𝑛𝑖𝑗) , y las frecuencias

esperadas (𝑚 ):
𝑖𝑗

Si los sucesos fueran independientes las frecuencias esperadas serían muy iguales a las
obtenidas. Así que cuanto más diferentes sean más dependientes serán.

2
2 (𝑛𝑖𝑗 − 𝑚𝑖𝑗)
Estadístico de contraste → 𝑋 = Σ𝑖Σ𝑗
𝑚𝑖𝑗
- Cuando las variables sean completamente independientes, el estadístico valdrá 0.

2
2 (𝑛𝑖𝑗 − 𝑚𝑖𝑗)
𝑋 = Σ𝑖Σ𝑗 →
𝑚𝑖𝑗
2 2 2 2
(552−480) (1848−1920) (248−320) (1352−1280)
480
+ 1920
+ 320
+ 1280
=
= 10. 8 + 2. 7 + 16. 2 + 4. 05 = 33. 75

Cuando chi cuadrado se acerca más a 0, más independientes son las variables porque
las diferencias entre las obtenidas y las esperadas son más pequeñas. Cuanto más grande
chi cuadrado, más dependientes son porque las diferencias son más grandes.

Ahora debemos calcular los grados de libertad, así consigo la distribución teoría. Con esta,
voy a calcular un punto crítico para compararlo con el estadístico de contraste

Fórmula de los grados de libertad: número de filas (I) - 1 · número de columnas (J) - 1
𝑔𝑙 = (𝐼 − 1) · (𝐽 − 1)
El estadístico de contraste tiene una distribución teórica conocida.
La distribución chi cuadrado es diferente dependiendo de los grados de libertad de mi
problema.
La zona de rechazo va siempre a la derecha, porque cuanto más se acerca al 0 chi
cuadrado, más independientes son mis variables.
La zona de rechazo dice que debo rechazar la hipótesis nula (son independientes), y sin
más independientes son cuanto más se acercan a 0.
Cuanto más a la izquierda la chi cuadrado más independientes son
No tiene sentido hacer una prueba bilateral porque rechazó valores cercanos al 0 que son
los más independientes son
2
● Por eso en pruebas 𝑋 debo hacer PRUEBAS UNILATERALES DERECHAS (zona
de rechazo en la parte derecha de la distribución).

Definir una zona de rechazo que acumula una probabilidad dada por el nivel de riesgo α , y
una zona de aceptación que acumula una probabilidad de 1- α.
Rechazaré la hipótesis si el estadístico que obtenga está en la zona crítica:

Calcular el punto crítico con Jamovi, y miro si está en la zona de rechazo o aceptación.
El punto crítico, si tomamos nivel de confianza del 95% y 1 grado de libertad:

2 2
𝑋 ≥ 𝑋1; 0.95 = 3. 84

2
Como 33.75 (𝑋 ) >3.84 (punto crítico), podemos rechazar la hipótesis nula, y afirmar que
las variables son dependientes.
Ejercicios p.291 y 301

CT16 + 17. Regresión


Centraremos en cómo relacionarlas.

Diagramas de dispersión
Cada sujeto, se representa con un punto.
La forma de la nube de puntos informa sobre el tipo de relación existente

Relación lineal:
Ausencia de relación:

Relación cuadrática:

Relación cúbica

En el diagrama a, las puntuaciones bajas en X tienden a ir acompañadas de puntuaciones


bajas en Y, y las puntuaciones altas en X tienden a ir acompañadas de puntuaciones altas
en Y (cuadrantes “altas-altas” y “bajas-bajas”); a esta pauta de variación se le llama relación
lineal positiva o directa (esto es lo que ocurre, por ejemplo, con la altura y el peso, o la
inteligencia y el rendimiento.
En el diagrama b, las puntuaciones bajas en X tienden a ir acompañadas
de puntuaciones altas en Y, y las puntuaciones altas en X tienden a ir acompañadas de
puntuaciones bajas en Y (cuadrantes “bajas-altas” y “altas-bajas”); a esta pauta de variación
se le llama relación lineal negativa o inversa (esto es lo que ocurre, por ejemplo, con la
fatiga y el rendimiento, o con la velocidad de realización de una tarea y el número de
errores).

Cuando no existe relación lineal, bien porque no existe ningún tipo de relación, como en el
diagrama c (altura e inteligencia, por ejemplo).

La relación no es de tipo lineal, como en el diagrama d (ansiedad y rendimiento, por


ejemplo), tanto las puntuaciones bajas en X como las altas aparecen acompañadas,
indistintamente, de puntuaciones bajas y altas en Y. Parece claro, por tanto, que un
diagrama de dispersión ayuda a formarse una idea bastante acertada sobre el tipo de
relación existente entre dos variables cuantitativas.
No interesa únicamente poder determinar si existe o no relación lineal, sino poder cuantificar
el grado o intensidad de la relación.
Los diagramas de dispersión nos pueden ayudar, pero no son suficientes.

Cuantificación de la intensidad de la relación: la covarianza


Para cuantificar el grado de relación lineal entre dos variables también pueden seguirse
distintas estrategias

1. Calcular en el diagrama de dispersión


La proporción de puntos ubicados dentro de los cuadrantes que reflejan relación lineal.
Se obtienen valores que oscilan entre 0.5 (ausencia de relación) y 1 (máxima relación). Una
correcta cuantificación de la intensidad de la relación debe tener en cuenta, además del
cuadrante en el que se encuentran los puntos, la ubicación concreta de los mismos
dentro del cuadrante → A través de las PUNTUACIONES DIFERENCIALES (distancias a
la media). Estas puntuaciones también sirven para indicar la distancia a la que se encuentra
cada punto de cada uno de los dos ejes centrales.
¿Cómo expresar el grado de relación? multiplicando las puntuaciones diferenciales
de cada par (de cada sujeto)

Covarianza →

El valor de la covarianza es tanto mayor (en valor absoluto) cuanto mayor es el grado de
relación lineal. Y el signo de la covarianza refleja el sentido positivo o negativo de la relación
Aunque su valor mínimo es cero, su valor máximo depende del grado de dispersión de
las variables (esto dificulta su interpretación).

Por tanto, el valor máximo que puede tomar la covarianza en cada situación concreta
depende de las variables estudiadas y de la muestra utilizada → es el producto
de las desviaciones típicas de esas dos variables.

2. El coeficiente de correlación de Pearson: RXY

La solución al problema de cómo interpretar la covarianza y cómo comparar covarianzas


obtenidas en muestras o variables con distinta dispersión pasa por relativizarla tomando
como referente su valor máximo → coeficiente de correlación de Pearson.

Es equivalente a calcular la covarianza, no a partir de las puntuaciones diferenciales, sino a


partir de las puntuaciones típicas o puntuaciones Z (igual dispersión).
PROPIEDADES:
- Dado que se basa en la covarianza, la magnitud de RXY (en valor absoluto) mide el
grado de relación lineal (no de otro tipo).
- Como el denominador siempre es positivo, el signo de RXY es el mismo que el de la
covarianza: toma un valor positivo cuando existe relación lineal positiva, un valor
negativo cuando existe relación lineal negativa y un valor próximo a cero cuando no
existe relación lineal.
- Puesto que se trata de la covarianza dividida entre su máximo, su valor oscila entre
-1 y 1. Los valores -1 y 1 indican que la relación lineal entre las variables es perfecta.
- Al estar basado en las puntuaciones típicas, el valor de RXY no se altera si los datos
se transforman linealmente (por ejemplo, sumando y/o multiplicando una constante).

El hecho de que un coeficiente de correlación (es un valor muestral) sea distinto de cero no
constituye, en sí mismo, evidencia suficiente para afirmar que existe relación lineal en la
población: ¿El valor muestral obtenido refleja o no un grado de parecido (grado de relación
lineal) mayor del que cabría esperar por puro azar entre dos variables realmente
independientes en la población?

Contraste sobre el parámetro ρXY (coeficiente de correlación de Pearson)14


Para comprobarlo debemos poner a prueba la hipótesis nula de independencia lineal (H0:
ρXY = 0), pues el rechazo de esta hipótesis permitirá concluir que las variables X e Y no son
linealmente independientes y, por tanto, que entre ellas existe algún grado de relación lineal.
Cuando ρXY = 0 y las variables X e Y se distribuyen normalmente, el estadístico RXY se
distribuye de forma aproximadamente normal con valor esperado E (RXY) = 0 y varianza

Se distribuye según el modelo de probabilidad t de Student con n - 2 grados de libertad


Un coeficiente estadísticamente significativo indica que existe algún grado de relación lineal.
Ahora bien, esa relación, ¿cómo es de intensa? Y, ¿es positiva o negativa? Para responder
a estas preguntas hay que fijarse en el valor del coeficiente y en su signo. El valor del
coeficiente indica si la relación es baja, media o alta; el signo del coeficiente indica si la
relación es directa (positiva) o inversa (negativa).

Un mismo coeficiente puede reflejar pautas de relación muy diferentes


Un coeficiente puede ser poco informativo, e incluso engañoso, si no va acompañado de
una descripción apropiada de la pauta de relación subyacente → su valor puede verse
seriamente alterado por la presencia de algún caso cuyo comportamiento difiera claramente
del de los demás.
CT18. ANOVA: Lógica del Análisis de la Varianza

En los modelos de ANOVA, el término factor es sinónimo de variable independiente. Y se


refiere a una variable categórica que define grupos.
A los modelos de más de un factor se les llama modelos factoriales.

ANOVA de un factor:
- Variable independiente
- Variable dependiente cuantitativa

ANOVA de dos factores:


- Dos variables independientes
- Una variable dependiente cuantitativa

Los diseños de investigación se diferencian, entre otras cosas, por la forma de asignar las
unidades de análisis a las condiciones del estudio.
Por lo general, esta asignación de las unidades de análisis a las condiciones del estudio
se realiza de forma aleatoria (variables extrañas compartidas).
Hay dos estrategias básicas de asignación aleatoria que suelen recibir el nombre de grupos
aleatorios y bloques aleatorios:
● Grupos aleatorios → cada sujeto (=unidad de análisis) es aleatoriamente
seleccionada y asignada a un nivel del factor. Se selecciona aleatoriamente una
muestra de pacientes, se forman aleatoriamente tres grupos y se asigna, también
aleatoriamente, cada grupo a uno de los tres niveles del factor. La asignación
aleatoria es la mejor estrategia para formar grupos equivalentes, pero no siempre es
posible.
● Bloques aleatorios → intenta ejercer mayor control sobre posibles variables extrañas.
Si se sospecha que existe alguna variable que puede alterar de forma apreciable las
conclusiones del estudio, se puede ejercer sobre ella un control directo modificando
la forma de asignar las unidades de análisis a las condiciones del estudio
● Modelo intra sujetos → caso extremo de bloqueo. El bloque está formado por un
único sujeto: a todos y cada uno de los sujetos se le aplican todos y cada uno de los
niveles del factor. La homogeneidad dentro de cada bloque es máxima (y por tanto
mínima la presencia de variables extrañas atribuibles a diferencias entre los sujetos)
porque todas las puntuaciones dentro de un mismo bloque pertenecen a un mismo
sujeto.

Forma de establecer los niveles del factor

1. Fijando los niveles que se desea estudiar (por ejemplo, cantidad de fármaco: 0 mg,
250 mg, 500 mg) o utilizando los niveles que posee el factor (por ejemplo, nivel
educativo: sin estudios, primarios, secundarios, medios, superiores)
2. Seleccionando aleatoriamente unos pocos niveles de la población de posibles
niveles del factor (por ejemplo, seleccionando una muestra aleatoria de los
hospitales de una ciudad).
Lógica del análisis de varianza
Cuando se tienen más de dos medias, no es posible compararlas simultáneamente con una
resta. NO en el análisis de las medias de las distribuciones, sino en el de sus varianzas.

Intragrupo → variabilidad que se da dentro (intra) de la misma muestra o grupo.


Intergrupo → tres muestras de la misma población.
La variabilidad intragrupos refleja las diferencias entre las puntuaciones dentro de cada
muestra; la variabilidad intergrupos refleja las diferencias entre las distintas muestras.

ANOVA es el análisis de varianzas y no de medias. Analiza el efecto de más de dos niveles de


variables independientes categóricas sobre una variable dependiente cuantitativa.

● Número de factores (A o AB)


● Asignación a las condiciones de estudio (CA; completamente aleatorio o MR: medidas
repetidas)
● Selección de los niveles del factor (J).

Cada grupo tiene una varianza, la cual nos indica la dispersión entre las variables:

● Población
● Extraemos la muestra 1 de tamaño n:
● Extraemos la muestra 2 de tamaño n:
● Extraemos la muestra 3 de tamaño n:
CT19. ANOVA: Análisis de la Varianza de un Factor

Media cuadrática intragrupos (MCE)

Media de las varianzas de los 3 niveles. Tiene en cuenta la varianza/dispersión de cada grupo
individualmente.

● Todas tienen la misma varianza.


● Todas tienen n distintas.
● Independiente de las medias de los J grupos.
2
● Si salen de la misma población se puede estimar la varianza poblacional (σ𝑌) como promedio
2
de las varianzas muestrales (𝑆𝑗 ), por tanto, todas
tendrían la misma n y la fórmula se puede
simplificar:

Media cuadrática
intergrupos (MCI)

Dispersión de las 3 medias. La varianza depende de la


dispersión de los tres grupos.

● Suponemos que los niveles (J) salen de


la misma población de media ().
2
2 σ𝑌
● El error típico será
𝑌
= 𝑛
● Dependiente de las medias de J grupos.

Contraste de hipótesis

1) Hipótesis: 𝐻0: µ1 = µ1 𝑦 𝐻1: µ1 ≠ µ𝑗'


2) Supuestos: J muestras aleatoriamente seleccionadas de J poblaciones normales con
la misma varianza.
3) Estadístico de contraste:

4) Distribución muestral: 𝐹 ∼ 𝐹𝑗−1, 𝑁−𝐽


5) Regla de decisión: Se rechaza la hipótesis nula si el estadístico F cae en la zona
crítica, en caso contrario se mantiene. El rechazo de la hipótesis nula indica que no
todas las medias poblacionales son iguales, es decir, que hay al menos una media
que difiere de la menos otra.
6) Nivel crítico: p = 𝑃(𝐹 ≥ 𝐹ℎ)

𝑀𝐶𝐴
𝐹 = 𝑀𝐶𝐸

El ANOVA básico solo busca las diferencias entre las tres medias (son las tres medias
iguales o no), pero no qué pares son diferentes.
CT20. ANOVA: Análisis de la Varianza Factorial. Interacción

Analizar el efecto de dos variables independientes categóricas (factores) sobre una


variable dependiente cuantitativa. Por ejemplo, si el rendimiento en una tarea (variable
dependiente cuantitativa) cambia con el nivel de ansiedad de los sujetos (bajo, medio, alto;
variable independiente categórica) y con la dificultad de la tarea. También permite estudiar si
las diferencias entre sujetos con diferente nivel de ansiedad se mantienen o no cuando
cambia la dificultad de la tarea; es decir, permite estudiar si la interacción entre los factores
nivel de ansiedad y dificultad de la tarea afecta a la variable dependiente rendimiento de
forma diferente a como lo hace cada factor por separado.

Necesitan menos sujetos para alcanzar la misma potencia.

En el modelo de dos factores es necesario utilizar tres subíndices (ijk) para identificar cada
valor de Y : el primero de ellos (i) se refiere a los diferentes elementos (generalmente
sujetos) de la misma muestra o casilla: i = 1, 2, ..., n; el segundo ( j), a los diferentes niveles
del factor A; y el tercero (k), a los diferentes niveles del factor B

El signo “+” colocado como subíndice se refiere a todos los valores del subíndice al que
sustituye
Los totales de cada casilla (𝑇𝑗𝑘) se obtienen sumando desde 1 hasta n todas las
puntuaciones de esa casilla:

Los totales correspondientes a cada nivel del factor A (𝑇𝑗+) se obtienen sumando todas las
puntuaciones de la fila j:
Los totales correspondientes a cada nivel del factor B (𝑇𝐾+) se obtienen sumando todas las
puntuaciones de la columna k:

Y el gran total (T ) se obtiene sumando todas las puntuaciones de la tabla, lo cual puede
hacerse de diferentes maneras:

A partir de estos totales pueden obtenerse las medias de cada casilla, de cada fila, de cada
columna y el total de la tabla simplemente dividiendo los correspondientes totales por el
número de puntuaciones utilizadas para obtenerlos.

Para referirnos a un diseño de estas características utilizaremos el símbolo J × K. El número


de letras indica el número de factores;

Efectos que interesa analizar:


● Efectos principales → se analizan con el modelo de un factor.
● Efectos de la interacción: existe interacción cuando el resultado de la combinación de
dos factores difiere de la suma de los efectos principales de esos factores.

You might also like