INSTITUCION EDUCATIVA SAGRADO CORAZON DE JESUS Salesianas
Guia 2. Analisis de dos variables cuantitativas
Estadistica
En esta guia encontrarés la forma de realizar el andlisis de dos variables cuantitativas
mediante los diagramas de dispersién, la covarianza y el coeficiente de correlacién. Es
importante que hayas repasado por tu parte las medidas de tendencia central (media) y
Jas medidas de dispersion (desviacién estndar)
Anilisis de dos variables cuantitativas
jando los datos de las dos variables estudiadas resultan ser de origen cuantitativo, dichas
variables suelen entenderse como una asociacién de parejas ordenadas (x, y}, donde x es
la variable independiente y yes la variable dependiente de x.
Por ejemplo, los médicos que se dedican a la investigacién prueban firmacos nuevos al
prescribir dosis diferentes y observar las reacciones de los pacientes.
Es interesante plantearse si la dosis del medicament prescrito determina la cantidad de
tiempo de recuperacidn que necesita el paciente.
En este caso, se estin relacionando dos vz
de recuperacién.
Diagramas de dispersion
bles, x: dosis de medicamento y y: tiempo
En los anilisis de datos que involucran dos variables cuantitativas, se representan en un,
diagrama de dispersién.
Un diagrama de dispersién es la gréfica de todos los pares ordenados de los datos
que corresponden a dos variables cuantitativas que conservan una relacién entre ellas.
Silos puntos siguen, aunque sea aproximadamente, una configuracién rectilinea, decimos
«que hay una dependencia lineal entre las variables. La dependencia lineal puede ser fuerte
odébil, positiva o negativa.
Débil: los puntos se encuentran alejados de
la recta. La nube de puntos es mas dispersa.
Covarianza
Dada una muestra de tamafio n, dos variables cuantitativas estudiadas en la muestra
y los datos de las variables estudiadas (x, y)), se define la covarianza de la muestra asi:
E(x = xvi -y)
n=1
Para interpretar el significado de la covarianza resulta bastante util dividir el diagrama de
dispersién en cuatro cuadrantes y analizar lo que pasa en cada uno de ellos. Los cuadran-
tes se generan trazando las rectas que pasan por la media de cada variable.La interpretacién de este valor es muy sencilla:
> Sis, es cero, no existe relacidn entre las variables.
> Sis, es negativo, hay una relaci6n inversa entre las variables. Esto indica que cuan-
do X aumenta de valor, ¥ disminuye, y viceversa.
> Sis,,es positivo, hay una relacién directa entre las variables. Esto indica que cuando
elvalor de X aumenta, el de Y también creee, y viceversa.
w BRUKER HED
Ejemplo:
Un estudio sobre crecimiento en la poblacién femenina de una ciudad pre-
tende determinar si es posible predecir la estatura de una mujer teniendo
‘como dato la estatura de la madre.
A continuacién se presentan los datos en centimetros, de una muestra de 20 ma-
dres y sus respectivas hijas, donde X; estatura de la mama y Y: estatura de la hija
X 160 | 160 | 170 154 | 160 | 154 | 162 | 157 | 160 | 162
Y 160 | 165 | 165 | 162 | 162 | 160 | 157 | 160 | 162 | 162
X 160 | 162 | 162 160 | 170 | 152 | 165 | 162 | 165 | 167
Y 162 | 165 | 165 | 157 | 167 | 157 | 160 | 167 | 167 | 165Acontinuacién se muestra el diagrama de dispersion que representa la situacidn; en el eje
horizontal se representa la variable “estatura de la mama” y en el eje vertical, la variable
“estatura de la hija”
Estatura de la hija
168
166
164
162
160
158
156
150 155 160 165 170 175 cm
Estatura de la mama
E] diagrama de dispersién indica que existe una relacién “positiva” entre las variables
estudiadas ya que, las mayores estaturas de las hijas se asocian con las mayores estaturas
de las madres.
Larelacién entre las variables noes perfecta pues no todos los puntos estan sobre una sola
linea recta; sin embargo, el comportamiento general de los puntos sugiere una recta incli-
nada entre 0° y 90°. En conclusién, parece ser que las dos variables si tienen una relacion,
La covarianza en este caso teniendo en cuenta que X = 161.2; y = 162,35 yn = es:
g, = Dei xMyi= y)
a 719
Para hacer los célculos resulta itil elaborar una tabla similar a la que se hace cuando se va
acalcular la desviacién estandar.
9.35
Estatura dela hija 4
168
158
e
156 >
150 155 160 165 170 175 cm
Estatura dela mama
Acontinuacién, se presentan algunas aclaraciones con respecto al diagrama; vale la pena
anotar que estas son aplicables a cualquier diagrama de dispersién,
‘+ Los puntos ubicados en el cuadrante I contienen los valores (x, y) para los cuales x, es
mayor que la media de la variable x y y, es mayor que la media de la variable y (x, > x
y¥i>).
+ Los puntos ubicados en el cuadrante II corresponderdn a los valores x, menores que la
media de x y los valores y, mayores que la media de y.
+ En forma similar se deduce el comportamiento de (x, y_) en los otros dos cuadrantes.
Con respecto a los valores de (x, ~ x ly; ~ ¥) se puede deducir que son positives en los
cuadrantes I y IIL negativos en los cuadrantes IL y IV.
Siel valor des, es positivo (s,, > 0) se puede afirmar que los puntos que tuvieron mayor
influencia en s,, estén ubicados, en su mayorfa, en los cuadrantes I y III, En este caso se
dice que existe una asociacién o correlacién lineal positiva entre las variables.
Conlas estaturas de las mamés y de las estaturas de las hijas, se observa que la correlacién
entre las dos variables es linealmente positiva, (Nétese que s,, = 9.35).Ejemplo
Una compasia procesadora de productos
base de cacao planca poner en el mercado
tun nuevo dulce de chocolate. Para ello, el
departamento de mercadeo pone en uno de
sus puntos de venta degustaciones gratis.
Después de 10 dias de aplicar la estra-
tegla, cl jefe del dcpartamento de mercadco
quiere saber si cl ndimero de degustaciones
catregadas y la cantidad de unidades ven-
didas conserva alguna relacién.
A continuacién se presentan los datos obtenidos:
Enun estudio clinica se quiere determinar si existe alguna rlacién entre laedad x, delas personas con
supesoy, Paraesto, se toma una muestra de cinco personas yse obtienen los siguientes resultados:
1 15 59
2 28 48,5
3 33 789
4 55 63,7
5 78 52,1
Total 209 302,2
Coeficiente de correlaci6n lineal
El coeficiente de correlacin lineal es una medida numérica de la intensidad de la
relacién entre las dos variables estudiadas. Este valor refleja la consistencia del efecto
que el cambio de una variable produce en la otra. Este coeficiente se representa con la
letra ry est determinado por:
El coeficiente de correlacién lineal siempre tiene un valor entre ~1 y 4; si ry equivale a
‘Ise dice que entre las variables hay una correlacién positiva perfecta y sir. es igual
a —1 se dice que entre las variables hay una correlacién negativa perfecta, como se
muestra en la figura.
2 4H
qs
Correlacién alta — Correlacién alta +
Correlacién bajaEjemplo
Calcular el coeficiente de correlacién para las variables en el ejemplo del
estudio sobre la estatura de una mujer teniendo como dato la estatura de la
madre.
Para calcular el coeficiente de correlacién resulta bastante util construir a si-
guiente tabla:
=235 | 55225
70225
01225
0.1225,
70225
70225
=535 | 28,6225
21,6225
ts7_ | 535 {aa
160 | 235 | 55225
167 465 | 21,6225
167__| 465 _| 21,6225
165 70225
Como s, = 4,78;