You are on page 1of 48

Estadística y

Probabilidades
M.Sc.Ing. Jorge Luis Huere Peña
Docente Asociado del Departamento Académico de Ciencias Básicas FCI
Web Page : www.unh.edu.pe e-mail : jhuere@unh.edu.pe
Semana 09:
Distribuciones Bidimensionales
Universidad Nacional de Huancavelica
Facultad de Ciencias de Ingeniería
Escuela Académico Profesional de Ingeniería Civil
Departamento Académico de Ciencias Básicas
Se denominan distribuciones bidimensionales cuando se
estudian 02 características (variables) de un mismo elemento
(unidad experimental), considerando simultáneamente las dos
series.

De manera general si se estudian sobre una población y se
miden por las mismas unidades estadísticas una variable X y
una variable Y, se obtienen series estadísticas de las variables
X e Y.
Introducción
Se consideran 02 tipos de tabulaciones:
Tabulación de variables estadísticas
bidimensionales
1. Tabla de Correlación.
Para variables cuantitativas

2. Tabla de Contingencia
Para variables cualitativas
Hay textos que usan los cálculos de regresión y
correlación para los mismos casos por lo similares
que son. A veces el investigador se confunde y piensa
que puede emplear ambos modelos en un mismo
problema.
X
Y
A. Relación líneal positiva
X
Y
B. Relación líneal negativa
X
Y
C. Relación No líneal
X
Y
D. Sin relación defnida, incorrelación
X
Y
A. Relación líneal positiva
X
Y
B. Relación líneal negativa
X
Y
C. Relación No líneal
X
Y
D. Sin relación defnida, incorrelación
y* = a + bx
Se usa cuando sabe que existe una relación entre las variables
porque hay una teoría o investigaciones previas que la han
descubierto.

Por ejemplo, la relación entre espacio y tiempo ya se sabe que
es la velocidad, o como la relación entre voltaje e intensidad de
corriente eléctrica. .

En estos casos, se busca verificar experimentalmente tal
relación y el objeto de la regresión es encontrar la curva que
mejor ajuste a sus datos experimentales.
Análisis de Regresión
Se emplea cuando el investigador sospecha que ambas
magnitudes están relacionadas, pero no tiene idea de una
ecuación que las combine.

Por ejemplo el caso de peso y talla, donde todo lo que se
sospecha es que a mayor talla, mayor peso, pero nadie ha
descubierto una fórmula que las relacione.
Análisis de Correlación
La forma más común de concebir las relaciones entre
pares de magnitudes es del tipo causa-efecto. Lo que
trata el análisis estadístico es establecer la forma y la
significación de las relaciones funcionales entre las dos
variables. La demostración de la relación causa-efecto es
tema del procedimiento del método científico, y queda a
cargo del investigador.
I. ANALISIS DE REGRESIÓN:
PROCEDIMIENTOS DE UN ANALISIS DE REGRESION
Se suele escribir como y = F(x), donde x es la variable
independiente


Aquí se trata de predecir o explicar el comportamiento o
resultado de una variable (VD)

en función de otras variables (VI), así como investigar si
ellas están asociadas o correlacionadas entre sí
y
F (x)
Dado “n” observaciones bidimensionales, cada par de
valores (x,y) en el plano cartesiano está representado por
un punto, y habrá tantos puntos como parejas de
observaciones se tenga.

Está representación da origen a una NUBE DE PUNTOS
que se denomina DIAGRAMA DE ESPARCIMIENTO o
DISPERSIÓN; este diagrama puede tomar diferentes
formas, como se observa por ejemplo en el Gráfico N° 1
1.- Diagrama de dispersión:
X
Y
A. Relación líneal positiva
X
Y
B. Relación líneal negativa
X
Y
C. Relación No líneal
X
Y
D. Sin relación defnida, incorrelación
GRÁFICO N° 1
Ejemplo de Diagramas de Dispersión para datos bidimensionales.
2.- Regresión Simple:
El propósito de la regresión simple es estimar la
relación que existe entre dos variables x e y, que se
expresan como:

y = F(x) que se lee “y” depende de “x”
y = Variable dependiente, predictando o explicada
x = Variable independiente, predictor o explicativa
Antes de definir cuál sería la función matemática o modelo
de regresión que exprese adecuadamente la relación entre las
variables, es indispensable comprobar por un análisis lógico la
existencia de una relación de dependencia o causalidad directa
o indirecta entre las variables.
Por ejemplo, es lógico aceptar
que las utilidades o ganancias
dependerá del volumen de ventas;
la capacidad de ahorro es función
del ingreso, etc. En este análisis es
muy útil la nube de puntos, cuya
forma insinúa la forma de la
función de regresión.
Para determinar o construir MODELOS o FUNCIONES
DE REGRESIÓN es indispensable disponer información
acerca de los valores cada una de las variables en
distintos momentos o lugar. En general, la función de
regresión como modelo estadístico se construye a partir
de una muestra representativa de valores (x
i
,y
i
).
y = F(x)
3.- Ajuste de una Función de Regresión:
Ajustar una función de regresión significa buscar o
definir la función que exprese con mayor precisión la
relación entre variables. Gráficamente será aquella
función que mejor se adecue a la nube de puntos.
Analíticamente, la relación Y* = f(X) permite obtener valores
estimados Y* a partir de los valores reales de X, entonces el
problema del ajuste de una función es que la diferencia o sesgo
(e
i
) entre los valores reales de y y los estimados Y* sea
mínimo, para cada valor se tendría: y - y* = e.
El método consiste en minimizar la suma de sus cuadrados:
derivando respecto de las dos incógnitas a y b, igualando a
cero y despejando. Queda un sistema de dos ecuaciones con
dos incógnitas, que al resolverlo permiten hallar las
denominadas ecuaciones paramétricas de regresión
Consideremos la ecuación de la recta :
que tiene dos parámetros “a” y “b”. Estos parámetros son
determinados al aplicar el Método de los Mínimos
Cuadrados, que significa minimizar la expresión
4.- La línea recta de Regresión:
y* = a + bx
Σ e
i
2
= Σ (Yi – Yi*)
2
= Mínima
Para minimizar se usan las relaciones:
Resolviendo estas relaciones se obtienen Ecuaciones
Normales o Parámetros de Regresión
5.- Método de los Mínimos Cuadrados:
Σ X
2
. Σ Y - Σ X. Σ XY
n Σ X
2
- (Σ X)
2
a =
De las ecuaciones normales se obtiene los parámetros a
y b:
n Σ XY - Σ X Σ Y
n Σ X
2
- (Σ X)
2
b =
EJEMPLO 1 Supongamos que se quiere estimar la relación
entre ingreso y consumo. Para el efecto se eligió una muestra
de 6 familias.




Dados los datos, se define la
variable dependiente (y = Consumo) y la
variable independiente (x = Ingreso), luego se construye el
Cuadro N° 1, donde están los valores que participan en las
ecuaciones normales.
INGRESO
x
CONSUMO
y
35
40
38
55
42
60
30
35
30
50
35
50
270 230
Cuadro N° 01
INGRESO Y CONSUMO DE UNA
MUESTRA DE 6 FAMILIAS
Diagrama de dispersión
0
10
20
30
40
50
60
0 10 20 30 40 50 60 70
Consumo
I
n
g
r
e
s
o
INGRESO
X
CONSUMO
y
xy x
2
y
2

35
40
38
55
42
60
30
35
30
50
35
50
1050
1400
1140
2750
1470
3000
1225
1600
1444
3025
1764
3600
900
1225
900
2500
1225
2500
270 230 10810 12658 9250
Σ X Σ Y Σ xy Σ x
2
Σ y
2

Cuadro N° 01
INGRESO Y CONSUMO DE UNA MUESTRA DE 6 FAMILIAS
Σ X
2
. Σ Y - Σ X. Σ XY
n Σ X
2
- (Σ X)
2
a =
n Σ XY - Σ X Σ Y
n Σ X
2
- (Σ X)
2
b =
12658(230) – 270(10810)
6(12658) - (270)
2
a =
6(10810) – 270(230)
6(12658)
2
- (270)
2
b =
= - 2.4147
= 0.9055
luego la recta de regresión es y* = -2,4147 + 0,9055 x
Diagrama de dispersión
0
10
20
30
40
50
60
0 10 20 30 40 50 60 70
Ingreso
C
o
n
s
u
m
o
6.- ERROR ESTÁNDAR DE ESTIMACIÓN:
Es una medida de esparcimiento alrededor de una línea de
regresión. Es la desviación estándar de los valores
observados Y con respecto a los valores Y* estimados por
la línea de regresión.
Σ y
2
- a Σ y - b Σ xy
n - 2
S
e
= S
yx
=
El error estándar de estimación o de regresión mide la
dispersión de los valores alrededor de la línea de
regresión.
Para el ejemplo anterior el error estándar de estimación es:
9250 – (- 2.4147)(230) – (0.9055) (10810)
6-2
S
yx
=
S
yx
= 16.926
4
S
yx
= 2.05706
Ahora, suponiendo que y se distribuye normalmente, al
construir rectas paralelas a ambos lados de la línea de
regresión a una distancia proporcional a S
yx
se definen
franjas o intervalos como se aprecia en el gráfico
siguiente:
Según la distribución normal en los intervalos:

y* = S
yx
, se encuentra el 68.3% de los valores reales y

y * = 2S
yx
, se encuentra el 95.5% de los valores reales y

y * = 3S
yx
, se encuentra el 99.7% de los valores reales
+3S
yx

-3S
yx

+2S
yx

-2S
yx

+S
yx

-S
yx

Gráfico de la distribución normal en los intervalos
Antes de definir el coeficiente de determinación, es necesario
justificar su uso mediante el examen de la lógica en la que se
basa su calculo.

Primero se comienza por considerar el punto correspondiente a
cualquier valor observado, y
i
, y se mide la distancia vertical
entre dicho punto y la recta y. A esto se le da el nombre de
desviación total y se designa por (y
i
– y).

Si se mide la distancia vertical entre la recta de regresión y la
recta y, se obtiene (y* - y), que se conoce como desviación
explicada, ya que muestra en cuanto disminuye la desviación
total cuando la recta de regresión se ajusta a los puntos.
Finalmente , se mide las distancia vertical entre el punto
observado y la recta de regresión para obtener (y
i
– y*),
que se conoce como desviación inexplicada ya que
representa la porción de la desviación total que no estaá
“explicada” o tomada en cuenta por la introducción de la
recta de regresión. Esto s emuestra en la siguiente figura:
Y
Desviación inexplicada
(y
i
– y*)
X
Desviación explicada
(y* – y)
Desviación Total
(y
i
– y)
y*
y
Diagrama de dispersión que
muestra la desviación total, la
desviación explicada y la no
explicada para un valor
seleccionado de Y.
Se aprecia entonces que la deviación total parta una y
i

particular es igual a la suma de las desviaciones explicadas
e inexplicadas. Simbolicamente:
(y
i
– y) = (y* – y) + (y
i
– y*)
desviación desviación desviación
total explicada inexplicada
Si se miden estas desviaciones para cada valor de y
i
y y*,
se eleva al cuadrado cada desviación y se suman todas ellas
para obtener:
Σ(y
i
– y)
2
= Σ (y* – y)
2
+ Σ(y
i
– y*)
2
Suma total Suma explicada Suma inexplicada
de cuadrados de cuadrados de cuadrados
Σ(y
i
– y)
2
= Σ (y* – y)
2
+ Σ(y
i
– y*)
2

Suma total Suma explicada Suma inexplicada
de cuadrados de cuadrados de cuadrados
STC = SCR + SEC
Suma total = Suma de cuadrados + Suma de error
de cuadrados debido a la de cuadrados
regresión líneal
STC=
Σ y
i
2
- (Σ y
i
)
2
n
SCR=
Σ x
i
2
- (Σ x
i
)
2
n
b
2
SEC = STC - SCR
7.- CÁLCULO DEL COEFICIENTE DE DETERMINACIÓN

El coeficiente de determinación se calcula como:

R
2
= SCR
STC

que si se expresa en tanto por ciento, representa el
porcentaje de información que explica el modelo; es decir,
mide la proximidad del ajuste de la ecuación de regresión de
la muestra a los valores observados de Y. también se
interpreta como el porcentaje de la variación total en los y
i

es explicada por la regresión.
Ejemplo calcular el coeficiente de determinación
para el ejemplo anterior.
R
2
= SCR = 416.5246 = 0.9612
STC 433.3333
STC=
9250 - (230)
2
=
6
SCT = 433.3333
SCR=
12658 - (270)
2
6
(0.9055)
2
= 416.5245
SEC = 433.3333 - 416.5246 = 16.8087
En los ejemplos anteriores usamos la línea de mínimos
cuadrados para pronosticar el consumo de familias de
acuerdo al ingreso familiar; pero aún, si interpretamos
correctamente la línea como una línea de regresión, todavía
quedan cuestiones por resolver como:

¿Cuán buenos son los valores obtenidos para a y b en la
ecuación de los mínimos cuadrados o la ecuación líneal?

¿Qué tan buena es una estimación Y* ?
Asimismo, cuando estamos pensando en hacer pronósticos
podríamos preguntarnos:
¿Podemos dar un intervalo para el cual podemos afirmar con
cierto grado de confianza que contendrá la estimación de y*
cuando la variable independiente tome un valor x?

En relación a la primera pregunta a y b (coeficiente de
regresión estimados) son solo estimaciones basadas en datos
muestrales y esto implica la existencia de valores reales
correspondientes, generalmente representados por α y β
conocidos como los coeficientes de regresión. En forma
correspondiente también hay una línea de regresión real μ
y/x

= α + β X, donde μ
y/x
es la media real de Y para un valor dado
de X.
En el análisis de regresión líneal suponemos que las X´s
son constantes, no valores de variables aleatorias y que para
cada valor de X la variable que se debe de pronosticar, Y,
tiene cierta distribución cuya media es α + β. En el análisis
de regresión normal suponemos además que todas estas
distribuciones son distribuciones normales con la misma
desviación estándar σ.
8.- CORRELACIÓN LINEAL:
La correlación expresa el grado de asociación o afinidad
entre las variables consideradas; la correlación también
explica el grado de la bondad del ajuste de las líneas de
regresión
Denota la interdependencia entre datos cuantitativos o
cualitativos
8.1 COEFICIENTE DE CORRELACIÓN RECTILINEA
El Coeficiente de correlación, es el estadígrafo
que expresa o mide el grado de asociación o
afinidad entre las variables relacionadas, se
denota por “R” y se define como:
R = SCR
STC
Ejemplo, calcular el coeficiente de correlación para el
ejercicio anterior:
0.9804
R =
R = SCR
STC
R = 416.5246
433.3333
PROPIEDADES DE R
Como R
2
es siempre positivo resulta que la propiedad
fundamental del coeficiente de correlación es:

De donde se deduce que:
a) Si R > 0, entonces existe “correlación directa positiva”
b) Si R < 0, se trata de una “correlación inversa negativa”
c) Si R
2
= 1 los datos forman una línea recta, en el caso de
correlación rectilínea
d) Si R = +1, hay una correlación perfecta positiva
e) Si R = - 1, hay una correlación perfecta negativa
f) Si R = 0, los datos son “incorrelacionados”.
-1 ≤ R ≤ +1
Tabla de Interpretación de la Correlación
Otro método: Fórmula de Thurstone

Σ X
i
Y
i
– n X Y
Σ X
i
2
– n X
2
Σ Y
i
2
– n Y
2

R =
10810 – 6(45)(38.3333)
12658 – 6 (45)
2
9250 – 6(38.3333)
2

R =
R = 0.980426
El coeficiente de correlación de la población es la raíz
cuadrada de ρ
2
el coeficiente de determinación de la
población previamente estudiada, y dado que éste toma
valores entre 0 y 1 inclusive, ρ puede tomar cualquier
valor entre -1 y +1.
El signo de ρ siempre será igual al signo de β (población
o b para la muestra), la dependiente de la recta de
regresión de la población para X e Y.