You are on page 1of 6

REGRESIÓN

LINEAL.
Realizado por:
Gissel Flores.
Profesor:
Ing. Nestor Asmal.
Curso:
3ero de
Bachillerato “B”

2

INTRODUCCIÓN.
En estadística la regresión lineal modela, en la forma de una ecuación matemática, lar elación
entre dos variables X e Y. Se adapta a una amplia variedad de situaciones. E n la investigación
social, el análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde
medidas económicas hasta diferentes aspectos de comportamiento humano. En el contexto de
la investigación de mercados puede utilizarse para determinar en cuál de diferentes medios de
comunicación puede resultar más eficaz invertir; o para predecir el número de ventas de un
determinado producto.
En física se utiliza para caracterizar la relación entre variables o para calibrar medidas, etc.
Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables
(regresión múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la
relación entre una variable llamada dependiente o criterio (y) y una o más variables llamadas
independientes o predictorias (

…), así como para desarrollar una ecuación lineal con
fines predictivos. Además, el análisis de regresión lleva asociados una serie de procedimientos
de diagnostico (análisis de los residuos, puntos de influencia) que informan sobre la estabilidad
e idoneidad del análisis y que proporcionan pistas sobre como perfeccionarlo.

Objetivo: Proporcionar los fundamentos del análisis de regresión, fomentar la comprensión
de cuando y como utilizar el análisis de regresión lineal, y como interpretar los resultados.
 Determinar la relación de dependencia que tiene una variable respecto a otra.
 Ajustar la distribución de frecuencias de una línea, es decir, determinar la forma de la
línea de regresión.
 Predecir un dato desconocido de una variable partiendo de los datos conocidos de
otra variable.
1. ¿QUÉ SON LAS UNIDADES Z?
En estadística también se las conoce como PUNTUACIONES NORMALIZADAS. Es el número de
grupo.
Las puntuaciones que se han transformado o convertido en distancias de desviación estándar,
onocen como puntuaciones Z, e.d., Z determina la posición relativa de una
puntuación dentro de su propia distribución.
diferencia en unidades de desviación típica al dividir por ella.
Las cantidades de las unidades Z son a-dimensionales, e.d., son independientes de las unidades
empleadas. x - 
Z = -------  = media aritmética de la distribución
S S = desviación típica de la distribución


2. PROPIEDADES DE LAS UNIDADES Z:

3

 Si se transforma una distribución en unidades Z, no varía la forma de la distribución
original (si es asimétrica, lo seguirá siendo).
 La media  de los valores de Z = 0
 La S
2
= S = 1.
 Z
2
= N.


3. LA TRANSFORMADA Z.

Con la llegada de las computadoras digitales, rápidas y baratas, se ha renovado el énfasis
en el análisis y diseño de sistemas digitales, que representan una clase importante de sistemas
en ingeniería. Gran parte del ímpetu inicial de cálculo finito se debió a la necesidad de llevar
todo a cabo interpolaciones y aproximar derivadas e integrales. Más tarde, se inventaron
métodos numéricos para la solución de ecuaciones diferenciales.

Como la transformada z se relaciona con las sucesiones, primero revisamos la notación
asociada con las sucesiones. Una sucesión finita *

+

= {

}.
Observamos que el conjunto de números está ordenado, así que la posición en la
sucesión es importante. La posición está identificada con el índice de posición k es un entero.
Si el número de elementos del conjunto es infinito tenemos entonces una sucesión infinita.
*

+

= {

+.

Cuando tratamos con muestras de funciones de tiempo t, es necesario contar con
medios que nos permitan tener t<0. Para hacer esto, permitimos que la sucesión de números
se extienda al infinito en ambos sentidos de la posición inicial

y escribimos
*

+

= {

+.
Las sucesiones *

+

para las cuales

=0 (k<0) son llamadas sucesiones causales por
analogía con las funciones causales f(t)H(t) de tiempo continuo, definido como:

f(t)H(t)= 0 (t < 0)
f(t) (t ≤ 0)

Mientras que para algunas sucesiones finitas es posible especificar la sucesión haciendo
una lista de todos los elementos del conjunto, lo normal es que una sucesión este especificada
por una fórmula de su elemento general

4. REGRESIÓN SIMPLE
Supongamos que tenemos dos series de n valores, cada uno de ellos de dos variables w
y y:

,

, …,

y

,

. La variables x y y se toman como variables aleatorias. Hemos
demostrado ya que la mejor ecuación lineal para la predicción de y, si x esta dodo, se
encuentre por el método de los mismos cuadrados. El valor de y obtenido de esta forma,
digamos, y= a+bx, se llama la regresión de y en x. Las ecuaciones normales para la
determinación de a y b son:
∑ ∑ , ∑ ∑ ∑

Por el contrario, si conocemos y y queremos predecir x, utilizamos la ecuación lineal x=
A+By, llamada la regresión de x en y. El método de los mínimos cuadrados nos da esta vez las
siguientes ecuaciones normales para la determinación de a y b:
∑ ∑ ∑ ∑

.
Se observará que los papeles de x y y han cambiado.
5. REGRESION LINEAL MULTIPLE
4

En muchos casos prácticos, una variable puede depender de más de una variable
independiente. Si las variables de este tipo cambian al azar completamente, se puede usar la
regresión simple como en el caso de una variable independiente, aun cuando esto produce
cierta pérdida en la precisión de nuestro cálculo. Sin embargo, si las variables independientes
tienden a variar de acuerdo con algún patrón o norma, la regresión simple da lugar a
resultados confusos, y se tiene que emplear la regresión múltiple. La diferencia entre ambos
métodos radica en el hecho de que la regresión múltiple establece el efecto de una variable
independiente, y las otras variables del mismo tipo de mantienen constantes, en tanto que la
regresión simple no controla a las otras variables.
Un ejemplo de problema de regresión múltiple lo proporciona la influencia de las
temperaturas del aire y del enfriante en la eficiencia de un motor. Puesto que el clima influye,
las dos temperaturas tiendes a ser bajas o altas al mismo tiempo, y una sola correlación
múltiple es la que logra esto.
Ecuación de regresión
Considere el caso general de una relación lineal entre el valor del medio de la variable
dependiente y, y las variables independientes

,

, …,

, esto se puede expresar así:
Y=

Donde

es una constante y

,

, …,

son los coeficientes parciales de regresión.
Esta ecuación representa un plano en (k+1) dimensiones.

6. EMPLEO DE MATRICES
Como se ha visto la regresión lineal múltiple da lugar a una serie de ecuaciones
simultáneas que tienen que ser resueltas. Tales ecuaciones se pueden representar de la
siguiente forma matricial compacta: AX=B, donde Ay B son matrices provenientes de datos
experimentales, y X es el vector desconocido (los coeficientes de regresión que deben ser
determinados).

En el caso que solo intervengan dos coeficientes

,

,

A= ∑

X=

B= ∑

y

7. CORRELACIÓN
Cabe destacar el hecho de que como se ha ajustado una relación de línea a un número
de observaciones, esto no significa que los datos físicos sigan realmente una línea recta. Por
ejemplo, puede haber una relación cíclica (o de cualquier otra forma) en la que se muestre un
incremento general de y con x, que se podría representar mediante una recta. En la figura se
presenta un ejemplo de esto, y resulta evidente que, aun cuando se ha ajustado una línea que
satisface el valor mínimo de la suma de los cuadrados de las desviaciones, su suma es grande.
Por tanto, es posible distinguir las desviaciones de las observaciones y en lo referente a su
media. La diferencia que existe entre ambas variaciones, expresada en una forma matemática
adecuada, da la cantidad de variación producida por la regresión, y cuanto mayor sea dicha
cantidad, tanto mejor será el ajuste.
5

Por consiguiente, es claro que después de realizar la operación de ajustas la mejor línea
se debe hacer una prueba de la bondad de ajuste. Sin embargo, antes de hacer esto, es
pertinente comentar de manera más detallada la variación respecto a la line a de regresión.

8. CORRELACIÓN SIMPLE
Una medida para la regresión lineal entre dos variables x y y se describe como el
coeficiente de correlación simple; esta dada por la formula:
r=
∑()()
√∑()

∑()

Donde x y y son las medias muestrales de x y y. El coeficiente de correlación muestral r
provee una estimación empírica del coeficiente de correlación poblacional p.
Si r=0 las variables se dice que están en un sentido probabilístico, pues es posible, por
ejemplo, que la varianza de y dependa de x, y así sucesivamente. Si suponemos que tenemos
una distribución normal conjunta de las variables aleatorias x y y, podemos probar la
significación de r. Calculamos la cantidad t=
√()

MEDIA
Este es el tipo de promedio más común, el cual a menudo se denomina simplemente,
promedio o media, siendo este ultimo término el que se empleara con más frecuencia aquí. La
media es un valor tal que la suma de las desviaciones o diferencias entre las observaciones y
dicho valor es cero; por tanto, equivale a la suma de las observaciones dividida entre el
número de ellas: X=

donde

es una observación o medida, N el número total de
observaciones y x, la media.

9. DESVIACION ESTANDAR
Si bien la variancia es una medida fundamental de dispersión, no es del todo práctica y
conveniente, dado que sus unidades son los cuadrados de las unidades de la variable. Más aún,
muchas características numéricas de las distribuciones se expresan directamente en términos
de la raíz cuadrada de la variancia. Por lo tanto, es preferible referirse a dicha raíz cuadrada
con el nombre de desviación estándar σ. Esta cantidad es entonces la desviación media
cuadrática de la desviación y siempre es positiva. Sus unidades son las mismas que las de la
variable. Es por tanto: σ= √∑ (

)

6

10. DESVIACION ESTANDAR DE LA MEDIA
Se utiliza la siguiente fórmula, la cual es la unión de las fórmulas de media y desviación
estándar:
σ

()

Como generalmente sucede, N es muy grande ,es términos de las desviaciones
estándares:


. Esta ecuación se puede aplicar también al muestreo con reposición,
tanto en el caso de una población finita como en el de una infinita.
11. FUNCION GAUSSIANA
La distribución de estos errores se puede derivar de consideraciones matemáticas y está
dada por la llamada función gaussiana: y=

en el cual X es el error (esto es, la desviación
a partir de la media o valor “verdadero”); y es la probabilidad de que ocurra este error (o en
términos más estrictos, de un error en el intervalo que va de X a X + ∆ X): e es la base de
logaritmos naturales: C es la constante que determina como se verá más adelante, la altura
máxima de la curca; y h es la constante de dispersión de la curva, es decir, expresa la precisión
de la medición, y se conoce como la constante de precisión.
La constante gaussiana, dada por l anterior ecuación, puede considerarse desde ahora
perspectiva, a saber, como una fórmula (aproximada) empírica para la distribución de
numerosas cantidades físicas que tienen una magnitud que varía de manera continua. Ambas
funciones son muy importantes en el trabajo estadístico.

12. CONCLUSIONES Y RECOMENDACIONES:
Pudimos efectuar comparaciones de coeficientes y formulas estadísticas de las distintas
variables que analizamos. Para realizar un análisis estadístico de comparación es necesaria la
aplicación de formulas matemáticas. Regresión y correlación lineal son dos herramientas para
investigar la dependencia de una variable dependiente y en función de una variable
independiente x. y = f(x), y = variable dependiente que se desea explicar o predecir, también se
llama regresor o respuesta, x = variable independiente, también se llama variable explicativa,
regresor o predictor.

13. BIBLIOGRAFÍA:

 Cálculo de Probabilidades y Estadística.H.FERNANDES-ABASCAL, MARTA M. GUIJARRO,
JOSÉ LUIS ROJO y JOSÉ A. SANZ.
 Matemática y Estadística para Economistas. GERARD TINTNER y CHARLES B. MILHAM.
 Matemática Avanzada para Ingenieros de Glyn James.