You are on page 1of 27

Prosta regresja liniowa

dwóch zmiennych

Prof. Piotr Tarka


Termin regresja po raz pierwszy pojawił się w pracach sir Francisa

Galtona na oznaczenie pewnych zależności w opracowanej przez niego

teorii dziedziczenia zdolności, czyli – jak mawiał – geniuszu. Galton

zaobserwował, że w następnym pokoleniu geniusz dzieci osób wybitnych

jest niższy od geniuszu ich rodziców, czyli cofa się (ang. regress) do

średniej w danym pokoleniu.

Choć Galton posługiwał się pojęciem regresji na oznaczenie pewnej tendencji w dziedziczeniu

zdolności, to jednak obecnie termin ten najczęściej stosuje się w odniesieniu do statystycznej

metody oszacowania/przewidywanie siły zależności między zmiennymi.


Zależność jednostronna i dwustronna.

W pierwszym przypadku możemy np. stwierdzić, że wielkość

sprzedaży zależy od wielkości promocji. W drugim zaś

przypadku, że np. waga zależy od wzrostu i odwrotnie, że

wzrost wpływa na wagę.

WAŻNY JEST WIĘC SPOSÓB OKREŚLENIA RELACJI

PRZYCZYNOWO-SKUTKOWEJ I UJĘCIA LOGICZNEGO

ZWIĄZKU MIĘDZY ZMIENNYMI CHARAKTERYZUJĄCYMI

OKREŚLONE ZJAWISKO.
Omawiając współczynnik korelacji r Pearsona, posługiwaliśmy się

wyrażeniem „linia regresji”. Linia ta, leży najbliżej wszystkich punktów

odpowiadającym parom pomiarów zmiennych (X,Y).

Ponadto korelacja jest wskaźnikiem odchylenia par pomiarów od linii

regresji. Jeżeli współczynnik korelacji równa się +1 lub -1, to znaczy,

że wszystkie punkty leżą na linii regresji.

Równanie linii regresji – określa się jako miejsce geometryczne średnich wartości zmiennej

zależnej przy ustalonych wartościach zmiennej niezależnej. Linia regresji to linia która jest

najmniej oddalona od rozkładu par pomiarów w układzie współrzędnych XY.

ZAŚ METODA REGRESJI POLEGA NA ZNALEZIENIU NAJLEPSZEGO RÓWNANIA NA LINII

REGRESJI.
Stwierdzenie, że między cechami istnieje korelacja liniowa pozwala

nam odnaleźć równanie linii regresji, np. dla dwóch zmiennych.

Ma ona zastosowanie wtedy gdy dysponując danymi dla jednej cechy

możemy w przybliżeniu określić średnie wielkości lub wartości drugiej

cechy.

Obliczanie parametrów linii regresji pozwala na:

1.ustalenie siły związku między dwiema zmiennymi

2.znalezienie metody pozwalającej na przewidywanie wartości jednej

zmiennej na podstawie wartości drugiej zmiennej.


Współzależność dwóch cech

y y

Korelacja dodatnia
Korelacja ujemna

y y

x x

Jeżeli oba równania się pokrywają to korelacja przekształca się w związek

funkcyjny (czyli r = –1 lub r = 1).


Współzależność dwóch cech

y
x =x

y

y =y

x

Jeżeli  = 90 to r = 0 więc nie ma korelacji


Regresja liniowa Y względem X

Rozważmy dane przedstawione w kolejnej tabeli [dane zawarte w

kolumnach 2 i 3]. Kolumny te zawierają ilorazy inteligencji i wyniki testu

czytania dla 18 osób w szkole.

Dane te zostały również ujęte na wykresie.


Iloraz Wynik testu
inteligencji czytania Oczekiwany
Osoba X 2
XY wynik testu Reszty
X Y czytania Y podniesione
Reszty do kwadratu
1 118 66 13 924 7 788 68 -2 4
2 99 50 9 801 4 950 55 -5 25
3 118 73 13 924 8 614 68 5 25
4 121 69 14 641 8 349 70 -1 1
5 123 72 15 129 8 856 71 1 1
6 98 54 9 604 5 292 54 0 0
7 131 74 17 161 9 694 77 -3 9
8 121 70 14 641 8 470 70 0 0
9 108 65 11 664 7 020 61 4 16
10 111 62 12 321 6 882 63 -1 1
11 118 65 13 924 7 670 68 -3 9
12 112 63 12 544 7 056 64 -1 1
13 113 67 12 769 7 571 65 2 4
14 111 59 12 321 6 549 63 -4 16
15 106 60 11 236 6 360 60 0 0
16 102 59 10 404 6 018 57 2 4
17 113 70 12 769 7 910 65 5 25
18 101 57 10 201 5 757 57 0 0
80

75

70
y, wynik czytania testu

65

60

55

50
100 105 110 115 120 125 130 135 140 145
x, iloraz inteligencji
• Uporządkowanie punktów [przedstawionych na wykresie] wykazuje

znaczną nieregularność.

• Można jednak zauważyć tendencję do wzrastania wyników testu

czytania wraz ze wzrostem ilorazu inteligencji.

Linia prosta określa, jak przeciętnie zmienia się jedna zmienna wraz ze

zmianą drugiej zmiennej. W tym przypadku do opisu posługujemy

się cechami linii.


Dopasowanie linii do zbioru punktów odbywa się metodą

najmniejszych kwadratów. Jeżeli interesuje nas np. przewidywanie Y na

podstawie X, metoda najmniejszych kwadratów umiejscawia linię w takiej

pozycji, że suma kwadratów odległości między punktami a linią,

poprowadzoną równolegle do osi Y, jest najmniejsza. Linię tę określa się

mianem linii regresji zmiennej Y względem zmiennej X.


1. Warto dokonać też użytecznego rozróżnienia w związku z zapisem

tej relacji, mianowicie rozróżnienia między wartością

zaobserwowaną Y a wartością oszacowaną bądź przewidywaną,

oznaczoną jako Y’.

2. Na wykresie każdej wartości X odpowiada wartość Y, a także wartość

Y’ odnosząca się do punktu na linii regresji.

Odchylenie dowolnego punktu od linii, równolegle do osi Y, jest po

prostu różnicą Y - Y’. Metoda najmniejszych kwadratów umiejscawia linię

regresji w takiej pozycji, że suma kwadratów odchyleń, równoległych do osi

Y, jest jak najmniejsza.


'
Y  byx X  a yx

Wartości byx i a yx można obliczyć w następujący sposób:


____
N  XY   X  Y  XY  N XY
byx  
N  X 2  ( X ) 2 __

X N X 2 2

a yx 
 Y b  X yx
__
 Y  byx X
__

N
W powyższym równaniu zmienna Y oznacza zmienną zależną

(wyjaśnianą), a zmienna X to zmienna niezależna (predyktor) na podstawie

której przewidywana jest zmienna zależna Y.

Zmienna zależna to ta, która znajduje się po lewej stronie równania, a

zmienna niezależna, która znajduje się po prawej stronie.


Każdy wynik zmiennej zależnej można przedstawić jako sumę dwóch

składowych:

•wartości przewidywanej na podstawie równania regresji

•wielkości odchylenia tego przewidywania od wartości rzeczywistej. To

odchylenie nazywa się resztą.

Zależność między zmienną wyjaśnianą Y a wartością przewidywaną i

resztą można zapisać jako:


Wzór ten jest symbolicznym zapisem tego, co wiemy na podstawie równania

regresji: wartości zmiennej Y zależą od wartości zmiennej X (bo przecież Y’

przewidujemy właśnie na podstawie X) i od wielkości reszty, czyli wszystkich

innych czynników, które nie są kontrolowane w badaniu.

Podstawowa wartość analizy regresji polega na tym, że:

•Jesteśmy w stanie ocenić wielkość wpływu zmiennej niezależnej na zależną,

•Możemy sprawdzić, czy ten uproszczony model relacji między zmiennymi lepiej

opisuje zależność, jaką udało nam się ustalić w badaniu, niż odwoływanie się do

przypadku.
Przykład c.d.

gdzie:  X i  Y - sumy odpowiednio X i Y,


 XY - suma iloczynów X i Y,
 X - suma kwadratów X,
2

__ __
X Yi - średnie odpowiednio X i Y

 X = 2 024,  Y = 1 155
 XY = 130 806
X 2 = 228 978

N = 18
Po zastosowaniu powyższych wzorów, czyli byx i a yx , otrzymamy:

18*130806  2024*1155
byx   0, 6708
18* 228978  2024* 2024
1155  0, 6708* 2024
a yx   11, 25
18
Linię regresji dla przewidywania Y na podstawie X opisuje zatem równanie

y '  0, 6708* X  11, 25


Podstawiając w tym wzorze pod X dowolną wartość, otrzymujemy Y’. Na przykład:

y '  0, 6708*118  11, 25  68 lub y '  0, 6708*99  11, 25  55

Kolumna 6 w tabeli pokazuje oszacowane przewidywanie wyniki testu czytania,


uzyskane dzięki zastosowaniu równania regresji
Jeżeli chcielibyśmy teraz oszacować bądź przewidzieć iloraz inteligencji na

podstawie wyniku test czytania, musimy posłużyć się inną linią regresji, mianowicie

linią regresji X dla Y.

Linia ta umiejscowiona jest w takiej pozycji, by suma kwadratów odległości,

poprowadzonych równolegle do osi X, między punktami a linią była jak

najmniejsza.

Jeżeli X jest wartością zaobserwowaną, a X’, wartością oszacowaną bądź

przewidywaną na podstawie Y, to linia ta jest umiejscowiona tak, aby wielkość

 ( X  X ' )2
była najmniejsza
Wzór linii regresji X względem Y jest następujący:

'
X  bxyY  axy
gdzie: X - oszacowana bądź przewidziana wartość X
'

bxy - nachylenie linii regresji


axy - punkt, w którym linia przecina oś X

Wartości bxy i axy można obliczyć według następujących wzorów:


____
N  XY   X  Y  XY  N XY
bxy  
N  Y 2  ( Y ) 2 __

Y  N Y
2 2

axy 
 Y b  X yx
__
 X  bxy Y
__

N
Dla danych y tabeli
wielkość  = 74 885. Wartości
Y 2
 XY = 130 806.

X = 2 024 i Y = 1 155. Po podstawieniu do wzoru otrzymujemy


następujące wyniki:

18*130806  2024*1155
bxy  2
 1, 207
18*74885  (1155)

2024  1207 *1155


axy   34,98
18
Linia regresji dla przewidywania X na podstawie Y jest zatem dana przez równanie

'
X  1, 207 * Y  34,98
Tygodnik "Wprost" opublikował wyniki badań cen [w zł] produktów oryginalnych i podróbek tych
produktów, sprzedawanych na bazarach w Warszawie w 2003 roku.

Liniowy model regresji cen podróbek względem cen produktów oryginalnych

Cena oryginału X Rozkład linii dopasowanej


140

120 y = 0,0748x + 12,631


2
R = 0,7057
100
Cena podróbki Y

80

60

40

20

0
0 200 400 600 800 1000 1200 1400 1600
Cena oryginału X

Cena podróbki Y Przewidywane Cena podróbki Y Liniowy (Cena podróbki Y)


Przewidywana Składniki
Cena Cena
Produkt
oryginału X podróbki Y Obserwacja cena podróbki Y resztowe

Koszulka Big Star, Diesel 30 8 1 14,87 -6,87

Spodnie Levi Strauss, Wranglem 300 50 2 35,07 14,93

Koszulka Cottonfield 200 60 3 27,59 32,41

Krawat Pierre Cardin 500 10 4 50,03 -40,03

Buty sportowe Adidas 300 50 5 35,07 14,93

Buty Gino Rossi 400 70 6 42,55 27,45

Perfumy Giorgio Armani 350 45 7 38,81 6,19

Zegarek Omega 1400 120 8 117,34 2,66


Zegarek Seiko 800 60 9 72,46 -12,46
Ptasie mleczko, Wedel 10 5 10 13,38 -8,38
Przyprawa Vegeta 5 1 11 13,00 -12,00
Płyta zespołu Ich Troje 30 10
12 14,87 -4,87
Płyta Jennifer Lopez 50 10
13 16,37 -6,37
Gra komputerowa The Simms 200 20
14 27,59 -7,59

Statystyki regresji
Wielokrotność R 0,84
R kwadrat 0,71
Dopasowany R kwadrat 0,68
Błąd standardowy 19,23
Obserwacje 14
Ocena jakość oszacowania funkcji regresji

Ocenie podlegają obie funkcje regresji (Y względem X i X względem Y) Ze względu jednak na

to, że proces ten przebiega podobnie, uwagę kierujemy na oceną funkcji regresji Y względem

X.

Dokonując oceny jakości funkcji regresji, chcemy uzyskać odpowiedź na pytanie: czy

funkcja ta dobrze opisuje ilościową stronę zależności między badanymi zmiennymi?

W tym celu obliczamy:

• odchylenie standardowe składnika resztowego

Su 
 ( y  y ' 2
)
n2
Miara ta określa, o ile przeciętnie biorąc (+ / -), wartości empiryczne zmiennej objaśnianej

(zależnej) odchylają się od wartości teoretycznej tej zmiennej obliczonych na podstawie

oszacowanej funkcji regresji.


• współczynnik zmienności resztowej

Su
Vu  __
*100%
y
Współczynnik ten wskazuje, jaki % średniego poziomu zmiennej objaśnianej

(zależnej) stanowią wahania losowe, których miarą jest Su. Parametr Vu jest

więc miernikiem relatywnej wielkości błędu losowego.

Niektórzy autorzy postulują, że błąd ten można uznać za dopuszczalny, jeśli

Vu < 15%
• współczynnik determinacji R2 według wzoru:

2 2
R  r *100%
Określa on, jaki % wariancji zmiennej objaśnianej (zależnej) został wyjaśniony

przez oszacowaną funkcję regresji.

R2 przyjmuje wartości liczbowe z przedziału [0,10 lub [0%, 100%].

Model regresji tym lepiej opisuje zachowanie badanej zmiennej objaśnianej, im R2

jest bliższy jedności (bliższy 100%).

You might also like