Wykład

Prosta regresja liniowa
dwóch zmiennych
Prof. Piotr Tarka

Termin regresja po raz pierwszy pojawił się w pracach sir Francisa
Galtona na oznaczenie pewnych zależności w opracowanej przez niego
teorii dziedziczenia zdolności, czyli – jak mawiał – geniuszu. Galton
zaobserwował, że w następnym pokoleniu geniusz dzieci osób wybitnych
jest niższy od geniuszu ich rodziców, czyli cofa się (ang. regress) do
średniej w danym pokoleniu.
Choć Galton posługiwał się pojęciem regresji na oznaczenie pewnej tendencji w dziedziczeniu
zdolności, to jednak obecnie termin ten najczęściej stosuje się w odniesieniu do statystycznej
metody oszacowania/przewidywanie siły zależności między zmiennymi.

Zależność jednostronna i dwustronna.
W pierwszym przypadku możemy np. stwierdzić, że wielkość
sprzedaży zależy od wielkości promocji. W drugim zaś
przypadku, że np. waga zależy od wzrostu i odwrotnie, że
wzrost wpływa na wagę.
WAŻNY JEST WIĘC SPOSÓB OKREŚLENIA RELACJI
PRZYCZYNOWO-SKUTKOWEJ I UJĘCIA LOGICZNEGO
ZWIĄZKU MIĘDZY ZMIENNYMI CHARAKTERYZUJĄCYMI
OKREŚLONE ZJAWISKO.
Omawiając współczynnik korelacji r Pearsona, posługiwaliśmy się
wyrażeniem „linia regresji”. Linia ta, leży najbliżej wszystkich punktów
odpowiadającym parom pomiarów zmiennych (X,Y).
Ponadto korelacja jest wskaźnikiem odchylenia par pomiarów od linii
regresji. Jeżeli współczynnik korelacji równa się +1 lub -1, to znaczy,
że wszystkie punkty leżą na linii regresji.
Równanie linii regresji – określa się jako miejsce geometryczne średnich wartości zmiennej
zależnej przy ustalonych wartościach zmiennej niezależnej. Linia regresji to linia która jest
najmniej oddalona od rozkładu par pomiarów w układzie współrzędnych XY.
ZAŚ METODA REGRESJI POLEGA NA ZNALEZIENIU NAJLEPSZEGO RÓWNANIA NA LINII
REGRESJI.
Stwierdzenie, że między cechami istnieje korelacja liniowa pozwala
nam odnaleźć równanie linii regresji, np. dla dwóch zmiennych.
Ma ona zastosowanie wtedy gdy dysponując danymi dla jednej cechy
możemy w przybliżeniu określić średnie wielkości lub wartości drugiej
cechy.
Obliczanie parametrów linii regresji pozwala na:
1.ustalenie siły związku między dwiema zmiennymi
2.znalezienie metody pozwalającej na przewidywanie wartości jednej
zmiennej na podstawie wartości drugiej zmiennej.

Współzależność dwóch cech
y y
Korelacja dodatnia
Korelacja ujemna
y y
x x
Jeżeli oba równania się pokrywają to korelacja przekształca się w związek
funkcyjny (czyli r = –1 lub r = 1).

Współzależność dwóch cech
y
x =x
y
y =y
x
Jeżeli  = 90 to r = 0 więc nie ma korelacji

Regresja liniowa Y względem X
Rozważmy dane przedstawione w kolejnej tabeli [dane zawarte w
kolumnach 2 i 3]. Kolumny te zawierają ilorazy inteligencji i wyniki testu
czytania dla 18 osób w szkole.
Dane te zostały również ujęte na wykresie.

Iloraz Wynik testu
inteligencji czytania Oczekiwany
Osoba X 2
XY wynik testu Reszty
X Y czytania Y podniesione
Reszty do kwadratu
1 118 66 13 924 7 788 68 -2 4
2 99 50 9 801 4 950 55 -5 25
3 118 73 13 924 8 614 68 5 25
4 121 69 14 641 8 349 70 -1 1
5 123 72 15 129 8 856 71 1 1
6 98 54 9 604 5 292 54 0 0
7 131 74 17 161 9 694 77 -3 9
8 121 70 14 641 8 470 70 0 0
9 108 65 11 664 7 020 61 4 16
10 111 62 12 321 6 882 63 -1 1
11 118 65 13 924 7 670 68 -3 9
12 112 63 12 544 7 056 64 -1 1
13 113 67 12 769 7 571 65 2 4
14 111 59 12 321 6 549 63 -4 16
15 106 60 11 236 6 360 60 0 0
16 102 59 10 404 6 018 57 2 4
17 113 70 12 769 7 910 65 5 25
18 101 57 10 201 5 757 57 0 0
80
75
70
y, wynik czytania testu
65
60
55
50
100 105 110 115 120 125 130 135 140 145
x, iloraz inteligencji
• Uporządkowanie punktów [przedstawionych na wykresie] wykazuje
znaczną nieregularność.
• Można jednak zauważyć tendencję do wzrastania wyników testu
czytania wraz ze wzrostem ilorazu inteligencji.
Linia prosta określa, jak przeciętnie zmienia się jedna zmienna wraz ze
zmianą drugiej zmiennej. W tym przypadku do opisu posługujemy
się cechami linii.

Dopasowanie linii do zbioru punktów odbywa się metodą
najmniejszych kwadratów. Jeżeli interesuje nas np. przewidywanie Y na
podstawie X, metoda najmniejszych kwadratów umiejscawia linię w takiej
pozycji, że suma kwadratów odległości między punktami a linią,
poprowadzoną równolegle do osi Y, jest najmniejsza. Linię tę określa się
mianem linii regresji zmiennej Y względem zmiennej X.

1. Warto dokonać też użytecznego rozróżnienia w związku z zapisem
tej relacji, mianowicie rozróżnienia między wartością
zaobserwowaną Y a wartością oszacowaną bądź przewidywaną,
oznaczoną jako Y’.
2. Na wykresie każdej wartości X odpowiada wartość Y, a także wartość
Y’ odnosząca się do punktu na linii regresji.
Odchylenie dowolnego punktu od linii, równolegle do osi Y, jest po
prostu różnicą Y - Y’. Metoda najmniejszych kwadratów umiejscawia linię
regresji w takiej pozycji, że suma kwadratów odchyleń, równoległych do osi
Y, jest jak najmniejsza.

'
Y  byx X  a yx
Wartości byx i a yx można obliczyć w następujący sposób:

____
N  XY   X  Y  XY  N XY
byx  
N  X 2  ( X ) 2 __
X N X 2 2
a yx 
 Y b  X yx
__
 Y  byx X
__
N
W powyższym równaniu zmienna Y oznacza zmienną zależną
(wyjaśnianą), a zmienna X to zmienna niezależna (predyktor) na podstawie
której przewidywana jest zmienna zależna Y.
Zmienna zależna to ta, która znajduje się po lewej stronie równania, a
zmienna niezależna, która znajduje się po prawej stronie.

Każdy wynik zmiennej zależnej można przedstawić jako sumę dwóch
składowych:
•wartości przewidywanej na podstawie równania regresji
•wielkości odchylenia tego przewidywania od wartości rzeczywistej. To
odchylenie nazywa się resztą.
Zależność między zmienną wyjaśnianą Y a wartością przewidywaną i
resztą można zapisać jako:

Wzór ten jest symbolicznym zapisem tego, co wiemy na podstawie równania
regresji: wartości zmiennej Y zależą od wartości zmiennej X (bo przecież Y’
przewidujemy właśnie na podstawie X) i od wielkości reszty, czyli wszystkich
innych czynników, które nie są kontrolowane w badaniu.
Podstawowa wartość analizy regresji polega na tym, że:
•Jesteśmy w stanie ocenić wielkość wpływu zmiennej niezależnej na zależną,
•Możemy sprawdzić, czy ten uproszczony model relacji między zmiennymi lepiej
opisuje zależność, jaką udało nam się ustalić w badaniu, niż odwoływanie się do
przypadku.
Przykład c.d.
gdzie:  X i  Y - sumy odpowiednio X i Y,

 XY - suma iloczynów X i Y,
 X - suma kwadratów X,
2
__ __
X Yi - średnie odpowiednio X i Y
 X = 2 024,  Y = 1 155
 XY = 130 806
X 2 = 228 978
N = 18
Po zastosowaniu powyższych wzorów, czyli byx i a yx , otrzymamy:
18*130806  2024*1155
byx   0, 6708
18* 228978  2024* 2024
1155  0, 6708* 2024
a yx   11, 25
18
Linię regresji dla przewidywania Y na podstawie X opisuje zatem równanie
y '  0, 6708* X  11, 25

Podstawiając w tym wzorze pod X dowolną wartość, otrzymujemy Y’. Na przykład:
y '  0, 6708*118  11, 25  68 lub y '  0, 6708*99  11, 25  55
Kolumna 6 w tabeli pokazuje oszacowane przewidywanie wyniki testu czytania,

uzyskane dzięki zastosowaniu równania regresji
Jeżeli chcielibyśmy teraz oszacować bądź przewidzieć iloraz inteligencji na
podstawie wyniku test czytania, musimy posłużyć się inną linią regresji, mianowicie
linią regresji X dla Y.
Linia ta umiejscowiona jest w takiej pozycji, by suma kwadratów odległości,
poprowadzonych równolegle do osi X, między punktami a linią była jak
najmniejsza.
Jeżeli X jest wartością zaobserwowaną, a X’, wartością oszacowaną bądź
przewidywaną na podstawie Y, to linia ta jest umiejscowiona tak, aby wielkość
 ( X  X ' )2
była najmniejsza
Wzór linii regresji X względem Y jest następujący:
'
X  bxyY  axy
gdzie: X - oszacowana bądź przewidziana wartość X
'
bxy - nachylenie linii regresji

axy - punkt, w którym linia przecina oś X
Wartości bxy i axy można obliczyć według następujących wzorów:

____
N  XY   X  Y  XY  N XY
bxy  
N  Y 2  ( Y ) 2 __
Y  N Y
2 2
axy 
 Y b  X yx
__
 X  bxy Y
__
N
Dla danych y tabeli
wielkość  = 74 885. Wartości
Y 2
 XY = 130 806.
X = 2 024 i Y = 1 155. Po podstawieniu do wzoru otrzymujemy

następujące wyniki:
18*130806  2024*1155
bxy  2
 1, 207
18*74885  (1155)
2024  1207 *1155

axy   34,98
18
Linia regresji dla przewidywania X na podstawie Y jest zatem dana przez równanie
'
X  1, 207 * Y  34,98
Tygodnik "Wprost" opublikował wyniki badań cen [w zł] produktów oryginalnych i podróbek tych
produktów, sprzedawanych na bazarach w Warszawie w 2003 roku.
Liniowy model regresji cen podróbek względem cen produktów oryginalnych
Cena oryginału X Rozkład linii dopasowanej

140
120 y = 0,0748x + 12,631

2
R = 0,7057
100
Cena podróbki Y
80
60
40
20
0
0 200 400 600 800 1000 1200 1400 1600
Cena oryginału X
Cena podróbki Y Przewidywane Cena podróbki Y Liniowy (Cena podróbki Y)

Przewidywana Składniki
Cena Cena
Produkt
oryginału X podróbki Y Obserwacja cena podróbki Y resztowe
Koszulka Big Star, Diesel 30 8 1 14,87 -6,87
Spodnie Levi Strauss, Wranglem 300 50 2 35,07 14,93
Koszulka Cottonfield 200 60 3 27,59 32,41
Krawat Pierre Cardin 500 10 4 50,03 -40,03
Buty sportowe Adidas 300 50 5 35,07 14,93
Buty Gino Rossi 400 70 6 42,55 27,45
Perfumy Giorgio Armani 350 45 7 38,81 6,19
Zegarek Omega 1400 120 8 117,34 2,66

Zegarek Seiko 800 60 9 72,46 -12,46
Ptasie mleczko, Wedel 10 5 10 13,38 -8,38
Przyprawa Vegeta 5 1 11 13,00 -12,00
Płyta zespołu Ich Troje 30 10
12 14,87 -4,87
Płyta Jennifer Lopez 50 10
13 16,37 -6,37
Gra komputerowa The Simms 200 20
14 27,59 -7,59
Statystyki regresji
Wielokrotność R 0,84
R kwadrat 0,71
Dopasowany R kwadrat 0,68
Błąd standardowy 19,23
Obserwacje 14
Ocena jakość oszacowania funkcji regresji
Ocenie podlegają obie funkcje regresji (Y względem X i X względem Y) Ze względu jednak na
to, że proces ten przebiega podobnie, uwagę kierujemy na oceną funkcji regresji Y względem
X.
Dokonując oceny jakości funkcji regresji, chcemy uzyskać odpowiedź na pytanie: czy
funkcja ta dobrze opisuje ilościową stronę zależności między badanymi zmiennymi?
W tym celu obliczamy:
• odchylenie standardowe składnika resztowego
Su 
 ( y  y ' 2
)
n2
Miara ta określa, o ile przeciętnie biorąc (+ / -), wartości empiryczne zmiennej objaśnianej
(zależnej) odchylają się od wartości teoretycznej tej zmiennej obliczonych na podstawie
oszacowanej funkcji regresji.

• współczynnik zmienności resztowej
Su
Vu  __
*100%
y
Współczynnik ten wskazuje, jaki % średniego poziomu zmiennej objaśnianej
(zależnej) stanowią wahania losowe, których miarą jest Su. Parametr Vu jest
więc miernikiem relatywnej wielkości błędu losowego.
Niektórzy autorzy postulują, że błąd ten można uznać za dopuszczalny, jeśli
Vu < 15%
• współczynnik determinacji R2 według wzoru:
2 2
R  r *100%
Określa on, jaki % wariancji zmiennej objaśnianej (zależnej) został wyjaśniony
przez oszacowaną funkcję regresji.
R2 przyjmuje wartości liczbowe z przedziału [0,10 lub [0%, 100%].
Model regresji tym lepiej opisuje zachowanie badanej zmiennej objaśnianej, im R2
jest bliższy jedności (bliższy 100%).

Wykład

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wykład

Uploaded by

Copyright:

Available Formats

Prosta regresja liniowa

Prof. Piotr Tarka

Galtona na oznaczenie pewnych zależności w opracowanej przez niego

teorii dziedziczenia zdolności, czyli – jak mawiał – geniuszu. Galton

zaobserwował, że w następnym pokoleniu geniusz dzieci osób wybitnych

średniej w danym pokoleniu.

metody oszacowania/przewidywanie siły zależności między zmiennymi.

W pierwszym przypadku możemy np. stwierdzić, że wielkość

sprzedaży zależy od wielkości promocji. W drugim zaś

przypadku, że np. waga zależy od wzrostu i odwrotnie, że

wzrost wpływa na wagę.

WAŻNY JEST WIĘC SPOSÓB OKREŚLENIA RELACJI

PRZYCZYNOWO-SKUTKOWEJ I UJĘCIA LOGICZNEGO

ZWIĄZKU MIĘDZY ZMIENNYMI CHARAKTERYZUJĄCYMI

wyrażeniem „linia regresji”. Linia ta, leży najbliżej wszystkich punktów

odpowiadającym parom pomiarów zmiennych (X,Y).

Ponadto korelacja jest wskaźnikiem odchylenia par pomiarów od linii

regresji. Jeżeli współczynnik korelacji równa się +1 lub -1, to znaczy,

że wszystkie punkty leżą na linii regresji.

najmniej oddalona od rozkładu par pomiarów w układzie współrzędnych XY.

ZAŚ METODA REGRESJI POLEGA NA ZNALEZIENIU NAJLEPSZEGO RÓWNANIA NA LINII

nam odnaleźć równanie linii regresji, np. dla dwóch zmiennych.

Ma ona zastosowanie wtedy gdy dysponując danymi dla jednej cechy

możemy w przybliżeniu określić średnie wielkości lub wartości drugiej

Obliczanie parametrów linii regresji pozwala na:

1.ustalenie siły związku między dwiema zmiennymi

2.znalezienie metody pozwalającej na przewidywanie wartości jednej

zmiennej na podstawie wartości drugiej zmiennej.

Jeżeli oba równania się pokrywają to korelacja przekształca się w związek

funkcyjny (czyli r = –1 lub r = 1).

Jeżeli  = 90 to r = 0 więc nie ma korelacji

Rozważmy dane przedstawione w kolejnej tabeli [dane zawarte w

kolumnach 2 i 3]. Kolumny te zawierają ilorazy inteligencji i wyniki testu

czytania dla 18 osób w szkole.

Dane te zostały również ujęte na wykresie.

• Można jednak zauważyć tendencję do wzrastania wyników testu

czytania wraz ze wzrostem ilorazu inteligencji.

zmianą drugiej zmiennej. W tym przypadku do opisu posługujemy

się cechami linii.

najmniejszych kwadratów. Jeżeli interesuje nas np. przewidywanie Y na

podstawie X, metoda najmniejszych kwadratów umiejscawia linię w takiej

pozycji, że suma kwadratów odległości między punktami a linią,

poprowadzoną równolegle do osi Y, jest najmniejsza. Linię tę określa się

mianem linii regresji zmiennej Y względem zmiennej X.

tej relacji, mianowicie rozróżnienia między wartością

zaobserwowaną Y a wartością oszacowaną bądź przewidywaną,

oznaczoną jako Y’.

2. Na wykresie każdej wartości X odpowiada wartość Y, a także wartość

Y’ odnosząca się do punktu na linii regresji.

Odchylenie dowolnego punktu od linii, równolegle do osi Y, jest po

prostu różnicą Y - Y’. Metoda najmniejszych kwadratów umiejscawia linię

regresji w takiej pozycji, że suma kwadratów odchyleń, równoległych do osi

Y, jest jak najmniejsza.

Wartości byx i a yx można obliczyć w następujący sposób:

(wyjaśnianą), a zmienna X to zmienna niezależna (predyktor) na podstawie

której przewidywana jest zmienna zależna Y.

Zmienna zależna to ta, która znajduje się po lewej stronie równania, a

zmienna niezależna, która znajduje się po prawej stronie.

•wartości przewidywanej na podstawie równania regresji

•wielkości odchylenia tego przewidywania od wartości rzeczywistej. To

odchylenie nazywa się resztą.

Zależność między zmienną wyjaśnianą Y a wartością przewidywaną i

resztą można zapisać jako:

y '  0, 6708118  11, 25  68 lub y '  0, 670899  11, 25  55