You are on page 1of 71

REGRESJA LINIOWA

TOMASZ PTASZYŃSKI IP UAM 2020


KORELACJE POZORNE

• Korelacje pozorne zachodzą wówczas, gdy


formalnie uzyskujemy wysoką wartość
współczynnika korelacji, ale nie ma związku
przyczynowo skutkowego między zmiennymi.
• Może to być spowodowane np. związkiem obu
zmiennych ze zmienna trzecią, nie ujętą w
modelu.
KORELACJE POZORNE

• Możemy np. dowieść, że posiadacze większych


stóp częściej są daltonistami. Jest to związane z
tym, że obie zmienne (wielkość stopy i daltonizm)
są silnie związane z płcią. Jak wiadomo wada
wzroku polegająca na nieprawidłowym
rozpoznawaniu barw dotyczy prawie wyłącznie
mężczyzn.
KORELACJE POZORNE
(ŹRÓDŁO: HTTP://TYLERVIGEN.COM/SPURIOUS-CORRELATIONS)
KORELACJE POZORNE
(ŹRÓDŁO: HTTP://TYLERVIGEN.COM/SPURIOUS-CORRELATIONS)
KORELACJE POZORNE
(ŹRÓDŁO: HTTP://TYLERVIGEN.COM/SPURIOUS-CORRELATIONS)
KORELACJE POZORNE
(ŹRÓDŁO: HTTP://TYLERVIGEN.COM/SPURIOUS-CORRELATIONS)
ZADANIE 1

• Badano związki między liczbą treningów pisania


bezwzrokowego (zmienna X), a liczbą popełnianych
błędów (zmienna Y).
• Otrzymano następujące wyniki:
ZADANIE 1

Liczba treningów Liczba błędów


(x1) (y)
1 8
2 7
3 6
4 5
5 6
6 5
7 4
ZADANIE 1
trening błędy
(x1) (y) x1 * y x12 y2
1 8 8 1 64
2 7 14 4 49
3 6 18 9 36
4 5 20 16 25
5 6 30 25 36
6 5 30 36 25
7 4 28 49 16
sumy:
28 41 148 140 251
ZADANIE 1
Nxy  (x)(y )
r 
[ Nx 2  (x) 2 ][ Ny 2  (y ) 2 ]

7 *148  28 * 41
r 
(7 *140  282 )(7 * 251  412 )

1036  1148  112


r   0,918
(980  784)(1757  1681) 196 * 76
ZADANIE 1

• r = - 0,918 współczynnik r Pearsona

• r2= 0,842 współczynnik determinacji

• Zmienne posiadają 84,2 % wspólnej wariancji.


ZADANIE 1
ZADANIE 1
WYNIKI Z PAKIETU SPSS
REGRESJA

• Termin regresja został wprowadzony po raz


pierwszy w pracach sir Francisa Galtona, w
których opisał teorię dziedziczenia zdolności.
(Regression towards Mediocrity in Hereditary
Stature , 1885). Według tej teorii wzrost dzieci
osób bardzo wysokich w kolejnym pokoleniu „cofa
się” (regress) do wartości zbliżonej do średniej
populacyjnej.
SIR FRANCIS GALTON

• Sir Francis Galton (1822-1911),


był kuzynem Charlesa Darwina.
Zajmował się m.in. medycyną,
psychometrią, meteorologią i
statystyką. Stworzył również
teoretyczną koncepcję korelacji
i regresji do średniej. Jako
pierwszy zastosował metody
statystyczne do studiowania i
opisywania ludzkich różnic
indywidualnych i dziedziczenia
inteligencji.
ZADANIE 1

• Związek pomiędzy zmiennymi możemy zdefiniować jako :

• y = bx +a

• gdzie b – współczynnik kierunkowy,


• natomiast a to współczynnik przesunięcia
ZADANIE 1
ZADANIE 1
OBLICZAMY WSPÓŁCZYNNIK b

Nxy  (x)(y )
b
N  x  ( x )
2 2

7 *148  28 * 41 1036  1148


b 
7 *140  (28) 2
980  784

 112
b  0,571
196
ZADANIE 1

• Wartość współczynnika b można również


wyznaczyć ze wzoru:

sy
b  ryx
sx
ZADANIE 1
y  bx  a
y  bx  a
a  y  bx

y  bx  a
y 41
y   5,86
??????????- ??????????????????????1- ?????????2???1- ?????????2????

N 7
28
x  4,00
7
a  5,86  (0,571) * 4  8,144
ZADANIE 1

Równanie regresji:

y= -0,571 x + 8,144
METODA NAJMNIEJSZYCH
KWADRATÓW
• Parametry odpowiedniej funkcji regresji wyznacza się
metodą najmniejszych kwadratów.
• Metoda ta opiera się na założeniu, że suma
kwadratów odchyleń zaobserwowanych wartości
zmiennej zależnej (Y ) od wartości teoretycznych
obliczonych na podstawie wybranej funkcji (Y’) jest
najmniejsza.
• 𝑑𝑦 = (𝑌 − 𝑌 ′ )
• 𝑑𝑦 2 = 𝑚𝑖𝑛𝑖𝑚𝑢𝑚
METODA NAJMNIEJSZYCH KWADRATÓW

Brzeziński, J. (2019). Metodologia badań psychologicznych. Wydanie nowe.


Warszawa: Wydawnictwo Naukowe PWN. (str. 199)
LINIA REGRESJI WYZNACZONA RÓWNANIEM:
y= -0,571 x + 8,144

7
6
5
4

3
2

1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
-1
ZADANIE 1
Model - Podsumowanie

Statystyki zmiany

Błąd
standard
Skorygo owy Zmiana
R- wane R- oszacowa R- Istotność
Model R kwadrat kwadrat nia kwadrat F zmiany df1 df2 F zmiany
1 ,918 ,842 ,811 ,58554 ,842 26,667 1 5 ,004

W wydruku z pakietu SPSS znajdujemy obliczone


uprzednio wartości R i R-kwadrat
ZADANIE 1
Współczyn
niki
Współczynniki standaryzo
niestandaryzowane wane Korelacje

Błąd Częściowe
standardo Istotn Rzędu Cząstko (semicząstko
Model B wy Beta t ość zerowego wa we)
1 (Stała) 8,143 ,495 16,454 ,000
treningi -,571 ,111 -,918 -5,164 ,004 -,918 -,918 -,918
(x)

W sekcji współczynniki odnajdujemy parametry


równania regresji. (y= -0,571 x + 8,144).
W modelu regresji jedno jedno zmiennowej
korelacja rzędu zerowego ma taką samą wartość
jak korelacja cząstkowa i semicząstkowa.
WSPÓŁCZYNNIKI

•b – nazywany jest również


niestandaryzowanym współczynnikiem
regresji. Pozwala on na oszacowanie
zmiany zmiennej zależnej (w jej
jednostkach) przy zmianie predyktora o
jeden (w jego jednostkach), przy kontroli
pozostałych predyktorów.
WSPÓŁCZYNNIKI

• beta - standaryzowany współczynnik regresji


powala na oszacowanie zmiany zmiennej zależnej
(w jednostkach odchylenia standardowego) przy
zmianie predyktora o jedno odchylenie
standardowe, przy kontroli pozostałych
predyktorów .
ZADANIE 2

• Do naszego modelu dochodzi kolejna


zmienna niezależna, poziom stresu.
• Wyniki prezentują się w następujący
sposób:
ZADANIE 2

Liczba Poziom stresu Liczba błędów


treningów
x1 x2 y
1 7 8
2 6 7
3 6 6
4 4 5
5 4 6
6 5 5
7 6 4
ZADANIE 2
Model - podsumowanie

Błąd
Skorygowane R- standardowy
Model R R-kwadrat kwadrat oszacowania
1 ,919 ,845 ,767 ,64875

Oba predyktory (liczba treningów i poziom stresu)


wyjaśniają około 85 % zmiennej zależnej.
Współczynniki
Współczynniki Współczynniki
niestandaryzowane standaryzowane
Błąd
ZADANIE 2 Model
1 (Stała)
B
7,681
standardowy
1,794
Beta

zmienna X1 -,553 ,139 -,889


zmienna X2 ,072 ,266 ,061

Równanie regresji ma postać:

y= -0,553x1 +0,072 x2 + 7,681


ZADANIE 2
Korelacje
Częściowe
Rzędu (semicząstko
zerowego Cząstkowa we)
-,918 -,893 -,782
,484 ,134 ,053

W modelu regresji jedno wielo zmiennowej korelacja


rzędu zerowego zwykle nie ma takiej samej wartości
jak korelacje cząstkowa i semicząstkowa. (Miałaby
wówczas, gdyby predyktory nie były z sobą zupełnie
skorelowane)
KORELACJA CZĄSTKOWA

• Korelacja rzędu zerowego - to po prostu


współczynnik r Pearsona. Podniesiony do
kwadratu wskazuje na część wariancji wyjaśnianej
przez dany predykator (samodzielnie, bądź
wspólnie z innymi predykatorami).
• Korelacja cząstkowa. Korelacja między dwiema
zmiennymi pozostająca po wyeliminowaniu
wpływu innej zmiennej (jednej lub większej ilości).
KORELACJA CZĄSTKOWA (WZÓR OBLICZENIOWY)

Korelacje

zmienna zmienna zmienna


Y X1 X2
Korelacja zmienna Y 1,000 -,918 ,484
Pearsona zmienna X1 -,918 1,000 -,476
zmienna X2 ,484 -,476 1,000

𝑟𝑋 𝑌 −𝑟𝑋 𝑋 𝑟𝑌𝑋
𝑟𝑋1(Y.𝑋2) = 1 1 2 2 =
2
1−𝑟𝑌𝑋 1−𝑟𝑋2 𝑋
2 1 2

−0,918 − (−0,476 ∗ 0,484)


= −0,893
(1 − 0,484 2 )(1 − −0,476 2 )
KORELACJA
CZĄSTKOWA

W korelacji cząstkowej możemy poznać


„czystą” wariancję wspólną zmiennej X1 (lub
X2) odniesioną procentowo do tej części
wariancji zmiennej Y, która nie jest związana z
pozostałymi predyktorami (obszar D) .
KORELACJE CZĄSTKOWE I SEMICZĄSTKOWE
(WYKŁADY PROF. J. BRZEZIŃSKIEGO)
KORELACJA SEMICZĄSTKOWA

• Korelacja semicząstkowa (lub częściowa) jest


podobna do korelacji cząstkowej. Stanowi ona
miarę skorelowania dwóch zmiennych jaka
pozostaje po usunięciu wpływów jednej lub wielu
innych predyktorów tylko z jednej zmiennej.

KORELACJA SEMICZĄSTKOWA
(WZÓR OBLICZENIOWY) Korelacje
zmienna zmienna zmienna
Y X1 X2
Korelacja zmienna Y 1,000 -,918 ,484
Pearsona zmienna X1 -,918 1,000 -,476
zmienna X2 ,484 -,476 1,000

𝑟𝑋 𝑌 −𝑟𝑋 𝑋 𝑟𝑌𝑋
𝑟𝑋1(𝑌.𝑍) = 1 1 2 2 =
2 )
(1−𝑟𝑌𝑋
2

−0,918−(−0,476∗0,484)
2
=-0,782
(1−(0,484) )
KORELACJA SEMICZĄSTKOWA
REGRESJA W PAKIECIE SPSS
(PLIK: REGRESJADANE.SAV)
Metodą regresji będziemy sprawdzać czy predykatory:

- X1 - Zmienna A
- X2 - Zmienna B
- X3 - Zmienna C
- X4 - Zmienna E
różnicują zmienną zależną: Zmienna Y

I. Wybierz :Analiza – regresja – liniowa.


Wprowadzamy zmienną zależną (Y) i zmienne niezależne(X1, X2….)
W statystykach dodatkowo zaznaczamy:
- korelacje semicząstkowe i cząstkowe
- test współliniowości
Wybieramy metodę : WPROWADZANIA.
REGRESJA W PAKIECIE SPSS
(PLIK: REGRESJADANE.SAV)

Jedno z ważnych założeń dla regresji, które musi być spełnione, by


uzyskane wyniki były wiarygodne to brak korelacji pomiędzy
predyktorami. Na początku musimy sprawdzić, czy założenie to
zostało w naszym modelu spełnione.
W tym celu w tabeli „Współczynniki” badamy wartości testów w
dwóch ostatnich kolumnach „Statystyki współliniowości”.
Jeżeli wartość testu VIF (The Variance Inflation Factor) nie
przekracza 10,0 a wartość tolerancji jest większa od 0,1 wtedy
możemy przyjąć, że założenie o braku korelacji predyktorów jest
spełnione. Wysoka wartość VIF może w efekcie powodować
nieprawidłowe wartości współczynników b i beta w modelu.
REGRESJA W PAKIECIE SPSS
(PLIK: REGRESJADANE.SAV)

W naszym przykładzie wartość testu VIF (The Variance


Inflation Factor) nie przekracza 10,0 a wartość tolerancji
jest większa od 0,1, zatem możemy przyjąć, że założenie
o braku korelacji predyktorów jest spełnione.
REGRESJA W PAKIECIE SPSS
•II. W kolejnym etapie sprawdzamy, czy predykatory wywołują istotną zmianę
zmiennej zależnej:

Istotność dla F (mniejsza od a=0.05) pozwala stwierdzić, iż predykatory


wywołują istotną zmianę Y.

Anovaa
Suma Średni
Model kwadratów df kwadrat F Istotność
1 Regresja 1336,169 4 334,042 24,599 ,000b
Reszta 4386,112 323 13,579
Ogółem 5722,280 327
a. Zmienna zależna: zmienna Y
b. Predyktory: (Stała), zmienna E, zmienna B, zmienna C, zmienna A
REGRESJA W PAKIECIE SPSS
Model - podsumowanie

Skorygowane R- Błąd standardowy


Model R R-kwadrat kwadrat oszacowania
1 ,483a ,234 ,224 3,685
a. Predyktory: (Stała), zmienna E, zmienna B, zmienna C, zmienna A

III. Sprawdzamy, jaki procent zmiennej Y wyjaśniają zmienne


niezależne:

R-kwadrat wynosi 0,234 (23,4 %) Dla porównania R kwadrat w


kilku modelach dobrze jest użyć miary Skorygowane R
Kwadrat, który bierze pod uwagę liczbę użytych predykatorów.
REGRESJA W PAKIECIE SPSS
REGRESJA W PAKIECIE SPSS
REGRESJA W PAKIECIE SPSS
REGRESJA W PAKIECIE SPSS

• Zaprezentowana wyżej metoda nazwana jest


„Metoda wprowadzania” (INSERT).

• Procedura doboru zmiennych, w której wszystkie


zmienne z bloku są jednocześnie wprowadzane
do analizy.
W PAKIECIE SPSS MOŻNA RÓWNIEŻ WYBRAĆ INNE METODY
ANALIZY:
REGRESJA W PAKIECIE SPSS

• Metoda krokowa (STEPWISE).


• W każdym kroku analizy do modelu dołączana jest zmienna
niezależna, nie będąca jeszcze w równaniu, o najmniejszym
prawdopodobieństwie odpowiadającym F, o ile to
prawdopodobieństwo jest dostatecznie małe. Zmienne
uwzględnione już w równaniu regresji zostają z niego
usunięte, jeśli związane z nimi prawdopodobieństwo F staje
się dostatecznie duże. Procedura kończy się, kiedy nie da się
wykluczyć ani dołączyć żadnej zmiennej.
METODA KROKOWA.
METODA KROKOWA.
METODA KROKOWA.
REGRESJA W PAKIECIE SPSS

• Metoda usuwania (REMOVE).

• Procedura doboru zmiennej, usuwająca w


jednym kroku jednocześnie wszystkie zmienne z
bloku.
REGRESJA W PAKIECIE SPSS
• Metoda Eliminacji Wstecznej (BACKWARD).

• Procedura doboru zmiennych, w której wszystkie


zmienne zostają wprowadzone do równania, a następnie
są kolejno usuwane. Zmienna o najmniejszej korelacji
cząstkowej ze zmienną zależną jest brana pod uwagę do
usunięcia w pierwszej kolejności. Jeśli spełnia kryteria
eliminacji, zostaje usunięta. Po usunięciu pierwszej
zmiennej, kolejną braną pod uwagę do usunięcia jest ta
zmienna pozostająca w równaniu, która ma najmniejszą
korelacją cząstkową ze zmienną zależną. Procedura
kończy działanie, gdy w równaniu nie występują inne
zmienne spełniające kryteria usunięcia.
METODA ELIMINACJI WSTECZNEJ.
METODA ELIMINACJI WSTECZNEJ.
METODA ELIMINACJI WSTECZNEJ.
REGRESJA W PAKIECIE SPSS

• Metoda Selekcji Postępującej (FORWARD).


Sekwencyjna procedura doboru zmiennych, w której zmienne
są kolejno wprowadzane do modelu. Jako pierwsza rozważana
jest ta zmienna, która jest najsilniej skorelowana ze zmienną
zależną. Jest ona wprowadzana do modelu tylko wtedy, gdy
spełnia kryterium wprowadzenia. Po wprowadzeniu pierwszej
zmiennej pod uwagę brana jest ta zmienna nie wprowadzona
do równania, która ma największą wartość współczynnika
korelacji cząstkowej ze zmienną zależną. Procedura kończy
działanie, gdy nie ma już żadnych zmiennych spełniających
kryterium wprowadzenia.
METODA SELEKCJI POSTĘPUJĄCEJ.
REGRESJA W PODZIALE NA GRUPY.
REGRESJA W PODZIALE NA GRUPY.
REGRESJA W PODZIALE NA GRUPY.

Regresja metodą krokową (tylko kobiety)

Zmienne wprowadzone/usunięte
Zmienne Zmienne
Model wprowadzone usunięte Metoda
1 zmienna A . Krokowa (Kryterium:
Prawdopodobieństwo F-
wprowadzenia <= ,050,
Prawdopodobieństwo F-
usunięcia >= ,100).

Model - podsumowanie
R
płeć = Błąd
KOBIETA Skorygowane R- standardowy
Model (Wybrane) R-kwadrat kwadrat oszacowania
1 ,276 ,076 ,070 1,163
REGRESJA W PODZIALE NA GRUPY.

• Prezentowany model regresji wygląda zupełnie inaczej


w przypadku kobiet i mężczyzn. Płeć jest więc ważnym
czynnikiem w omawianym przykładzie.
• Do modelu regresji zostanie więc wprowadzona
zmienna płeć (może ona zostać wprowadzona do
modelu regresji, gdyż jest dychotomiczna i
zakodowana jako 0 – 1)

You might also like