Regresja (Prezentacja)

REGRESJA LINIOWA
TOMASZ PTASZYŃSKI IP UAM 2020

KORELACJE POZORNE
• Korelacje pozorne zachodzą wówczas, gdy

formalnie uzyskujemy wysoką wartość
współczynnika korelacji, ale nie ma związku
przyczynowo skutkowego między zmiennymi.
• Może to być spowodowane np. związkiem obu
zmiennych ze zmienna trzecią, nie ujętą w
modelu.
KORELACJE POZORNE
• Możemy np. dowieść, że posiadacze większych

stóp częściej są daltonistami. Jest to związane z
tym, że obie zmienne (wielkość stopy i daltonizm)
są silnie związane z płcią. Jak wiadomo wada
wzroku polegająca na nieprawidłowym
rozpoznawaniu barw dotyczy prawie wyłącznie
mężczyzn.
KORELACJE POZORNE
(ŹRÓDŁO: HTTP://TYLERVIGEN.COM/SPURIOUS-CORRELATIONS)
KORELACJE POZORNE
KORELACJE POZORNE
KORELACJE POZORNE
ZADANIE 1
• Badano związki między liczbą treningów pisania

bezwzrokowego (zmienna X), a liczbą popełnianych
błędów (zmienna Y).
• Otrzymano następujące wyniki:
ZADANIE 1
Liczba treningów Liczba błędów

(x1) (y)
1 8
2 7
3 6
4 5
5 6
6 5
7 4
ZADANIE 1
trening błędy
(x1) (y) x1 * y x12 y2
1 8 8 1 64
2 7 14 4 49
3 6 18 9 36
4 5 20 16 25
5 6 30 25 36
6 5 30 36 25
7 4 28 49 16
sumy:
28 41 148 140 251
ZADANIE 1
Nxy  (x)(y )
r 
[ Nx 2  (x) 2 ][ Ny 2  (y ) 2 ]
7 *148  28 * 41
r 
(7 *140  282 )(7 * 251  412 )
1036  1148  112

r   0,918
(980  784)(1757  1681) 196 * 76
ZADANIE 1
• r = - 0,918 współczynnik r Pearsona
• r2= 0,842 współczynnik determinacji
• Zmienne posiadają 84,2 % wspólnej wariancji.

ZADANIE 1
ZADANIE 1
WYNIKI Z PAKIETU SPSS
REGRESJA
• Termin regresja został wprowadzony po raz

pierwszy w pracach sir Francisa Galtona, w
których opisał teorię dziedziczenia zdolności.
(Regression towards Mediocrity in Hereditary
Stature , 1885). Według tej teorii wzrost dzieci
osób bardzo wysokich w kolejnym pokoleniu „cofa
się” (regress) do wartości zbliżonej do średniej
populacyjnej.
SIR FRANCIS GALTON
• Sir Francis Galton (1822-1911),

był kuzynem Charlesa Darwina.
Zajmował się m.in. medycyną,
psychometrią, meteorologią i
statystyką. Stworzył również
teoretyczną koncepcję korelacji
i regresji do średniej. Jako
pierwszy zastosował metody
statystyczne do studiowania i
opisywania ludzkich różnic
indywidualnych i dziedziczenia
inteligencji.
ZADANIE 1
• Związek pomiędzy zmiennymi możemy zdefiniować jako :
• y = bx +a
• gdzie b – współczynnik kierunkowy,

• natomiast a to współczynnik przesunięcia
ZADANIE 1
ZADANIE 1
OBLICZAMY WSPÓŁCZYNNIK b
Nxy  (x)(y )
b
N  x  ( x )
2 2
7 *148  28 * 41 1036  1148

b 
7 *140  (28) 2
980  784
 112
b  0,571
196
ZADANIE 1
• Wartość współczynnika b można również

wyznaczyć ze wzoru:
sy
b  ryx
sx
ZADANIE 1
y  bx  a
y  bx  a
a  y  bx
y  bx  a
y 41
y   5,86
??????????- ??????????????????????1- ?????????2???1- ?????????2????
N 7
28
x  4,00
7
a  5,86  (0,571) * 4  8,144
ZADANIE 1
Równanie regresji:
y= -0,571 x + 8,144
METODA NAJMNIEJSZYCH
KWADRATÓW
• Parametry odpowiedniej funkcji regresji wyznacza się
metodą najmniejszych kwadratów.
• Metoda ta opiera się na założeniu, że suma
kwadratów odchyleń zaobserwowanych wartości
zmiennej zależnej (Y ) od wartości teoretycznych
obliczonych na podstawie wybranej funkcji (Y’) jest
najmniejsza.
• 𝑑𝑦 = (𝑌 − 𝑌 ′ )
• 𝑑𝑦 2 = 𝑚𝑖𝑛𝑖𝑚𝑢𝑚
METODA NAJMNIEJSZYCH KWADRATÓW
Brzeziński, J. (2019). Metodologia badań psychologicznych. Wydanie nowe.

Warszawa: Wydawnictwo Naukowe PWN. (str. 199)
LINIA REGRESJI WYZNACZONA RÓWNANIEM:
y= -0,571 x + 8,144
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
-1
ZADANIE 1
Model - Podsumowanie
Statystyki zmiany
Błąd
standard
Skorygo owy Zmiana
R- wane R- oszacowa R- Istotność
Model R kwadrat kwadrat nia kwadrat F zmiany df1 df2 F zmiany
1 ,918 ,842 ,811 ,58554 ,842 26,667 1 5 ,004
W wydruku z pakietu SPSS znajdujemy obliczone

uprzednio wartości R i R-kwadrat
ZADANIE 1
Współczyn
niki
Współczynniki standaryzo
niestandaryzowane wane Korelacje
Błąd Częściowe
standardo Istotn Rzędu Cząstko (semicząstko
Model B wy Beta t ość zerowego wa we)
1 (Stała) 8,143 ,495 16,454 ,000
treningi -,571 ,111 -,918 -5,164 ,004 -,918 -,918 -,918
(x)
W sekcji współczynniki odnajdujemy parametry

równania regresji. (y= -0,571 x + 8,144).
W modelu regresji jedno jedno zmiennowej
korelacja rzędu zerowego ma taką samą wartość
jak korelacja cząstkowa i semicząstkowa.
WSPÓŁCZYNNIKI
•b – nazywany jest również

niestandaryzowanym współczynnikiem
regresji. Pozwala on na oszacowanie
zmiany zmiennej zależnej (w jej
jednostkach) przy zmianie predyktora o
jeden (w jego jednostkach), przy kontroli
pozostałych predyktorów.
WSPÓŁCZYNNIKI
• beta - standaryzowany współczynnik regresji

powala na oszacowanie zmiany zmiennej zależnej
(w jednostkach odchylenia standardowego) przy
zmianie predyktora o jedno odchylenie
standardowe, przy kontroli pozostałych
predyktorów .
ZADANIE 2
• Do naszego modelu dochodzi kolejna

zmienna niezależna, poziom stresu.
• Wyniki prezentują się w następujący
sposób:
ZADANIE 2
Liczba Poziom stresu Liczba błędów

treningów
x1 x2 y
1 7 8
2 6 7
3 6 6
4 4 5
5 4 6
6 5 5
7 6 4
ZADANIE 2
Model - podsumowanie
Błąd
Skorygowane R- standardowy
Model R R-kwadrat kwadrat oszacowania
1 ,919 ,845 ,767 ,64875
Oba predyktory (liczba treningów i poziom stresu)

wyjaśniają około 85 % zmiennej zależnej.
Współczynniki
Współczynniki Współczynniki
niestandaryzowane standaryzowane
Błąd
ZADANIE 2 Model
1 (Stała)
B
7,681
standardowy
1,794
Beta
zmienna X1 -,553 ,139 -,889

zmienna X2 ,072 ,266 ,061
Równanie regresji ma postać:
y= -0,553x1 +0,072 x2 + 7,681

ZADANIE 2
Korelacje
Częściowe
Rzędu (semicząstko
zerowego Cząstkowa we)
-,918 -,893 -,782
,484 ,134 ,053
W modelu regresji jedno wielo zmiennowej korelacja

rzędu zerowego zwykle nie ma takiej samej wartości
jak korelacje cząstkowa i semicząstkowa. (Miałaby
wówczas, gdyby predyktory nie były z sobą zupełnie
skorelowane)
KORELACJA CZĄSTKOWA
• Korelacja rzędu zerowego - to po prostu

współczynnik r Pearsona. Podniesiony do
kwadratu wskazuje na część wariancji wyjaśnianej
przez dany predykator (samodzielnie, bądź
wspólnie z innymi predykatorami).
• Korelacja cząstkowa. Korelacja między dwiema
zmiennymi pozostająca po wyeliminowaniu
wpływu innej zmiennej (jednej lub większej ilości).
KORELACJA CZĄSTKOWA (WZÓR OBLICZENIOWY)
Korelacje
zmienna zmienna zmienna

Y X1 X2
Korelacja zmienna Y 1,000 -,918 ,484
Pearsona zmienna X1 -,918 1,000 -,476
zmienna X2 ,484 -,476 1,000
𝑟𝑋 𝑌 −𝑟𝑋 𝑋 𝑟𝑌𝑋
𝑟𝑋1(Y.𝑋2) = 1 1 2 2 =
2
1−𝑟𝑌𝑋 1−𝑟𝑋2 𝑋
2 1 2
−0,918 − (−0,476 ∗ 0,484)

= −0,893
(1 − 0,484 2 )(1 − −0,476 2 )
KORELACJA
CZĄSTKOWA
W korelacji cząstkowej możemy poznać

„czystą” wariancję wspólną zmiennej X1 (lub
X2) odniesioną procentowo do tej części
wariancji zmiennej Y, która nie jest związana z
pozostałymi predyktorami (obszar D) .
KORELACJE CZĄSTKOWE I SEMICZĄSTKOWE
(WYKŁADY PROF. J. BRZEZIŃSKIEGO)
KORELACJA SEMICZĄSTKOWA
• Korelacja semicząstkowa (lub częściowa) jest

podobna do korelacji cząstkowej. Stanowi ona
miarę skorelowania dwóch zmiennych jaka
pozostaje po usunięciu wpływów jednej lub wielu
innych predyktorów tylko z jednej zmiennej.
•
(WZÓR OBLICZENIOWY) Korelacje
zmienna zmienna zmienna
Y X1 X2
Korelacja zmienna Y 1,000 -,918 ,484
Pearsona zmienna X1 -,918 1,000 -,476
zmienna X2 ,484 -,476 1,000
𝑟𝑋 𝑌 −𝑟𝑋 𝑋 𝑟𝑌𝑋
𝑟𝑋1(𝑌.𝑍) = 1 1 2 2 =
2 )
(1−𝑟𝑌𝑋
2
−0,918−(−0,476∗0,484)
2
=-0,782
(1−(0,484) )
REGRESJA W PAKIECIE SPSS
(PLIK: REGRESJADANE.SAV)
Metodą regresji będziemy sprawdzać czy predykatory:
- X1 - Zmienna A
- X2 - Zmienna B
- X3 - Zmienna C
- X4 - Zmienna E
różnicują zmienną zależną: Zmienna Y
I. Wybierz :Analiza – regresja – liniowa.

Wprowadzamy zmienną zależną (Y) i zmienne niezależne(X1, X2….)
W statystykach dodatkowo zaznaczamy:
- korelacje semicząstkowe i cząstkowe
- test współliniowości
Wybieramy metodę : WPROWADZANIA.
Jedno z ważnych założeń dla regresji, które musi być spełnione, by

uzyskane wyniki były wiarygodne to brak korelacji pomiędzy
predyktorami. Na początku musimy sprawdzić, czy założenie to
zostało w naszym modelu spełnione.
W tym celu w tabeli „Współczynniki” badamy wartości testów w
dwóch ostatnich kolumnach „Statystyki współliniowości”.
Jeżeli wartość testu VIF (The Variance Inflation Factor) nie
przekracza 10,0 a wartość tolerancji jest większa od 0,1 wtedy
możemy przyjąć, że założenie o braku korelacji predyktorów jest
spełnione. Wysoka wartość VIF może w efekcie powodować
nieprawidłowe wartości współczynników b i beta w modelu.
W naszym przykładzie wartość testu VIF (The Variance

Inflation Factor) nie przekracza 10,0 a wartość tolerancji
jest większa od 0,1, zatem możemy przyjąć, że założenie
o braku korelacji predyktorów jest spełnione.
•II. W kolejnym etapie sprawdzamy, czy predykatory wywołują istotną zmianę
zmiennej zależnej:
Istotność dla F (mniejsza od a=0.05) pozwala stwierdzić, iż predykatory

wywołują istotną zmianę Y.
Anovaa
Suma Średni
Model kwadratów df kwadrat F Istotność
1 Regresja 1336,169 4 334,042 24,599 ,000b
Reszta 4386,112 323 13,579
Ogółem 5722,280 327
a. Zmienna zależna: zmienna Y
b. Predyktory: (Stała), zmienna E, zmienna B, zmienna C, zmienna A
Skorygowane R- Błąd standardowy

Model R R-kwadrat kwadrat oszacowania
1 ,483a ,234 ,224 3,685
a. Predyktory: (Stała), zmienna E, zmienna B, zmienna C, zmienna A
III. Sprawdzamy, jaki procent zmiennej Y wyjaśniają zmienne

niezależne:
R-kwadrat wynosi 0,234 (23,4 %) Dla porównania R kwadrat w

kilku modelach dobrze jest użyć miary Skorygowane R
Kwadrat, który bierze pod uwagę liczbę użytych predykatorów.
• Zaprezentowana wyżej metoda nazwana jest

„Metoda wprowadzania” (INSERT).
• Procedura doboru zmiennych, w której wszystkie

zmienne z bloku są jednocześnie wprowadzane
do analizy.
W PAKIECIE SPSS MOŻNA RÓWNIEŻ WYBRAĆ INNE METODY
ANALIZY:
• Metoda krokowa (STEPWISE).

• W każdym kroku analizy do modelu dołączana jest zmienna
niezależna, nie będąca jeszcze w równaniu, o najmniejszym
prawdopodobieństwie odpowiadającym F, o ile to
prawdopodobieństwo jest dostatecznie małe. Zmienne
uwzględnione już w równaniu regresji zostają z niego
usunięte, jeśli związane z nimi prawdopodobieństwo F staje
się dostatecznie duże. Procedura kończy się, kiedy nie da się
wykluczyć ani dołączyć żadnej zmiennej.
METODA KROKOWA.
METODA KROKOWA.
METODA KROKOWA.
• Metoda usuwania (REMOVE).
• Procedura doboru zmiennej, usuwająca w

jednym kroku jednocześnie wszystkie zmienne z
bloku.
• Metoda Eliminacji Wstecznej (BACKWARD).
• Procedura doboru zmiennych, w której wszystkie

zmienne zostają wprowadzone do równania, a następnie
są kolejno usuwane. Zmienna o najmniejszej korelacji
cząstkowej ze zmienną zależną jest brana pod uwagę do
usunięcia w pierwszej kolejności. Jeśli spełnia kryteria
eliminacji, zostaje usunięta. Po usunięciu pierwszej
zmiennej, kolejną braną pod uwagę do usunięcia jest ta
zmienna pozostająca w równaniu, która ma najmniejszą
korelacją cząstkową ze zmienną zależną. Procedura
kończy działanie, gdy w równaniu nie występują inne
zmienne spełniające kryteria usunięcia.
METODA ELIMINACJI WSTECZNEJ.
• Metoda Selekcji Postępującej (FORWARD).

Sekwencyjna procedura doboru zmiennych, w której zmienne
są kolejno wprowadzane do modelu. Jako pierwsza rozważana
jest ta zmienna, która jest najsilniej skorelowana ze zmienną
zależną. Jest ona wprowadzana do modelu tylko wtedy, gdy
spełnia kryterium wprowadzenia. Po wprowadzeniu pierwszej
zmiennej pod uwagę brana jest ta zmienna nie wprowadzona
do równania, która ma największą wartość współczynnika
korelacji cząstkowej ze zmienną zależną. Procedura kończy
działanie, gdy nie ma już żadnych zmiennych spełniających
kryterium wprowadzenia.
METODA SELEKCJI POSTĘPUJĄCEJ.
REGRESJA W PODZIALE NA GRUPY.
Regresja metodą krokową (tylko kobiety)
Zmienne wprowadzone/usunięte
Zmienne Zmienne
Model wprowadzone usunięte Metoda
1 zmienna A . Krokowa (Kryterium:
Prawdopodobieństwo F-
wprowadzenia <= ,050,
Prawdopodobieństwo F-
usunięcia >= ,100).
R
płeć = Błąd
KOBIETA Skorygowane R- standardowy
Model (Wybrane) R-kwadrat kwadrat oszacowania
1 ,276 ,076 ,070 1,163
• Prezentowany model regresji wygląda zupełnie inaczej

w przypadku kobiet i mężczyzn. Płeć jest więc ważnym
czynnikiem w omawianym przykładzie.
• Do modelu regresji zostanie więc wprowadzona
zmienna płeć (może ona zostać wprowadzona do
modelu regresji, gdyż jest dychotomiczna i
zakodowana jako 0 – 1)

Regresja (Prezentacja)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresja (Prezentacja)

Uploaded by

Copyright:

Available Formats

REGRESJA LINIOWA

TOMASZ PTASZYŃSKI IP UAM 2020

• Korelacje pozorne zachodzą wówczas, gdy

• Możemy np. dowieść, że posiadacze większych

• Badano związki między liczbą treningów pisania

Liczba treningów Liczba błędów

1036  1148  112

• r = - 0,918 współczynnik r Pearsona

• r2= 0,842 współczynnik determinacji

• Zmienne posiadają 84,2 % wspólnej wariancji.

• Termin regresja został wprowadzony po raz

• Sir Francis Galton (1822-1911),

• Związek pomiędzy zmiennymi możemy zdefiniować jako :

• gdzie b – współczynnik kierunkowy,

7 *148  28 * 41 1036  1148

• Wartość współczynnika b można również

Brzeziński, J. (2019). Metodologia badań psychologicznych. Wydanie nowe.

W wydruku z pakietu SPSS znajdujemy obliczone

W sekcji współczynniki odnajdujemy parametry

•b – nazywany jest również

• beta - standaryzowany współczynnik regresji

• Do naszego modelu dochodzi kolejna

Liczba Poziom stresu Liczba błędów

Oba predyktory (liczba treningów i poziom stresu)

zmienna X1 -,553 ,139 -,889

Równanie regresji ma postać:

y= -0,553x1 +0,072 x2 + 7,681

W modelu regresji jedno wielo zmiennowej korelacja

• Korelacja rzędu zerowego - to po prostu

zmienna zmienna zmienna

−0,918 − (−0,476 ∗ 0,484)

W korelacji cząstkowej możemy poznać

• Korelacja semicząstkowa (lub częściowa) jest

I. Wybierz :Analiza – regresja – liniowa.

Jedno z ważnych założeń dla regresji, które musi być spełnione, by

W naszym przykładzie wartość testu VIF (The Variance

Istotność dla F (mniejsza od a=0.05) pozwala stwierdzić, iż predykatory

Skorygowane R- Błąd standardowy

III. Sprawdzamy, jaki procent zmiennej Y wyjaśniają zmienne

R-kwadrat wynosi 0,234 (23,4 %) Dla porównania R kwadrat w

• Zaprezentowana wyżej metoda nazwana jest

• Procedura doboru zmiennych, w której wszystkie

• Metoda krokowa (STEPWISE).

• Metoda usuwania (REMOVE).

• Procedura doboru zmiennej, usuwająca w

• Procedura doboru zmiennych, w której wszystkie

• Metoda Selekcji Postępującej (FORWARD).

Regresja metodą krokową (tylko kobiety)

• Prezentowany model regresji wygląda zupełnie inaczej

You might also like

7 148  28 41 1036  1148