Korelacja (Prezentacja)

KORELACJE
Badanie związków między zmiennymi.
Tomasz Ptaszyński WPiK UAM 2023

KORELACJA
• Korelacja to związek między zmiennymi -
sytuacja, w której zmianom wartości jednej
zmiennej towarzyszy zmiana wartości drugiej
– skorelowanej z nią zmiennej.
• Miarą siły i kierunku oraz kształtu związku jest
współczynnik korelacji (dla zmiennych
porządkowych i ilościowych) lub
współczynnik kontyngencji (dla zmiennych
nominalnych).
KORELACJA
• Należy zwrócić uwagę, że nawet

wysoka wartość współczynnika
korelacji (kontyngencji) nie
świadczy o związku przyczynowo
– skutkowym, ale jedynie o
współwystępowaniu cech, czy
współzmienności.
KORELACJA
• Niekiedy mamy do czynienia z korelacjami
pozornymi.
Na podstawie szwedzkich badań

stwierdzono istnienie związku pomiędzy
liczbą przylatujących bocianów, a
częstością narodzin dzieci. Rzeczywista
przyczyną obu tych zjawisk była
zwiększająca się urbanizacja kraju, której
efektem był spadek dzietności i
zmniejszenie liczby gniazd, do których
przylatywały bociany.
ZWIĄZKI POZORNE
(ZA: BUZZFEED.NEWS)
ZWIĄZKI POZORNE
(ZA: BUZZFEED.NEWS)
ZWIĄZKI POZORNE
(ZA: BUZZFEED.NEWS)
WSPÓŁCZYNNIK r PEARSONA
• Do pomiaru siły związku między zmiennymi

interwałowymi służyć może współczynnik
korelacji
r Pearsona.
Przyjmuje on wartości od -1 (dla bardzo
silnych związków ujemnych) do + 1 (dla
bardzo silnych związków dodatnich (Uwaga
stosuje się go wyłącznie do interpretacji
związków liniowych)
• Karl Pearson (1857 - 1936)
angielski matematyk,
prekursor statystyki
matematycznej. W roku 1898
otrzymał Medal Darwina za
jego pracę nad ilościowym
podejściem do problemów
biologicznych. W 1911 roku
był twórcą pierwszego na
świecie uniwersyteckiego
wydziału statystyki, na
University College London.
• Karl Pearson opracował m.in.
sposób przybliżania metodą
najmniejszych kwadratów,
rozkład prawdopodobieństwa
chi kwadrat, który służy m.in.
do weryfikacji poziomu
istotności niektórych
współczynników kontyngencji i
testów istotności różnic.
Pracował również nad
współczynnikami korelacji,
dopasowaniem krzywych do
danych, zastosowaniem
statystyki do nauk
biologicznych m.in.
ewolucjonizmu. Karl Pearson, pencil drawing by F.A. de Biden Footner,
1924. Courtesy of Professor D.V. Lindley; photograph, J.R.
Freeman & Co. Ltd.
SILNY ZWIĄZEK DODATNI r ~ 1
SILNY ZWIĄZEK DODATNI
(ROZRZUT)
SILNY ZWIĄZEK UJEMNY r ~ -1
SILNY ZWIĄZEK UJEMNY
(ROZRZUT)
BRAK ZWIĄZKU - r ~ 0
BRAK ZWIĄZKU - r ~ 0 (ROZRZUT)
BRAK ZWIĄZKU LINIOWEGO - r ~ 0
METODA NAJMNIEJSZYCH KWADRATÓW
Metoda ta opiera się na
założeniu, że suma
kwadratów odchyleń
zaobserwowanych wartości
zmiennej zależnej (Y ) od
wartości teoretycznych
obliczonych na podstawie
wybranej funkcji (Y’) jest
najmniejsza.
𝑑𝑦 = (𝑌 − 𝑌 ′ )
෍ 𝑑𝑦 2 = 𝑚𝑖𝑛𝑖𝑚𝑢𝑚
Rysunek za: Brzeziński, J. (2019). Metodologia badań psychologicznych. Wydanie nowe. Warszawa: Wydawnictwo
Naukowe PWN. (str. 199)
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
• Zbadamy teraz siłę i charakter związku
pomiędzy dwiema zmiennymi
interwałowymi:
• poziom stresu (X)
• nasilenie specyficznych objawów
psychosomatycznych (Y).
ZWIĄZEK MIĘDZY
ZWIĄZEK MIĘDZY ZMIENNYMI
ILOŚCIOWYMI
• Obliczamy kowariancję według wzoru:
cov xy =
 ( X − X )(Y − Y ) 68,8
= = 6,88
N 10
ZWIĄZEK MIĘDZY
• Kowariancja jest matematycznym

wskaźnikiem współzmienności.
• Wystandaryzowanie jej pozwala na

uzyskanie współczynnika r Pearsona,
który umożliwia ocenę kierunku i siły
związku między zmiennymi.
ILOŚCIOWYMI
• Współczynnik r Pearsona
cov xy
r=
sx s y
ILOŚCIOWYMI
• Odchylenia standardowe dla zmiennej X i Y
możemy obliczyć ze skróconego wzoru:
X X
2
2

sx = −  

N  N 
ZWIĄZEK MIĘDZY
ZWIĄZEK MIĘDZY
X X
2
2
 385  55 
2
sx = −   =
 −   = 2,87
N  N  10  10 
Y  Y
2
2
 769,84  84, 40 
2
sy = −   =
 −   = 2, 40
N  N  10  10 
ZWIĄZEK MIĘDZY
cov xy 6,88
r= = = 0,99
sx s y 2,87 * 2,40
Otrzymana wartość świadczy o
bardzo silnym związku dodatnim
między zmiennymi X i Y .
ZWIĄZEK MIĘDZY
Nxy − (x)(y )
r=
[ Nx − (x) ][ Ny − (y ) ]
2 2 2 2
Wzór obliczeniowy pozwalający na

bezpośrednie obliczenie wartości
współczynnika r Pearsona.
Nxy − (x)(y )
r= =
[ Nx 2 − (x ) 2 ][ Ny 2 − (y ) 2 ]
10 * 533 − 55 * 84,40
r= =
(10 * 385 − 552 )(10 * 769,84 − 84,402 )
5330 − 4642
r= =
(3850 − 3025)(7698,40 − 7123)
688
r= = 0,99
825 * 575,40
ZWIĄZEK MIĘDZY
• Identyczne wyniki otrzymujemy obliczając
korelację w pakiecie statystycznym :
INTERPRETACJA SIŁY ZWIĄZKU
Wartość r Wartość r2 Siła związku

0,0 – 0,4 0,0 – 0,16 SŁABY
0,5 – 0,7 0,25 – 0,49 UMIARKOWANY
0,8 i więcej 0,64 – 1,0 SILNY

ZWIĄZEK MIĘDZY
• Kwadrat współczynnika korelacji
nazywany jest WSPÓŁCZYNNIKIEM
DETERMINACJI – pokazuje ona w jakim
stopniu zmienność jednej zmiennej
wyjaśniana jest przez drugą zmienną.
• W naszym przykładzie r2 = (0,99)2=0,98 lub

98 %
ZWIĄZEK MIĘDZY
KORELACJE
Część 2 - dane porządkowe
Tomasz Ptaszyński IP UAM 2020

DANE PORZĄDKOWE
• Dla danych porządkowych
korzystamy m.in. ze
współczynnika korelacji rangowej
rs Spearmana – opartego na
różnicach rang pomiarów.
• Przed obliczeniem rs Spearmana
należy pomiary PORANGOWAĆ.
WSPÓŁCZYNNIK rs SPEARMANA
• Charles Spearman (1863 – 1945)

był uczniem Wilhelma Wundta, jak
również statystyka Francisa
Galtona. M.in. sformułował tzw.
dwuczynnikową teorię inteligencji,
która głosiła, że do wykonania
zadania umysłowego potrzebne
jest wykorzystanie ogólnej
zdolności intelektualnej (czynnika
g) oraz zdolności specyficznych
(czynnika s). Opracował również
współczynnik korelacji dla rang,
który nazywamy dzisiaj
współczynnikiem rs Spearmana
6 d i 2
rs = 1 −
n(n − 1)
2
gdzie di – różnice między rangami w

parach, a n to liczba par.
• Współczynnik rs Spearmana
podobnie jak r Pearsona
przyjmuje wartości od -1 (dla
bardzo silnych związków
ujemnych) do + 1 (dla bardzo
silnych związków dodatnich.
• Współczynnik korelacji Spearmana
zależy wyłącznie od uporządkowania
zaobserwowanych wartości, może
zatem być stosowany do dowolnych
zmiennych, których wartości można
uszeregować. Jako metoda rangowa, r
Spearmana jest w niewielkim tylko
stopniu wrażliwe na obserwacje
odstające, dzięki czemu szczególną
użyteczność znajduje w analizie danych
niskiej jakości.
WSPÓŁCZYNNIK rS SPEARMANA
• Współczynnik korelacji rs Spearmana

jest ściśle powiązany ze
współczynnikiem r Pearsona.
• Jeżeli obydwa połączone w pary wyniki
są wyrażone w formie rang (i nie
występują rangi wiązane) to oba
współczynniki uzyskają tę samą
wartość.
• Badano, czy istnieje związek między

średnią ocen z ostatniego semestru, a
odczuwaną satysfakcją ze studiów.
• Obie zmienne wyrażone są na skali

porządkowej i przyjmują następujące
wartości:
Lp. Ocena Satysfakcja
1 3,5 4,0
2 3,5 4,0
3 3,8 2,0
4 4,0 3,0
5 4,1 6,0
6 4,2 5,0
7 4,2 7,0
8 4,4 5,0
9 4,5 6,0
10 4,5 8,0
PORANGOWANO POMIARY
RANGI WPISANO DO TABELI
6 d i 2
6 * 40,00
rs = 1 − = 1 − =
n(n − 1)
2
10(100 − 1)
240
rs = 1 − = 0,757
990
• Uzyskany wynik wskazuje na

umiarkowanie silny związek
dodatni między zmiennymi:
• rs=0,757
rs2=0,573
• Zbliżone wyniki uzyskujemy w pakiecie SPSS:

OBSERWACJE SKRAJNE,
SKOŚNE ROZKŁADY
Statystyki
Zmienna A Zmienna B
N Ważne 10 10
Braki danych 0 0
Średnia 4,1700 5,1500

Mediana 4,1500 3,0000
Skośność ,132 1,894
Błąd standardowy ,687 ,687
skośności
Kurtoza -,367 2,991
Błąd standardowy kurtozy 1,334 1,334
Zbadamy teraz siłę związku pomiędzy zmienną A i B.

Rozkład zmiennej B jest silnie prawoskośny, jest to
związane z występowaniem wartości odstających w
parze 9 i 10. W tej sytuacji lepszym rozwiązaniem jest
skorzystanie ze współczynnika korelacji rangowej
Spearmana, który nie jest wrażliwy na skrajne pomiary.
OBSERWACJE SKRAJNE,
SKOŚNE ROZKŁADY
W omawianym
przykładzie znacznie
niższą wartość ma
współczynnik korelacji
Spearmana.
Jest on jednak bardziej
prawidłowym
narzędziem do analizy,
z uwagi na skośność
rozkładu zmiennej B.
RANGI WIĄZANE
Należy również zwrócić

uwagę na rangi wiązane w
zmiennej B.
Współczynnikiem korelacji,
który uwzględnia poprawkę
na występowanie rang
wiązanych jest współczynnik
tau-b Kendalla.
Współczynnik tau-b Kendalla, podobnie jak
pozostałe omawiane miary przyjmuje wartości z
zakresu <-1;-1>. Po uwzględnieniu poprawki na
rangi wiązane obliczona wartość współczynnika jest
mniejsza od rs Spearmanna.
KORELACJE
Część 3 - istotny poziom istotności

POZIOM ISTOTNOŚCI
• Przed rozpoczęciem interpretacji
współczynnika korelacji badacz
musi również dokonać oceny
poziomu istotności dla danego
współczynnika korelacji. Hipoteza
zerowa, którą testujemy, mówi o
tym, że wartość współczynnika
korelacji wynosi 0 (czyli nie ma
związku między zmiennymi).
POZIOM ISTOTNOŚCI
H0: 𝒓 = 𝟎 Hipoteza zerowa

H1: 𝒓 ≠ 𝟎 Hipoteza
alternatywna
RODZAJE BŁĘDÓW
H0 jest
prawdziwa H0 jest fałszywa
błąd pierwszego
Odrzucenie H0 rodzaju OK.
Nie odrzucamy błąd drugiego

H0 OK. rodzaju
POZIOM ISTOTNOŚCI
• Poziom a – prawdopodobieństwo
popełnienia błędu pierwszego
rodzaj = poziom istotności testu
• Graniczny poziom istotności

stosowany m.in. w naukach
społecznych wynosi a=0,05.
KORELACJE W SPSS
Gdy poziom istotności dla współczynnika korelacji jest

większy od 0,05 stwierdzamy, iż pomiędzy zmiennymi
nie ma związku – nie interpretujemy nieistniejącego
związku !
Gdy istotność jest mniejsza/równa od 0,05 – mówimy o
istnieniu związku i staramy się go opisać (jego siłę,
kierunek ), a przy zmiennych nominalnych charakter
związku.
KORELACJE W SPSS
POZIOM ISTOTNOŚCI
• Weryfikacja hipotezy zerowej odbywa się przy

pomocy statystyki testowej wyrażonej wzorem:
N −2
t=r N 2− 2
t = r1 − r 2
N −2 10 − 2 8
1− r
t=r = 0,99 = 0,99 =19,8
W naszym przykładzie (dla współczynnika r
1− r 1 − 0,99
2 2
0,02
Pearsona) wartość ta wyniesie:
N −2 10 − 2 8
t=r = 0,99 = 0,99 =19,8
1− r 2
1 − 0,99 2
0,02
POZIOM ISTOTNOŚCI
• Obliczoną statystykę t porównujemy z
wartością t krytyczną odczytaną z tablic
rozkładu t Studenta. Do odczytania wartości
potrzebna jest nam liczba stopni swobody
(df), która jest równa:
• df = n - 2 = 10 - 2 = 8
• n – liczba par skorelowanych pomiarów
• Odczytana z tablic wartość krytyczna t dla
df= 8 i p=0,05 jest równa 2,306.
POZIOM ISTOTNOŚCI
• Hipotezę zerową (r=0) odrzucamy wówczas, gdy
spełniony jest warunek:
tobl t kryt
• tzn. gdy obliczona BEZWGLĘDNA wartość
statystyki jest większa od ta czyli wpada do
obszaru krytycznego.
• Jak widać powyżej obliczone t =19,8 jest
większe od ta =2,306 i wpada do obszaru
krytycznego(obszaru odrzucenia). Oznacza to,
że możemy odrzucić hipotezę zerową, wynika z
tego, że obliczony współczynnik korelacji jest
istotny (prawdopodobieństwo popełnienia
błędu jest niższe od założonego p=0,05).
POZIOM ISTOTNOŚCI
ROZKŁAD t STUDENTA
• Rozkłady tego typu po raz pierwszy
wprowadził William Gosset
publikujący pod pseudonimem
Student. (stąd wywodzi się ich
nazwa) Zmienna losowa jest tu
oznaczana małą literą t (od
ostatniej litery nazwiska autora).
Rozkład ma różny przebieg w
zależności od liczby stopni swobody.
ROZKŁAD t STUDENTA
ROZKŁAD t STUDENTA
William Sealy Gosset (1876-1937) angielski statystyk,
publikował pod pseudonimem Student. Jak czytamy na
stronie Stepticemia: (https://scepticemia.com/2012/09/21/william-
gosset-a-true-student/)
Gosset studiował w Oksfordzie, chemię i

matematykę. Uzyskał stopnie pierwszej klasy z obu
przedmiotów, uzyskując stopień matematyki w 1897 r. I
stopień chemii w 1899 r. W tym samym roku podjął pracę
z Arturem Guinnessem i Synem jako chemik i tak
rozpoczął pracę w browarze Guinnessa w Dublinie. jego
zadaniem było udoskonalenie procesu warzenia piwa.
ROZKŁAD t STUDENTA
W browarze William Sealy Gosset zajmował się

m.in. kontrolą jakości piwa i surowców (drożdży)
do jego produkcji, co doprowadziło go do
rozważań nad statystyką i szacowaniem
nieznanych parametrów. Wniósł wielki wkład w
rozwój metod statystycznych (estymacji,
testowania hipotez statystycznych) i wiedzy o
projektowaniu eksperymentów.
POZIOM ISTOTNOŚCI
0.40
0.35
0.30
0.25
0.20
0.15
a/2 1-a a/2

0.10
0.05
0.00
-3 -2 -1 0 1 2 3
-t t
n,a n,a
POZIOM ISTOTNOŚCI
• Analogicznie postępujemy w przypadku danych
porządkowych. Wartość t dla współczynnika rs
Spearmana obliczamy z wzoru:
• Obliczoną wartość porównujemy z t krytycznym

odczytanym z tablic rozkładu t i podejmujemy
decyzję w sposób opisany powyżej:
POZIOM ISTOTNOŚCI
N −2 10 − 2 8
t = rs = 0,757 = 0,757 = 3,277
1 − rs
2
1 − 0,757 2
0,427
Podobnie jak w poprzednim przykładzie
obliczone tobl = 3,277 jest większe od
krytycznego ta = 2,306 (wpada do obszaru
odrzucenia).
Oznacza to, że możemy odrzucić hipotezę
zerową, czyli obliczony współczynnik
korelacji jest istotny (prawdopodobieństwo
popełnienia błędu jest niższe od założonego
p=0,05).
POZIOM ISTOTNOŚCI

0,0 – 0,4 0,0 – 0,16 SŁABY
0,5 – 0,7 0,25 – 0,49 UMIARKOWANY

KORELACJE
Część 4 - dane nominalne

Zmienna X Zmienna Y Współczynnik Zakres
Interwałowa Interwałowa r Pearsona <-1; 1>
Porządkowa Porządkowa rs Spearmana, tau-b Kendalla <-1; 1>
Porządkowa Interwałowa rs Spearmana, tau-b Kendalla <-1; 1>
Nominalna Nominalna φ Yule’a lub V Cramera* <0,1>
Nominalna Porządkowa φ Yule’a lub V Cramera* <0,1>
Nominalna Interwałowa φ Yule’a lub V Cramera* <0,1>
*/ wybór współczynnika kontyngencji zależy od liczby

grup i liczby cech (kształtu tabeli) - φ Yule’a ma
zastosowanie do tablic 4 polowych, natomiast V
Cramera stosujemy w przypadku tablic z większą
liczbą pól).
Gdy badamy związek pomiędzy zmienną nominalną a
zmienną ilościową lub porządkową o liczbie
kategorii większej od pięciu, należy zmienną
wielowartościową zdychotomizować.
Dane nominalne
Zbadamy teraz czy istnieje związek pomiędzy

płcią a wykształceniem. Dane do zadania
pobierzemy z Generalnego Sondażu Społecznego
wykonanego w USA w roku 1993 (plik GSS93 jest
dostępny w naszym kursie e-learningowym).
Aby (dla celów dydaktycznych) zmniejszyć liczbę

respondentów zastosujemy filtr i wybierzemy
respondentów rasy „innej” w wieku powyżej 40 lat.
Dla uproszczenia zadania wskaźnikiem
wykształcenia będzie ukończony college.
Dane nominalne
Skończony TAK NIE

College:
Kobieta 9 1
Mężczyzna 14 12
a b
c d
Dane nominalne
Skończony TAK NIE SUMA
College:
Kobieta 9 1 10
Mężczyzna 14 12 26
SUMA: 23 13 36
Wartość
σ 𝑤 σ 𝑘 10 ∗ 23
oczekiwana →
𝑒𝑎 = = = 6,39
𝑛 36
o e (o-e) (o-e)2 (o-e)2/e
a 9 6,39 2,61 6,82 1,07
b 1 3,61 -2,61 6,82 1,89
c 14 16,61 -2,61 6,82 0,41
d 12 9,39 2,61 6,82 0,73
suma: 4,09
Im większe różnice pomiędzy wartościami

obserwowanymi (o), a oczekiwanymi (e) tym
silniejszy związek między zmiennymi .
Suma ostatniej kolumny to wartość
współczynnika chi kwadrat (c2 ).
Użycie tej statystyki zaproponował Karl Pearson
w 1900 r.
POZIOM ISTOTNOŚCI
• Podobnie jak w przypadku

współczynników korelacji musimy
określić poziom istotności obliczonego
współczynnika.
• Do tego celu wykorzystamy rozkład
chi kwadrat (c2), w którym
odczytamy wartość krytyczną
statystyki testowej.
ROZKŁAD CHI KWADRAT
POZIOM ISTOTNOŚCI
• W tablicy rozkładu c2 odczytujemy
wartość c2a dla liczby stopni
swobody:
• df=(w-1)*(k-1) = (2-1)*(2-1) = 1
(w – liczba wierszy; k – liczba kolumn)
• Odczytana wartość c2a wynosi:

3,841
POZIOM ISTOTNOŚCI
• Wartość c2a wynosi 3,841
• Wartość c2obl wynosi 4,09
• Jak widać powyżej c2obl > c2a

• oznacza to, że możemy odrzucić
hipotezę zerową, czyli obliczony
współczynnik kontyngencji jest istotny
(prawdopodobieństwo popełnienia
błędu pierwszego rodzaju jest niższe od
założonego a=0,05).
Rozkład chi kwadrat
• Podobne wyniki dla omawianych danych uzyskujemy w
pakiecie SPSS:
Testy Chi-kwadrata
Istotność Istotność Istotność

asymptotyczna dokładna dokładna
Wartość df (dwustronna) (dwustronna) (jednostronna)
Chi-kwadrat Pearsona 4,092b 1 ,043

WSPÓŁCZYNNIKI KONTYNGENCJI
Wartość chi kwadrat (c2 ) nie pozwala na

bezpośrednie oszacowanie siły związku,
dlatego na jego podstawie obliczamy
współczynniki kontyngencji Fi Yule’a (dla
tablic 4-polowych) i V Cramera (dla tablic z
większą liczbą pól).
• Nazwy powyższych współczynni-ków

kontyngencji pochodzą od
szwedzkiego matematyka i
statystyka Haralda Cramera (1893-
1995) i brytyjskiego statystyka
George’a Udny’a Yule’a (1871-
1951).
• Dla tablic czteropolowych stosujemy
współczynnik Fi (φ) Yule’a. Przyjmuje
on wartości od 0 (brak do związku)
do 1 (silny związek)
𝜒2 4,09
•𝜑 = = = 0,34
𝑁 36
• N – liczba osób w tabeli

POWYŻSZY PRZYKŁAD POLICZONY W PAKIECIE
SPSS
Współczynniki kontyngencji - V Cramera
• Badano sympatie polityczne w trzech
województwach. Respondenci
wskazywali na swoją ulubioną partię.
• Sprawdź, czy istnieje związek między

miejscem zamieszkania, a sympatiami
politycznymi.
Współczynniki kontyngencji - V Cramera
Opcja A Opcja B Opcja C Suma:
Wojew.1 10 15 15 40
Wojew.2 25 20 5 50
Wojew.3 15 15 20 50
Suma: 50 50 40 140
Dane nominalne
• Obliczamy wartości oczekiwane ( e ) dla
poszczególnych komórek
a b c a+b+c
d e f d+e+f
g h i g+h+i
a+d+g b+e+h c+f+i N
• Np.
(a + b + c)(a + d + g ) 40 * 50
ea = = = 14,29
N 140
o e (o-e) (o-e)2 (o-e)2/e
a 10 14,29 -4,29 18,40 1,29
b 15 14,29 0,71 0,50 0,04
c 15 11,43 3,57 12,74 1,12
d 25 17,86 7,14 50,98 2,85
e 20 17,86 2,14 4,58 0,26
f 5 14,29 -9,29 86,30 6,04
g 15 17,86 -2,86 8,18 0,46
h 15 17,86 -2,86 8,18 0,46
i 20 14,29 5,71 32,60 2,28
suma: 14,79 c2obl

POZIOM ISTOTNOŚCI
• W tablicy rozkładu c2 odczytujemy wartość
c2a dla liczby stopni swobody:
• df=(w-1)*(k-1) = (3-1)*(3-1) = 4
(w – liczba wierszy; k – liczba kolumn)
• Odczytana wartość c2a wynosi: 9,488

POZIOM ISTOTNOŚCI
• Wartość c2a wynosi 9,488
• Wartość c2obl wynosi 14,79
• Jak widać powyżej c2obl > c2a

• oznacza to, że możemy odrzucić hipotezę
zerową, czyli obliczony współczynnik
kontyngencji jest istotny (prawdopodobieństwo
popełnienia błędu pierwszego rodzaju jest
niższe od założonego a=0,05).
DANE NOMINALNE
• W naszym przykładzie tabela jest 9

-polowa, zatem do oceny związku
między miejscem zamieszkania a
preferencjami politycznymi należy
użyć współczynnik kontyngencji
V Cramera.
DANE NOMINALNE
• W przypadku tablic o większej liczbie pól
stosujemy współczynnik V Cramera, który
interpretujemy podobnie jak φYule’a.
c2
V= N min( w −1; k −1)
• min (w-1;k-1) oznacza mniejszą z dwóch
wartości: liczba wierszy minus 1 lub liczba
kolumn minus 1
DANE NOMINALNE
c2
V= N min( w −1; k −1) = 14 , 79
140*2 = 0,23
Obliczona wartość współczynnika V świadczy o
bardzo słabym związku między zmiennymi.
Należy pamiętać, iż w przypadku danych nominalnych przy
interpretacji należy również opisać charakter związku – np.
w województwie 1 przeważają zwolennicy opcji B i C, a w
województwie 2 zwolennicy opcji A

0,0 – 0,4 0,0 – 0,16 SŁABY
0,5 – 0,7 0,25 – 0,49 UMIARKOWANY

ALGORYTM DOBORU
WSPÓŁCZYNNIKA KORELACJI
Zmienna X Zmienna Y Współczynnik Zakres
Interwałowa Interwałowa r Pearsona <-1; 1>
Porządkowa Porządkowa rs Spearmana, tau-b <-1; 1>

Kendalla
Porządkowa Interwałowa rs Spearmana, tau-b <-1; 1>
Kendalla
Nominalna Nominalna φ Yule’a lub V Cramera* <0,1>
Nominalna Porządkowa φ Yule’a lub V Cramera* <0,1>
Nominalna Interwałowa φ Yule’a lub V Cramera* <0,1>
*/ wybór współczynnika kontyngencji zależy od liczby grup i liczby cech

(kształtu tabeli) - φ Yule’a ma zastosowanie do tablic 4 polowych,
natomiast V Cramera stosujemy w przypadku tablic z większą liczbą pól).
Gdy badamy związek pomiędzy zmienną nominalną a zmienną ilościową
lub porządkową o liczbie kategorii większej od pięciu, należy zmienną
wielowartościową zdychotomizować.

Korelacja (Prezentacja)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Korelacja (Prezentacja)

Uploaded by

Copyright:

Available Formats

KORELACJE

Badanie związków między zmiennymi.

Tomasz Ptaszyński WPiK UAM 2023

• Należy zwrócić uwagę, że nawet

Na podstawie szwedzkich badań

• Do pomiaru siły związku między zmiennymi

• Kowariancja jest matematycznym

• Wystandaryzowanie jej pozwala na

Wzór obliczeniowy pozwalający na

Wartość r Wartość r2 Siła związku

0,5 – 0,7 0,25 – 0,49 UMIARKOWANY

0,8 i więcej 0,64 – 1,0 SILNY

• W naszym przykładzie r2 = (0,99)2=0,98 lub

Część 2 - dane porządkowe

Tomasz Ptaszyński IP UAM 2020

• Charles Spearman (1863 – 1945)

gdzie di – różnice między rangami w

• Współczynnik korelacji rs Spearmana

• Badano, czy istnieje związek między

• Obie zmienne wyrażone są na skali

Lp. Ocena Satysfakcja

• Uzyskany wynik wskazuje na

• Zbliżone wyniki uzyskujemy w pakiecie SPSS:

Średnia 4,1700 5,1500

Zbadamy teraz siłę związku pomiędzy zmienną A i B.

Należy również zwrócić

Część 3 - istotny poziom istotności

Tomasz Ptaszyński IP UAM 2020

H0: 𝒓 = 𝟎 Hipoteza zerowa

Nie odrzucamy błąd drugiego

• Graniczny poziom istotności

Gdy poziom istotności dla współczynnika korelacji jest

• Weryfikacja hipotezy zerowej odbywa się przy

Pearsona) wartość ta wyniesie:

Gosset studiował w Oksfordzie, chemię i

W browarze William Sealy Gosset zajmował się

a/2 1-a a/2

• Obliczoną wartość porównujemy z t krytycznym

Wartość r Wartość r2 Siła związku

0,5 – 0,7 0,25 – 0,49 UMIARKOWANY

0,8 i więcej 0,64 – 1,0 SILNY

Część 4 - dane nominalne

Tomasz Ptaszyński IP UAM 2020

Porządkowa Porządkowa rs Spearmana, tau-b Kendalla <-1; 1>

Porządkowa Interwałowa rs Spearmana, tau-b Kendalla <-1; 1>

Nominalna Nominalna φ Yule’a lub V Cramera* <0,1>

Nominalna Porządkowa φ Yule’a lub V Cramera* <0,1>

Nominalna Interwałowa φ Yule’a lub V Cramera* <0,1>

*/ wybór współczynnika kontyngencji zależy od liczby

Zbadamy teraz czy istnieje związek pomiędzy

Aby (dla celów dydaktycznych) zmniejszyć liczbę

Skończony TAK NIE

Im większe różnice pomiędzy wartościami

• Podobnie jak w przypadku

• Odczytana wartość c2a wynosi:

• Jak widać powyżej c2obl > c2a

Istotność Istotność Istotność

Chi-kwadrat Pearsona 4,092b 1 ,043

Wartość chi kwadrat (c2 ) nie pozwala na

• Nazwy powyższych współczynni-ków

• N – liczba osób w tabeli

• Sprawdź, czy istnieje związek między

• Odczytana wartość c2a wynosi: 9,488