You are on page 1of 104

KORELACJE

Badanie związków między zmiennymi.

Tomasz Ptaszyński WPiK UAM 2023


KORELACJA
• Korelacja to związek między zmiennymi -
sytuacja, w której zmianom wartości jednej
zmiennej towarzyszy zmiana wartości drugiej
– skorelowanej z nią zmiennej.
• Miarą siły i kierunku oraz kształtu związku jest
współczynnik korelacji (dla zmiennych
porządkowych i ilościowych) lub
współczynnik kontyngencji (dla zmiennych
nominalnych).
KORELACJA

• Należy zwrócić uwagę, że nawet


wysoka wartość współczynnika
korelacji (kontyngencji) nie
świadczy o związku przyczynowo
– skutkowym, ale jedynie o
współwystępowaniu cech, czy
współzmienności.
KORELACJA
• Niekiedy mamy do czynienia z korelacjami
pozornymi.

Na podstawie szwedzkich badań


stwierdzono istnienie związku pomiędzy
liczbą przylatujących bocianów, a
częstością narodzin dzieci. Rzeczywista
przyczyną obu tych zjawisk była
zwiększająca się urbanizacja kraju, której
efektem był spadek dzietności i
zmniejszenie liczby gniazd, do których
przylatywały bociany.
ZWIĄZKI POZORNE
(ZA: BUZZFEED.NEWS)
ZWIĄZKI POZORNE
(ZA: BUZZFEED.NEWS)
ZWIĄZKI POZORNE
(ZA: BUZZFEED.NEWS)
WSPÓŁCZYNNIK r PEARSONA

• Do pomiaru siły związku między zmiennymi


interwałowymi służyć może współczynnik
korelacji
r Pearsona.
Przyjmuje on wartości od -1 (dla bardzo
silnych związków ujemnych) do + 1 (dla
bardzo silnych związków dodatnich (Uwaga
stosuje się go wyłącznie do interpretacji
związków liniowych)
WSPÓŁCZYNNIK r PEARSONA
• Karl Pearson (1857 - 1936)
angielski matematyk,
prekursor statystyki
matematycznej. W roku 1898
otrzymał Medal Darwina za
jego pracę nad ilościowym
podejściem do problemów
biologicznych. W 1911 roku
był twórcą pierwszego na
świecie uniwersyteckiego
wydziału statystyki, na
University College London.
WSPÓŁCZYNNIK r PEARSONA
• Karl Pearson opracował m.in.
sposób przybliżania metodą
najmniejszych kwadratów,
rozkład prawdopodobieństwa
chi kwadrat, który służy m.in.
do weryfikacji poziomu
istotności niektórych
współczynników kontyngencji i
testów istotności różnic.
Pracował również nad
współczynnikami korelacji,
dopasowaniem krzywych do
danych, zastosowaniem
statystyki do nauk
biologicznych m.in.
ewolucjonizmu. Karl Pearson, pencil drawing by F.A. de Biden Footner,
1924. Courtesy of Professor D.V. Lindley; photograph, J.R.
Freeman & Co. Ltd.
SILNY ZWIĄZEK DODATNI r ~ 1
SILNY ZWIĄZEK DODATNI
(ROZRZUT)
SILNY ZWIĄZEK UJEMNY r ~ -1
SILNY ZWIĄZEK UJEMNY
(ROZRZUT)
BRAK ZWIĄZKU - r ~ 0
BRAK ZWIĄZKU - r ~ 0 (ROZRZUT)
BRAK ZWIĄZKU LINIOWEGO - r ~ 0
METODA NAJMNIEJSZYCH KWADRATÓW
Metoda ta opiera się na
założeniu, że suma
kwadratów odchyleń
zaobserwowanych wartości
zmiennej zależnej (Y ) od
wartości teoretycznych
obliczonych na podstawie
wybranej funkcji (Y’) jest
najmniejsza.
𝑑𝑦 = (𝑌 − 𝑌 ′ )
෍ 𝑑𝑦 2 = 𝑚𝑖𝑛𝑖𝑚𝑢𝑚

Rysunek za: Brzeziński, J. (2019). Metodologia badań psychologicznych. Wydanie nowe. Warszawa: Wydawnictwo
Naukowe PWN. (str. 199)
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
• Zbadamy teraz siłę i charakter związku
pomiędzy dwiema zmiennymi
interwałowymi:
• poziom stresu (X)
• nasilenie specyficznych objawów
psychosomatycznych (Y).
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
ZWIĄZEK MIĘDZY ZMIENNYMI
ILOŚCIOWYMI
• Obliczamy kowariancję według wzoru:

cov xy =
 ( X − X )(Y − Y ) 68,8
= = 6,88
N 10
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI

• Kowariancja jest matematycznym


wskaźnikiem współzmienności.

• Wystandaryzowanie jej pozwala na


uzyskanie współczynnika r Pearsona,
który umożliwia ocenę kierunku i siły
związku między zmiennymi.
ZWIĄZEK MIĘDZY ZMIENNYMI
ILOŚCIOWYMI
• Współczynnik r Pearsona

cov xy
r=
sx s y
ZWIĄZEK MIĘDZY ZMIENNYMI
ILOŚCIOWYMI
• Odchylenia standardowe dla zmiennej X i Y
możemy obliczyć ze skróconego wzoru:

X X
2
2

sx = −  

N  N 
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI

X X
2
2
 385  55 
2

sx = −   =
 −   = 2,87
N  N  10  10 

Y  Y
2
2
 769,84  84, 40 
2

sy = −   =
 −   = 2, 40
N  N  10  10 
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
cov xy 6,88
r= = = 0,99
sx s y 2,87 * 2,40
Otrzymana wartość świadczy o
bardzo silnym związku dodatnim
między zmiennymi X i Y .
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI

Nxy − (x)(y )
r=
[ Nx − (x) ][ Ny − (y ) ]
2 2 2 2

Wzór obliczeniowy pozwalający na


bezpośrednie obliczenie wartości
współczynnika r Pearsona.
Nxy − (x)(y )
r= =
[ Nx 2 − (x ) 2 ][ Ny 2 − (y ) 2 ]

10 * 533 − 55 * 84,40
r= =
(10 * 385 − 552 )(10 * 769,84 − 84,402 )

5330 − 4642
r= =
(3850 − 3025)(7698,40 − 7123)

688
r= = 0,99
825 * 575,40
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
• Identyczne wyniki otrzymujemy obliczając
korelację w pakiecie statystycznym :
INTERPRETACJA SIŁY ZWIĄZKU

Wartość r Wartość r2 Siła związku


0,0 – 0,4 0,0 – 0,16 SŁABY

0,5 – 0,7 0,25 – 0,49 UMIARKOWANY

0,8 i więcej 0,64 – 1,0 SILNY


ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
• Kwadrat współczynnika korelacji
nazywany jest WSPÓŁCZYNNIKIEM
DETERMINACJI – pokazuje ona w jakim
stopniu zmienność jednej zmiennej
wyjaśniana jest przez drugą zmienną.

• W naszym przykładzie r2 = (0,99)2=0,98 lub


98 %
ZWIĄZEK MIĘDZY
ZMIENNYMI ILOŚCIOWYMI
KORELACJE

Część 2 - dane porządkowe

Tomasz Ptaszyński IP UAM 2020


DANE PORZĄDKOWE
• Dla danych porządkowych
korzystamy m.in. ze
współczynnika korelacji rangowej
rs Spearmana – opartego na
różnicach rang pomiarów.
• Przed obliczeniem rs Spearmana
należy pomiary PORANGOWAĆ.
WSPÓŁCZYNNIK rs SPEARMANA

• Charles Spearman (1863 – 1945)


był uczniem Wilhelma Wundta, jak
również statystyka Francisa
Galtona. M.in. sformułował tzw.
dwuczynnikową teorię inteligencji,
która głosiła, że do wykonania
zadania umysłowego potrzebne
jest wykorzystanie ogólnej
zdolności intelektualnej (czynnika
g) oraz zdolności specyficznych
(czynnika s). Opracował również
współczynnik korelacji dla rang,
który nazywamy dzisiaj
współczynnikiem rs Spearmana
WSPÓŁCZYNNIK rs SPEARMANA

6 d i 2

rs = 1 −
n(n − 1)
2

gdzie di – różnice między rangami w


parach, a n to liczba par.
WSPÓŁCZYNNIK rs SPEARMANA

• Współczynnik rs Spearmana
podobnie jak r Pearsona
przyjmuje wartości od -1 (dla
bardzo silnych związków
ujemnych) do + 1 (dla bardzo
silnych związków dodatnich.
WSPÓŁCZYNNIK rs SPEARMANA
• Współczynnik korelacji Spearmana
zależy wyłącznie od uporządkowania
zaobserwowanych wartości, może
zatem być stosowany do dowolnych
zmiennych, których wartości można
uszeregować. Jako metoda rangowa, r
Spearmana jest w niewielkim tylko
stopniu wrażliwe na obserwacje
odstające, dzięki czemu szczególną
użyteczność znajduje w analizie danych
niskiej jakości.
WSPÓŁCZYNNIK rS SPEARMANA

• Współczynnik korelacji rs Spearmana


jest ściśle powiązany ze
współczynnikiem r Pearsona.
• Jeżeli obydwa połączone w pary wyniki
są wyrażone w formie rang (i nie
występują rangi wiązane) to oba
współczynniki uzyskają tę samą
wartość.
WSPÓŁCZYNNIK rs SPEARMANA

• Badano, czy istnieje związek między


średnią ocen z ostatniego semestru, a
odczuwaną satysfakcją ze studiów.

• Obie zmienne wyrażone są na skali


porządkowej i przyjmują następujące
wartości:
WSPÓŁCZYNNIK rs SPEARMANA

Lp. Ocena Satysfakcja

1 3,5 4,0
2 3,5 4,0
3 3,8 2,0
4 4,0 3,0
5 4,1 6,0
6 4,2 5,0
7 4,2 7,0
8 4,4 5,0
9 4,5 6,0

10 4,5 8,0
PORANGOWANO POMIARY
RANGI WPISANO DO TABELI
WSPÓŁCZYNNIK rs SPEARMANA

6 d i 2
6 * 40,00
rs = 1 − = 1 − =
n(n − 1)
2
10(100 − 1)

240
rs = 1 − = 0,757
990
WSPÓŁCZYNNIK rs SPEARMANA

• Uzyskany wynik wskazuje na


umiarkowanie silny związek
dodatni między zmiennymi:

• rs=0,757

rs2=0,573
WSPÓŁCZYNNIK rs SPEARMANA

• Zbliżone wyniki uzyskujemy w pakiecie SPSS:


OBSERWACJE SKRAJNE,
SKOŚNE ROZKŁADY
Statystyki

Zmienna A Zmienna B
N Ważne 10 10
Braki danych 0 0

Średnia 4,1700 5,1500


Mediana 4,1500 3,0000
Skośność ,132 1,894
Błąd standardowy ,687 ,687
skośności
Kurtoza -,367 2,991
Błąd standardowy kurtozy 1,334 1,334

Zbadamy teraz siłę związku pomiędzy zmienną A i B.


Rozkład zmiennej B jest silnie prawoskośny, jest to
związane z występowaniem wartości odstających w
parze 9 i 10. W tej sytuacji lepszym rozwiązaniem jest
skorzystanie ze współczynnika korelacji rangowej
Spearmana, który nie jest wrażliwy na skrajne pomiary.
OBSERWACJE SKRAJNE,
SKOŚNE ROZKŁADY
W omawianym
przykładzie znacznie
niższą wartość ma
współczynnik korelacji
Spearmana.
Jest on jednak bardziej
prawidłowym
narzędziem do analizy,
z uwagi na skośność
rozkładu zmiennej B.
RANGI WIĄZANE

Należy również zwrócić


uwagę na rangi wiązane w
zmiennej B.
Współczynnikiem korelacji,
który uwzględnia poprawkę
na występowanie rang
wiązanych jest współczynnik
tau-b Kendalla.
Współczynnik tau-b Kendalla, podobnie jak
pozostałe omawiane miary przyjmuje wartości z
zakresu <-1;-1>. Po uwzględnieniu poprawki na
rangi wiązane obliczona wartość współczynnika jest
mniejsza od rs Spearmanna.
KORELACJE

Część 3 - istotny poziom istotności

Tomasz Ptaszyński IP UAM 2020


POZIOM ISTOTNOŚCI
• Przed rozpoczęciem interpretacji
współczynnika korelacji badacz
musi również dokonać oceny
poziomu istotności dla danego
współczynnika korelacji. Hipoteza
zerowa, którą testujemy, mówi o
tym, że wartość współczynnika
korelacji wynosi 0 (czyli nie ma
związku między zmiennymi).
POZIOM ISTOTNOŚCI

H0: 𝒓 = 𝟎 Hipoteza zerowa


H1: 𝒓 ≠ 𝟎 Hipoteza
alternatywna
RODZAJE BŁĘDÓW

H0 jest
prawdziwa H0 jest fałszywa

błąd pierwszego
Odrzucenie H0 rodzaju OK.

Nie odrzucamy błąd drugiego


H0 OK. rodzaju
POZIOM ISTOTNOŚCI

• Poziom a – prawdopodobieństwo
popełnienia błędu pierwszego
rodzaj = poziom istotności testu

• Graniczny poziom istotności


stosowany m.in. w naukach
społecznych wynosi a=0,05.
KORELACJE W SPSS

Gdy poziom istotności dla współczynnika korelacji jest


większy od 0,05 stwierdzamy, iż pomiędzy zmiennymi
nie ma związku – nie interpretujemy nieistniejącego
związku !
Gdy istotność jest mniejsza/równa od 0,05 – mówimy o
istnieniu związku i staramy się go opisać (jego siłę,
kierunek ), a przy zmiennych nominalnych charakter
związku.
KORELACJE W SPSS
POZIOM ISTOTNOŚCI

• Weryfikacja hipotezy zerowej odbywa się przy


pomocy statystyki testowej wyrażonej wzorem:
N −2
t=r N 2− 2
t = r1 − r 2
N −2 10 − 2 8
1− r
t=r = 0,99 = 0,99 =19,8
W naszym przykładzie (dla współczynnika r
1− r 1 − 0,99
2 2
0,02

Pearsona) wartość ta wyniesie:

N −2 10 − 2 8
t=r = 0,99 = 0,99 =19,8
1− r 2
1 − 0,99 2
0,02
POZIOM ISTOTNOŚCI
• Obliczoną statystykę t porównujemy z
wartością t krytyczną odczytaną z tablic
rozkładu t Studenta. Do odczytania wartości
potrzebna jest nam liczba stopni swobody
(df), która jest równa:
• df = n - 2 = 10 - 2 = 8
• n – liczba par skorelowanych pomiarów
• Odczytana z tablic wartość krytyczna t dla
df= 8 i p=0,05 jest równa 2,306.
POZIOM ISTOTNOŚCI
• Hipotezę zerową (r=0) odrzucamy wówczas, gdy
spełniony jest warunek:
tobl t kryt
• tzn. gdy obliczona BEZWGLĘDNA wartość
statystyki jest większa od ta czyli wpada do
obszaru krytycznego.
• Jak widać powyżej obliczone t =19,8 jest
większe od ta =2,306 i wpada do obszaru
krytycznego(obszaru odrzucenia). Oznacza to,
że możemy odrzucić hipotezę zerową, wynika z
tego, że obliczony współczynnik korelacji jest
istotny (prawdopodobieństwo popełnienia
błędu jest niższe od założonego p=0,05).
POZIOM ISTOTNOŚCI
ROZKŁAD t STUDENTA
• Rozkłady tego typu po raz pierwszy
wprowadził William Gosset
publikujący pod pseudonimem
Student. (stąd wywodzi się ich
nazwa) Zmienna losowa jest tu
oznaczana małą literą t (od
ostatniej litery nazwiska autora).
Rozkład ma różny przebieg w
zależności od liczby stopni swobody.
ROZKŁAD t STUDENTA
ROZKŁAD t STUDENTA
William Sealy Gosset (1876-1937) angielski statystyk,
publikował pod pseudonimem Student. Jak czytamy na
stronie Stepticemia: (https://scepticemia.com/2012/09/21/william-
gosset-a-true-student/)

Gosset studiował w Oksfordzie, chemię i


matematykę. Uzyskał stopnie pierwszej klasy z obu
przedmiotów, uzyskując stopień matematyki w 1897 r. I
stopień chemii w 1899 r. W tym samym roku podjął pracę
z Arturem Guinnessem i Synem jako chemik i tak
rozpoczął pracę w browarze Guinnessa w Dublinie. jego
zadaniem było udoskonalenie procesu warzenia piwa.
ROZKŁAD t STUDENTA

W browarze William Sealy Gosset zajmował się


m.in. kontrolą jakości piwa i surowców (drożdży)
do jego produkcji, co doprowadziło go do
rozważań nad statystyką i szacowaniem
nieznanych parametrów. Wniósł wielki wkład w
rozwój metod statystycznych (estymacji,
testowania hipotez statystycznych) i wiedzy o
projektowaniu eksperymentów.
POZIOM ISTOTNOŚCI
0.40

0.35

0.30

0.25

0.20

0.15

a/2 1-a a/2


0.10

0.05

0.00

-3 -2 -1 0 1 2 3

-t t
n,a n,a
POZIOM ISTOTNOŚCI
• Analogicznie postępujemy w przypadku danych
porządkowych. Wartość t dla współczynnika rs
Spearmana obliczamy z wzoru:

• Obliczoną wartość porównujemy z t krytycznym


odczytanym z tablic rozkładu t i podejmujemy
decyzję w sposób opisany powyżej:
POZIOM ISTOTNOŚCI
N −2 10 − 2 8
t = rs = 0,757 = 0,757 = 3,277
1 − rs
2
1 − 0,757 2
0,427
Podobnie jak w poprzednim przykładzie
obliczone tobl = 3,277 jest większe od
krytycznego ta = 2,306 (wpada do obszaru
odrzucenia).
Oznacza to, że możemy odrzucić hipotezę
zerową, czyli obliczony współczynnik
korelacji jest istotny (prawdopodobieństwo
popełnienia błędu jest niższe od założonego
p=0,05).
POZIOM ISTOTNOŚCI
INTERPRETACJA SIŁY ZWIĄZKU

Wartość r Wartość r2 Siła związku


0,0 – 0,4 0,0 – 0,16 SŁABY

0,5 – 0,7 0,25 – 0,49 UMIARKOWANY

0,8 i więcej 0,64 – 1,0 SILNY


KORELACJE

Część 4 - dane nominalne

Tomasz Ptaszyński IP UAM 2020


Zmienna X Zmienna Y Współczynnik Zakres
Interwałowa Interwałowa r Pearsona <-1; 1>

Porządkowa Porządkowa rs Spearmana, tau-b Kendalla <-1; 1>

Porządkowa Interwałowa rs Spearmana, tau-b Kendalla <-1; 1>

Nominalna Nominalna φ Yule’a lub V Cramera* <0,1>

Nominalna Porządkowa φ Yule’a lub V Cramera* <0,1>

Nominalna Interwałowa φ Yule’a lub V Cramera* <0,1>

*/ wybór współczynnika kontyngencji zależy od liczby


grup i liczby cech (kształtu tabeli) - φ Yule’a ma
zastosowanie do tablic 4 polowych, natomiast V
Cramera stosujemy w przypadku tablic z większą
liczbą pól).
Gdy badamy związek pomiędzy zmienną nominalną a
zmienną ilościową lub porządkową o liczbie
kategorii większej od pięciu, należy zmienną
wielowartościową zdychotomizować.
Dane nominalne

Zbadamy teraz czy istnieje związek pomiędzy


płcią a wykształceniem. Dane do zadania
pobierzemy z Generalnego Sondażu Społecznego
wykonanego w USA w roku 1993 (plik GSS93 jest
dostępny w naszym kursie e-learningowym).

Aby (dla celów dydaktycznych) zmniejszyć liczbę


respondentów zastosujemy filtr i wybierzemy
respondentów rasy „innej” w wieku powyżej 40 lat.
Dla uproszczenia zadania wskaźnikiem
wykształcenia będzie ukończony college.
Dane nominalne

Skończony TAK NIE


College:
Kobieta 9 1
Mężczyzna 14 12

a b
c d
Dane nominalne
Skończony TAK NIE SUMA
College:
Kobieta 9 1 10
Mężczyzna 14 12 26
SUMA: 23 13 36

Wartość
σ 𝑤 σ 𝑘 10 ∗ 23
oczekiwana →
𝑒𝑎 = = = 6,39
𝑛 36
o e (o-e) (o-e)2 (o-e)2/e
a 9 6,39 2,61 6,82 1,07
b 1 3,61 -2,61 6,82 1,89
c 14 16,61 -2,61 6,82 0,41
d 12 9,39 2,61 6,82 0,73
suma: 4,09

Im większe różnice pomiędzy wartościami


obserwowanymi (o), a oczekiwanymi (e) tym
silniejszy związek między zmiennymi .
Suma ostatniej kolumny to wartość
współczynnika chi kwadrat (c2 ).
Użycie tej statystyki zaproponował Karl Pearson
w 1900 r.
POZIOM ISTOTNOŚCI

• Podobnie jak w przypadku


współczynników korelacji musimy
określić poziom istotności obliczonego
współczynnika.
• Do tego celu wykorzystamy rozkład
chi kwadrat (c2), w którym
odczytamy wartość krytyczną
statystyki testowej.
ROZKŁAD CHI KWADRAT
POZIOM ISTOTNOŚCI
• W tablicy rozkładu c2 odczytujemy
wartość c2a dla liczby stopni
swobody:

• df=(w-1)*(k-1) = (2-1)*(2-1) = 1
(w – liczba wierszy; k – liczba kolumn)

• Odczytana wartość c2a wynosi:


3,841
POZIOM ISTOTNOŚCI
• Wartość c2a wynosi 3,841
• Wartość c2obl wynosi 4,09

• Jak widać powyżej c2obl > c2a


• oznacza to, że możemy odrzucić
hipotezę zerową, czyli obliczony
współczynnik kontyngencji jest istotny
(prawdopodobieństwo popełnienia
błędu pierwszego rodzaju jest niższe od
założonego a=0,05).
Rozkład chi kwadrat
• Podobne wyniki dla omawianych danych uzyskujemy w
pakiecie SPSS:

Testy Chi-kwadrata

Istotność Istotność Istotność


asymptotyczna dokładna dokładna
Wartość df (dwustronna) (dwustronna) (jednostronna)

Chi-kwadrat Pearsona 4,092b 1 ,043


WSPÓŁCZYNNIKI KONTYNGENCJI

Wartość chi kwadrat (c2 ) nie pozwala na


bezpośrednie oszacowanie siły związku,
dlatego na jego podstawie obliczamy
współczynniki kontyngencji Fi Yule’a (dla
tablic 4-polowych) i V Cramera (dla tablic z
większą liczbą pól).
WSPÓŁCZYNNIKI KONTYNGENCJI

• Nazwy powyższych współczynni-ków


kontyngencji pochodzą od
szwedzkiego matematyka i
statystyka Haralda Cramera (1893-
1995) i brytyjskiego statystyka
George’a Udny’a Yule’a (1871-
1951).
WSPÓŁCZYNNIKI KONTYNGENCJI
• Dla tablic czteropolowych stosujemy
współczynnik Fi (φ) Yule’a. Przyjmuje
on wartości od 0 (brak do związku)
do 1 (silny związek)

𝜒2 4,09
•𝜑 = = = 0,34
𝑁 36

• N – liczba osób w tabeli


POWYŻSZY PRZYKŁAD POLICZONY W PAKIECIE
SPSS
Współczynniki kontyngencji - V Cramera
• Badano sympatie polityczne w trzech
województwach. Respondenci
wskazywali na swoją ulubioną partię.

• Sprawdź, czy istnieje związek między


miejscem zamieszkania, a sympatiami
politycznymi.
Współczynniki kontyngencji - V Cramera
Opcja A Opcja B Opcja C Suma:

Wojew.1 10 15 15 40

Wojew.2 25 20 5 50

Wojew.3 15 15 20 50

Suma: 50 50 40 140
Dane nominalne
• Obliczamy wartości oczekiwane ( e ) dla
poszczególnych komórek
a b c a+b+c
d e f d+e+f
g h i g+h+i
a+d+g b+e+h c+f+i N
• Np.
(a + b + c)(a + d + g ) 40 * 50
ea = = = 14,29
N 140
o e (o-e) (o-e)2 (o-e)2/e
a 10 14,29 -4,29 18,40 1,29
b 15 14,29 0,71 0,50 0,04
c 15 11,43 3,57 12,74 1,12
d 25 17,86 7,14 50,98 2,85
e 20 17,86 2,14 4,58 0,26
f 5 14,29 -9,29 86,30 6,04
g 15 17,86 -2,86 8,18 0,46
h 15 17,86 -2,86 8,18 0,46
i 20 14,29 5,71 32,60 2,28
suma: 14,79 c2obl

POZIOM ISTOTNOŚCI
• W tablicy rozkładu c2 odczytujemy wartość
c2a dla liczby stopni swobody:

• df=(w-1)*(k-1) = (3-1)*(3-1) = 4
(w – liczba wierszy; k – liczba kolumn)

• Odczytana wartość c2a wynosi: 9,488


POZIOM ISTOTNOŚCI
• Wartość c2a wynosi 9,488
• Wartość c2obl wynosi 14,79

• Jak widać powyżej c2obl > c2a


• oznacza to, że możemy odrzucić hipotezę
zerową, czyli obliczony współczynnik
kontyngencji jest istotny (prawdopodobieństwo
popełnienia błędu pierwszego rodzaju jest
niższe od założonego a=0,05).
DANE NOMINALNE

• W naszym przykładzie tabela jest 9


-polowa, zatem do oceny związku
między miejscem zamieszkania a
preferencjami politycznymi należy
użyć współczynnik kontyngencji
V Cramera.
DANE NOMINALNE
• W przypadku tablic o większej liczbie pól
stosujemy współczynnik V Cramera, który
interpretujemy podobnie jak φYule’a.

c2
V= N min( w −1; k −1)
• min (w-1;k-1) oznacza mniejszą z dwóch
wartości: liczba wierszy minus 1 lub liczba
kolumn minus 1
DANE NOMINALNE

c2
V= N min( w −1; k −1) = 14 , 79
140*2 = 0,23
Obliczona wartość współczynnika V świadczy o
bardzo słabym związku między zmiennymi.
Należy pamiętać, iż w przypadku danych nominalnych przy
interpretacji należy również opisać charakter związku – np.
w województwie 1 przeważają zwolennicy opcji B i C, a w
województwie 2 zwolennicy opcji A
INTERPRETACJA SIŁY ZWIĄZKU

Wartość r Wartość r2 Siła związku


0,0 – 0,4 0,0 – 0,16 SŁABY

0,5 – 0,7 0,25 – 0,49 UMIARKOWANY

0,8 i więcej 0,64 – 1,0 SILNY


ALGORYTM DOBORU
WSPÓŁCZYNNIKA KORELACJI
Zmienna X Zmienna Y Współczynnik Zakres
Interwałowa Interwałowa r Pearsona <-1; 1>

Porządkowa Porządkowa rs Spearmana, tau-b <-1; 1>


Kendalla
Porządkowa Interwałowa rs Spearmana, tau-b <-1; 1>
Kendalla
Nominalna Nominalna φ Yule’a lub V Cramera* <0,1>
Nominalna Porządkowa φ Yule’a lub V Cramera* <0,1>
Nominalna Interwałowa φ Yule’a lub V Cramera* <0,1>

*/ wybór współczynnika kontyngencji zależy od liczby grup i liczby cech


(kształtu tabeli) - φ Yule’a ma zastosowanie do tablic 4 polowych,
natomiast V Cramera stosujemy w przypadku tablic z większą liczbą pól).
Gdy badamy związek pomiędzy zmienną nominalną a zmienną ilościową
lub porządkową o liczbie kategorii większej od pięciu, należy zmienną
wielowartościową zdychotomizować.

You might also like