ZÁKLADY ŠTATISTIKY

ZÁKLADY ŠTATISTIKY
Štatistika
Tri časti:
1. Získavanie dát
2. Analýza dát → deskriptívna štatistika
3. Štatistické usudzovanie → inferenčná štatistika
Empirický výskum
Znaky výskumu:
• Proces zhromažďovania údajov
• Je systematický
• Syntetizuje doteraz získané poznatky
• Zahŕňa kritickú analýzu
• Vedie k zvyšovaniu vedomostí
Fázy výskumu:
1. Vymedzenie problému a voľba prístupu
2. Plán výskumu
3. Realizácia
4. Analýza a interpretácia
5. Správa o výskume
Teoretická a empirická úroveň teórie
Operacionalizácia - prepojenie teoretickej a empirickej úrovne

Príklad operacionalizácie pojmu deprivácia (De Vaus, 1986)
• Operacionalizácia je proces návrhu premennej pre konštrukt

• Postupuje cez dimenzie – subdimenzie – konkrétne operácie
Mýty pri tvorbe kvantitatívneho výskumu
1. Musí kvantitatívny výskum začínať hypotézami?

2. Sú testy významnosti esenciálne pri analýze dát?
3. Je zistená dvojrozmerná analýza asociácie/korelácie postačujúca pre vysvetlenie?
Podoby využitia hypotéz
• Explorácia
• Demonštrácia
• Opakovanie
• Zamietnutie
Populácia a štatistické usudzovanie
• Základná populácia – množina všetkých možných objektov resp. jedincov vzhľadom na
sledovanú oblasť
• Populačný výber/výskumná vzorka – podmnožina sledovanej populácie
• Štatistické usudzovanie – proces získavania záverov o celej populácii pomocou populačného
výberu
• Chyby:
1. Výberové chyby – náhodné
– systematické
2. Nevýberové chyby
Typy premenných
1. Závislá premenná – odpoveďová/kriteriálna/cieľová
2. Nezávislá premenná – prediktor
3. Rušivá premenná
•
Premenné podľa typu škály merania:
1. Kvalitatívna (nominálna) škála xa=xb alebo xa≠xb
2. Ordinálna (poradová) škála xa<xb alebo xa>xb
3. Intervalová škála xa+xb alebo xa-xb
4. Pomerová škála xa.xb alebo xa:xb
Kvalita merania
Y=T+E
• Objektivita merania
• Spoľahlivosť (reliabilita) merania
• Test-retest reliabilita
• Meranie paralelných testov
• Split-half reliabilita
• Validita merania
• Konštruktová validita
• Obsahová validita
• Kritériová validita
Výber
• Cenzus – metóda zberu dát zahŕňajúca všetky štatistické jednotky v populácii
• Výberové šetrenie – zber dát štandardizovaným spôsobom od skupiny ľudí
•
Spôsoby výberu:
1. Výber na základe dobrovoľnosti
2. Výber na základe dostupnosti
3. Kvótový výber
4. Náhodný výber
Jednoduchý náhodný výber a alternatívy
Jednoduchý náhodný výber – pravdepodobnostný – každý člen populácie má rovnakú šancu dostať sa do
výberu
Druhy výberov:
• Stratifikovaný náhodný výber
• Viacstupňový zhlukový výber
• Systematický výber
Deskriptívna štatistika
Úlohou opisnej štatistiky je vytvorenie prehľadu o získaných údajoch, ktoré samé o sebe predstavujú iba
zmes čísel, príp. písmen. Na tento účel slúžia:
- opisné charakteristiky
- tabuľky
- grafy
Grafický a číselný popis rozloženia dát

Zobrazenie kvalitatívnych a ordinálnych dát
Koláčový graf
Stĺpcový graf
Histogram
Krabicový diagram
Transformácia dát
Funkčné transformácie:
• Pripočítanie alebo odčítanie konštanty
• Násobenie alebo delenie konštantou
• Štandardizácia
Prevod hodnôt na poradové hodnoty a percentily:

• Transformácia do poradia
• Percentilová transformácia
Počet pravdepodobnosti
• Hladina spoľahlivosti
• Hladina významnosti
p=0,05 95%
p=0,01 99%
• Typy hypotéz z hľadiska pravdepodobnosti:

Nulová hypotéza
Alternatívna hypotéza
Chyba prvého a druhého druhu

Štatistická chyba je súčasťou testovania hypotéz nakoľko overovanie hypotéz má pravdepodobnostný
charakter
Nulová hypotéza (H0) je Nulová hypotéza (H0) je

pravdivá nepravdivá
Odmietnutie nulovej hypotézy Chyba prvého typu Správny výsledok
Falošne pozitívny Pravdivo pozitívny

Prijatie nulovej hypotézy Správny výsledok Chyba druhého typu
Pravdivo negatívny Falošne negatívny
Základné pravdepodobnostné rozdelenia

• Binomické rozdelenie
• Poissonovo rozdelenie
• Normálne rozdelenie
Najčastejšie chyby pri spracovaní kvantitatívneho výskumu

• Nejasne definované ciele, hypotézy
• Chýba podrobný postup výberu vzorky
• Zlá konštrukcia dotazníka (zbytočne veľa otázok, nejasné otázky, nevyužitie overených
nástrojov, chýbajúca pilotná štúdia, nepreviazanosť na ciele a hypotézy) alebo zlý plán
experimentu
• Neadekvátna štatistická analýza
• Nedostatočná, príp. zlá interpretácia výsledkov
Vytváranie štatistických modelov
Jednoduché štatistické modely
Aritmetický priemer
Suma odchýlok na druhú

(SS) =
Variancia
s2 = SS/(N – 1) = 2 /(N – 1)
Štandardná odchýlka
Štandardná chyba
SE – štandardná chyba (standard error)
s – štandardná odchýlka vzorky
N – veľkosť vzorky
Induktívna štatistika
Úlohou induktívnej štatistiky je na základe informácií získaných z náhodných výskumných vzoriek
robiť závery o celých základných súboroch, z ktorých vzorky pochádzajú:
- testy štatistických hypotéz (významnosti)
- intervalové odhady
Intervaly spoľahlivosti
Intervaly spoľahlivosti
• Intervaly istoty hovoria o pravdepodobnosti, že namerané dáta budú obsahovať aritmetický
priemer populácie premennej, ktorú chcú predpovedať.
• Pre vytvorenie limitu spoľahlivosti potrebujeme vyrátať hranice tohto intervalu namerané skóre
premeníme na z (štandardné skóre) :95% rozptylu sa nachádza medzi
-1,96 a +1,96
𝑥 −𝑥
z= 𝑠
𝑥 = 1,96𝑠 + 𝑥̅ 𝑥 = 1,96𝑠 − 𝑥̅
horná hranica dolná hranica
Využívanie štatistických modelov na testovanie výskumných

otázok
• Jednosmerné testy významnosti – riadené
hypotézy
• Dvojsmerné testy významnosti – neriadené
hypotézy
Testy štatistickej významnosti
= testy štatistických hypotéz
Postup testovania hypotéz:

1. Formulácia nulovej hypotézy (H0)
2. Formulácia alternatívnej hypotézy (Ha)
3. Stanovenie hladiny významnosti (α)
4. Výpočet testovacej štatistiky a pravdepodobnosti
5. Rozhodnutie P < α
P≥α
Veľkosť efektu
• Štandardizovaná miera veľkosti pozorovaného účinku
• Vyjadruje dôležitosť výskumného zistenia
• Cohen (1988, 1992):

• r=0.10 malý efekt
• r=0.30 stredný efekt
• r=0.50 veľký efekt
• Metaanalýza
Štatistická sila
Tri podmienky veľkosti efektu:
1. Veľkosť vzorky
2. Hladina významnosti
3. Štatistická sila
4.
Využitie sily:
1. Vypočítanie štatistickej sily
2. Vypočítanie veľkosti vzorky nevyhnutnej k dosiahnutiu dostatočnej štatistickej sily
Najbežnejšie chyby v štatistickom spracovaní kvantitatívneho výskumu
• Chýbajúce čistenie dát

• Výpočet priemerov z kvalitatívnych premenných, ktorých hodnoty (kategórie) boli očíslované
• Nahrádzanie chýbajúcich hodnôt
• Použitie množstva koláčových grafov na opísanie rozdelenia kvalitatívnej premennej
v rôznych skupinách
• Nevyužitie mier sily vzťahu (r, tau, eta, V)
• Bivariačný prístup (napr. problém falošnej korelácie)
Ako zvoliť vhodný test štatistickej významnosti?

Skúmanie predpokladov parametrických dát
Zohľadňujeme:
• Normálne rozloženie dát
• Homogenita variancie
• Premenné merané minimálne na intervalovej škále
• Nezávislosť
1. predpoklad: Normálne rozloženie dát
Hlavné spôsoby:
• Graficky – frekvenčné rozloženie
• Numericky - skewness (šikmosť)
a kurtosis (špicatosť)
- testy normálneho rozloženia
(Kolmogorov-Smirnov test a Shapiro- Wilkov test)
Grafická kontrola normálnej distribúcie premenných
Histogram
p-p plot
Numerická kontrola normálnej

distribúcie premenných
Šikmosť
Špicatosť
Numerická kontrola normálnej distribúcie premenných - príklad
Numerická kontrola normálnej distribúcie premenných - Testy normálneho rozloženia
• Kolmogorov-Smirnov test (K-S) N>50

• Shapiro-Wilk (S-W) N<50
Ak výsledky testov NIE SÚ signifikantné, potom SÚ dáta signifikantné. Resp. každá hodnota nad .05
znamená normálne rozloženie. Ak je test signifikantný (menej ako .05), tak dáta nie sú normálne
rozložené.
Čím je súbor väčší, tým je pravdepodobnejšie nadobudnutie signifikantných výsledkov.
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Hygiene (Day 1 ofDownload ,037 263 ,200* ,991 263 ,113
Festival)
Hygiene (Day 2 ofDownload ,121 263 ,000 ,908 263 ,000

Festival)
*. This is a lower bound of the true significance.

a. Lilliefors Significance Correction
1.predpoklad: Normálne rozloženie dát - Zhrnutie
• Parametrické testy štatistickej významnosti vyžadujú normálne rozdelenie dát

• Je nutné testovať normálne rozloženie viacerými spôsobmi
• Veľmi dôležitá je grafická kontrola pomocou histogramu, p – p plot(u), a kontrola odľahlých
a extrémnych pozorovaní/prípadov
• Testy normálneho rozloženia overujú či sa rozloženie premenných líši významne od normálneho
rozloženia
• Shapiro-Wilk test preukazuje väčšiu štatistickú silu pri zisťovaní rozdielov od normálneho rozloženia
(preto sa výsledky K-S testu a S-W testu často líšia)
2.predpoklad: Homogenita variancie
- Homogenita variancie - v každej úrovni jednej premennej je variancia druhej premennej
rovnaká
Levenov test homogenity variancie
• Testuje nulovú hypotézu, že v rozdielnych skupinách je variancia rovnaká, resp. že rozdiel

medzi varianciami sa rovná nule.
• p≤0,05 nulová hypotéza je nesprávna a variancie sa významne líšia, predpoklad
homogenity variancií nie je zachovaný
• p>0,05 variancie v skupinách sú približne rovnaké, predpoklad homogenity je zachovaný
príklad:
Test of Homogeneity of Variance

LeveneStatistic df1 df2 Sig.
Zmysel prehumor BasedonMean 1,008 3 116 ,392
celkoveskore Based on Median ,721 3 116 ,541
Based on Median and ,721 3 86,317 ,542
withadjusteddf
Basedontrimmedmean ,858 3 116 ,465
F (df1, df2)= hodnota testu, p

Riešenie porušenia 1. a 2. podmienky vlastností dát
Typtransformácie Vyrieši
Log transformácia Pozitívne zošikmenie, heterogénnevariancie
Transformácia odmocnením Pozitívne zošikmenie, heterogénnevariancie
Recipročná transformácia Pozitívne zošikmenie, heterogénnevariancie
Transformácia reverzným skóre Negatívne zošikmenie
Na zváženie:
• Veľkosť vzorky
• Zmena hypotézy
• Využitie malej vzorky
• Dôsledky využitia nesprávnej transformácie
Využitie transformácií na zošikmené dáta

Príklad s hygienou na Download festivale
3.predpoklad – Premenné merané minimálne na intervalovej škále (delenie premenných na zopakovanie)
• Nominálna škála - Určovanie poradia skupín nemá význam, číselná hodnota priradená objektu
vyjadruje, že môžeme rozlíšiť jednotlivé hodnoty. Objekt je zaradený vždy do jednej z
viacerých možných skupín.
• Ordinálna škála - Umožňuje zoradiť objekty podľa toho, ktoré majú viac a ktoré majú menej kvality
reprezentovanej premennou (napr. podľa intenzity príp. poradia).
• Metrické škály (intervalová a pomerová škála) - Zoradenie objektov ale aj kvantifikácia a porovnanie
veľkosti rozdielov medzi nimi je možné. Musí existovať jednotka merania a všetky hodnoty
premennej v súbore musia byť vyjadrené pomocou tejto miery.
•
Základné delenie testov štatistickej významnosti
Parametrický Neparametrický
1 výber Jednovýberový
t – test
2 nezávislé výbery t – test Mann-Whitney
U – test
K nezávislé výbery Jednosmerná ANOVA Kruskal-Wallisov
test
2 závislé výbery t – test Wilcoxonov test
t – test
Je určený pre:
1. Jednovýberový t-test – one sample t-test

2. Dva nezávislé výbery – independent t-test
3. Dva závislé výbery – paired samples t-test
Jednovýberový t – test
• Jednovýberový t – test – štatistická procedúra, ktorá sa využíva k testovaniu rozdielu medzi

výskumnou vzorkou a známou hodnotou aritmetického priemeru populácie
• Podmienky administrovania t-testu:

1. Závislá premenná je normálne rozložená
2. Výskumná vzorka získaná z populácie náhodným výberom
3. Aritmetický priemer populácie je známy
Dvojvzorkový t-test
T – test – zisťuje významnosť rozdielov priemerov v dvoch populáciách a pracuje s metrickými premennými
Podmienky administrovania t – testu:

1. normalita rozloženia
2. homogenita variancií (zisťujeme pomocou Levenovho testu,
ktorý je súčasťou t-testu)
Na zopakovanie: variancia = rozptyl; overuje variabilitu rozdelenia súboru hodnôt okolo jeho strednej
hodnoty (variancia rovnajúca sa 0 by predstavovala prípad, v ktorom by sa všetky hodnoty rovnali;
malá variancia naznačuje blízkosť dát k aritmetickému priemeru a tým pádom vzájomnú blízkosť dát,
zatiaľ čo veľká variancia naznačuje veľký rozptyl okolo aritmetického priemeru a zároveň medzi nimi)
Postup realizácie dvojvzorkového t testu

1. Overenie symetrickosti distribúcie v obidvoch porovnávaných skupinách
2. Overenie homogenity variancií pomocou Levenovho testu – v prípade rôznych rozptylov
modifikovaný t test – Aspin Welschov test
3. Uskutočnenie t testu
Stupne voľnosti df = n1 + n2 – 2
Štandardná odchýlka
Hodnota t-testu
Prezentácia výsledkov overovania pracovnej hypotézy prostredníctvom t-testu

Dvojstranná hypotéza:
• Muži (N1=35; M=16,09; SD=5,211) sa v extraverzii štatisticky signifikantne (t=-2,266; p=0,026)
odlišujú od žien (N2=45; M=13,58; SD=4,659)
Jednostranná hypotéza:
• Muži (N1=35; M=16,09; SD=5,211) preukazujú v porovnaní so ženami (N2=45; M=13,58;
SD=4,659) signifikantne vyššiu mieru extraverzie (t=-2,266; p=0,013).
Výpočet dvojvzorkového t testu
nameraný rozdiel očakávaný rozdiel
medzi aritm. priem. vzoriek - populačných priemerov
t= ______________________________________________
odhad štandardnej chyby rozdielu medzi priemermi
výskumných vzoriek
Mann-Whitney U test
• neparametrická
alternatíva dvojvzorkového t – testu
• nepracuje s priemerom, ale priemerným
poradím
Prezentácia výsledku:
• Rozdiel medzi mužmi a ženami
v psychotizme sa nepreukázal ako štatisticky
významný (U=714,500; p=0,474).
Mann Whitney U test a Wilcoxonov test

Obidva testy zisťujú rozdiely v dvoch skupinách s využitím transformácie do poradia, vo výstupe sú
zobrazené spoločne.
Výpočet vedúci k W:
𝑛1 (𝑛1 + 𝑛2 + 1)
𝑊=
2
𝑛1𝑛2 (𝑛1 + 𝑛2 + 1)
𝑆𝐸 = √
12
Výpočet (U):
𝑛1 (𝑛1 + 1)
𝑈 = 𝑛1𝑛2 + −𝑅
2
Tabuľková prezentácia testovania alternatívnej hypotézy pre dva nezávislé výbery

Prezentácia t-testu
Skupina M SD t p
Prezentácia Mann-Whitney U testu
Skupina Priemerné poradie U p
Alternatívy Mann-Whitney U testu

• Kolmogorov-Smirnov Z – overuje predpoklad, či skupiny pochádzajú z jednej populácie
• Moses Extreme reactions – neparametrický Levenov test
• Wald-Wolfowitz runs – hľadá zhluky skór, vďaka čomu dokáže určiť, či sa skupiny líšia
Veľkosť efektu pri porovnávaní dvoch skupín
Veľkosť efektu pre t test
𝑡2
𝑟= √
𝑡2+𝑑𝑓
Veľkosť efektu pre U test

𝑧
𝑟=
√𝑁
Testovanie hypotéz pre 3 a viac nezávislých výberov (ANOVA)

ANOVA (Analysis Of Variance) – porovnáva 1 metrickú premennú v rámci 3 a viac výberov = F test
Podmienky administrovania ANOVA:

1. Nezávislosť výberov
2. Normálne rozloženie v každom z výberov
3. Homoskedasticita – homogenita variancií
Analyze – Compare means – One-way ANOVA
Prezentácia výsledkov overovania pracovnej hypotézy prostredníctvom ANOVA
ANOVA
Extra verzia
Sum of Squares df Mean Square F Sig.
Between Groups 74,254 2 37,127 1,480 ,234
Within Groups 1931,296 77 25,082
Total 2005,550 79
Sum of Squares – suma umocnených odchýlok

Df – stupne voľnosti
Mean Square – priemer umocnených odchýlok
F – hodnota Fisherovho testu
Sig – Hladina významnosti
Základy analýzy variancie

• Analýza variancie = ANOVA
• Zmysel testu ANOVA je podobný ako t-testu, ich cieľom je zistiť či sú rozdiely v aritmetických priemeroch,
ktoré sme získali nameraním vo výskumných vzorkách, dostatočne veľké na to aby sme mohli tvrdiť, že sa
jedná o signifikantné rozdiely.
• Rozdiel medzi ANOVA a t-testom je v počte aritmetických priemerov, ktoré porovnávame, nakoľko t-
test môže byť použitý iba v situácii porovnávania 2 aritmetických priemerov.
• Analýzu variancie vykonávame preto, aby sa znížilo riziko chyby 1.rádu (hladina α).
• ANOVA umožňuje hodnotiť všetky rozdiely v aritmetických priemeroch v rámci jednej hypotézy, využíva
teda jednu hladinu α a z toho dôvodu umožňuje mať chybu 1.rádu pod kontrolou bez ohľadu na to, aký
počet aritmetických priemerov je porovnávaný.
Populácia 1 Populácia 2 Populácia 3
Typická situácia, v ktorej sa využíva ANOVA (analýza variancie). Obsahuje tri samostatné výskumné vzorky,
na základe ktorých hodnotíme rozdiely v aritmetických priemeroch z troch populácií, ktorých aritmetické
priemery nie sú známe.
Proces analýzy variancie
•
Testová štatistika pre test ANOVA sa nazýva hodnota F, ktorá predstavuje pomer
dvoch variancií. Variancia vzorky sa v tomto kontexte nazýva mean squares (MS).
• Najvyššia hodnota F - MSmedziskupinová meria veľkosť rozdielu v aritmetických priemeroch medzi
skupinami. Najnižšia hodnota F - MSvnútroskupinová meria veľkosť rozdielov, ktoré by sa vo vzorke
vyskytli ak by sme neuskutočnili žiadny vplyv.
namerané rozdiely medzi aritmetickými priemermi MSmedziskupinová

F= ──────────────────────────────────── = ───────
očakávané rozdiely spôsobené náhodou MSvnútroskupinová
Rozdiely vznikli z dôvodu: Rozdiely vznikli z dôvodu:

1. Vzorky pochádzajú z iných populácií 1. Nesystematickej chyby
2. Nesystematickej chyby
ANOVA rozdeľuje celkovú varianciu do dvoch

komponentov: medziskupinová variancia a vnútroskupinová variancia.
Medziskupinová variancia
• Medziskupinová variancia: MSmedziskupinová meria veľkosť rozdielov medzi aritmetickými
priemermi vzoriek.
• Rozdiely medzi aritmetickými priemermi (resp. vo variancii) môžu byť spôsobené dvomi
zdrojmi:
1. Vzorky pochádzajú z rôznych populácií - ak vzorky pochádzajú z rôznych populácií mal by
medzi nimi existovať rozdiel (jedna populácia má aritmetický priemer v sledovanej premennej
vyšší/nižší ako druhá)
2. Náhoda/chyba merania
Vnútroskupinová variancia
• Vnútroskupinová variancia: MSvnútroskupinová meria veľkosť rozdielov, ktoré sú prítomné

vnútri jednotlivých vzoriek.
• Nakoľko všetky osoby nachádzajúce sa v jednej skupine pochádzajú z jednej populácie (napr. typ
psychoterapie), rozdiely (resp. variancia) vo vnútri skupiny nemôžu byť spôsobené rôznym
vplyvom.
• Pôvod rozdielov:
1. Náhoda/chyba merania – Nepredpokladateľné rozdiely, ktoré sú prítomné medzi
jednotlivcami v rámci jednej skupiny nemôžu byť spôsobené systematickými faktormi a z toho
dôvodu sú považované za náhodné.
Vzorec ANOVA pre hodnotu F
• Ak zohľadníme zdroje variability - vzorec pre ANOVA:
pôvod z inej populácie + náhoda/chyba
F = ───────────────────────────
náhoda/chyba
• V prípade, že nulová hypotéza sa preukáže ako pravdivá a teda medzi skupinami nie sú
prítomné významné rozdiely, očakávame hodnotu F blízku 1,00.
• Ak získame hodnotu F rovnú 1,00 usudzujeme, že medzi skupinami neexistuje štatisticky
významný rozdiel
• Na druhej strane, ak hodnota F dosiahne vysoké číslo, znamená to, že nulová hypotéza je
nepravdivá a môžeme usúdiť, že rozdiely medzi skupinami sú signifikantné
• Aby sme stanovili či je hodnota F dostatočne veľká aby bola signifikantná porovnáme výsledok
s nami stanovenou hladinou-α
Analýza variancie a Post testy
• Nulová hypotéza pre test ANOVA tvrdí, že neexistujú žiadne rozdiely v aritmetických
priemeroch sledovanej premennej medzi skupinami, ktoré porovnávame; H0: μ1 = μ2 = μ3 = . . .
• Ak zistíme, že aritmetické priemery sa nerovnajú znamená to, že nulová hypotéza nie je
pravdepodobná
• ANOVA síce stanovuje, či rozdiely medzi sledovanými skupinami existujú, avšak nestanovuje
medzi ktorými konkrétnymi skupinami zistené rozdiely nastali.
• Nakoľko porovnávame viac ako dve skupiny, výsledky môžu byť z tohto dôvodu neprehľadné, preto
býva ANOVA nasledovaná doplňujúcimi testami, ktoré sa nazývajú post testy.
• Zisťujú, medzi ktorými skupinami presne nastali rozdiely.
• Vykonávame ich potom ako zistíme, že nulová hypotéza v ANOVA je dostatočne nepravdepodobná. Post
testy porovnávajú vždy dve skupiny vzájomne.
Meranie veľkosti efektu v Analýze rozptylu
• ANOVA hodnotí signifikanciu aritmetických rozdielov medzi sledovanými skupinami, výsledok

má teda pravdepodobnostný charakter – tvrdíme, že rozdiely medzi skupinami sú väčšie ako by
sme očakávali od vplyvu náhody.
• Avšak pokiaľ máme početnejšie výskumné vzorky, je jednoduchšie
dosiahnuť signifikantný výsledok i napriek relatívne malým rozdielom v aritmetických priemeroch.
• Výsledok testovania hypotézy v takomto prípade nezahŕňa skutočnú veľkosť priemerných
rozdielov – odporúča sa vypočítať veľkosť efektu.
• Percento variancie, ktoré nezodpovedá chybe/náhode.
• η2 (eta na druhú)
• Vzorec:
SSmedziskupinová
η2 = ────────────
SScelková
Testovanie hypotéz pre 3 a viac nezávislých výberov Kruskal-Wallisov test
Kruskal – Wallisov test – neparametrická alternatíva testu ANOVA, v prípade nezachovania normálneho
rozloženia
- neumožňuje vykonávať post-hoc testy
Analyze – Nonparametric tests – K-independent samples
Skupina N Priemernéporadie H p
1 25 32,16 9,993 0,007
2 27 36,96
3 28 51,36
Testovacie kritérium:
Kruskal Wallisov test a Post testy
• Rovnako ako pri analýze variancie môžeme zisťovať medzi ktorými skupinami sa vyskytujú
významné rozdiely.
• Využívame Mann-Whitney U testy medzi jednolivými skupinami avšak s využitím Bonferroniho
korekcie.
• Vykonávame ich potom ako zistíme, že nulová hypotéza je dostatočne nepravdepodobná.
Bonferroniho korekcia
• Bonferroniho korekcia zabezpečí, že pravdepodobnosť chyby 1. typu pri viacnásobnom porovnávaní

nenarastie nad hladinu 0,05.
• Namiesto kritickej hodnoty 0,05 pre každý test, využívame hodnotu 0,05 vydelenú počtom testov,
ktoré využívame.
• Príklad: pri využití troch porovnaní 0,05/3 = 0,0167.
Testovanie trendov - Jonckheere–Terpstra test
• Test podobný Kruskal Wallisovmu testu, hľadá rozdiely medzi mediámni v skupinách
• Informácia navyše – zisťuje zmysluplnosť poradia skupín
• Využitie – v prípade očakávania nárastu alebo poklesu mediánov medzi skupinami
• Kódovacia premenná (tá, ktorá definuje skupiny) určuje poradie v ktorom J-T test očakáva zmenu v
mediánoch (nezáleží pritom na tom, či očakávame nárast alebo pokles)
• Test určuje, či mediány v skupinách narastajú alebo klesajú v poradí podľa kódovacej premennej
Testovanie trendov - Jonckheere–Terpstra test
Interpretácia - interpretujeme hodnotu z

1. Kladná hodnota z – poukazuje na trend nárastu (mediány v skupinách sa zvyšujú spoločne s
nárastom hodnoty kódovacej premennej)
2. Záporná hodnota z – poukazuje na pokles (mediány sa zmenšujú spoločne s nárastom hodnoty v
kódovacej premennej)
Veľkosť efektu pri testovaní hypotéz pomocou Kruskal Wallisovho testu
• V prípade Kruskal Wallisovho testu sa veľkosť efektu počíta z jednotlivých komparácií

• Je možné ho vypočítať pre jednotlivé porovnania pomocou Mann-Whitney U testov
• Veľkosť efektu:
𝑧
𝑟=
√𝑁
Zhrnutie: Kruskal-Wallisov test
• Kruskal–Wallisov test umožňuje porovnávať skupiny, ktoré sú na sebe nezávislé a dáta porušili
podmienky administrovania testu ANOVA (analýzy variancie)
• Interpretujeme hodnotu asymptotickej signifikancie, ak dosahuje hodnotu menšiu ako 0,05, skupiny
sú významne odlišné
• Hlavnú analýzu je možné doplniť o komparácie pomocou Mann-Whitney U testov medzi
jednotlivými dvojicami, avšak ako významné ich môžeme interpretovať iba v prípade, ak hodnotu
signifikancie vydelíme počtom komparácií
• Ak predpokladáme, že mediány budú stúpať alebo klesať v jednotlivých skupinách v určitom poradí,
použijeme Jonckheere–Terpstra test.
• Prezentácia výsledkov:
• Testová štatistika H, stupne voľnosti a hladina významnosti pre hlavnú analýzu
• Testová štatistika U, z a hladina významnosti pre post hoc testy, taktiež veľkosť efektu
• Mediány, prípadne krabicový graf
Testovanie hypotéz pre dva závislé výbery

Nezávislý vs. Závislý výber - merania pred a po experimentálnom zásahu u 1 človeka, porovnávanie
2 premenných v tej istej skupine ľudí
T – test pre závislé výbery – parametrický test pre dva závislé výbery, podmienka administrovania je
zachovanie normálneho rozloženia rozdielu dvoch závislých premenných
Analyze – Compare means – Paired-Samples t-test
Wilcoxonov test – neparametrická alternatíva t-testu pre závislé výbery, využíva sa po zamietnutí
podmienky normálneho rozloženia
Analyze – Nonparametric tests – 2-related samples
Prezentácia výsledkov overovania pracovnej hypotézy prostredníctvom t-testu pre závislé výbery
Dvojstranná hypotéza:
• Počet správnych odpovedí bez vplyvu alkoholu (M=284,500; SD=29,382) sa
štatisticky signifikantne (t=3,158; p=0,006) líši od počtu správnych odpovedí pod vplyvom
alkoholu (M=266,166; SD=28,597)
Jednostranná hypotéza:
• Počet správnych odpovedí bez vplyvu alkoholu (M=284,500; SD=29,382)
je signifikantne (t=3,158; p=0,003) vyšší od počtu správnych odpovedí pod vplyvom alkoholu
(M=266,166; SD=28,597).
•
Analýza kategoriálnych premenných
• Medzi premennými je prítomný vzťah ak rozloženie (distribúcia) hodnôt jednej premennej je
asociované s rozložením hodnôt druhej premennej
• Procedúra, ktorá vzťah medzi dvomi premennými pomôže odhaliť – triedenie druhého stupňa
– analýza kontingenčných tabuliek (crosstabulation)
• Rozdiel medzi percentami v oknách - epsilon - 10% rozdiel predstavuje vecný podstatný
rozdiel (rozdiel, ktorý nevnikol v dôsledku výberovej chyby)
Analýza kategoriálnych premenných – Chí kvadrát nezávislosti

• X2 porovnáva empirické a očakávané početnosti – vychádza z predpokladu existencie modelu
rozloženia dát, ktorý by vznikol tak, že medzi premennými nie je žiadna asociácia (vznikol by
pôsobením náhody = očakávaná početnosť)
• Empirická početnosť – pozorovaná hodnota

• Očakávaná početnosť – početnosť, ktorá platí ak platí nulová hypotéza o nezávislosti
• Využíva adjustované rezíduá – rozdiel medzi očakávanou frekvenciou výskytu a pozorovanou

frekvenciou výskytu
• Adjustované rezíduá = delta – rezíduum je štandardizované vydelením smerodajnou odchýlkou, vďaka
čomu je možné adjustované rezíduum testovať z hľadiska štatistickej významnosti
• Delta > (-2, 2)

• 95% pravdepodobnosť, že v danom políčku je rozdiel medzi pozorovanou (empirickou) a očakávanou
početnosťou štatisticky významný
Využitie testu Chí kvadrát v jednorozmernej analýze

• Testuje rozloženie hodnôt jednej premennej – overuje, či je empirické rozloženie kategórií
jednej premennej odlišné od predpokladanej distribúcie tej istej premennej
• The one sample Chi-square test
Analyze – Nonparametric tests – Legacy dialogs – Chi-square

Meranie vzťahov medzi dvomi premennými
• Jedna zo základných otázok – Existuje medzi dvomi premennými vzťah?
• Zmeny v jednej premennej sprevádzajú zmeny v druhej premennej = párová asociácia
• 4 otázky:
1. Prítomnosť asociácie
2. Sila (tesnosť) asociácie – ako silne rozloženie variant jednej premennej určuje
rozloženie variant druhej premennej = koeficient asociácie (alebo korelácie)
3. Smer asociácie – kladný/záporný
4. Povaha asociácie – napr. lineárna povaha vzťahu
Miery asociácie pre nominálne znaky
• Nie je možné interpretovať smer vzťahu, je však možné zistiť tesnosť vzťahu dvoch
nominálnych premenných
• Koeficienty asociácie dosahujú hodnoty 0 až 1
• Koeficient asociácie medzi dvomi nominálnymi premennými sa využíva i pri zisťovaní vzťahu
medzi jedným znakom nominálnym a jedným ordinálnym
• Pre voľbu koeficientu je rozhodujúca tá premenná, ktorá je v hierarchii merania na nižšom
stupni
Miery asociácie pre nominálne znaky založené na Chí kvadráte
• Koeficient Phi – využíva sa v situácii, v ktorej má kontingenčná tabuľka podobu 2x2 – obidve
premenné sú dichotomické
• Hodnota Chi kvadrát štatistiky sa vydelí veľkosťou vzorky a výsledok sa odmocní
• Cramerovo V – jedna z nominálnych premenných (alebo obidve) má viac ako dve kategórie
• Koeficient kontingencie – test závislý na počte riadkov a stĺpcov v oknách kontingenčnej tabuľky,
nikdy nenadobúda hodnotu 1
Ďalšie miery asociácie pre nominálne znaky

• Goodmanova-Kruskalova lambda – symetrická/asymetrická podoba
• Hodnota koeficientu lambda ukazuje do akej miery početnosti kategórií nezávislej premennej dokážu
predvídať početnosti kategórie závislej premennej
• <0; 1>
• Percentuálne vyjadrenie miery redukcie chýb pri predvídaní hodnôt závislej premennej
• Goodmanovo-Kruskalovo tau – asymetrická podoba, taktiež vyjadruje redukciu chyby – zlepšenie
pravdepodobnosti zaradiť prípady do kategórií jednej premennej za predpokladu známeho rozloženia
kategórií druhej premennej
• Koeficient neistoty – symetrická/asymetrická podoba
• Redukuje neistotu pri predvídaní hodnôt závislej premennej z premennej nezávislej
Miery asociácie pre ordinálne znaky

• Zvyčajne založené na porovnávaní dvojíc sledovaných hodnôt a na
zistení miery konkordancie a diskonkordancie
X1 X2
P1 1 2
P2 2 3
P3 3 2
• Spriahnuté poradie (tied ranks) – dve pozorovania majú rovnaké hodnoty v jednej alebo
obidvoch premenných
• 5 možných situácií vzťahov
• Pozitívna asociácia – väčšina párov v dátach je konkordantná – s rastom/poklesom jednej
premennej rastie/klesá druhá premenná
• Záporná asociácia – väčšina párov v dátach je diskonkordantná – zvyšujúca sa hodnota jednej
premennej znižuje hodnotu druhej premennej a naopak
• V prípade približne rovnakého počtu konkordantných a diskonkordantných párov nie je medzi
premennými asociácia
• Koeficienty miery asociácie – od súčtu konkordantných párov sa odčítajú počty
párov diskonkordantných a výsledný rozdiel sa
delí súčtom konkordantných a diskonkordantných párov (prípady so spriahnutými hodnotami sú
zvyčajne vynechané)
• <-1; 1>
• Koeficienty:
1. Goodmanova-Kruskalova gama
2. Kendallovo tau b – zahŕňa i prípady so spriahnutým poradím, štvorcová tabuľka (napr.
2x2; 4x4)
3. Kendallovo tau c – zohľadňuje veľkosť súboru
4. Somersove d – v prípade, že je možné rozlíšiť závislú a nezávislú premennú
(vynechávajú sa tie prípady, ktoré majú spriahnuté poradia u nezávislej premennej)
Miery asociácie pre ordinálne znaky – Spearmanovo rhó
• Neporovnáva hodnoty dvoch premenných, koeficient je založený na porovnávaní poradí ich
hodnôt = Spearmanov korelačný koeficient
• Pred výpočtom koeficientu sú hodnoty premenných usporiadané z hľadiska ich poradia a každému
prípadu je pridelené poradové číslo, následne sú tieto poradové hodnoty skorelované
• Oproti Pearsonovej korelácii - nepredpokladá normálne rozloženie, nie je závislý na linearite vzťahu
dvoch premenných
• Relatívne robustný test – dokáže dobre detegovať prípadnú súvislosť dvoch znakov i v prípade
prítomných odľahlých hodnôt (outliers)
• Vzťah nemusí byť lineárny – musí byť monotónny
• <-1; 1>
Miery asociácie pre ordinálne znaky – Miera súhlasu
• Overovanie vzťahu medzi ordinálnymi premennými, ktoré sú merané na rovnakých
stupniciach
• Index súhlasu resp. miera zhody v posudzovaní dvoch javov – Cohenova Kappa
• Nezisťuje iba mieru asociácie (tesnosť vzťahu) dvoch premenných ale ich zhodu
• <-1; 1> 1 = perfektný súhlas, 0 = taký počet zhôd, ktoré zodpovedajú náhodnej zhode
• Kappa < 0,40 indikuje veľmi nízku mieru súhlasu/zhody (v závislosti od počtu kategórií)
Miery súvislosti pre intervalové znaky - Korelačná analýza

• Pearsonov korelačný koeficient (r) – koeficient pre zistenie miery súvislosti medzi dvomi
metrickými (intervalovými) premennými
• Vypočíta sa prostredníctvom kovariancie = variancie pre dve premenné, kedy každú odchýlku od
priemeru jednej premennej násobíme odchýlkou od priemeru druhej premennej a následne ich
vydelíme N – 1
• Kovariancia je štandardizovaná súčinom smerodajných odchýlok
• Pearsonov korelačný koeficient dokáže zistiť lineárny vzťah – jeho hodnota 0

nemusí znamenať neprítomný vzťah medzi premennými – výsledok znamená nelinearitu vzťahu
• Výpočet je založený na rozptyle – vysoká citlivosť na odľahlé hodnoty –
možné nahradiť Spearmanovym korelačným koeficientom
• Sila korelačného vzťahu (Cohen, 1988): 0 – 0,1 triviálna
0,1 – 0,3 slabá
0,3 – 0,5 stredná
0,5 – 1 silná
• Koeficient determinácie – zistený korelačný koeficient sa umocní na druhú a následne vynásobí

100 – jedna premenná vysvetľuje určité percentá variability druhej premennej (nevysvetlené
percentá variability je pravdepodobne možné vysvetliť inými premennými)
• Hladina významnosti: 0,05 * 0,01 ** 0,001 ***
• Štatistická signifikancia je závislá na veľkosti súboru:
- Silné korelácie je možné skôr získať v malých súboroch
- Silné korelácie môžu byť v malých súboroch nevýznamné
- Slabé korelácie môžu byť vo veľkých súboroch štatisticky významné
Riešenie - Bonferonniho korekcia –zníženie konvenčnej hladiny

významnosti (0,05) toľkokrát, koľko je vypočítaných párových korelačných
koeficientov
Pozor na interpretáciu korelácie

• Nie je možné formulovať záver v podobe kauzality u korelačných výskumov (pozorovacích
štúdií vrátane dotazníkových, v ktorých nezasahujeme do premenných, len ich meriame
a hľadáme vzťahy).
• Údaje z korelačného výskumu môžu byť interpretované v kauzálnej podobe iba na základe apriórnych
teórií. Nemôžu jednoznačne dokazovať kauzalitu.
Súvislosť nominálneho znaku s kardinálnou premennou
• Súvislosti medzi nominálnymi znakmi a kardinálnymi premennými je možné zistiť
prostredníctvom porovnania aritmetických priemerov – koeficient eta
• Postup: Analyze – Compare means – Means
• Vecná interpretácia – koeficient Eta2 po vynásobení číslom 100 vyjadruje koľko percent rozptylu jednej
premennej vysvetľuje druhá premenná
Ako odhaliť vplyv tretej premennej – elaborácia
• Zistenie asociácie (vzťahu) medzi dvomi premennými by nemalo viesť k ukončeniu analýzy,
malo by viesť k ďalším otázkam:
1. Aká je povaha vzťahu? Kauzalita?
2. Ak je vzťah medzi X a Y nekauzálny, akou funkciou sa dá modelovať?
3. Ak je vzťah kauzálny – je priamy/nepriamy? Je ovplyvnený pôsobením ďalšej premennej?
4. Ak je vzťah nepriamy, akým mechanizmom X ovplyvňuje Y?
• Elaborácia = elaboračná analýza spočíva v zavedení tretej premennej do vzťahu medzi dvomi
premennými a v zhodnotení jej pôsobenia
• Pojmy:
1. Vzťah medzi 2 premennými – vzťah nultého rádu
2. Vzťah po zavedení 3. premennej – vzťah prvého rádu
Elaborácia – podmienené kontingenčné tabuľky
Štyri druhy výsledkov elaborácie:

1. Falošný/klamlivý vzťah medzi X a Y – vzťah medzi premennými
existuje práve kvôli prítomnosti premennej Z, po jej pridaní sa
asociácia medzi X a Y výrazne zníži/zmizne
2. Z ako intervenujúca premenná – vzťah medzi X a Y je nepriamy,
po pridaní Z sa miera asociácie medzi X a Y rovnako zníži
3. Vzťah medzi X a Y nie je ovplyvnený premennou Z
4. Interakčný efekt – vzťah medzi X a Y je rôzny v rôznych kategóriách premennej Z
Elaborácia – podmienené miery asociácie/podmienené korelačné koeficienty

Miery asociácie/Korelačné koeficienty vypočítané z podmienených triedení:
1. Vypočíta sa miera asociácie medzi X a Y
2. Vypočítajú sa párové miery asociácie pre X a Y v každej kategórii Z
3. Porovnajú sa jednotlivé koeficienty
Elaborácia – využívanie parciálnych koeficientov

Parciálny korelačný koeficient – korelačný koeficient medzi premennými X a Y pri vylúčení vplyvu Z
Postup:
1. Vypočíta sa Pearsonov lineárny korelačný koeficient pre premenné X a Y
2. Vypočíta sa parciálny koeficient, ktorý sa následne porovná s korelačným koeficientom pre
premenné X a Y (korelácia nultého rádu)
Interpretácia parciálneho koeficientu:

1. Parciálna korelácia má približne rovnakú hodnotu ako pôvodná korelácia
2. Parciálna korelácia je výrazne nižšia alebo nulová
3. Parciálna korelácia sa zmení čiastočne
Elaborácia – využívanie parciálnych koeficientov

Využívanie parciálnych koeficientov pre ordinálne premenné:
• Pearsonov korelačný koeficient nie je využiteľný pre premenné, ktoré majú krátku stupnicu
(málo kategórií)
• Transformácia premennej: Transform - Rank cases (Veľa rovnakých hodnôt je možné vyriešiť
pripočítaním všetkým rovnakým hodnotám hodnotu najvyššieho poradia: Ties – High)
• Pearsonov korelačný koeficient vďaka tejto procedúre dosahuje hodnoty veľmi
blízke Spearmanovmu korelačnému koeficientu
Základy lineárnej regresie

• Jednoduchá lineárna regresia – lineárna závislosť medzi dvojicou číselných premenných
• Rovnica regresnej priamky Y = a + bX
Y = b0 + b1Xi + εi
Odporúčaná literatúra:
• MAREŠ, P. – RABUŠIC, L. – SOUKUP, P. 2015. Analýza sociálněvědních dat (nejen) v SPSS.

Brno: Masarykova Univerzita. ISBN 97-8802-106-362-4.
• HENDL, J. 2004. Přehled statistických metod zpracování dat. Praha: Portál. ISBN 80-7178-820-
1.
• LAJČIAKOVÁ, P. – TABAČKOVÁ, K. 2010. Ako spracovať výskum. Ružomberok: VERBUM. ISBN
97-8808-084-537-7.

ZÁKLADY ŠTATISTIKY - Z PPT Poznamky

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ZÁKLADY ŠTATISTIKY - Z PPT Poznamky

Uploaded by

Copyright:

Available Formats

Teoretická a empirická úroveň teórie

Operacionalizácia - prepojenie teoretickej a empirickej úrovne

• Operacionalizácia je proces návrhu premennej pre konštrukt

1. Musí kvantitatívny výskum začínať hypotézami?

Grafický a číselný popis rozloženia dát

Prevod hodnôt na poradové hodnoty a percentily:

• Typy hypotéz z hľadiska pravdepodobnosti:

Chyba prvého a druhého druhu

Nulová hypotéza (H0) je Nulová hypotéza (H0) je

Falošne pozitívny Pravdivo pozitívny

Pravdivo negatívny Falošne negatívny

Základné pravdepodobnostné rozdelenia

Najčastejšie chyby pri spracovaní kvantitatívneho výskumu

Suma odchýlok na druhú

Využívanie štatistických modelov na testovanie výskumných

Postup testovania hypotéz:

• Cohen (1988, 1992):

Najbežnejšie chyby v štatistickom spracovaní kvantitatívneho výskumu

• Chýbajúce čistenie dát

Ako zvoliť vhodný test štatistickej významnosti?

1. predpoklad: Normálne rozloženie dát

Numerická kontrola normálnej

Numerická kontrola normálnej distribúcie premenných - príklad

Numerická kontrola normálnej distribúcie premenných - Testy normálneho rozloženia

• Kolmogorov-Smirnov test (K-S) N>50

Hygiene (Day 2 ofDownload ,121 263 ,000 ,908 263 ,000

*. This is a lower bound of the true significance.

1.predpoklad: Normálne rozloženie dát - Zhrnutie

• Parametrické testy štatistickej významnosti vyžadujú normálne rozdelenie dát

• Testuje nulovú hypotézu, že v rozdielnych skupinách je variancia rovnaká, resp. že rozdiel

Test of Homogeneity of Variance

Basedontrimmedmean ,858 3 116 ,465

F (df1, df2)= hodnota testu, p

Transformácia odmocnením Pozitívne zošikmenie, heterogénnevariancie

Recipročná transformácia Pozitívne zošikmenie, heterogénnevariancie

Transformácia reverzným skóre Negatívne zošikmenie

Využitie transformácií na zošikmené dáta

1. Jednovýberový t-test – one sample t-test

• Jednovýberový t – test – štatistická procedúra, ktorá sa využíva k testovaniu rozdielu medzi

• Podmienky administrovania t-testu:

Podmienky administrovania t – testu:

Postup realizácie dvojvzorkového t testu

Prezentácia výsledkov overovania pracovnej hypotézy prostredníctvom t-testu

Výpočet dvojvzorkového t testu

nameraný rozdiel očakávaný rozdiel

medzi aritm. priem. vzoriek - populačných priemerov

odhad štandardnej chyby rozdielu medzi priemermi

Mann Whitney U test a Wilcoxonov test

Tabuľková prezentácia testovania alternatívnej hypotézy pre dva nezávislé výbery

Prezentácia Mann-Whitney U testu

Skupina Priemerné poradie U p

Alternatívy Mann-Whitney U testu

Veľkosť efektu pre U test

Testovanie hypotéz pre 3 a viac nezávislých výberov (ANOVA)

Podmienky administrovania ANOVA:

Analyze – Compare means – One-way ANOVA

Prezentácia výsledkov overovania pracovnej hypotézy prostredníctvom ANOVA

Sum of Squares – suma umocnených odchýlok

Základy analýzy variancie

namerané rozdiely medzi aritmetickými priemermi MSmedziskupinová

Rozdiely vznikli z dôvodu: Rozdiely vznikli z dôvodu:

ANOVA rozdeľuje celkovú varianciu do dvoch