Professional Documents
Culture Documents
ZÁKLADY ŠTATISTIKY - Z PPT Poznamky
ZÁKLADY ŠTATISTIKY - Z PPT Poznamky
Štatistika
Tri časti:
1. Získavanie dát
2. Analýza dát → deskriptívna štatistika
3. Štatistické usudzovanie → inferenčná štatistika
Empirický výskum
Znaky výskumu:
• Proces zhromažďovania údajov
• Je systematický
• Syntetizuje doteraz získané poznatky
• Zahŕňa kritickú analýzu
• Vedie k zvyšovaniu vedomostí
Fázy výskumu:
1. Vymedzenie problému a voľba prístupu
2. Plán výskumu
3. Realizácia
4. Analýza a interpretácia
5. Správa o výskume
• Explorácia
• Demonštrácia
• Opakovanie
• Zamietnutie
Populácia a štatistické usudzovanie
• Základná populácia – množina všetkých možných objektov resp. jedincov vzhľadom na
sledovanú oblasť
• Populačný výber/výskumná vzorka – podmnožina sledovanej populácie
• Štatistické usudzovanie – proces získavania záverov o celej populácii pomocou populačného
výberu
• Chyby:
1. Výberové chyby – náhodné
– systematické
2. Nevýberové chyby
Typy premenných
1. Závislá premenná – odpoveďová/kriteriálna/cieľová
2. Nezávislá premenná – prediktor
3. Rušivá premenná
•
Premenné podľa typu škály merania:
1. Kvalitatívna (nominálna) škála xa=xb alebo xa≠xb
2. Ordinálna (poradová) škála xa<xb alebo xa>xb
3. Intervalová škála xa+xb alebo xa-xb
4. Pomerová škála xa.xb alebo xa:xb
Kvalita merania
Y=T+E
• Objektivita merania
• Spoľahlivosť (reliabilita) merania
• Test-retest reliabilita
• Meranie paralelných testov
• Split-half reliabilita
• Validita merania
• Konštruktová validita
• Obsahová validita
• Kritériová validita
Výber
• Cenzus – metóda zberu dát zahŕňajúca všetky štatistické jednotky v populácii
• Výberové šetrenie – zber dát štandardizovaným spôsobom od skupiny ľudí
•
Spôsoby výberu:
1. Výber na základe dobrovoľnosti
2. Výber na základe dostupnosti
3. Kvótový výber
4. Náhodný výber
Jednoduchý náhodný výber a alternatívy
Jednoduchý náhodný výber – pravdepodobnostný – každý člen populácie má rovnakú šancu dostať sa do
výberu
Druhy výberov:
• Stratifikovaný náhodný výber
• Viacstupňový zhlukový výber
• Systematický výber
Deskriptívna štatistika
Úlohou opisnej štatistiky je vytvorenie prehľadu o získaných údajoch, ktoré samé o sebe predstavujú iba
zmes čísel, príp. písmen. Na tento účel slúžia:
- opisné charakteristiky
- tabuľky
- grafy
Koláčový graf
Stĺpcový graf
Histogram
Krabicový diagram
Transformácia dát
Funkčné transformácie:
• Pripočítanie alebo odčítanie konštanty
• Násobenie alebo delenie konštantou
• Štandardizácia
Počet pravdepodobnosti
• Hladina spoľahlivosti
• Hladina významnosti
p=0,05 95%
p=0,01 99%
Aritmetický priemer
s2 = SS/(N – 1) = 2 /(N – 1)
Štandardná odchýlka
Štandardná chyba
SE – štandardná chyba (standard error)
s – štandardná odchýlka vzorky
N – veľkosť vzorky
Induktívna štatistika
Úlohou induktívnej štatistiky je na základe informácií získaných z náhodných výskumných vzoriek
robiť závery o celých základných súboroch, z ktorých vzorky pochádzajú:
- testy štatistických hypotéz (významnosti)
- intervalové odhady
Intervaly spoľahlivosti
Intervaly spoľahlivosti
• Intervaly istoty hovoria o pravdepodobnosti, že namerané dáta budú obsahovať aritmetický
priemer populácie premennej, ktorú chcú predpovedať.
• Pre vytvorenie limitu spoľahlivosti potrebujeme vyrátať hranice tohto intervalu namerané skóre
premeníme na z (štandardné skóre) :95% rozptylu sa nachádza medzi
-1,96 a +1,96
𝑥 −𝑥
z= 𝑠
𝑥 = 1,96𝑠 + 𝑥̅ 𝑥 = 1,96𝑠 − 𝑥̅
horná hranica dolná hranica
• Metaanalýza
Štatistická sila
Tri podmienky veľkosti efektu:
1. Veľkosť vzorky
2. Hladina významnosti
3. Štatistická sila
4.
Využitie sily:
1. Vypočítanie štatistickej sily
2. Vypočítanie veľkosti vzorky nevyhnutnej k dosiahnutiu dostatočnej štatistickej sily
Hlavné spôsoby:
• Graficky – frekvenčné rozloženie
• Numericky - skewness (šikmosť)
a kurtosis (špicatosť)
- testy normálneho rozloženia
(Kolmogorov-Smirnov test a Shapiro- Wilkov test)
Grafická kontrola normálnej distribúcie premenných
Histogram
p-p plot
Špicatosť
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Hygiene (Day 1 ofDownload ,037 263 ,200* ,991 263 ,113
Festival)
príklad:
Typtransformácie Vyrieši
Log transformácia Pozitívne zošikmenie, heterogénnevariancie
Na zváženie:
• Veľkosť vzorky
• Zmena hypotézy
• Využitie malej vzorky
• Dôsledky využitia nesprávnej transformácie
• Nominálna škála - Určovanie poradia skupín nemá význam, číselná hodnota priradená objektu
vyjadruje, že môžeme rozlíšiť jednotlivé hodnoty. Objekt je zaradený vždy do jednej z
viacerých možných skupín.
• Ordinálna škála - Umožňuje zoradiť objekty podľa toho, ktoré majú viac a ktoré majú menej kvality
reprezentovanej premennou (napr. podľa intenzity príp. poradia).
• Metrické škály (intervalová a pomerová škála) - Zoradenie objektov ale aj kvantifikácia a porovnanie
veľkosti rozdielov medzi nimi je možné. Musí existovať jednotka merania a všetky hodnoty
premennej v súbore musia byť vyjadrené pomocou tejto miery.
•
Základné delenie testov štatistickej významnosti
Parametrický Neparametrický
1 výber Jednovýberový
t – test
2 nezávislé výbery t – test Mann-Whitney
U – test
K nezávislé výbery Jednosmerná ANOVA Kruskal-Wallisov
test
2 závislé výbery t – test Wilcoxonov test
t – test
Je určený pre:
Dvojvzorkový t-test
T – test – zisťuje významnosť rozdielov priemerov v dvoch populáciách a pracuje s metrickými premennými
Stupne voľnosti df = n1 + n2 – 2
Štandardná odchýlka
Hodnota t-testu
Jednostranná hypotéza:
• Muži (N1=35; M=16,09; SD=5,211) preukazujú v porovnaní so ženami (N2=45; M=13,58;
SD=4,659) signifikantne vyššiu mieru extraverzie (t=-2,266; p=0,013).
t= ______________________________________________
výskumných vzoriek
Mann-Whitney U test
• neparametrická
alternatíva dvojvzorkového t – testu
• nepracuje s priemerom, ale priemerným
poradím
Prezentácia výsledku:
• Rozdiel medzi mužmi a ženami
v psychotizme sa nepreukázal ako štatisticky
významný (U=714,500; p=0,474).
𝑛1 (𝑛1 + 𝑛2 + 1)
𝑊=
2
𝑛1𝑛2 (𝑛1 + 𝑛2 + 1)
𝑆𝐸 = √
12
Výpočet (U):
𝑛1 (𝑛1 + 1)
𝑈 = 𝑛1𝑛2 + −𝑅
2
Skupina M SD t p
𝑡2
𝑟= √
𝑡2+𝑑𝑓
ANOVA
Extra verzia
Sum of Squares df Mean Square F Sig.
Between Groups 74,254 2 37,127 1,480 ,234
Within Groups 1931,296 77 25,082
Total 2005,550 79
Typická situácia, v ktorej sa využíva ANOVA (analýza variancie). Obsahuje tri samostatné výskumné vzorky,
na základe ktorých hodnotíme rozdiely v aritmetických priemeroch z troch populácií, ktorých aritmetické
priemery nie sú známe.
Proces analýzy variancie
•
Testová štatistika pre test ANOVA sa nazýva hodnota F, ktorá predstavuje pomer
dvoch variancií. Variancia vzorky sa v tomto kontexte nazýva mean squares (MS).
• Najvyššia hodnota F - MSmedziskupinová meria veľkosť rozdielu v aritmetických priemeroch medzi
skupinami. Najnižšia hodnota F - MSvnútroskupinová meria veľkosť rozdielov, ktoré by sa vo vzorke
vyskytli ak by sme neuskutočnili žiadny vplyv.
Medziskupinová variancia
• Medziskupinová variancia: MSmedziskupinová meria veľkosť rozdielov medzi aritmetickými
priemermi vzoriek.
• Rozdiely medzi aritmetickými priemermi (resp. vo variancii) môžu byť spôsobené dvomi
zdrojmi:
1. Vzorky pochádzajú z rôznych populácií - ak vzorky pochádzajú z rôznych populácií mal by
medzi nimi existovať rozdiel (jedna populácia má aritmetický priemer v sledovanej premennej
vyšší/nižší ako druhá)
2. Náhoda/chyba merania
Vnútroskupinová variancia
• Pôvod rozdielov:
1. Náhoda/chyba merania – Nepredpokladateľné rozdiely, ktoré sú prítomné medzi
jednotlivcami v rámci jednej skupiny nemôžu byť spôsobené systematickými faktormi a z toho
dôvodu sú považované za náhodné.
Vzorec ANOVA pre hodnotu F
• Ak zohľadníme zdroje variability - vzorec pre ANOVA:
pôvod z inej populácie + náhoda/chyba
F = ───────────────────────────
náhoda/chyba
• V prípade, že nulová hypotéza sa preukáže ako pravdivá a teda medzi skupinami nie sú
prítomné významné rozdiely, očakávame hodnotu F blízku 1,00.
• Ak získame hodnotu F rovnú 1,00 usudzujeme, že medzi skupinami neexistuje štatisticky
významný rozdiel
• Na druhej strane, ak hodnota F dosiahne vysoké číslo, znamená to, že nulová hypotéza je
nepravdivá a môžeme usúdiť, že rozdiely medzi skupinami sú signifikantné
• Aby sme stanovili či je hodnota F dostatočne veľká aby bola signifikantná porovnáme výsledok
s nami stanovenou hladinou-α
Analýza variancie a Post testy
• Nulová hypotéza pre test ANOVA tvrdí, že neexistujú žiadne rozdiely v aritmetických
priemeroch sledovanej premennej medzi skupinami, ktoré porovnávame; H0: μ1 = μ2 = μ3 = . . .
• Ak zistíme, že aritmetické priemery sa nerovnajú znamená to, že nulová hypotéza nie je
pravdepodobná
• ANOVA síce stanovuje, či rozdiely medzi sledovanými skupinami existujú, avšak nestanovuje
medzi ktorými konkrétnymi skupinami zistené rozdiely nastali.
• Nakoľko porovnávame viac ako dve skupiny, výsledky môžu byť z tohto dôvodu neprehľadné, preto
býva ANOVA nasledovaná doplňujúcimi testami, ktoré sa nazývajú post testy.
• Zisťujú, medzi ktorými skupinami presne nastali rozdiely.
• Vykonávame ich potom ako zistíme, že nulová hypotéza v ANOVA je dostatočne nepravdepodobná. Post
testy porovnávajú vždy dve skupiny vzájomne.
Meranie veľkosti efektu v Analýze rozptylu
SSmedziskupinová
η2 = ────────────
SScelková
Testovanie hypotéz pre 3 a viac nezávislých výberov Kruskal-Wallisov test
Kruskal – Wallisov test – neparametrická alternatíva testu ANOVA, v prípade nezachovania normálneho
rozloženia
- neumožňuje vykonávať post-hoc testy
Skupina N Priemernéporadie H p
1 25 32,16 9,993 0,007
2 27 36,96
3 28 51,36
Testovacie kritérium:
• Rovnako ako pri analýze variancie môžeme zisťovať medzi ktorými skupinami sa vyskytujú
významné rozdiely.
• Využívame Mann-Whitney U testy medzi jednolivými skupinami avšak s využitím Bonferroniho
korekcie.
• Vykonávame ich potom ako zistíme, že nulová hypotéza je dostatočne nepravdepodobná.
Bonferroniho korekcia
• Test podobný Kruskal Wallisovmu testu, hľadá rozdiely medzi mediámni v skupinách
• Informácia navyše – zisťuje zmysluplnosť poradia skupín
• Využitie – v prípade očakávania nárastu alebo poklesu mediánov medzi skupinami
• Kódovacia premenná (tá, ktorá definuje skupiny) určuje poradie v ktorom J-T test očakáva zmenu v
mediánoch (nezáleží pritom na tom, či očakávame nárast alebo pokles)
• Test určuje, či mediány v skupinách narastajú alebo klesajú v poradí podľa kódovacej premennej
• Kruskal–Wallisov test umožňuje porovnávať skupiny, ktoré sú na sebe nezávislé a dáta porušili
podmienky administrovania testu ANOVA (analýzy variancie)
• Interpretujeme hodnotu asymptotickej signifikancie, ak dosahuje hodnotu menšiu ako 0,05, skupiny
sú významne odlišné
• Hlavnú analýzu je možné doplniť o komparácie pomocou Mann-Whitney U testov medzi
jednotlivými dvojicami, avšak ako významné ich môžeme interpretovať iba v prípade, ak hodnotu
signifikancie vydelíme počtom komparácií
• Ak predpokladáme, že mediány budú stúpať alebo klesať v jednotlivých skupinách v určitom poradí,
použijeme Jonckheere–Terpstra test.
• Prezentácia výsledkov:
• Testová štatistika H, stupne voľnosti a hladina významnosti pre hlavnú analýzu
• Testová štatistika U, z a hladina významnosti pre post hoc testy, taktiež veľkosť efektu
• Mediány, prípadne krabicový graf
T – test pre závislé výbery – parametrický test pre dva závislé výbery, podmienka administrovania je
zachovanie normálneho rozloženia rozdielu dvoch závislých premenných
Wilcoxonov test – neparametrická alternatíva t-testu pre závislé výbery, využíva sa po zamietnutí
podmienky normálneho rozloženia
Prezentácia výsledkov overovania pracovnej hypotézy prostredníctvom t-testu pre závislé výbery
Dvojstranná hypotéza:
• Počet správnych odpovedí bez vplyvu alkoholu (M=284,500; SD=29,382) sa
štatisticky signifikantne (t=3,158; p=0,006) líši od počtu správnych odpovedí pod vplyvom
alkoholu (M=266,166; SD=28,597)
Jednostranná hypotéza:
• Počet správnych odpovedí bez vplyvu alkoholu (M=284,500; SD=29,382)
je signifikantne (t=3,158; p=0,003) vyšší od počtu správnych odpovedí pod vplyvom alkoholu
(M=266,166; SD=28,597).
•
Analýza kategoriálnych premenných
• Medzi premennými je prítomný vzťah ak rozloženie (distribúcia) hodnôt jednej premennej je
asociované s rozložením hodnôt druhej premennej
• Procedúra, ktorá vzťah medzi dvomi premennými pomôže odhaliť – triedenie druhého stupňa
– analýza kontingenčných tabuliek (crosstabulation)
• Rozdiel medzi percentami v oknách - epsilon - 10% rozdiel predstavuje vecný podstatný
rozdiel (rozdiel, ktorý nevnikol v dôsledku výberovej chyby)
• Koeficient Phi – využíva sa v situácii, v ktorej má kontingenčná tabuľka podobu 2x2 – obidve
premenné sú dichotomické
• Hodnota Chi kvadrát štatistiky sa vydelí veľkosťou vzorky a výsledok sa odmocní
• Cramerovo V – jedna z nominálnych premenných (alebo obidve) má viac ako dve kategórie
• Koeficient kontingencie – test závislý na počte riadkov a stĺpcov v oknách kontingenčnej tabuľky,
nikdy nenadobúda hodnotu 1
Postup:
1. Vypočíta sa Pearsonov lineárny korelačný koeficient pre premenné X a Y
2. Vypočíta sa parciálny koeficient, ktorý sa následne porovná s korelačným koeficientom pre
premenné X a Y (korelácia nultého rádu)