You are on page 1of 16

Statistika II.

, první zápočtový test PAA


Příklady ze cvičení

Co je dobré vědět:
Chí-kvadrát test: testuje shodu rozdělení
Kolmogovo-Smirnoův test: testuje normalitu
Shapiro-Wilkův: testuje normalitu, ale jen při malém rozsahu souboru (pod 40)
Fischerův test: používáme, když se nějaká hodnota vyskytuje méně, než 5x
Korelační analýza: určuje sílu závislosti
Korelační koeficient: je průběh závislosti
Závislá proměnná: Y
Nezávislá proměnná: X
Chi-test: používáme pro tabulky 2x2
Kontigenční tabulky: používáme pro větší tabulky

Jak zapsat postup a výsledky:

1) stanovení hypotéz
2) stanovení hodnoty alfa (pokud nemáme zadanou jinak, volíme vždy 0,05)
3) stanovení testu, který budeme používat
4) hodnota t, nebo chí (nepodstatná informace, ale musí se psát)
5) hodnota p (podle té porovnáváme alfa, najdeme ji většinou u “sig”)
6) samotné porovnání p>alfa (je platná H0), p<alfa (je platná H1)
7) slovní interpretace výsledku
Testy dobré shody

1. S ohledem na šetření vytíženosti personálu se vedení nemocnice zajímá o


postup propouštění pacientů. Zajímá se také o to, zda jsou pacienti nemocnice
propouštěni rovnoměrně během týdne. Pomocí vhodného testu ověřte, zda
jsou pacienti propouštěni rovnoměrně.

POSTUP: (otevřít soubor: Nemocnice1.sav): analyze - nonparametric tests – legacy


dialogs – chi-square

VÝSLEDEK:

ZÁPIS:

1) H0 = pacienti jsou propouštěni rovnoměrně


H1 = pacienti nejsou propouštěni rovnoměrně
2) Alfa = 0,05
3) Chí-kvadrátový test
4) X2 (píše se jako takové X na druhou) = 29,389
5) p = 0,00
6) p < alfa
7) Zamítáme nulovou hypotézu. Propouštění pacientů není rovnoměrné.
2. Výrobce udává, že bonbony, které vyrábí jsou barevně zastoupeny v tomto
poměru:

Barva Procentní podíl


Zelená 15%
Oranžová 30%
Červená 30%
Žlutá 25%

Na vzorku 154 bonbonů různých barev tvrzení výrobce ověřte.

POSTUP: (otevřít soubor: Bonpari.sav): analyze – nonparametric tests – legacy


dialogs – chi-square

VÝSLEDEK:

ZÁPIS:

1) H0 = barva bonbonů odpovídá tvrzení výrobce


H1 = barva bonbonů neodpovídá tvrzení výrobce
2) Alfa = 0,05
3) Chí-kvadrátový test
4) X2 = 1,567
5) p = 0,667
6) p > 0,05
7) Nezamítáme nulovou hypotézu. Výrobcovo tvrzení je pravdivé.
3. Výrobce dále udává, že hmotnost jednoho bonbonu je 3 g. Tuto skutečnost budeme
chtít ověřit vhodných parametrickým testem. Na vzorku 154 bonbonů nejdříve ověřte
předpoklad normálního rozdělení proměnné váha (g).

a) Ovčření normality

POSTUP

analyze – descriptive statistics – explore (do depended list dát váha a poté
rozkliknout plots a zaškrtnout normality plots with test)

VÝSLEDEK:

Máme v souboru více jak 40 prvků, takže bereme hodnotu Kolmogoro-Smirnového


testu, a to hodnotu p = 0,2.

ZÁPIS:

1) H0 = rozdělení je normální
H1 = rozdělení není normální
2) Alfa = 0,05
3) Test normality
4) t = 0,044
5) p = 0,2
6) p > alfa
7) Nezamítáme nulovou hypotézu. Rozdělení je normální.
b) Testování, zda bonbony mají 3g.

POSTUP:

analyze – compare means – one sample t-test

VÝSLEDEK:

ZÁPIS:

1) H0 = Výrobcovo tvrzení je pravdivé, bonbony mají 3g.


H1 = Výrobcovo tvrzení není pravdivé.
2) Alfa = 0,05
3) Jednovýběrový t-test.
4) t = 0,094
5) p = 0,925
6) p > alfa
7) Nezamítáme nulovou hypotézu. Výrobcovo tvrzení je pravdivé a bonbony
mají 3g.
Analýza kategoriálních dat

1. Otestujte, zda účast studentů na přednáškách má vliv na úspěch v prvním termínu


zkoušky, máte-li následující data. Určete sílu závislosti.
A – úspěch v I. termínu zkoušky 1 – ano, 2 – ne
B – účast na přednáškách

Účast na přednáškách
Ano Ne
Úspěch u zkoušky Ano 30 15
Ne 10 25

POSTUP: (otevřít soubor: Asociace_s.sav):


data – weight cases – vložit „váhyAB“
analyze – descriptive statistics – crosstabs (vyplnit jako na fotce a rozkliknout
statistics a zaškrtnout chi-square)

VÝSLEDEK:
ZÁPIS:
1) H0 = Účast na přednáškách nemá vliv na výsledek zkoušky.
H1 = Účast na přednáškách má vliv na výsledek zkoušky.
2) Alfa = 0,05
3) Chí-kvadrátový test
4) X2 = 11,429
5) p = 0,001
6) p < alfa
7) Zamítáme nulovou hypotézu. Účast na přednáškách má vliv na výsledek
zkoušky.

2. U souboru pacientů bylo sledováno, zda použití určitého léku nevyvolává ve větší
míře otoky nohou. Na základě výsledků vyšetření 60 pacientů, ověřte vedlejší účinky
léku.

POSTUP: Zcela stejný, jako v předchozím příkladu, takže jen výsledky:

p > alfa – Nezamítáme nulovou hypotézu, lék nezpůsobuje otoky.


3. Testujte na 5% hl. významnosti hypotézu o nezávislosti pedagogické hodnosti
na pohlaví, máte-li tyto údaje:

Pedagogická hodnost
Asistent Docent Profesor
Pohlaví Muž 32 15 8
Žena 34 8 3

POSTUP: (otevřít soubor: Kontingence_S.sav):


data – weight cases – (zadat: váha)
analyze – descriptive statistics – crosstabs (otevřít statistics a žaškrtnout chi a
contingency)

VÝSLEDEK:

ZÁPIS:

1) H0 = pedagogická hodnost nezávisí na pohlaví


H1 = pedagogická hodnost závisí na pohlaví
2) Alfa = 0,05
3) Test kontingenčního koeficientu. (protože je tabulka větší, než 2x2)
4) t = 0,184
5) p = 0,174
6) p > alfa
7) Nezamítáme nulovou hypotézu, pedagogická hodnost nezávisí na pohlaví.
4. Vytvořte zadání příkladu a následně ho vypočítejte.

Typ školy
Gymnázium Střední školy Ostatní
Výsledek zkoušky: Výborně 56 35 9
Složil 48 42 15
Nesložil 36 31 15

V SPSS máme data zadaná jiným způsobem, a to zapsaná do dvou sloupců. Takhle to
jde taky spočítat, ale je to časově náročnější a dá se tam udělat snadno chyba. My si
data tedy musíme zapsat sami. Dělá se to tak, že zapisujete jakoby souřadnice a tu
hodnotu v nich dáte jako váhy. První řádek je číslo 1, druhý řádek je 2, třetí 3, první
sloupec je číslo 1, druhý 2, třetí 3. Výsledný přepis tedy bude vypadat takhle:

POSTUP:
data – weight cases – (zadat váhy)
analyze – descriptive statistics – crosstabs
VÝSLEDEK:

Jak to zapsat už víte, hodnota p je 0,294. Nulovou hypotézu nezamítáme, takže škola
nemá vliv na úspěšnost u zkoušek.

JAK VLASTNĚ SESTAVIT HYPOTÉZY:

Nulovou hypotézu přijímáme vždy, když je vše ok, ten daný jev, na který se ptají, se
tam nevyskytuje (otestujte kocovinu na svojí kočce – nulová hypotéza: vše je ok,
kočka nemá kocovinu, alternativní: kočka má kocovinu), nebo zda něco s něčím
souvisí (nulová: nesouvisí, vše je ok, alternativní: souvisí), a tak dále.
Jednoduchá lineární regrese a korelace – druhé cvičení

Soubor: Obleceni_lin.sav

1) Vytvořte graf – korelační pole pro zobrazení závislosti tržeb za prodej pánského
oblečení na počtu rozeslaných katalogů.

POSTUP:

1. graphs – legacy dialogs – scatter/dot

2. simple scatter
3. Tržby se odvíjí od počtu rozeslaných katalogů, takže jsou závislé (Y) a katalogy
nezávislé (Y)

4. Výsledek (korelační pole – síla závislosti)

2) Proložte graf korelačního pole vhodnou regresní přímkou.

Dvakrát kliknout na ten graf – kliknout pravym na to, co vám vyjede – dát “ad fit
line at total”
3) Vypočítejte rovnici regresní přímky pro závislost tržeb za prodej pánského
oblečení na počtu rozeslaných katalogů.

POSTUP:

1.

2. Závislá Y jsou tržby, nezáviská X katalogy. Také je potřeba rozkliknout statistics a


zaškrtnout confidence intervals.

VÝSLEDEK:
Regresní přímka v základní podobě: y = a + bx
Podle výsledků by byla: y = -20183,122 + 3,59x

Pomocí celé téhle rovnice jsme schopni spočítat tržby při daném počtu rozeslaných
katalogů. Constanta (-20183,122) je číslo, které je prostě pevné, můžou to být třeba
náklady na grafika, který dělal ty katalogy. I když nerozešlete žádný katalog, grafika
jste prostě zaplatit museli. Číslo 3,59x je regresní koeficient a udává, o kolik se změní
závislá y, když nezávislou x změníme o jednotku. Tzn. o kolik se zvýší tržby, když
odešleme o jeden katalog víc. X je počet odeslaných katalogů.

4) Jakou informaci poskytuje regresní koeficient.

Jak jsem psal. Když odešleme o jeden katalog víc, zvýší se tržby o 3,59.

5) Určete, o kolik se změní tržby, zvýší-li se počet rozeslaných katalogů o 100


kusů.

3,59*100 = 359 (tržby se zvýší o 359)

5) Odhadněte, jaké tržby (v průměru) můžeme očekávat při rozeslání 8000


katalogů.

y = -20183,122 + 3,59*8000 = 8536Kč

7) Ohodnoťte, zda provozovna č. 10 vzhledem k počtu rozeslaných katalogů


vykazuje podprůměrné nebo nadprůměrné tržby.

Koukneme se do datového souboru a vidíme, že provozovna 10 odeslala 8706


katalogů. Zadáme do rovnice: y = -20183,122 + 3,59*8706 = 11071Kč. Provozovna
10 by měla vydělat 11071Kč, když se podíváme opět do datového souboru, vidíme, že
ve skutečnosti vydělala 12805Kč, cože je vice, než by měla. Má tedy nadprůměrné
zisky.

8) Určete sílu závislosti.

Tahle tabulka nám vyšla při výpočtu v předchozích bodech. Síla závislosti je v
políčku R. Je to tedy 0,848. Což je silná přímá závislost. Čím vyšší číslo, tím vyšší
závislost. Hodnoty mohou nabývat čísel v intervalu <-1,1>, pokud je číslo záporné,
jedná se o nepřímou závislost, pokud kladné, jedná se o přímou.
9) Z kolika procent jsou změny v tržbách za pánské oblečení vyvolány změnami
v počtu zaslaných katalogů.

Hodnota R Square: změny jsou vyvolány ze 72%.

10) Proveďte test významnosti regresního koeficientu (α=0,05).

1) H0: Beta = 0 … regresní koeficient není významný


H1: Beta ≠ 0 ... regresní koeficient je významný
2) Alfa = 0,05
3) Test významnosti regresního koeficientu.
4) t = 17,267
5) p = 0,00
6) p < alfa
7) Regresní koeficient je významný.

11) Proveďte test významnosti koeficientu korelace (α=0,05).

Není potřeba dělat, protože pokud je významný regresní koeficient, je významný i


koeficient korelace.

12) Stanovte 95-ti procentní interval spolehlivosti pro regresní koeficient.

Vyčteme z tabulky (lower bound a upper bound pro regresní koeficient)


Zapíšeme takto: p (3,178 < Beta < 4,002) = 95%
13) Stanovte 95-ti procentní interval spolehlivosti pro korelační koeficient.

Tohle už je trochu náročnější. Potřebujeme k tomu taky otevřít tabulky z moodlu, a to


tabulku 2.1., tabulku 16.1. a tabulku 16.2.

Musíme nejdřív zjistit tyto hodnoty:

Beta = 0,848 (z tabulky coefficients)


n = 118 (počet prvků v souboru)
z = 1,2562 (číslo 0,848 zaokrouhlíme na 0,85 a podíváme se do tabulky 16.1, kde si
najdeme souřadnice podle 0,8 (řádek) a 0,05 (sloupec), tam se nachází číslo, které
potřebujeme).
Sz =

You might also like