Statistika Seminar

Statistika seminář – týden 3
V102 – škála levice pravice
1-3 levice
8-10 pravice
První domácí úkol
1. Úloha – téma probírané až příští seminář

2. + 3. témata z minulého semestru
Další úlohy: již probíraná témata z tohoto semestru
Statistická signifikance:
Testujte hypotézu/zjistěte zobecnitelnost = statistická signifikance
V sociálních vědách nelze jednoduše potvrdit hypotézu – nelze to, protože Karl Popper, proto
pracujeme s tzv. nulovými hypotézami (H0), které předpokládají neexistenci vztahu mezi
proměnnými.
Proto stanovujeme hypotézu jako: Mezi proměnnými neexistuje rozdíl na základě zvoleného faktoru
– cílem zkoumání/analýzy je tuto hypotézu vyvrátit.
Příklad:
H: Mezi vzděláním a akceptací homosexuality existuje vztah.
H0: Mezi vzděláním a akceptací homosexuality neexistuje žádný vztah.
Korelace:
- Cramerovo V – nominální
- Kendaulovo tau (B nebo C) – ordinální
- Pearsonovo R – intervalová
p-hodnota = hodnota Sig. v korelacích :)
chí kvadrát najdeme v crosstabs v statistics
Faktorová analýza
Řekněte mi pro každý z výroků, zda je jednání ospravedlnitelné vždy, nikdy či něco mezi tím.
- Desetibodová stupnice
- 15 různých kategorií
Pro usnadnění práce si vytvořím nový součtový index všech proměnných, který bude poukazovat na
celkovou toleranci věcí – tím ale trochu sčítám hrušky s jabkama, proto musíme nejdříve použít:
Cronbachovo alfa – přes Analyze – Scale – Reliability Analysis
nejmenší co to může být je 0,6 – 0,7 (aby šlo věci spolu sčítat)
Ještě jde udělat scan if item deleted (na stejným místě ve statistics) – ukáže nám, zda se index změní
a jak, pokud bychom určitou položku vynechali – to nám může pomoct, pokud bychom měli hodnotu
Cronbachovy alfy moc nízkou.
Samotná faktorová analýza:
Analyze – Dimension reduction – Factor
Vyjede nám milion tabulek
V Component Matrix se zobrazují korelace (můžeme je zobrazit i jen ty, co jsou nad nějakou hodnotu)
- Pořád to však hází zmatenou a velkou tabulku
Abychom věc zjednodušili. Použijeme možnost rotation (direct oblimin či varimax) – díváme se na
tabulku patern matrix
Skupiny se tvoří podle toho, ve které skupině se zobrazuje hodnota (případně bereme nejvyšší
hodnotu, či řadíme do skupiny na základě logické souvislosti, můžeme zařadit jednu proměnnou i do
více skupin)
Naším cílem je vytvořit tři skupiny – tři indexy, které budeme následně analyzovat – každý index by
měl obsahovat stejný počet proměnných (pokud ne, musím následně součtový index udělat dělený
počtem kategorií)
Vše, co musím při faktorovce udělat:
- Rotation – popsáno výše

- Zaklikat v options následující věci:
- Zaklikat v Extraction následující:
Klastrová analýza
V analyze – clasify – hierarchical cluster
Spodní kategorie, které chci klastrovat
Hodní, podle jakých kritérií chci klastrovat (zjistit podobnost mezi např. kraji)
Lineární regrese
- Regression – linear
R square – čím vyšší procento, tím lepší model
Zde nás zajímá pouze sig.
Regresivní rovnice – Y = A + BX = 7,6 – 0,019 x věk

A = 7,6 (první řádek pod B)
B = -0,019 (druhý řádek pod B)
X = věk (aka vysvětlující proměnná)
Pokud přidáme další proměnnou:
Y = 7,5 – 0,019 x věk + 0,024 x pohlaví (výsledné Y označuje jak moc akceptují rozvody, čím vyšší, tím
větší akceptace)
Nutno dívat se na sig. níže například všechny proměnné kromě pohlaví mají 3 hvězdičky, protože jsou
signifikantní na nejvyšší úrovni, pohlaví není na žádné úrovni, tudíž nemá žádnou hvězdičku
Co ale nyní? Vyřadíme nesignifikantní?
- Ne, pokud dávají logický smysl – vzájemně se ovlivňují
Sestavení regresního modelu kojenecké úmrtnosti (data používáme dmg_2019_data.sav)

Do dependant dáváme : kojenecká úmrtnost
Do independent: naděje dožití
Můžeme přidávat další, ale pokud přidáme moc, bude vše nesig. Kvůli malému počtu případů
v jednotlivých kategoriích.
Snažíme se o nejvyšší R Square, ale zároveň sig. proměnné
Současně je nutné mít na paměti, jaké jsou škály, na kterých proměnné měříme
Úkol 2 –
První úkol je vytvořit součtový index – netřeba užít syntaxi
Druhý úkol – je nutno vybrat data pouze pro ČR (prostřednictvím select cases)
- Dále ukázat souvislost dvou indexů
Třetí úkol – lineární regrese (vysvětlující proměnná je index četnosti konfliktů, vysvětlovaná je index
genderových postojů…) podíváme se, zda se změnil koeficient
Binární logistická regrese

Potřebuji hodnoty jen 1 a 0 – musím rekódovat
mohou do ní vstupovat i nespojité proměnné
Najdeme v analyze – regression – Binary logistic
Důležitý je koeficient Exp(B), který říká, jak se zvýší pravděpodobnost, že analyzovaný jev nastane.
Analyzuje se jako -1 a poté krát 100, výsledek vychází v procentech.
U nespojitých proměnných nutno udělat toto:

Vždy porovnáváme vůči referenční kategorii (ta má hodnotu 1 tzn. 0 %), v tomto případě tedy
základní škola.
Multinomická/mulitonomiální regrese
Pokud je více kategorií než dvě
Najdeme v analyze – regression – multinominal logistic regression
Covariants – spojité
Factors – kategorizované
Zase nás zajímá Exp(B)
Když má moje matka maturitu místo vysoké školy, tak moje šance, že získám výuční list místo
základního vzdělání je o 488 % vyšší.
- Pokud je příliš složitá na interpretaci, můžeme udělat 4x tu předchozí regresi – výsledky

dávají obě stejné
Cvičení na typy regrese:
Co ovlivňuje výsledky předmětu Statistika II: záleží na způsobu hodnocení
Uspěl/neuspěl – binární logistická (vstupují do ní spojité i kategorizované – ty však nutno

označit), exp(B) – vyjadřuje změnu pravděpodobnosti/šancí
A-F – multinomická - (vstupují do ní spojité – kolonka covariants i kategorizované – factors),

exp(B) – vyjadřuje změnu pravděpodobnosti/šancí
100-0 - lineární (vstupují do ní poté jen spojité a dichotomické proměnné), koeficienty B a beta –
vyjadřuje, jak se změní (o B) jedna proměnná, pokud se změní druhá proměnná o 1.
7.12.2023 – opáčko
Témata na závěrečný test (praktická část):
Nulová hypotéza, parametrický vs neparametrický test, hladina významnosti
Interval spolehlivost
Signifikance
Chí kvadrát – ověření statistické signifikance (v crosstabs)
- Pro proměnné s málo kategoriemi
t-test – ověření statistické signifikance
- Srovnání dvou skupin
Interpretace: podívám se na Sig. F testu, podle toho vyberu řádek a v tom je platná Sig. T testu
Anova – ověření statistické signifikance
- Srovnání libovolného počtu skupin

- nutno udělat post hoc test – safe choice je Bonferroni
krombachovo alfa
faktorová analýza
(clustrová/seskupovací analýza)
Lineární regrese
- referenční kategorie má hodnotu nula, čteme sloupeček B
Binární logistická regrese
- referenční kategorie má hodnotu 1 (o kolik procent se to změní, když uděláme -1 a následně

x100) – čteme sloupeček exp(B)
- vysvětlovaná proměnná musí být kódovaná jako 0 a 1 (nic jiného)
(multinomiální logistická regrese)
Korelace vs regrese
Abychom mohli regresovat, musíme korelovat

Slova: model či vliv více proměnných či predikce indikuje regresi
- regrese počítá přesně jakým způsobem spolu proměnné korelují

- korelace počítá jenom sílu vztahu (nelze u ní říct, když se něco změní o jedna, druhé se změní
o XY)
Dami proměnné
- aby šla dělat regrese

- tvořím je přes Transform – Dummy variables

Statistika Seminar

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistika Seminar

Uploaded by

Copyright:

Available Formats

Statistika seminář – týden 3

V102 – škála levice pravice

První domácí úkol

1. Úloha – téma probírané až příští seminář

H: Mezi vzděláním a akceptací homosexuality existuje vztah.

H0: Mezi vzděláním a akceptací homosexuality neexistuje žádný vztah.

p-hodnota = hodnota Sig. v korelacích :)

chí kvadrát najdeme v crosstabs v statistics

Cronbachovo alfa – přes Analyze – Scale – Reliability Analysis

Samotná faktorová analýza:

Analyze – Dimension reduction – Factor

Vyjede nám milion tabulek

- Pořád to však hází zmatenou a velkou tabulku

Vše, co musím při faktorovce udělat:

- Rotation – popsáno výše

Spodní kategorie, které chci klastrovat

Zde nás zajímá pouze sig.

Regresivní rovnice – Y = A + BX = 7,6 – 0,019 x věk

B = -0,019 (druhý řádek pod B)

X = věk (aka vysvětlující proměnná)

Pokud přidáme další proměnnou:

- Ne, pokud dávají logický smysl – vzájemně se ovlivňují

Sestavení regresního modelu kojenecké úmrtnosti (data používáme dmg_2019_data.sav)

Snažíme se o nejvyšší R Square, ale zároveň sig. proměnné

První úkol je vytvořit součtový index – netřeba užít syntaxi

- Dále ukázat souvislost dvou indexů

Binární logistická regrese

Najdeme v analyze – regression – Binary logistic

U nespojitých proměnných nutno udělat toto:

Najdeme v analyze – regression – multinominal logistic regression

Zase nás zajímá Exp(B)

- Pokud je příliš složitá na interpretaci, můžeme udělat 4x tu předchozí regresi – výsledky

Co ovlivňuje výsledky předmětu Statistika II: záleží na způsobu hodnocení

Uspěl/neuspěl – binární logistická (vstupují do ní spojité i kategorizované – ty však nutno

A-F – multinomická - (vstupují do ní spojité – kolonka covariants i kategorizované – factors),

Témata na závěrečný test (praktická část):

Nulová hypotéza, parametrický vs neparametrický test, hladina významnosti

- Pro proměnné s málo kategoriemi

t-test – ověření statistické signifikance

- Srovnání dvou skupin

Anova – ověření statistické signifikance

- Srovnání libovolného počtu skupin

- referenční kategorie má hodnotu nula, čteme sloupeček B

Binární logistická regrese

- referenční kategorie má hodnotu 1 (o kolik procent se to změní, když uděláme -1 a následně

(multinomiální logistická regrese)

Abychom mohli regresovat, musíme korelovat

- regrese počítá přesně jakým způsobem spolu proměnné korelují

- aby šla dělat regrese

You might also like