You are on page 1of 10

Statistika seminář – týden 3

V102 – škála levice pravice

1-3 levice

8-10 pravice

První domácí úkol

1. Úloha – téma probírané až příští seminář


2. + 3. témata z minulého semestru
Další úlohy: již probíraná témata z tohoto semestru

Statistická signifikance:
Testujte hypotézu/zjistěte zobecnitelnost = statistická signifikance

V sociálních vědách nelze jednoduše potvrdit hypotézu – nelze to, protože Karl Popper, proto
pracujeme s tzv. nulovými hypotézami (H0), které předpokládají neexistenci vztahu mezi
proměnnými.

Proto stanovujeme hypotézu jako: Mezi proměnnými neexistuje rozdíl na základě zvoleného faktoru
– cílem zkoumání/analýzy je tuto hypotézu vyvrátit.

Příklad:

H: Mezi vzděláním a akceptací homosexuality existuje vztah.

H0: Mezi vzděláním a akceptací homosexuality neexistuje žádný vztah.

Korelace:
- Cramerovo V – nominální
- Kendaulovo tau (B nebo C) – ordinální
- Pearsonovo R – intervalová

p-hodnota = hodnota Sig. v korelacích :)

chí kvadrát najdeme v crosstabs v statistics

Faktorová analýza
Řekněte mi pro každý z výroků, zda je jednání ospravedlnitelné vždy, nikdy či něco mezi tím.

- Desetibodová stupnice
- 15 různých kategorií

Pro usnadnění práce si vytvořím nový součtový index všech proměnných, který bude poukazovat na
celkovou toleranci věcí – tím ale trochu sčítám hrušky s jabkama, proto musíme nejdříve použít:

Cronbachovo alfa – přes Analyze – Scale – Reliability Analysis

nejmenší co to může být je 0,6 – 0,7 (aby šlo věci spolu sčítat)

Ještě jde udělat scan if item deleted (na stejným místě ve statistics) – ukáže nám, zda se index změní
a jak, pokud bychom určitou položku vynechali – to nám může pomoct, pokud bychom měli hodnotu
Cronbachovy alfy moc nízkou.

Samotná faktorová analýza:

Analyze – Dimension reduction – Factor

Vyjede nám milion tabulek

V Component Matrix se zobrazují korelace (můžeme je zobrazit i jen ty, co jsou nad nějakou hodnotu)

- Pořád to však hází zmatenou a velkou tabulku

Abychom věc zjednodušili. Použijeme možnost rotation (direct oblimin či varimax) – díváme se na
tabulku patern matrix
Skupiny se tvoří podle toho, ve které skupině se zobrazuje hodnota (případně bereme nejvyšší
hodnotu, či řadíme do skupiny na základě logické souvislosti, můžeme zařadit jednu proměnnou i do
více skupin)

Naším cílem je vytvořit tři skupiny – tři indexy, které budeme následně analyzovat – každý index by
měl obsahovat stejný počet proměnných (pokud ne, musím následně součtový index udělat dělený
počtem kategorií)

Vše, co musím při faktorovce udělat:

- Rotation – popsáno výše


- Zaklikat v options následující věci:
- Zaklikat v Extraction následující:

Klastrová analýza
V analyze – clasify – hierarchical cluster

Spodní kategorie, které chci klastrovat

Hodní, podle jakých kritérií chci klastrovat (zjistit podobnost mezi např. kraji)

Lineární regrese

- Regression – linear
R square – čím vyšší procento, tím lepší model

Zde nás zajímá pouze sig.

Regresivní rovnice – Y = A + BX = 7,6 – 0,019 x věk


A = 7,6 (první řádek pod B)

B = -0,019 (druhý řádek pod B)

X = věk (aka vysvětlující proměnná)

Pokud přidáme další proměnnou:

Y = 7,5 – 0,019 x věk + 0,024 x pohlaví (výsledné Y označuje jak moc akceptují rozvody, čím vyšší, tím
větší akceptace)

Nutno dívat se na sig. níže například všechny proměnné kromě pohlaví mají 3 hvězdičky, protože jsou
signifikantní na nejvyšší úrovni, pohlaví není na žádné úrovni, tudíž nemá žádnou hvězdičku
Co ale nyní? Vyřadíme nesignifikantní?

- Ne, pokud dávají logický smysl – vzájemně se ovlivňují

Sestavení regresního modelu kojenecké úmrtnosti (data používáme dmg_2019_data.sav)


Do dependant dáváme : kojenecká úmrtnost
Do independent: naděje dožití

Můžeme přidávat další, ale pokud přidáme moc, bude vše nesig. Kvůli malému počtu případů
v jednotlivých kategoriích.

Snažíme se o nejvyšší R Square, ale zároveň sig. proměnné

Současně je nutné mít na paměti, jaké jsou škály, na kterých proměnné měříme
Úkol 2 –

První úkol je vytvořit součtový index – netřeba užít syntaxi

Druhý úkol – je nutno vybrat data pouze pro ČR (prostřednictvím select cases)

- Dále ukázat souvislost dvou indexů

Třetí úkol – lineární regrese (vysvětlující proměnná je index četnosti konfliktů, vysvětlovaná je index
genderových postojů…) podíváme se, zda se změnil koeficient

Binární logistická regrese


Potřebuji hodnoty jen 1 a 0 – musím rekódovat
mohou do ní vstupovat i nespojité proměnné

Najdeme v analyze – regression – Binary logistic

Důležitý je koeficient Exp(B), který říká, jak se zvýší pravděpodobnost, že analyzovaný jev nastane.
Analyzuje se jako -1 a poté krát 100, výsledek vychází v procentech.

U nespojitých proměnných nutno udělat toto:


Vždy porovnáváme vůči referenční kategorii (ta má hodnotu 1 tzn. 0 %), v tomto případě tedy
základní škola.

Multinomická/mulitonomiální regrese
Pokud je více kategorií než dvě

Najdeme v analyze – regression – multinominal logistic regression

Covariants – spojité
Factors – kategorizované

Zase nás zajímá Exp(B)

Když má moje matka maturitu místo vysoké školy, tak moje šance, že získám výuční list místo
základního vzdělání je o 488 % vyšší.

- Pokud je příliš složitá na interpretaci, můžeme udělat 4x tu předchozí regresi – výsledky


dávají obě stejné
Cvičení na typy regrese:

Co ovlivňuje výsledky předmětu Statistika II: záleží na způsobu hodnocení

Uspěl/neuspěl – binární logistická (vstupují do ní spojité i kategorizované – ty však nutno


označit), exp(B) – vyjadřuje změnu pravděpodobnosti/šancí

A-F – multinomická - (vstupují do ní spojité – kolonka covariants i kategorizované – factors),


exp(B) – vyjadřuje změnu pravděpodobnosti/šancí

100-0 - lineární (vstupují do ní poté jen spojité a dichotomické proměnné), koeficienty B a beta –
vyjadřuje, jak se změní (o B) jedna proměnná, pokud se změní druhá proměnná o 1.

7.12.2023 – opáčko

Témata na závěrečný test (praktická část):

Nulová hypotéza, parametrický vs neparametrický test, hladina významnosti

Interval spolehlivost

Signifikance
Chí kvadrát – ověření statistické signifikance (v crosstabs)

- Pro proměnné s málo kategoriemi

t-test – ověření statistické signifikance

- Srovnání dvou skupin

Interpretace: podívám se na Sig. F testu, podle toho vyberu řádek a v tom je platná Sig. T testu

Anova – ověření statistické signifikance

- Srovnání libovolného počtu skupin


- nutno udělat post hoc test – safe choice je Bonferroni

krombachovo alfa

faktorová analýza

(clustrová/seskupovací analýza)

Lineární regrese

- referenční kategorie má hodnotu nula, čteme sloupeček B

Binární logistická regrese

- referenční kategorie má hodnotu 1 (o kolik procent se to změní, když uděláme -1 a následně


x100) – čteme sloupeček exp(B)
- vysvětlovaná proměnná musí být kódovaná jako 0 a 1 (nic jiného)

(multinomiální logistická regrese)

Korelace vs regrese

Abychom mohli regresovat, musíme korelovat


Slova: model či vliv více proměnných či predikce indikuje regresi

- regrese počítá přesně jakým způsobem spolu proměnné korelují


- korelace počítá jenom sílu vztahu (nelze u ní říct, když se něco změní o jedna, druhé se změní
o XY)

Dami proměnné

- aby šla dělat regrese


- tvořím je přes Transform – Dummy variables

You might also like