You are on page 1of 39

Varianta 17/B

1. V následující tabulce jsou uvedeny hodnoty vysvětlované veličiny Y a dvou vysvětlujících


proměnných X1 a X2.

a) Zkonstruujte regresní model mezi veličinou Y a vysvětlující veličinou X2 a posuďte jeho


statistickou významnost (zapište regresní rovnici, korelační charakteristiku a odpovídající
p-hodnoty).

Y= -109,06212 + 4,71376
R-Square = 0,5227 => míra závislosti Y na X2 je
52,27%

P<0,001 => závislost modelu je statisticky významná

P<0,0181 => závislost parametru X2 je statisticky


významná

Korelační koeficient

Pearsonův koef.=0,7229

b) Sestrojte regresní model závislosti veličiny Y na obou vysvětlujících veličinách. Zapište jeho
rovnici, vyhodnoťte sílu příslušné závislosti a statistickou významnost modelu (zapište a
interpretujte příslušné p-hodnoty).

Y = -432,96718 + 2,21823 + 3,94914


R-Square = 0,6991 => závislost na obratu = 69,91 %
P = 0,0149 – závislost modelu je statisticky významná
P = 0,0824 – závislost parametru X1 je statisticky
nevýznamná
P = 0,0260 – závislost parametru X2 je statisticky
významná
c) Proveďte regresní diagnostiku daného vícenásobného modelu.

Konstantní rozptyl
Pr > ChiSQ
0,9553 > 0,05 zamítáme hypotézu H0
Rezidua mají konstantní rozptyl.

d) Pomocí vhodné selekční procedury rozhodněte, zda jsou obě vysvětlující proměnné
v modelu nezbytné.

Obě proměnné jsou v modelu nezbytné.


2. V souboru 12 náhodně vybranných pracovníků byl zjišťován počet vyrobených
výrobků za směnu před a po provedení úpravy výrobní technologie. Zjištěné
výsledky jsou následující:

a) Posuďte, zda porovnávané soubory mají lehké nebo těžké konce.

(Pred)Kurtosis = 2.8472239 má těžké konce


(Po)Kurtosis =7.2550179 má také těžké konce

b) Uveďte 95 % intervaly spolehlivosti pro průměr a směrodatnou odchylku souboru


„po úpravě“.

c) Posuďte, zda porovnávané datové soubory pocházejí z normálního rozdělení.


Zapište příslušné p-hodnoty.

Po úpravě: Před úpravou:

Po úpravě: p = 0,0014 => p < 0,05 => soubor nemá normální rozdělení
Před úpra: p = 0,1515 => p < 0,05 => soubor má normální rozdělení

d) Rozhodněte zda úprava technologie vedla ke změně výkonu pracovníka.


Varianta 28/A

1. Následující údaje představují životnost určitých výrobků (v hod) od tří různých


dodavatelů.

a) Proveďte průzkumovou analýzu všech datových souborů (odlehlá případně


extrémní pozorování, rozdělení s lehkými nebo těžkými konci).

Kurtoris = 3,2848232 => má těžké konce

Kurtoris = 0,0881296 =>

Kurtoris = 4,7294210 => má těžké konce

b) Posuďte, zda jednotlivé soubory A, B a C mají normální rozdělení.


proc univariate data=vyrobky1 normal;
run;

A: 0,1174 > 0,05 => má norml. rozděl.; B: 0,1741 => má norml. rozděl.; C: nemá
c) Pro data dodavatele B zkonstruujte 95 % interval spolehlivosti pro winsorizovaný
průměr.

2050????

d) Pomocí parametrického testu otestujte, zda životnost výrobků je u všech


dodavatelů shodná (zapiště příslušné p-hodnoty a další potřebné výsledky).

P = 0,001 => p<0,05 => zamítá se hypotéza H0, rozdíl je statisticky významný
Rozptyly se neshodují

e) Pomocí neparametrického testu ověřte, zda životnost výrobků je u všech


dodavatelů shodná (zapiště příslušnou p-hodnotu). Porovnejte výsledky
parametrického a neparametrického postupu a zdůvodněte, který z nich je v dané
situaci vhodnější.
p = 0,001 – zamítá se hypotéza H0

Existuje statistický rozdíl mezi všemi městy (***)


2.Je dána následující tabulka, charakterizující vztah dvou nominálních znaků X a Y:

Pomocí vhodné procedury proveďte analýzu této tabulky.


a) Zapište nulovou hypotézu (slovně).
p-value > 0.05. => tedy MA nulove rozdeleni.
p-value < 0.05 => tedy NEMA nulove rozdeleni. H0: má normální rozdělení
b) Proveďte test nulové hypotézy (vypiště odpovídající p-hodnotu a interpretujte
výsledek).

Warning, že více než 33% teoretických četností je menších než 5 a musíte teda použít
Fisherův test.

c) Zhodnoťte sílu závislosti obou znaků pomocí vhodné chi – kvadrátové míry (uveďte
její hodnotu).
Mezi uvedenými znaky neexistuje závislost?
d) Pomocí vhodné predikční míry asociační závislosti (míry typu PRE) zhodnoťte
závislosti sloupcové proměnné na řádkové proměnné.

Míra závislosti = 0,4000 = 40%

e) Jaká je síla závislosti řádkové proměnné na sloupcové proměnné?


Míra závislosti = 0,3462 = 34,62 %
Varianta 38/B

1. Následující údaje představují životnost určitých výrobků (v hod) od dvou různých


dodavatelů. Od dodavatele A bylo testováno 12 výrobků, od dodavatele B 10 výrobků.

a) Proveďte průzkumovou analýzu obou datových souborů (odlehlá případně extrémní


pozorování, rozdělení s lehkými nebo těžkými konci).

b) Posuďte, zda soubory A a B mají normální rozdělení (uveďte příslušné p-hodnoty).


proc univariate data=datavyrobky normal;
run;

A: p=0,1174 > 0,05 => má normální rozděl. B: p=0,1741 > 0,05 => má normál. rozděl.

c) Pro data dodavatele A zkonstruujte 95 % interval spolehlivosti pro useknutý průměr.


Proc univariate data=datavyrobky trimmed=2 alpha=0.05;
Var výsledky;
Run;
d) Pomocí vhodného testu otestujte, zda životnost výrobků je u obou dodavatelů shodná
(zapište příslušnou p-hodnotu.)
proc ttest data=datavyrobky; (kdyby jeden neměl norm. rozděl-wilconů)
paired A*B;
run;
P = 0,001 < 0.05 => H0 se zamítá => životnosti jsou rozdílné.
2. Je dána následující tabulka, charakterizující vztah dvou nominálních znaků X a Y:

Pomocí vhodné procedury proveďte analýzu této tabulky.

a) Zapište nulovou hypotézu (slovně).


b) Proveďte test nulové hypotézy (vypište odpovídající p-hodnotu a interpretujte výsledek).

c) Zhodnoťte sílu závislosti obou znaků pomocí vhodné chí – kvadrátové míry (uveďte její
hodnotu).
Výsledek v předchozím příkladu.
d) Pomocí vhodné predikční míry asociační závislosti (míry typu PRE) zhodnoťte sílu závislosti
sloupcové proměnné na řádkové proměnné.
A) Zavislost mezi Y a X2
proc reg data=regrese;
model Y=X2 / clm cli;
plot Y*X2 / conf95;
run;
cli – interval spolehlivosti pro „predict“, tzn. pás spolehlivosti pro odhadované hodnoty
clm – interval spolehlivosti pro očekávané hodnoty závisle proměnné (průměr) vypočtené pro každé
pozorování xi

B) Závislost mezi Y a X1 a X2
proc reg data=regrese;
model Y=X1 X2;
symbol v=dot c=red;
run;

Analyza vystupu:
H0: Zavislost neni statisticky vyznamna (obecne).
Obrazovka "Analysis of Variance", p-hodnota "Pr > F" = 0.0001
0.0001 < 0.05 => H0 se ZAMITA => Model je statisticky vyznamny (zobecnitelny).
Koeficient determinace:
R-Square = 0,9501
Y je zavisle na X12 ze 95,01%.
Rovnice mnohonasobne regresni primky:
Hledany tvar: Y = cislo1 + cislo2 * X1 + cislo3 * X2
Y = -3.30627+ 0.01006* X1 + 0.16040* X2
Obrazovka "Parameter Estimates":
cislo1 = hodnota sloupce "Parameter estimate" na radku "Intercept"
cislo2 = hodnota sloupce "Parameter estimate" na radku s promennou X1
cislo3 = hodnota sloupce "Parameter estimate" na radku s promennou X2

C) REGRESNÍ DIAGNOSTIKA
proc reg data=regrese;
model Y = X1 X2 / r influence;
run;
Existuje nezadouci zavislost vysvetlujicich promennych mezi sebou (multikolinearita)?
Variation Inflaction Factor (VIF)
Obrazovka "Parameter estimates", hodnota "Variance Inflation" Spatne, pokud je > 10.
Tady není zadna

Existuji v mnozine dat odlehla pozorovani?


- Studentizovane reziduum (SR)
Obrazovka "Output statistics", sloupec "Student Residual"
- Pokud |SR| > 2, tak se jedna o odlehle pozorovani.
- Pomucka sloupec "-2-1 0 1 2", kazda "*" znamena hodnotu 0,5...proto kdyz jsou tam
4 hvezdicky, tak se zamerit na dany radek...
Tady není nic

Existuji v mnozine dat vybocujici pozorování?


- kdyz diagnosticka charakteristika “leverage” (hii) prekroci hranici 2p / n
p ... pocet parametru mnohonasobne regresni rovnice
n ... pocet pozorovani
Srovnavaci hranice: 2*3 / 10 = 6/10 = 0.6
Obrazovka "Output statistics", sloupec "Hat Diag H".
Treti pozorovani prekrocilo hranici 0.6

Existuji v mnozine dat vlivne pozorovani?


Podle DFFITS:
- Pozorovani je vlivne, pokud |DFFITS| > 2 * odmocnina (p / n)
p ... pocet parametru mnohonasobne regresni rovnice
n ... pocet pozorovani
Srovnavaci hranice: 2*odmocnina (3/10) = 1,095445115010332
Obrazovka "Output statistics", sloupec "DFFITS".
Zadny pozorovani není vlivny dle DFFITS

Podle Cookovy vzdalenosti:


- Pozorovani je vlivne, pokud "Cook's D" > 4 / n
n ... pocet pozorovani
Srovnavaci hranice: 4 / 10 = 0.4
Obrazovka "Output statistics", sloupec "Cook's D".
Zadny pozorovani neprekrocilo hranici 0,4

Existuje jedno vybocujici pozorovani, není ale vlivne.


TOHEL JE PRIKAZ NA KOMPLET DIAGNOSTIKU UKOLU 2 a 3
proc reg data=regrese;
model Y=X1 X2 / r influence vif;
symbol v=dot c=red;
run;
A. °Posudte zda maje porovnavane soubory lehke nebo tezke konce
kurtosis – koeficient špičatosti – signalizuje lehké a těžké konce.

B. Uvedte 95% intervaly splehlivosti pro prumer a směrodatnou odchylku souboru po uprave

C. Posudte zda porovnavane soubory pochazeji z normálního rozdeleni a uvedte prislusne p –


hodnoty
a) Užijte parametrickou proceduru. Výsledek doložte příslušnou p – hodnotou.

proc glm data=byty;


class mesto;
model cena=mesto;
means mesto/hovtest tukey scheffe;
run;
analyza: Pr > F = 0.0037 tzn je to mensi nez 0,05
sloupec "Pr > F" < 0.05 => H0 se zamita => Ceny bytu jsou rozdilne.

b) Užijte neparametrickou proceduru. Výsledek doložte příslušnou p – hodnotou.

proc npar1way data=byty wilcoxon;


class mesto;
var cena;
run;

Pr > Chi-Square 0.0173


Chi-square < 0,05 - zamita se H0, nepochazeji ze stejneho rozdeleni a rozdil je statisticky vyznamny.
a) ZVOLTE a ZDŮVODNĚTE příslušnou parametrickou i neparametrickou proceduru.
0 : mu1=mu2=mu3
Zakladni charakteristiky - prumery, rozptyl, sikmost, spicatost
proc means data=byty mean median min max q1 q3 std cv skewness kurtosis
maxdec=2
range qrange;
class mesto;
var cena;
run;

analyza : sikmost a spicatost u A dost velka - mozna neni norm. rozdeleni

PROTO Kontrola dat boxplotem


Z toho plyne ze schematic => C vypada, ze je uplne mimo, A a B se asi nelisi;
notches => zarezy (inter. spoleh. pro median) mezi A a C se neprekr.
=> zrejme zde tedy nebude statisticka shoda

Test normality
=> jeliokz je malo vstupnich hodnot, tak bychom se spise meli spolehat na grafiku!
=> meli bychom se taky koukat na kurtosis a skewness ze zakladnich charakteristik
(mely by byt okolo 0)

analyza : Saphiro-Wilk pro ABC test sice udava A,B,C > 0,05(H0 : norm. rozdeleni), je malo
hodnot. Nutno pouzit k posouzeni normality histogram a Q-Q plot. Viz nize
(Histogram - sloupce mimo gauss, Q-Q plot - nektere odlehle hodnoty, radeji ne GLM.

p-value > 0.05 => Nulova hypoteza H0, ze nema nulove rozdeleni, se nezamita. => tedy MA nulove rozdeleni.

p-value < 0.05 => Nulova hypoteza H0, ze nema nulove rozdeleni, se potvrzuje. => tedy NEMA nulove rozdeleni.
b1) Parametricky test procedurou GLM (pouze, pokud je normalni rozdeleni!) */
proc glm data=byty;
class mesto;
model cena=mesto;
means mesto/hovtest tukey scheffe;
run;

Analyza: H0: mu1 = mu2?

p-hodnota je "Overall ANOVA"

sloupec "Pr > F" < 0.05 => H0 se zamita => Ceny bytu jsou rozdilne.

Levenevuv test shody rozptylu

Pokud "Pr>F" < 0,05 => rozptyly se neshoduji.

hovtest tukey ne - ruzne pocty promennych, nutno scheffe.

Scheffe: Pokud "Pr>F" < 0,05 => zamita se H0 => porovnani ukazuje na statisticky

vyznamne rozdily.

Scheffe porovnani ukazuje na statisticky významný rozdil A-C, A-B a B-C se

statisticky neliší.

b2) Neparametricky test (Wilcoxonuv, Kruskall-Wallisuv) procedurou npar1way


proc npar1way data=byty wilcoxon;
class mesto;
var cena;
run;
H0: mu1=mu2=mu3

Chi-square < 0,05 - zamita se H0, nepochazeji ze stejneho rozdeleni.


a) ZVOLTE a ZDŮVODNĚTE příslušnou parametrickou i neparametrickou proceduru.

H0: mesto1=mesto2=mesto3

Nejdriv test normality. Když vyjde normalni rozdeleni, tak muzu pouzit parametrickou i
neparametrickou proceduru. Pokud mam malo hodnot <20, tak bych se mel místo cisel spoléhat
na grafiku. Meli bychom se taky koukat na kurtosis a skewness ze zakladnich charakteristik (mely
by byt okolo 0).

Zakladni charakteristiky (sikmost spicatost atd)


proc means data=byty mean median min max q1 q3 std cv skewness kurtosis
maxdec=2
range qrange;
class mesto;
var cena;
run;

analyza: sikmost a spicatost u A dost velka - mozna neni norm. rozdeleni, nutno ověřit graficky

overeni graficky pomoci boxplotu (z toho vidim celkem hovno)


proc boxplot data=byty;
plot cena*mesto/boxstyle=schematic;
plot cena*mesto/notches;
run;

analyza : schematic => C vypada, ze je uplne mimo, A a B se asi nelisi;


notches => zarezy (inter. spoleh. pro median) mezi A a C se neprekr.
=> zrejme zde tedy nebude statisticka shoda
Test normality
proc univariate data=byty normal;
class mesto;
var cena;
histogram cena/normal;
qqplot cena/normal (mu=est sigma=est);
run;

analyza : Saphiro-Wilk test sice udava A,B,C > 0,05(H0 : norm. rozdeleni), je malo hodnot. Nutno
pouzit k posouzeni normality histogram a Q-Q plot. Histogram - sloupce mimo gauss, Q-Q plot -
nektere odlehle hodnoty, radeji ne GLM (parametricky test) ale ten druhy.

p-value > 0.05 => Nulova hypoteza H0, ze nema nulove rozdeleni, se nezamita. => tedy MA nulove
rozdeleni. JE TO JEN DLE CISEL, diky grafu ale radsi použiju neparametrickou.

NEPARAMETRICKA PROCEDURA
proc npar1way data=byty wilcoxon;
class mesto;
var cena;
run;

H0: mu1=mu2=mu3

Chi-square < 0,05 - zamita se H0, nepochazeji ze stejneho rozdeleni a rozdil je statisticky vyznamny.
PARAMETRICKA PROCEDURA (jen pokud ma normalni rozdeleni, tady zrejme nemá, ale zkusim to)
proc glm data=byty;
class mesto;
model cena=mesto;
means mesto/hovtest tukey scheffe;
run;

Analyza:

H0: mu1 = mu2?

p-hodnota je "Overall ANOVA"

sloupec "Pr > F" < 0.05 => H0 se zamita => Ceny bytu jsou rozdilne.

Levenevuv test shody rozptylu

Pokud "Pr>F" < 0,05 => rozptyly se neshoduji.

hovtest tukey

ne - ruzne pocty promennych, nutno scheffe.

Scheffe:

Pokud "Pr>F" < 0,05 => zamita se H0 => porovnani ukazuje na statisticky vyznamne rozdily.

Scheffe porovnani ukazuje na statisticky významný rozdil u A-C,

A-B a B-C se statisticky neliší.


a) Posudte zda v datech nejsou odlehle nebo extreni hodnoty

Zadani dat (Abychom mohli sestavit boxplot, tak byla pridana fiktivni promenna "group" (s hodnotou 1))
data prikladTyp3;
group=1;
input hodnota@@;
datalines;
3.7 5.7 3.8 3.2 3.1 4.6 2.4 7.2 6.7 5.4
3.9 4.5 3.5 4.5 1.5 12.5 4.5 6.5 4.1 5.5
;
run;

proc boxplot data=prikladTyp3;


plot hodnota*group/boxstyle=schematic;
run;

Vygenerovani boxplotu

Na boxplotu je usecka, ta vybiha max. do 1,5 nasobku mezikvartiloveho rozpeti (IQR).

Body, ktere jsou MIMO usecku (1,5 az 3 nasobek IQR), tak jsou odlehle.

Pokud jsou vzdaleny 3x IQR a vic, tak to jsou extremni pozorovani (zrejme chyby

mereni). => Hodnota 12,5 je extremnim pozorovanim.

b) Uvedte 95% interval spolehlivosti pro prumer


proc univariate data=prikladTyp3 cibasic;
var hodnota;
run;

Analyza: Prikazem cibasic => Obrazovka "Basic confidence limits", radek "Mean" MIN a MAX hodnoty
z "95% Confidence Limit" => 3.76208 5.91792
c) Rozhodnete zda data pochazeji z normálního rozdeleni. Zapiste a interpretujte příslušnou p –
hodnotu
proc univariate data=prikladTyp3 normal;
var hodnota;
histogram hodnota/normal;
qqplot hodnota/normal (mu=est sigma=est);
run;

Analyza: Jelikoz mame dost hodnot (20), tak neresit graficky, ale numericky.

Pokud je p-hodnota > 0.05, tak MA normalni rozdeleni.

Zaver: Soubor nema normalni rozdeleni.

(Samozrejme pokud bychom opravili hodnotu 12,5, tak by vysledek vysel presne opacne...)

d) Otestujte zda plati h0:u=5


proc univariate data=prikladTyp3 mu0=5;
var hodnota;
run;

=> Student's t (jednovyberovy t-test) je parametricky test, který predpoklada normalni rozdeleni (a
to neni splneno). => Proto tento test nemuzu pouzit...

=> Zbyle dva jsou neparametricke (jdou pouzit).


Pokud je < 0.05, tak se hypoteza ZAMITA.
My mame > 0.05 => Prumerna hodnota je proto 5.
1)
proc boxplot data=sodik;
plot hodnota*group/boxstyle=schematic;
run;

odlehla je hodnota 2,5 dle vygenerovaného boxplotu, není extremni a nejedna se tedy o chybu
mereni

2)
proc univariate data=sodik cibasic;
var hodnota;
run;
MIN 38.00074

MAX 52.26926

3)
proc univariate data=sodik normal;
var hodnota;
histogram hodnota/normal;
qqplot hodnota/normal (mu=est sigma=est);
run;

Pokud je p-hodnota > 0.05, tak MA normalni rozdeleni.

p=0.3505 soubor ma normalni rozdleni

4)
proc univariate data=sodik mu0=55;
var hodnota;
run;
Pokud je < 0.05, tak se hypoteza ZAMITA.
My mame 0.0093 < 0.05 prumerna hodnota proto není 55
A) Charakterizujte individualni zavislosti obratu na reklam v novinách a rozhlasu a televizi
1) obrat na novinách
proc reg data=reklama;
model obrat=noviny;
run;

Regresni rovnice:
Obrat=561.88889+21.69630noviny

R-Square: 0.4083 = závislot obratu na


novinách je 40,83%

P=0,343 = Závislost modelu je statisticky


významná

P=0,343 = Závislost parametru NOVINY je


statisticky významná

2)obrat na rtv

proc reg data=reklama;


model obrat=rtv;
run;

Regresni rovnice:
Obrat=643.05263+13.73421rtv

R-Square: 0,5117 = závislot obratu na rtv je


51,17%

P=0,0133 = Závislost modelu je statisticky


významná

P=0,0133 = Závislost parametru RTV je


statisticky významná
B) Mnohonasobna zavislost obratu na reklame v novinách a v rozhlasu a televizi
proc reg data=reklama;
model obrat=noviny rtv;
run;

Obrat=37,98511+20,27562noviny+13,
02723+13,7342rtv

R-Square=0,5117 – závislost na obratu


= 51,17%

P=0,0003 Model je stat vyznamny

P=0,0017 Zavislost parametru noviny


je statisticky vyznamna

P=0,0008 Zavislost parametru rtv je


statisticky vyznamna
C) Zhodnotte odpovídajícími metodami kvalitu nalezeneho modelu
proc reg data=reklama;
model obrat=noviny rtv /r influence spec vif;
run;

1) Multikolinearita
Hodnota variance infuence VIF
VIF vetsi nez 10 není zadny radek
2) Konstantní rozptyl

You might also like