Professional Documents
Culture Documents
vÅ¡e-spojené (På à Klady)
vÅ¡e-spojené (På à Klady)
Y= -109,06212 + 4,71376
R-Square = 0,5227 => míra závislosti Y na X2 je
52,27%
Korelační koeficient
Pearsonův koef.=0,7229
b) Sestrojte regresní model závislosti veličiny Y na obou vysvětlujících veličinách. Zapište jeho
rovnici, vyhodnoťte sílu příslušné závislosti a statistickou významnost modelu (zapište a
interpretujte příslušné p-hodnoty).
Konstantní rozptyl
Pr > ChiSQ
0,9553 > 0,05 zamítáme hypotézu H0
Rezidua mají konstantní rozptyl.
d) Pomocí vhodné selekční procedury rozhodněte, zda jsou obě vysvětlující proměnné
v modelu nezbytné.
Po úpravě: p = 0,0014 => p < 0,05 => soubor nemá normální rozdělení
Před úpra: p = 0,1515 => p < 0,05 => soubor má normální rozdělení
A: 0,1174 > 0,05 => má norml. rozděl.; B: 0,1741 => má norml. rozděl.; C: nemá
c) Pro data dodavatele B zkonstruujte 95 % interval spolehlivosti pro winsorizovaný
průměr.
2050????
P = 0,001 => p<0,05 => zamítá se hypotéza H0, rozdíl je statisticky významný
Rozptyly se neshodují
Warning, že více než 33% teoretických četností je menších než 5 a musíte teda použít
Fisherův test.
c) Zhodnoťte sílu závislosti obou znaků pomocí vhodné chi – kvadrátové míry (uveďte
její hodnotu).
Mezi uvedenými znaky neexistuje závislost?
d) Pomocí vhodné predikční míry asociační závislosti (míry typu PRE) zhodnoťte
závislosti sloupcové proměnné na řádkové proměnné.
A: p=0,1174 > 0,05 => má normální rozděl. B: p=0,1741 > 0,05 => má normál. rozděl.
c) Zhodnoťte sílu závislosti obou znaků pomocí vhodné chí – kvadrátové míry (uveďte její
hodnotu).
Výsledek v předchozím příkladu.
d) Pomocí vhodné predikční míry asociační závislosti (míry typu PRE) zhodnoťte sílu závislosti
sloupcové proměnné na řádkové proměnné.
A) Zavislost mezi Y a X2
proc reg data=regrese;
model Y=X2 / clm cli;
plot Y*X2 / conf95;
run;
cli – interval spolehlivosti pro „predict“, tzn. pás spolehlivosti pro odhadované hodnoty
clm – interval spolehlivosti pro očekávané hodnoty závisle proměnné (průměr) vypočtené pro každé
pozorování xi
B) Závislost mezi Y a X1 a X2
proc reg data=regrese;
model Y=X1 X2;
symbol v=dot c=red;
run;
Analyza vystupu:
H0: Zavislost neni statisticky vyznamna (obecne).
Obrazovka "Analysis of Variance", p-hodnota "Pr > F" = 0.0001
0.0001 < 0.05 => H0 se ZAMITA => Model je statisticky vyznamny (zobecnitelny).
Koeficient determinace:
R-Square = 0,9501
Y je zavisle na X12 ze 95,01%.
Rovnice mnohonasobne regresni primky:
Hledany tvar: Y = cislo1 + cislo2 * X1 + cislo3 * X2
Y = -3.30627+ 0.01006* X1 + 0.16040* X2
Obrazovka "Parameter Estimates":
cislo1 = hodnota sloupce "Parameter estimate" na radku "Intercept"
cislo2 = hodnota sloupce "Parameter estimate" na radku s promennou X1
cislo3 = hodnota sloupce "Parameter estimate" na radku s promennou X2
C) REGRESNÍ DIAGNOSTIKA
proc reg data=regrese;
model Y = X1 X2 / r influence;
run;
Existuje nezadouci zavislost vysvetlujicich promennych mezi sebou (multikolinearita)?
Variation Inflaction Factor (VIF)
Obrazovka "Parameter estimates", hodnota "Variance Inflation" Spatne, pokud je > 10.
Tady není zadna
B. Uvedte 95% intervaly splehlivosti pro prumer a směrodatnou odchylku souboru po uprave
Test normality
=> jeliokz je malo vstupnich hodnot, tak bychom se spise meli spolehat na grafiku!
=> meli bychom se taky koukat na kurtosis a skewness ze zakladnich charakteristik
(mely by byt okolo 0)
analyza : Saphiro-Wilk pro ABC test sice udava A,B,C > 0,05(H0 : norm. rozdeleni), je malo
hodnot. Nutno pouzit k posouzeni normality histogram a Q-Q plot. Viz nize
(Histogram - sloupce mimo gauss, Q-Q plot - nektere odlehle hodnoty, radeji ne GLM.
p-value > 0.05 => Nulova hypoteza H0, ze nema nulove rozdeleni, se nezamita. => tedy MA nulove rozdeleni.
p-value < 0.05 => Nulova hypoteza H0, ze nema nulove rozdeleni, se potvrzuje. => tedy NEMA nulove rozdeleni.
b1) Parametricky test procedurou GLM (pouze, pokud je normalni rozdeleni!) */
proc glm data=byty;
class mesto;
model cena=mesto;
means mesto/hovtest tukey scheffe;
run;
sloupec "Pr > F" < 0.05 => H0 se zamita => Ceny bytu jsou rozdilne.
Scheffe: Pokud "Pr>F" < 0,05 => zamita se H0 => porovnani ukazuje na statisticky
vyznamne rozdily.
statisticky neliší.
H0: mesto1=mesto2=mesto3
Nejdriv test normality. Když vyjde normalni rozdeleni, tak muzu pouzit parametrickou i
neparametrickou proceduru. Pokud mam malo hodnot <20, tak bych se mel místo cisel spoléhat
na grafiku. Meli bychom se taky koukat na kurtosis a skewness ze zakladnich charakteristik (mely
by byt okolo 0).
analyza: sikmost a spicatost u A dost velka - mozna neni norm. rozdeleni, nutno ověřit graficky
analyza : Saphiro-Wilk test sice udava A,B,C > 0,05(H0 : norm. rozdeleni), je malo hodnot. Nutno
pouzit k posouzeni normality histogram a Q-Q plot. Histogram - sloupce mimo gauss, Q-Q plot -
nektere odlehle hodnoty, radeji ne GLM (parametricky test) ale ten druhy.
p-value > 0.05 => Nulova hypoteza H0, ze nema nulove rozdeleni, se nezamita. => tedy MA nulove
rozdeleni. JE TO JEN DLE CISEL, diky grafu ale radsi použiju neparametrickou.
NEPARAMETRICKA PROCEDURA
proc npar1way data=byty wilcoxon;
class mesto;
var cena;
run;
H0: mu1=mu2=mu3
Chi-square < 0,05 - zamita se H0, nepochazeji ze stejneho rozdeleni a rozdil je statisticky vyznamny.
PARAMETRICKA PROCEDURA (jen pokud ma normalni rozdeleni, tady zrejme nemá, ale zkusim to)
proc glm data=byty;
class mesto;
model cena=mesto;
means mesto/hovtest tukey scheffe;
run;
Analyza:
sloupec "Pr > F" < 0.05 => H0 se zamita => Ceny bytu jsou rozdilne.
hovtest tukey
Scheffe:
Pokud "Pr>F" < 0,05 => zamita se H0 => porovnani ukazuje na statisticky vyznamne rozdily.
Zadani dat (Abychom mohli sestavit boxplot, tak byla pridana fiktivni promenna "group" (s hodnotou 1))
data prikladTyp3;
group=1;
input hodnota@@;
datalines;
3.7 5.7 3.8 3.2 3.1 4.6 2.4 7.2 6.7 5.4
3.9 4.5 3.5 4.5 1.5 12.5 4.5 6.5 4.1 5.5
;
run;
Vygenerovani boxplotu
Body, ktere jsou MIMO usecku (1,5 az 3 nasobek IQR), tak jsou odlehle.
Pokud jsou vzdaleny 3x IQR a vic, tak to jsou extremni pozorovani (zrejme chyby
Analyza: Prikazem cibasic => Obrazovka "Basic confidence limits", radek "Mean" MIN a MAX hodnoty
z "95% Confidence Limit" => 3.76208 5.91792
c) Rozhodnete zda data pochazeji z normálního rozdeleni. Zapiste a interpretujte příslušnou p –
hodnotu
proc univariate data=prikladTyp3 normal;
var hodnota;
histogram hodnota/normal;
qqplot hodnota/normal (mu=est sigma=est);
run;
Analyza: Jelikoz mame dost hodnot (20), tak neresit graficky, ale numericky.
(Samozrejme pokud bychom opravili hodnotu 12,5, tak by vysledek vysel presne opacne...)
=> Student's t (jednovyberovy t-test) je parametricky test, který predpoklada normalni rozdeleni (a
to neni splneno). => Proto tento test nemuzu pouzit...
odlehla je hodnota 2,5 dle vygenerovaného boxplotu, není extremni a nejedna se tedy o chybu
mereni
2)
proc univariate data=sodik cibasic;
var hodnota;
run;
MIN 38.00074
MAX 52.26926
3)
proc univariate data=sodik normal;
var hodnota;
histogram hodnota/normal;
qqplot hodnota/normal (mu=est sigma=est);
run;
4)
proc univariate data=sodik mu0=55;
var hodnota;
run;
Pokud je < 0.05, tak se hypoteza ZAMITA.
My mame 0.0093 < 0.05 prumerna hodnota proto není 55
A) Charakterizujte individualni zavislosti obratu na reklam v novinách a rozhlasu a televizi
1) obrat na novinách
proc reg data=reklama;
model obrat=noviny;
run;
Regresni rovnice:
Obrat=561.88889+21.69630noviny
2)obrat na rtv
Regresni rovnice:
Obrat=643.05263+13.73421rtv
Obrat=37,98511+20,27562noviny+13,
02723+13,7342rtv
1) Multikolinearita
Hodnota variance infuence VIF
VIF vetsi nez 10 není zadny radek
2) Konstantní rozptyl