You are on page 1of 23

Proiect sondajul statistic

Acatrini Ana-Maria Studenta Master SAAS, anul I Profesor coordonator: Elisabeta Jaba

Iasi 2013

Cuprins
Introducere Sondajul aleator simplu
Estimarea parametrilor Corelatia paremetrilor Regresie pentru sondajul aleator simplu Verificarea ipotezelor modelului de regresie

Sondajul stratificat
Estimarea parametrilor Corelatia paremetrilor Regresie pentru sondajul stratificat Verificarea ipotezelor modelului de regresie

Concluzie Bibliografie

Introducere

In acest proiect am dorit sa observam diferentele intre sondajul aleator simplu si cel stratificat in ceea ce priveste analizarea unui acelasi set de date extragand cate un esantion pentru fiecare metoda. Variabilele alese au fost gradul de indatorare (variabila dependenta) si categoriile gradului de indatorare (variabila independenta.) In prima parte am realizat analiza pe un esantion ales dupa metoda aleatoare simpla, in care s-a obtinut un esantion de 238 firme. In cadrul acestei analize am analizat corelatia intre cele doua variabile, modelul de regresie si testarea ipotezelor erorilor rezultate in urma modelului. In cea de-a doua parte am analizat un esantion dupa modelul stratificat, in care s-a obtinut un volum de 6 companii grupate dupa doua categorii ale gradului de indatorare. Deasemena si pentru acest esantion am realizat corelatia intre cele doua variabile, modelul de regresie si testarea ipotezelor erorilor rezultate in urma modelului.

Sondajul aleatoriu simplu

Sondajul aleatoriu simplu este tipul de baza al sondajelor aleatoare, toate celelalte sondaje aleatoare deriva din acesta, fiecare avand particularitatile lor. Astfel pentru a putea decide ce variabile vom alege pentru a face analiza am realizat o statistica descriptiva a tuturor variabilelor din baza de date BD-esantionare Top 500S&P.

Descriptive Statistics N Obiect activ itate Grad de indatorare Rentabilitate f inanciara Rentabilitatea economica Lev ier f inanciar Rata marjei nete Rata lichiditatii generale Categorii Grad indatorare Rentabilitatea capitalului inv estit Valid N (listwise) 477 477 477 477 477 477 477 477 477 477 Range 3 4.29 603.35 124.49 68.75 141.07 5.64 2 3 Minimum 1 .00 -145.95 -17.20 -30.07 -62.62 .00 1 1 Maximum 4 4.29 457.40 107.29 38.68 78.45 5.64 3 4 Mean 2.54 .4382 18.6994 11.5797 .9573 10.4341 .8844 1.38 1.95 Std. Dev iation 1.009 .31437 34.56618 10.78357 3.11115 10.53524 .75695 .542 .247 Variance 1.018 .099 1194.821 116.285 9.679 110.991 .573 .294 .061

Astfel ca dupa analiza descriptiva am ales ca variabila independenta categorii grad de indatorare, iar ca variabila dependenta grad de indatorare. Le-am ales pe acestea doua deoarece au ca valori pozitive atat pentru minim (1, respectiv 0.00), cat si pentru maxim (3, respectiv 4.29). Pentru a calcula volumule esantionului se va utiliza urmatoarea formula: n=

Pentru acest studiu s-a ales un risc de 0.05 2 = 1.96 = 0,03*range = 0.03*4.29 = 0.1287 2= 0.1287*0.1287 = 0.01656369 N=477 2 =0.099

n=

3,8410,099 0.01656

= 237.922

n= 238
In urma acestor date am creat un esantion de 238 firme, esantion pe care se vor aplica analize privind estimarea parametrilor, corelatie, modelul de regresie, testarea modelului de regresie si estimarea parametrilor.

Estimarea parametrilor
Descriptive Statistics N Statistic 238 238 Range Statistic 4.29 Minimum Maximum Statistic Statistic .00 4.29 Std. Mean Statistic Deviation Statistic .4564 .37182 Variance Statistic .138 Skewness Statistic Std. Error 5.468 .158 Kurtosis Statistic Std. Error 50.137 .314

Grad de indatorare Valid N (listwise)

Volumul esantionului = 238 Valoarea minima = 0 Valoarea maxima = 4.29 Media = 0.4564 Skewness = 5.468 valoarea acestui coeficient este mai mare decat 0, ceea ce inseamna ca distributia este asimetrica la dreapta. Kurtosis = 50.137 valoarea acestui coeficient este mai mare decat 3, ceea ce inseamna ca distributiea este leptocurtica.

Corelatie
Correlati ons Grad de indatorare 1 Categorii Grad indatorare .727** .000 238 238 .727** 1 .000 238 238

Grad de indatorare

Categorii Grad indatorare

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is signif icant at the 0.01 lev el (2-tailed).

Dupa cum se poate observa, valoarea coeficientului de corelatie Pearson este de 0.727 intre Gradul de indatorare si Categoriile gradului de indatorare, fapt pentru care putem afirma ca exista o corelatie puternica intre cele doua variabile si ca aceasta este una directa. Testarea semnificatiei coeficientului de corelatie este realizata cu ajutorul testului t Student. Valoarea lui sig corespunzatoare este de 0.00, valoare mai mica decat riscul asumat de 0.05, ceea ce inseamna ca intre cele doua variabile exista o corelatie semnificativa.

Regresie pentru sondajul aleator simplu


Model Summary Model 1 R .727a R Square .528 Adjusted R Square .526 St d. Error of the Estimate .25597

a. Predictors: (Constant), Categorii Grad indatorare

R=0.727 arata faptul ca 27.7% din variatia variabile dependente (gradul de indatorare) este explicata de modelul de regresie Testarea modelului Pentru testarea modelului de regresie se utilizeaz testul Fisher. n SPSS s-au obinut rezultatele automat fiind redate n tabelul de mai jos. Testarea modelului presupune alctuirea a dou ipoteze: 0 : 0 = 0; 1 = 0 modelul nu este semnificativ 1 : 0 0; 1 0 modelul este semnificativ
8

ANOVAb Model 1 Sum of Squares 17.303 15.463 32.766 df 1 236 237 Mean Square 17.303 .066 F 264.083 Sig. .000a

Regression Residual Total

a. Predictors: (Const ant), Categorii Grad indat orare b. Dependent Variable: Grad de indatorare

Interpretare Semnificaia testului Fisher are valoarea SigF = 0,00 mai mic dect valoarea pragului de semnificaie (0,05) ceea ce conduce la decizia de a respinge ipoteza nul, rezultnd faptul c modelul este semnificativ. Estimarea punctual a parametrilor modelului Pentru a estimarea parametrilor de regresie liniar prelucrarea datelor s-a realizat in SPSS, prin aplicarea metodei celor mai mici ptrate. Din tabelul de mai jos, putem observa c pentru parametru 0 = -0.225 s-a obinut o estimaie care este semnificativ statistic. Testul Student ne indic o valoare Sigt = 0,00, acesta fiind mai mic dect pragul de semnificaie ales, 0,05 .
a Coeffi ci ents

Model 1

(Constant) Categorii Grad indatorare

Unstandardized Coef f icients B St d. Error -.225 .045 .486 .030

St andardized Coef f icients Beta .727

t -4.997 16.251

Sig. .000 .000

a. Dependent Variable: Grad de indat orare

Ecuaia modelului estimat este: Y = -0.225+ 0.486 Gradul de indatorare = -0.225 + 0.486 categorii grad ndatorare Interpretare Estimaiile parametrilor modelului de regresie prezint urmtoarele semnificaii:

pentru parametrul 0: gradul de indatorare n medie este -0.225 % atunci cnd nu depinde de categoria gradului de indatorare din care face parte; pentru parametrul 1: gradul de indatorare creste cu 0,486% la o cretere cu 1 unitate a categoriei gradului de ndatorare.

Estimarea prin interval de ncredere n urma calculelor realizate n SPSS in tabelul Coeffcients am obinut i intervalele de ncredere pentru fiecare variabil n parte.
a Coefficients

Model 1

(Constant) Categorii Grad indatorare

Unstandardized Coeff icients B Std. Error -.225 .045 .486 .030

Standardized Coeff icients Beta .727

t -4.997 16.251

Sig. .000 .000

95% Confidence Interv al for B Lower Bound Upper Bound -.314 -.137 .427 .545

a. Dependent Variable: Grad de indatorare

Conform tabelului putem afirma faptul c: - cu o probabilitate de 0.95, parametrul 0 este acoperit de intervalul (-0.314; -0.137); - cu o probabilitate de 0.95, parametrul 1 este acoperit de intervalul (0.427; 0.545);

Verificarea ipotezelor modelului de regresie


ntruct calitatea estimrii parametrilor depinde i de ndeplinirea ipotezelor asupra componentei aleatoare sau asupra variabilei eroare, n cele ce urmeaz vom testa ipotezele asupra: mediei, homocedasticitii, normalitii i necorelrii erorilor. Ipoteze asupra erorilor. Media erorilor 0 : M( ) = 0 media variabilei reziduale este egala cu 0. 1 : M( ) 0 media variabilei reziduale este diferit de 0.

10

One-Sample Test Test Value = 0 95% Conf idence Interv al of the Dif f erence Lower Upper -.0326177 .0326177

t Unstandardized Residual .000

df 237

Sig. (2-tailed) 1.000

Mean Dif f erence .00000000

Interpretare Observm faptul c dac se compar semnificaia testului cu pragul de semnificatile, Sig= 1,000 > 0,05. n final rezult ipoteza de a accepta ipoteza c media erorilor nu difer semnificativ de zero. Homoscedasticitatea Formularea ipotezelor 0 : V( ) = 2 erorile sunt homoscedastice. 1 : V( ) 2 erorile sunt heteroscedastice
Correlati ons Grad de indatorare 1 Unstandardiz ed Residual .687** .000 238 238 .687** 1 .000 238 238

Grad de indatorare

Unstandardized Residual

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is signif icant at the 0.01 lev el (2-tailed).

Interpretare Aa cum putem observa n tabelul se mai sus, valoarea Sig = 0,00 < 0.05 ceea ce indic faptul c, cu o probabilitate de 95% putem afirma c erorile sunt heteroscedastice. Normalitatea erorilor ~ N(0, ) Formularea ipotezelor 0 : erorile urmeaz o lege normal de distribuie 1 : erorile nu urmeaz o lege normal de distribuie.

11

Interpretare Din tabelul de mai jos observm faptul c Sig = 0,00 < 0.05, astfel putem afirma cu o probabilitate de 0.95 ca nu se accept ipoteza nul, rezultnd c erorile nu accept o lege normal de distribuie.
One-Sample Kolmogorov-Smirnov Test Grad de indatorare 238 .4564 .37182 .157 .157 -.121 2.419 .000 Categorii Grad indatorare 238 1.40 .556 .396 .396 -.234 6.112 .000

N Normal Parameters a,b Most Extreme Dif f erences Kolmogorov -Smirnov Z Asy mp. Sig. (2-tailed)

Mean St d. Dev iation Absolute Positiv e Negativ e

a. Test distribution is Normal. b. Calculated f rom data.

Necorelarea erorilor Formularea ipotezelor 0 : cov( , ) = 0 , erorile nu sunt autocorelate 1 : cov( , ) 0 , erorile sunt corelate

12

Unstandardized Residual

1.0

Coefficient Upper Confidence Limit Lower Confidence Limit

0.5

Partial ACF

0.0

-0.5

-1.0

10

11

12

13

14

15

16

Lag Number

Analizand corelograma putem observa ca valorile functiei de autocorelatie nu depasesc limitele intervalului de incredere, rezultand faptul ca se respinge ipoteza nula, erorile fiid autocorelate.

Sondajul stratificat

Pentru extragerea eantionului efectum: Formula: n=



() +

Alegem un risc =0,05. Astfel 2 =(1,96) = 3.841


13

R=3 = 0,03* range = 0.03* 4.29= 0.1287 2= 0.1287*0.1287 = 0.01656369 N = 477 (volumul eantionului) 2 =Between groups = 27.068 Avnd toate valorile nlocuim n formul i vom obine : n =2
Descriptives Grad de indatorare 95% Confidence Interv al for Mean Lower Bound Upper Bound .2780 .6282 .8668 .4099 .3076 .6638 2.0064 .4665

N Grad de indatorare scazut (0%-50%) Grad de indatorare mediu (51%-100%) Grad de indatorare ridicat (>100%) Total 312 151 14 477

Mean .2928 .6460 1.4366 .4382

Std. Dev iation .13268 .11072 .98682 .31437

Std. Error .00751 .00901 .26374 .01439

Minimum .00 .51 .50 .00

Maximum .50 .97 4.29 4.29

ANOVA Grad de indatorare Sum of Squares 27.068 19.973 47.041 df 2 474 476 Mean Square 13.534 .042 F 321.181 Sig. .000

Between Groups Within Groups Total

Estimarea parametrilor
Descriptive Statistics Std. N Range Minimum Maxim um Mean Variance Skewness Kurtosis Deviation Statistic Statistic Statistic Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Std. Error 6 2.37 .03 2.40 .7517 .83378 .695 2.079 .845 4.822 1.741 6

Grad de indatorare Valid N (listwise)

Volumul eantionului = 6 Valoarea minim = 0.03 Valoarea maxima = 2,40


14

Media = 0.7517 Skeness (asimetria)= 2.079 - Valoarea acestui coeficient este mai mare dect 0, deci distribuia este asimetric la dreapta. Kurtosis (boltirea) = 4.822 Valoarea acestui coeficient este mai mare dect 3, deci distribuia este leptocurtica.

Corelatie
Correlati ons Grad de indatorare 1 6 .666 .149 6 Categorii Grad indatorare .666 .149 6 1 6

Grad de indatorare

Categorii Grad indatorare

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

Interpretare: Se poate observa c s-a obinut un coeficient de corelaie Pearson egal cu 0,666, ntre variabilele Gradul de indatorare i Categoriile gradului de ndatorare, ceea ce nseamn c ntre cele dou variabile exist corelaie direct, si usor puternica. Testarea semnificaiei coeficientului de corelaie este realizat cu ajutorul testului t. Valoarea Sig. corespunztoare, egal cu 0,149, evideniaz c s-a obinut un coeficient de corelaie semnificativ la un prag de 0,149, dar putem afirma cu o probabilitate de 95% c ntre cele dou variabile exist o corelaie semnificativ.

Regresie pentru sondajul stratificat


Model Summary Model 1 R .666a R Square .443 Adjusted R Square .304 St d. Error of the Estimate .69555

a. Predictors: (Constant), Categorii Grad indatorare

R2=0, 666 arat faptul c 66.6% din variaia variabilei dependente (gradul de indatorare) este explicat de modelul de regresie.
15

Testarea modelului Pentru testarea modelului de regresie se utilizeaz testul Fisher. n SPSS s-au obinut rezultatele automat fiind redate n tabelul de mai jos. Testarea modelului presupune alctuirea a dou ipoteze: 0 : 0 = 0; 1 = 0 modelul nu este semnificativ 1 : 0 0; 1 0 modelul este semnificativ Interpretare Semnificaia testului Fisher are valoarea SigF = 0,149 mai mare dect valoarea pragului de semnificaie (0,05) ceea ce conduce la decizia de a accepta ipoteza nul, rezultnd faptul c modelul este nu semnificativ
ANOVAb Model 1 Sum of Squares 1.541 1.935 3.476 df 1 4 5 Mean Square 1.541 .484 F 3.185 Sig. .149a

Regression Residual Total

a. Predictors: (Const ant), Categorii Grad indat orare b. Dependent Variable: Grad de indatorare

Estimarea punctual a parametrilor modelului Pentru a estimarea parametrilor de regresie liniar prelucrarea datelor s-a realizat in SPSS, prin aplicarea metodei celor mai mici ptrate. Din tabelul de mai jos, putem observa c pentru parametru 0 = -0.490 s-a obinut o estimaie care este semnificativ statistic. Testul Student ne indic o valoare Sigt = 0,550, acesta fiind mai mare dect pragul de semnificaie ales, 0,05 .
a Coefficients

Model 1

(Constant) Categorii Grad indatorare

Unstandardized Coeff icients B Std. Error -.490 .751 .621 .348

Standardized Coeff icients Beta .666

t -.652 1.785

Sig. .550 .149

95% Confidence Interv al for B Lower Bound Upper Bound -2.575 1.596 -.345 1.586

a. Dependent Variable: Grad de indatorare

16

Ecuaia modelului estimat este: Y = -0.490 + 0.621 Gradul de indatorare = -0.490 + 0.621 categorii grad ndatorare Interpretare Estimaiile parametrilor modelului de regresie prezint urmtoarele semnificaii: pentru parametrul 0: gradul de indatorare n medie este -0.490% atunci cnd categoria gradul de ndatorare este zero; pentru parametrul 1:gradul de indatorare a crescut cu 0,621% la o cretere cu 1 unitate a categoriei gradului de ndatorare.

Estimarea prin interval de ncredere n urma calculelor realizate n SPSS in tabelul Coeffcients am obinut i intervalele de ncredere pentru fiecare variabil n parte. Conform tabelului putem afirma faptul c: - cu o probabilitate de 0.95, parametrul 0 este acoperit de intervalul (-2.575; 1.596); - cu o probabilitate de 0.95, parametrul 1 este acoperit de intervalul (-0.345; 1.586);

Verificarea ipotezelor modelului de regresie


ntruct calitatea estimrii parametrilor depinde i de ndeplinirea ipotezelor asupra componentei aleatoare sau asupra variabilei eroare, n cele ce urmeaz vom testa ipotezele asupra: mediei, homocedasticitii, normalitii i necorelrii erorilor. Ipotezele asupra erorilor Media erorilor 0 : M( ) = 0 media variabilei reziduale este egala cu 0. 1 : M( ) 0 media variabilei reziduale este diferit de 0.

17

One-Sample Test Test Value = 0 95% Conf idence Interv al of the Dif f erence Lower Upper -.6528693 .6528693

t Unstandardized Residual .000

df 5

Sig. (2-tailed) 1.000

Mean Dif f erence .00000000

Interpretare Observm faptul c dac se compar semnificaia testului cu pragul de semnificatile, Sig= 1,000 > 0,05. n final rezult ipoteza de a accepta ipoteza c media erorilor nu difer semnificativ de zero. Homocedasticitatea Formularea ipotezelor 0 : V( ) = 2 erorile sunt homoscedastice. 1 : V( ) 2 erorile sunt heteroscedastice.

Correlati ons Grad de indatorare 1.000 . 6 .143 .787 6 Unstandardiz ed Residual .143 .787 6 1.000 . 6

Spearman's rho

Grad de indatorare

Unstandardized Residual

Correlation Coef f icient Sig. (2-tailed) N Correlation Coef f icient Sig. (2-tailed) N

Interpretare Aa cum putem observa n tabelul se mai sus, valoarea 0,787 > 0.05, ceea ce indic faptul c, cu o probabilitate de 95% putem afirma c erorile sunt homoscedastice.

18

Normalitatea erorilor ~ N(0, ) Formularea ipotezelor 0 : erorile urmeaz o lege normal de distribuie 1 : erorile nu urmeaz o lege normal de distribuie.
One-Sample Kolmogorov-Smirnov Test Unstandardiz ed Residual 6 .0000000 .62211464 .231 .231 -.213 .566 .906

N Normal Parameters a,b Most Extreme Dif f erences Kolmogorov -Smirnov Z Asy mp. Sig. (2-tailed)

Mean Std. Dev iat ion Absolute Positiv e Negativ e

a. Test distribution is Normal. b. Calculated f rom data.

Interpretare Din tabelul de mai sus observm faptul c Sig = 0,906 > 0.05, astfel putem afirma cu o probabilitate de 0.95 ca se accept ipoteza nul, rezultnd c erorile accept o lege normal de distribuie.

Necorelarea erorilor Formularea ipotezelor 0 : cov( , ) = 0 , erorile nu sunt autocorelate 1 : cov( , ) 0 , erorile sunt corelate.

19

Unstandardized Residual

1.0

Coefficient Upper Confidence Limit Lower Confidence Limit

0.5

Partial ACF

0.0

-0.5

-1.0

Lag Number

Analiznd corelograma putem observa c valorile funciei de autocorelaie nu depsesc limitele intervalului de ncredere, rezultnd faptul c se respinge ipoteza nul, erorile fiind autocorelate.

20

Concluzii

In urma analizei celor doua tipuri de esantioane extrase din cadrul aceleiasi baze de date, an observat ca o mai mare precizie a fost data de catre esantonul de tip aleator simplu. Este validata aceasta ipoteza si din prisma faptului ca esantionul a avut un volum de 238 de firm in comparatie cu 6 firme pentru sondajul stratificat. S-au observat si rezultate majore si in ceea ce privesc erorile modelului de regresie dar si in cadrul celorlalti coeficienti, ce testau normalitatea sau autocorelarea. Din punctul meu de vedere, in urma acestei analize as opta mult mai mult pentru un sondaj de tip aleatoriu simplu, in favoarea celui de tip stratificat pentru un volum de date asa mic ca cel pe care l-am avut de 477 firme. Precizia datelor fiind una decisiva in alegerea metodei.

21

22

Bibliografie
1. Jaba, E., Statistica, Ed Economica, editia a treia, Iai, 2002. 2. Jaba, E., Gramma, A., Analiza statistica cu SPSS sub Windows, Editura Polirom, Bucuresti, 2010.

23