Professional Documents
Culture Documents
Profesor Prof. univ. dr. Eugenia HARJA Asist. univ. drd. Oana Ancua STNGACIU
Student Ionel ALEXA Ionu CONDOR tefan-Nicolae TIMOFTE Carmen nicoleta VASILIU
Cerinte proiect:
Alegeti din Anuarul Statistic al Romaniei sau din baza de date TEMPO online serii de timp a I.N.S. de pe site www.insse.ro 2 variabile aflate intr-o oarecare dependenta una de alta, pentru toate cele 41 judete (fara municipiul Bucuresti). Folosind SPSS, introduceti datele si analizati: Indicatorii medii si ai variatiei pentru fiecare din cele doua variabile folosind metode diferite de analiza. Efectuati grafice specifice pentru cele doua distributii si pentru indicatorii calculati. Efectuati o analiza bivariata a datelor selectate. Analizati legatura dintre cele doua variabile si stabiliti care este cel mai potrivit model de regresie.
Pentru proiectul de fata am ales ca variabile de pe site-ul www.insse.ro suprafata cultivata cu grau in anul 2008 si productia de grau in acelasi an.
Am deschis o sesiune de lucru in SPSS si am definit variabilele in fereastra Variable View. Primul pas dupa definirea variabilelor a fost stabilirea atributelor fiecarei variabile in parte. Pentru variabila judet am ales ca tip String (alfa numerica) cu o lungime de 50 de carcatere.
Pentru variabilele Supr_cult si Productie am stabilit tipul variabilei ca fiind Numeric, lungimea de 16 caractere si numarul de zecimale egal cu zero.
Indicatorii medii si ai variatiei pentru fiecare din cele doua variabile, folosind metode diferite de analiza. Suprafata cultivata
Primul pas in calculul indicatorilor a fost deschiderea ferestrei Analyze->Descriptive Statistics>Frequencies. Am mutat in casuta Variable(s) suprafata cultivata, apoi am intrat in optiunea Statistics unde am bifat urmatorii indicatori: Quartiles, Mean, Median, Mode, Sum, Std. Deviation, Variance, Range, Minimum, Maximum si Skewness.
N = 41 -> baza de date cuprinde 41 de judete analizate Mean = 49079 -> suprafata medie cultivata in cele 41 de judete este de 49079 hectare Median = 33282 -> jumatate din judetele analizate au o suprafata cultivata sub 33282 hectare si jumatate peste Mode = 6836 -> avem module multiple si de aceea este indicata doar cea mai mica valoare Std. Deviation = 50028 -> aproximativ 68% dintre judee au o suprafa cultivat cu grau cuprins ntrun interval egal cu media plus sau minus valoarea abaterii medii ptratice, respectiv: 49079 +/- 50028; Variance = 2502836064 Skewness = 2 Range = 222571 -> diferena dintre cea mai mare si cea mai mic suprafa cultivat cu grau este de 222571 hectare ( amplitudinea); Maximum = 229407 -> cea mai mare suprafa cultivat cu grau este de 229407 hectare Minimum = 6836 -> cea mai mica suprafa cultivat cu grau este de 6836 hectare
Se observa ca prin toate cele 3 metode rezultatele sunt aceleasi. Productie de grau 9
Primul pas in calculul indicatorilor a fost deschiderea ferestrei Analyze->Descriptive Statistics>Frequencies. Am mutat in casuta Variable(s) productia, apoi am intrat in optiunea Statistics unde am bifat urmatorii indicatori: Quartiles, Mean, Median, Mode, Sum, Std. Deviation, Variance, Range, Minimum, Maximum si Skewness.
10
N = 41 -> baza de date cuprinde 41 de judete analizate Mean = 134769 -> productia medie obtinuta in cele 41 de judete este de 134769 tone Median = 76221 -> jumatate din judetele analizate au obtinut o productie de grau de sub 76221 tone si jumatate peste Mode = 14334-> avem module multiple si de aceea este indicata doar cea mai mica valoare Std. Deviation = 135764 -> aproximativ 68% dintre judee au o productie de grau cuprins ntr-un interval egal cu media plus sau minus valoarea abaterii medii ptratice, respectiv: 134769 +/- 135764; Variance = 18431817509 Skewness = 2 Range = 558052 -> diferena dintre cea mai mare si cea mai mic productie de grau obtinuta este de 558052 tone ( amplitudinea); Maximum = 572386 -> cea mai mare productie de grau obtinuta este de 572386 tone Minimum = 14334 -> cea mai mica productie de grau obtinuta este de 14334 tone
Efectuati grafice specifice pentru cele doua distributii si pentru indicatorii calculati. 11
Histograma realizat pentru variabila suprafaa cultivat cu grau prin comanda: Graphs -> Legacy Dialogs ->Histogram
12
Interpretarea rezultatelor: Distributia seriei dup nivelul suprafeei cultivate cu grau prezint o asimetrie spre dreapta, predominnd suprafeele mai mici cultivate cu grau. 13
Boxplot
Boxplot realizat pentru variabila suprafaa cultivat cu grau prin comanda: Graphs -> Legacy Dialogs ->Boxplot
14
Interpretarea rezultatelor: distributia seriei dupa nivelul suprafetei cultivate cu grau prezinta o asimetrie puternica. Q-Q Plot
15
Interpretarea rezultatelor: n cazul suprafeei cultivate cu grau graficul se apropie de normal. Productia obtinuta Histograma
16
Interpretarea rezultatelor: Distributia seriei dup nivelul productiei de grau obtinute prezint o asimetrie spre dreapta, predominnd productiile mai mici de grau. Boxplot
17
Interpretarea rezultatelor: distributia seriei la nivelul productiei de grau obtinute prezinta o asimetrie puternica.
18
Q-Q Plot
20
Interpretarea rezultatelor: Diagrama ne arata ca intre cele 2 variabile exista o legatura liniara, directa si stransa. 21
22
23
24
25
26
27
28
Interpretarea celor mai importante rezultate din outut: N = 41 pe total ->in analiza de fata au fost luate in calcul 41 de judete, din care spre exemplu 5 au o suprafata cultivata cu grau cuprinsa intre 58000 si 116000 hectare; Mean = 145756 tone pe total -> productia medie obtinuta pe totalul judetelor a fost de 145756 tone, in vreme ce productia medie obtinuta in cadrul judetelor cu o suprafata cultivata cuprinsa intre 58000 si 116000 hectare a fost de 244800 tone. Median = 72000 tone pe total -> jumatate din judetele considerate au avut o productie obtinuta sub 72000 tone, in vreme ce jumatate din judetele cu suprafata cuprinsa intre 58000 si 116000 hectare au avut o productie de sub 216000 tone. Std. Deviation = 125213 tone pe total -> aproximativ 68% din judetele considerate au o productie cuprinsa intr-un interval egal cu media plus sau minus valoarea abaterii medii patratice, respectiv 145756+/-125213 tone, in timp ce aproximativ 68% din judetele cu o suprafata cuprinsa intre 58000 si 116000 hectare au o productie cuprinsa in intervalul 244800+/-64398,8 tone.
29
30
Interpretarea celor mai importante rezultate din output: Tabelul Descriptives ofera indicatorii tendintei centrale si ai dispersiei pentru o distributie bivariata (se observa ca sunt aproximativ aceleasi informatii obtinute prin comanda Analyze>Reports->Case Summaries prezentata anterior) Tabelul ANOVA ofera rezultatele analizei de variatie: Sum of Squares Between Groups (suma patratelor abaterilor intre grupe) = 5.544E11 -> plecand de la aceasta valoare se poate calcula dispersia si abaterea medie patratica intre grupe. Dispersia intre grupe se calculeaza impartind Sum of Squares Between Groups la numarul total al judetelor considerate, iar abaterea medie patratica intre grupe scotand radical din dispersia intre grupe
Sum of Squares Within Groups (suma patratelor abaterilor de grupa) = 7.278E10 -> plecand de la aceasta valoare se poate calcula dispersia si abaterea media patratica de grupa. Dispersia se calculeaza impartind Sum of Squares Within Groups la numarul total al judetelor considerate, iar abaterea medie patratica scotand radical din dispersie
plecand de la aceasta valoare se poate calcula dispersia si abaterea media patratica pe total. Dispersia se calculeaza impartind Sum of Squares Total la numarul total al judetelor considerate, iar abaterea medie patratica scotand radical din dispersie
testul F este semnificativ, ceea ce inseamna ca exista o diferenta semnificativa intre cele 4 grupe de suprafata in raport cu productia obtinuta Analizati legatura dintre cele doua variabile si stabiliti care este cel mai potrivit model de regresie. Analiza regresiei Construirea corelogramei sau a norului de puncte prin comanda Graphs->Legacy Dialogs-> Interactive->Scatterplot
32
33
R Sq in valoare de 0.96 este mai mare decat 0.65, rezulta avem de-a facec cu o legatura puternica. In continuare vom aproxima forma legaturii printr-un model de regresie utilizand optiunea Analyze->Regression->Curve Estimation
34
35
36
37
38
39
Odata cu crearea rezultatelor in output, in Data Editor, in foaia Data View, gasim noile variabile create de SPSS ca urmare a optiunilor exprimate in fereastra Curve Estimation: Save, care reprezinta valorile estimate ale variabilei dependente (FIT), valorile reziduale (ERR) si limitele inferioare si superioare ale intervalului de incredere (LCL si UCL) pentru fiecare model de regresie ales.
40
Am ales ca cel mai bun model de regresie pe cel liniar, pentru ca R Square este mare (0,960) si gradul de semnificatie al testelor F si t este 0,000. Deci ecuatia de regresie cea mai potrivita este cea liniara si are urmatoarea forma: Y= 4259.623+2.659X Interpretare: la o crestere cu 1 hectar a suprafetei, productia va creste cu 2.659 tone. Analiza corelatiei
41
Coeficientul de corelatie Pearson este egal cu 0.980, ceea ce inseamna ca intre variabile exista o corelatie directa, puternica, valoarea acestuia fiind foarte apropiata de 1. Testarea semnificatiei coeficientului de corelatie este realizata cu ajutorul testului t. Valoarea Sig. (2-tailed) corespunzatoare, egala cu 0.000 si este mai mica decat 0.001, ceea ce inseamna ca sunt sanse mai mici de 1% de a gresi daca afirmam ca intre cele doua variabile exista o corelatie semnificativa.
42