1.

Introducerea datelor statistice
In fereastra “Variable View” se introduc atributele variabilei: nume (name), tip (type), lungimea (width), număr zecimale (decimals), eticheta (label), valorile etichetei (values), valorile lipsă (missing), alinierea (align) şi modalităţile de măsurare a variabilei (measure) ( scală, ordinal, nominal) (vezi figura 2). Figura 2: Fereastra Variable View

1.1 Numele variabilei Numele variabilei se editează în coloana Name ţinând cont de următoarele restricţii : să fie unic să aibă cel mult 8 caractere primul caracter să fie o literă ultimul caracter să nu fie “_” (underscore) poate să conţină litere, cifre, şi simbolurile @,#, _ , $ să nu conţină spaţii sau simboluri speciale folosite în SPSS

De exemplu întrebării din baza de date 1 (vezi anexa 1) “Consumaţi produse alimentare certificate ca fiind ecologice ?” i se va ataşa variabila “ consumat” nume ce va fi trecut în capul de tabel. 1.2 Tipul variabilei Se realizează în coloana Type . La poziţionarea cursorului pe pătratul gri din dreapta căsuţei corespunzătoare caracteristicii Type ( vezi Figura 3 săgeata) apare fereastra cu ajutorul căreia se poate alege tipul variabilei: Numeric ( cu zecimale separate prin virgulă – Comma sau punct Dot ) , Data, însoţite de un simbol financiar ( de exemplu Dolar) sau sub forma unui şir de caractere – String (în cazul în care dorim să introducem un cuvânt sau o frază). Figura 3: Introducerea atributelor unor variabile

La rubrica Label se introduce eticheta variabilei (Figura 4 Sageata 1) . Această etichetă reprezintă explicaţiile care vor apărea lângă rapoarte ( grafice sau tabele) atunci când vor fi realizate.

4

Atunci când variabilele sunt nominale (categoriale) acestea vor fi introduse codificat de exemplu răspunsurile la întrebarea 1 vor fi codate astfel: “1” dacă răspunsul a fost “Deseori” “2” dacă răspunsul a fost “Câteodată” “3” dacă răspunsul a fost “Nu” Acestea vor fi introduse în fereastra ce apare acţionând celula corespunzătoare coloanei Values (Figura 4 –săgeata 2) Introducerea valorii se face acţionând butonul “Add” , modificarea unor valori se face folosind butonul “Change” iar pentru ştergere butonul “Remove” din aceeaşi fereastră. Pentru a face efective aceste schimbări e necesar să se acţioneze butonul “OK” Figura 4: Definirea etichetei pentru variabilele statistice
1 2

In practica anchetelor de sondaj se folosesc pentru răspunsurile invalide, codurile: 97 – pentru “nonrăspuns”, 98 - pentru “ neaplicabil”, 99 - pentru “ răspuns ilizibil” Analog se introduc toate variabilele necesare.

5

2. Transformarea unei variabile Pentru a transforma datele unei variabile se va folosi comanda Recode din meniul Transform aşa cum se observă în figura de mai jos -săgeata: Figura 5: Transformarea unei variabile Recodificarea unei variabile se face fie în aceeaşi variabilă –atunci când vechea variabilă dispare ( opţiunea Into Same Variables) sau în altă variabilă ( opţiunea Into Different Variables). In cazul în care a fost aleasă opţiunea schimbării variabilei într-o altă variabilă diferită apare fereastra Recode into Different Variables 6 .

Prin acţionarea butonului Old and new values apare apoi fereastra Recode into Different Variables . Pentru a schimba valorile 1 şi 2 cu valoarea 7 . săgeata 2) . In această fereastră se selectează opţiunea Output Variables are Strings pentru a putea defini noua variabilă ca şi “string” (şir de caractere). Old and New Values (figura 6. cu ajutorul butonului săgeată din fereastră se mută în fereastra Numeric Variable ->Output Variable In caseta Nume se trece numele noii variabile Vârsta1 iar mai jos în caseta Label se trece eticheta.Pentru vârsta între 35 şi 65 ani codificat cu 3 şi 4 atributul “maturi” .Pentru vârsta mai mare de 65 ani codificat cu 5 atributul “vârstnici” Astfel în fereastra de mai sus (figura 6 săgeata 1). Se acţionează apoi butonul Change pentru a face schimbările efective. care. în fereastra “Recode into different values” se selectează variabila “Vârsta”.Pentru cei cu vârsta sub 35 ani codificat iniţial cu valorile 1 şi 2 să atribuim cuvântul “tineri” .Figura 6: Recodificarea unei variabile 1 2 De exemplu dorim ca vârsta respondenţilor să fie recodificată astfel: .

“tineri” se selectează butonul Range iar casetele de editare corespunzătoare sunt folosite pentru a stabili limita inferioară şi superioară a intervalului dorit (through – de la. Se scrie 1 în caseta din stânga şi 2 în caseta din dreapta.până la). Se procedează analog pentru toate categoriile. Apoi se selectează butonul de opţiuni Value şi se scrie “tineri” în caseta de editare după care se acţionează butonul Add . O comandă asemănătoare comenzii Recode este comanda Compute. 8 . Prin butonul de comanda OK se va declanşa recodificarea variabilei. Prin clic pe butonul de comandă Continue se revine în fereastra Recode into Different Variables. Noua foaie de date apare în foaia de date Data View cu datele de cod corespunzătoare fiecărui caz.

9 . Figura 7 . consumat fiind numele variabilei prin care au fost codificate răspunsurile la întrebarea “ Consumaţi produse alimentare certificate ca fiind ecologice” ( vezi anexa ). Butonul de comandă Continue determină revenirea la fereastra Select Cases în care se activează butonul de comandă OK pentru a obţine fişierul filtrat. Selectarea unor subiecţi folosind comanda SELECT CASES In meniul Data există comanda Select Cases. Aceste cazuri nu vor fi folosite la nici o raportare. Ca urmare se deschide fereastra de dialog Select Cases. Astfel în foaia Data View din fereastra Data Editor.3. Filtrarea variabilelor statistice Pentru aceasta se acţionează butonul de comandă If care va deschide fereastra Select cases în care se introduce condiţia de filtrare “consumat” =2. cazurile anulate sunt tăiate printrun slash (/ -linie oblică) ( vezi săgeata din figura de mai sus). Dorim de exemplu să alegem toate cazurile în care consumatorii consumă “Câteodată ” produse agroalimentare ecologice.

Activarea opţiunii Frequencies determină deschiderea ferestrei Frequencies. următoarele elemente: valorile sau clasele de valori ale variabilei.4. Sistematizarea datelor în SPSS Sistematizarea datelor în SPSS poate fi realizată prin opţiunea Frequencies subordonată comenzii Descriptive Statistics din meniul Analyze (vezi figura 8). Prin butonul de comandă OK se obţine Tabelul de frecvenţă afişat în fereastra de rezultate Output Viewer. Figura 8: Activarea opţiunii Frequencies Din partea din stânga a ferestrei Frequencies se selectează variabila dorită prin click de mouse. efectivul procentele procentele cumulate corespunzătoare ( suma procentelor categoriilor inferioare) 10 . apoi este mutată prin acţionarea butonului săgeată în caseta Variables. Intr-un tabel de frecvenţă sunt prezentate pentru fiecare variabilă selectată.

Obţinerea unui tabel de asociere în SPSS presupune alegerea opţiunii Crosstabs. Figura 9 Obţinerea tabelului de asociere Crosstabs 11 . subordonată comenzii Descriptive Statistics din meniul Analyze (figura 9). Tabelul de asociere (Crosstabs) Acest tip de tabel este folosit pentru prezentarea relaţiilor dintre două variabile categoriale.5. In fiecare rubrică (celulă) este prezentată frecvenţa parţială aşa cum va fi selectată.

Figura 10: Alegerea opţiunilor pentru alcătuirea tabelelor 12 .După ce se selectează această opţiune . ajustate. pe coloane –Column.Expected Percentages: . apare pe monitor fereastra Crosstabs în cadrul căreia selectăm variabile pentru rânduri şi coloane.Observed Efective sperate . nestandardizate. pe total – Total Residuals: se referă la abateri Standardizate . Se observă în fereastra Crosstabs posibilitatea de a alege mai multe opţiuni care apar în fereastră (figura 10): Numere observate.Pe rânduri –Row.

Diagrama “bara erorilor” este folosită pentru a arăta media şi intervalul de încredere de 95% pentru media respectivă.6. Scatter – Diagrama “norul de puncte” este folosită pentru a reprezenta relaţiile dintre variabile Histograma – Este folosită pentru a arăta forma unei distribuţii după o variabilă înregistrată asupra unei colectivităţi. Elementele unui grafic Se pot executa o mulţime de aplicaţii grafice cu ajutorul programului SPSS.diagrama pe structură plăcintă Boxplot – Diagrama “cutia cu mustăţi” este folosită pentru a prezenta amplitudinea. Alegerea tipurilor de grafic din Meniul Graph Line. intervalul interquartilic şi mediana unei distribuţii Error Bar . Acestea se pot găsi în meniul Graphs (figura 11) Figura 11. 13 .Diagrama liniară Pie.

6. Pentru variabila cantitativă se ia un număr de intervale (k) egal cu rădăcina pătrată din numărul de observaţii (n) sau k= 1+ 3. Figura 12: Obţinerea histogramei din comanda Graphs 14 . Construcţia histogramei se face într-un sistem de de două axe rectangulare: pe abscisă se înscriu valorile variabilei cantitative sub formă de intervale (clase de valori) iar pe ordonată numărul de observaţii sau frecvenţa corespunzătoare fiecărui interval. In fereastra Histogram se poate alege opţiunea Display normal curve (vezi săgeata) pentru redarea distribuţiei normale.1 Histograma – permite vizualizarea formei unei distribuţii statistice. Comanda Histogram se obţine din meniul Graphs.322lg n. după o variabilă cantitativă continuă divizată pe intervale egale sau inegale. ( vezi figura 12 de mai jos).

fără outlieri . A treia modalitate constă în accesarea meniului Analyze -> Descriptive Statistics -> Frequencies -> Charts -> Histogram. Figura 13: Forma grafică a histogramei 30 20 10 Std.0 3.Diagrama Boxplot este folosită pentru prezentarea unei distribuţii după o variabilă numerică . quartila 2 şi mediana ( vezi figura) Figura 14. quartila 1.2 Diagrama Boxplot .00 Varsta aproximativa O altă modalitate de obţinere a histogramei este alegerea comenzii Interactive cu opţiunea Histogram din meniul Graphs . Dev = . Construcţia sa presupune ordonarea datelor şi împărţirea lor în patru grupe . fiecare variabilă reprezentând 25% din distribuţie.59 Mean = 2.Forma grafică a histogramei este redată în figura de mai jos.0 N = 38.0 0 1. Diagrama BoxPlot Maximum (fără outlieri) Percentila 75 ( Quartila 3) Mediana (Quartila 2) Percentila 25 (Quartila 1) 15 . chiar atunci când numărul datelor de care dispunem este mic. Sunt marcate astfel cinci valori ale variabilei şi anume: valoarea minimă şi valoarea maximă. 6.0 4.0 2.

ca fiind 3000 kg/ha (figura de mai jos) Aceasta nu înseamnă că în fiecare an s-au obţinut recolte de 3000 kg /ha ci înseamnă că s-au obţinut recolte mai mici sau mai mari în jurul acestei valori. samd. un fenomen pentru a putea fi descris în termeni statistici trebuie să evalueze după o anumită lege. De exemplu. Distribuţii statistice In general. putem considera producţia medie de grâu la hectar în ultimii 30 de ani. Abaterea medie pătratică (deviaţia standard) măsoară dispersia în jurul mediei şi se calculează ca rădăcină pătrată din varianţă σ = σ2 unde N N ∑x i =1 i unde xi sunt valorile variabilei iar N volumul N σ2 = ∑ (x i =1 i − µ )2 N 16 . inclusiv în agricultură este distribuţia normală.000 de kg/ha. Totuşi putem spune că este mult mai probabil să întâlnim o recoltă de 3500 kg/ha decât o recoltă de 10. cantitatea de precipitaţii căzute în luna iulie din ultimii 100 ani . Deci cu cât ne îndepărtăm de valoarea medie cu atât producţia respectivă este mai greu de obţinut.adică să-i poată fi descrisă evoluţia după anumite coordonate. Exemple de distribuţie normală: producţia de grâu la hectar la nivelul fermelor. Acest aspect este redat de curba de mai jos care reflectă distribuţia de probablitate într-un astfel de caz . Cea mai cunoscută lege .Minimum (fără outlieri) 7. distribuţie numită “normală” . Media se notează cu μ= populaţiei 2. O astfel de distribuţie se numeşte normală şi se caracterizează prin doi parametrii: media şi abaterea medie pătratică (deviaţia standard) 1.

17 .

Atunci când coeficientul este mai mare ca zero indică o grupare mai puternică a valorilor în jurul valorii centrale. curba este mai boltită decât o distribuţie normală şi se numeşte distribuţie leptocurtică. Atunci când coeficientul este mai mic decât zero.Figura 15: Curba distribuţiei normale In Statistică se defineşte următoarea noţiune: Momentul centrat μ de ordinul k e definit ca: µk = ∑ (x i =1 n i − x) k _ n Coeficientul de asimetrie a unei distribuţii exprimă gradul de dezechilibru al unei distribuţii şi se calculează ca raport dintre momentul centrat de ordin trei µ 3 la puterea a doua şi momentul centrat de ordin doi µ2 la puterea a treia după relaţia: µ 32 β = 3 adică β = µ2 n ∑ ( xi − x) 3 i =1 n _ ( ∑ ( xi − x ) 2 ) 3 / 2 i =1 n _ Figura 16: Distribuţia asimetrică cu abaterea spre stânga respectiv spre dreapta Acest indicator se numeşte Skewness iar atunci când ia valori între –1 şi 0 indică prezenţa unei distribuţii asimetrice negative cu abatere spre stânga iar când variază între 0 şi 1 indică o distribuţie cu abatere spre dreapta ( vezi figura). Valoarea 0 indică prezenţa unei distribuţii simetrice. 18 . valoarea kurtosis-ului statistic e 0 şi se numeşte distribuţie mezocurtică. Pentru o distribuţie normală . Coeficientul de boltire sau aplatizare (kurtosis) e o măsură a răspândirii fiecărei observaţii în jurul valorii centrale.

curba frecvenţelor este mai aplatizată şi se numeşte distribuţie platicurtică ( vezi figura 17) Kurtosis-ul: χ = n∑ ( xi − x) 4 (∑ ( xi − x) ) i =1 i =1 n _ 2 2 n _ −3 Figura 17: Distribuţia leptocurtică / platicurtică 19 .indică o grupare mai slabă în jurul valorii centrale .

numită şi abaterea standard) Variance (varianţa) Range ( amplitudinea variaţiei) Minimum şi Maximum (valoarea minimă şi valoarea maximă a variabilei selectate) S. mean standard Error mean (eroarea medie de selecţie: Kurtosis (boltirea) Skewness (asimetria) σ = x _ σ ) n 20 . După alegerea variabilei pentru care dorim să calculăm parametrii distribuţiei se deschide fereastra de dialog Descriptives: Options . în caseta/casetele de validare corespunzătoare .E. Din această fereastră selectăm. prin bifare. Deviation ( abaterea medie pătratică. indicatorul/indicatorii care urmează a fi calculaţi.dispersiei şi formei unei distribuţii Din meniul Analyze din comanda Descriptive Statistics alegem opţiunea de calcul Descriptives .8. Calculul indicatorilor tendinţei centrale . Se pot realiza următoarele calcule: Mean (media) Sum (suma tuturor observaţiilor) Std.

00 2.22 .58 .33 .475 Std. Din Meniul Analyze comanda Descriptive Statistics opţiunea Frequencies Din Meniul Analyze comanda Reports opţiunea Case Summaries (Tabel 1) Tabel 1: Raport obţinut prin comanda Case Summaries privind frecvenţa consumului de produse ecologice Case Summaries Consumati produse alimentare certificate ca fiind ecologice ? Varsta aproximativa <18 ani 18-35 ani 35-50 ani 50-65 ani Total Mean 2.93 2.50 1. Error of Mean .11 Std.300 .66 . .67 3.55 .439 .69 N 6 28 3 1 38 21 .Figura 18: Calculul indicatorilor statistici utilizând comanda Descriptive Statistics Mai există două modalităţi pe care le puteţi aborda pentru a obţine calculul indicatorilor statisticii descriptive prin opţiunea Frequencies. . .13 . Deviation .333 .11 Sum 15 54 8 3 80 Variance .

în care selectăm variabilele “consumat” şi “vârsta” .9. 22 . se deschide fereastra Crosstabs: Cell Display. adică arată câte persoane dintr-o anumită categorie de vârstă au un anumit nivel al venitului. Parametrii unei distribuţii bivariate (bidimensionale) Distribuţia de frecvenţă : “Consumaţi produse alimentare certificate ca fiind ecologice ?” şi “Vârsta aproximativă a respondentului” exprimă distribuţia eşantionului de persoane observate simultan după cele două variabile considerate . activând butonul de comandă Cells. activarea butonului de comandă Continue ne întoarce în fereastra Crosstabs. Distribuţia bivariată se poate obţine pe mai multe căi: meniul Analyze  comanda Descriptive Statistics opţiunea Crosstabs meniul Analyze  comanda Reports  opţiunea Case Summaries meniul Date  comanda Split File  comanda Analyze Reports  OLAP Cubes Prin demersul AnalyzeDescriptive Statistics Crosstabs se poate obţine o distribuţie bivariată parcurgând următorii paşi: se deschide fereastra de dialog Crosstabs . în care bifăm modul dorit de afişare a frecvenţelor în crosstable. unde prin OK se comandă SPSS-ului afişarea raportului(vezi figura 19). din lista variabilelor şi le mutăm în zonele Row(s) şi Column(s) din fereastra Crosstabs.

9% 1 9.1% 1 2.0% 3 15.0% 38 100.6% <18 ani Consumati produse alimentare certificate ca fiind ecologice ? deseori Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ? 50-65 ani Total 7 100.0% 2 18.0% 11 100.0% 3 27.Crosstabs S-a obţinut următorul tabel: Tabel 2: Tabel privind frecvenţa consumului în funcţie de vârstă Consumati produse alimentare certificate ca fiind ecologice ? * Varsta aproximativa Crosstabulation Varsta aproximativa 18-35 ani 35-50 ani 7 100.0% 20 100.8% 16 80.2% 3 7.0% 5 45.0% cateodata nu Total 23 .7% 1 5.5% 28 73.3% 6 15.Figura 19: Comandarea raportului bivariat.

Prin urmare e deosebit de important să se determine dacă eşantionul observat provine dintr-o populaţie normal distribuită. Verificarea normalităţii unei distribuţii folosind SPSS Majoritatea testelor statistice şi a procedeelor de modelare statistică cer îndeplinirea condiţiilor de normalitate pentru a putea fi interpretate.sav. boxplot. cu ajutorul comenzii Transform  Compute se calculează randamentele pe fermă pentru fermele care au cultivat grâu obţinând câmpurile rand2003 şi rand2004 astfel: rand2003= prod2003/supr2003 iar rand2004=prod2004/supr2004. Pentru aceasta vom folosi baza de date grau.10. 24 . grau2004 şi prod2004 care reprezintă rezultatele unui sondaj privitoare la suprafeţele cultivate cu grâu în fiecare fermă (ha) ( grâu2003 respectiv grâu2004 ) şi producţia obţinută la această recoltă în anii 2003 şi 2004 (prod2003 şi prod2004 în tone). Această bază de date are câmpurile: grau2003. Acolo unde datele lipsesc fermierii fie nu au cultivat grâu fie au omis să declare producţiile obţinute. prod2003. Aşa cum deja s-a arătat. PP-plot şi QQ-plot sau folosind teste statistice . Vizualizarea grafică a diferenţelor dintre o distribuţie empirică şi distribuţia teoretică folosind histograma. Nu uitaţi condiţia de filtrare: prod2003&supr2003>0 respectiv prod2004&supr2004>0 pentru a elimina valorile lipsa (figura 20).

Reamintim: meniul GraphsHistogram se bifează caseta de validare Display normal curve (vezi figura 21 de mai jos) şi alegem de exemplu variabila rand2004.Figura 20: Aplicarea filtrelor privitoare la cultura de grâu în anul 2003 Pentru vizualizarea formei grafice a distribuţiei considerăm procedeul histogramei. 25 .

0 3.25 Mean = 3.0 9. 26 .0 N = 48. Dev = 1.0 2.0 7.0 8.0 5.0 4.3 0 1.0 6.00 RAND2004 Se poate observa că distribuţia corespunde aproximativ distribuţiei normale.Figura 21: Comenzi pentru vizualizarea distribuţiei normale prin diagrama Histogram Se obţine următoarea histogramă: 20 10 Std.

50 .25 0.75 . Figura 22: Diagrama Q-Q plot Normal Q-Q Plot of RAND2004 7 6 5 4 Expected Normal Value 3 2 1 0 0 2 4 6 8 10 Observed Value Figura 23 Diagrama P-P plot Normal P-P Plot of RAND2004 1. funcţia distribuţiei normale standard).00 Observed Cum Prob 27 .23 ) Q-Q plot compară valorile ordonate ale variabilei observata cu valorile quantilice ale distribuţiei teoretice specificate (în cazul nostru distribuţia normală). Dacă distribuţia variabilei testate este normală . Aceeaşi interpretare grafică avem şi pentru diagrama PP plot care compară funcţia de repartiţie a distribuţiei unei variabile empirice cu funcţia de repartiţie a unei distribuţii teoretice specificate (în cazul nostru.75 1.00 0.00 .Alte modalităţi grafice sunt procedeele Q-Q plot şi P-P plot (vezi figurile 22.50 Expected Cum Prob . In diagramă Q-Q plot se observă că punctele nu sunt serios deviate de la linia dreaptă în cazul randamentelor obţinute în anul 2004 ceea ce arată o distribuţie normală.25 .00 . atunci punctele Q-Q conturează o linie care se suprapune cu dreapta care reprezintă distribuţia teoretică adică trece prin origine şi are panta egală cu unu.

randamentele obţinute în anul 2003 respectiv 2004 este următoarea ( aplicarea testului Kolmogorov Smirnov-Lilliefors): Selectarea opţiunii: Analyze ->Nonparametric Tests  1 Sample K-S (figura 24) Figura 24: Selectarea testului Kolmogorov-Smirnof pentru verificarea normalităţii 28 . O altă modalitate de a verifica normalitatea pentru o anumită variabilă –în cazul nostru. Putem doar să estimăm veridicitatea ipotezei distribuţiei normale a variabilelor. bazate pe impresii vizuale fiind astfel încărcate cu subiectivism.Observaţie: Procedeele grafice sunt procedee intuitive.

29 .01 ipoteza de nul se respinge cu o probabilitate de 99% In cazul de faţă valoarea lui Sig de 0.dacă valoarea coeficientului sig<0.05 în consecinţă acceptăm ipoteza de normalitate.7192 . RAND2003 48 2.957 . (ultimul rând). Procedăm analog şi pentru variabila rand2004 şi observăm că şi în acest caz distribuţia este normală.320 este mai mare decât 0. b.05 ipoteza de nul se respinge cu o probabilitate de 95% . In funcţie de valoarea acestuia ipoteza de nul “ Distribuţia nu e normală ” se respinge sau se acceptă! Astfel: dacă valoarea coeficientului sig<0.b Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Test distribution is Normal.138 . (2-tailed) a.320 Mean Std.La rubrica Test Variable List se alege variabila de testat: rand2003 obţinându-se următorul tabel: Tabel 3: Raport privind testul Kolmogorov-Smirnov One-Sample Kolmogorov-Smirnov Test N a. Sig. Acest coeficient ia valori între 0 şi 1.138 -.079 .9157 . Calculated from data. Deviation Absolute Positive Negative Concluzia normalităţii o putem trage din studiul coeficientului sig.

Dorim să examinăm indicatorii acestei distribuţii. In fereastra Frequencies se deschide fereastra de dialog cu acelaşi nume din care. prin clic pe butonul Statistics se deschide butonul Frequencies: Statistics din care se pot selecta parametrii doriţi.11. Pentru aceasta efectuăm selecţiile următoare: meniul Analyze. Calculul indicatorilor statisticii descriptive Folosim baza de date “grau” . prin bifare în casetele de validare corespunzătoare ( vezi figura 25) Figura 25: calculul indicatorilor statisticii descriptive 30 . comanda Descriptive Statistics . opţiunea Frequencies.

Obţinem un tabel de forma (tabel 4): Tabel 4: Raport privind indicatorii statisticii descriptive Statistics RAND2004 N Mean Median Std.674 O altă modalitate de calcul a acestor indici este: Meniul Analyze  Reports  Case Summaries.2478 1.343 6. Error of Kurtosis Valid Missing 48 45 3. Error of Skewness Kurtosis Std.571 . Această opţiune deschide fereastra Summary Report: Statistics.1000 1. Deviation Skewness Std.008 .3402 3. de unde se pot selecta parametrii doriţi (vezi figura 26): Figura 26: Calculul indicatorilor statisticii descriptive prin comanda Case Summaries 31 .

In zona Target Variable din fereastra Compute Variable introucem numele variabilei pentru a cărei valoare dorim să calculăm probabilitatea .1.NORMAL(q.(randamentele la hectar pentru grâu în anul 2004 aşa cum reiese din eşantion).NORMAL (q.NORMAL sintaxa este următoarea: CDF.NORMAL va fi înlocuită cu cifra 3 deoarece reprezintă valoarea în funcţie de care calculăm probabilitatea. care este probabilitatea de a obţine o recoltă de sub 3 t/ha. dată fiind distribuţia rand2004. Calculul probabilităţilor pentru distribuţii normale folosind SPSS Dorim să aflăm probabilitatea ca o valoare a unei variabile aleatorii distribuită normal să aparţină unui interval.mean. iar 1.3. Dintre funcţiile disponibile în acest sens sunt funcţiile CDF. selectată din lista Functions . CDF.NORMAL Pentru funcţia CDF.stddev) unde mean. 3.mean.34 fiind valoarea medie.NORMAL (3. Demersul e următorul: Se alege meniul Transform comanda Compute (figura 27) . Pentru exemplul dat.24 deviaţia standard pentru această variabilă (rand2004). Prin butonul OK se comandă calculul propriu-zis al probabilităţii 32 . CDF.stddev) unde q este o valoare a variabilei X.24). Litera “q” din sintaxa funcţiei CDF. de exemplu “prob3” In zona Numeric Expression introducem expresia funcţiei .12. Dorim de exemplu să calculăm.valoarea medie a distribuţiei iar stddevdeviaţia standard calculate aşa cum am văzut în precedentul capitol.NORMAL şi IDF.34.

Figura 27 : Calculul probabilităţilor pentru distribuţii normale folosind SPSS După apăsarea butonului OK se va obţine probabilitatea P(rand2004<3)= 0. putem spune că probabilitatea de a obţine o recoltă de peste 3t/ha este de 61 % (100%-39%). Dacă dorim ca să aflăm probabilitatea ca recolta unui fermier să fie între 3 şi 4 tone calculăm P(rand2004<4) – P(rand2004<3) urmărind acelaşi demers. între 3 şi 4 tone/hectar (vezi săgeata figura 28) 33 . Se obţine astfel o probabilitate de 0. Putem spune astfel că probabilitatea ca un fermier să obţină la grâu o recoltă de sub 3t/ha este de 39% . şi în acelaşi timp.31% ca un fermier să aibă o producţie de grâu.39 care apare în celula de sub numele variabilei prob3.

75 t/ha. 34 . Valoarea obţinută este de 1. dacă vrem să aflăm valoarea sub care în anul 2004 au coborât 10% din fermieri vom calcula valoarea funcţiei IDF. Putem spune deci.75 t/ha la grâu în anul 2004.1.NORMAL(0.Figura 28: Calcul al probabilităţilor pentru distribuţia normală Pentru operaţiunea inversă.1. Astfel.stddev). adică de a afla care este valoare distribuţiei pentru care probabilitatea este mai mică de o anumită valoare se foloseşte funcţia IDF. că 10% dintre fermieri au obţinut o recoltă de sub 1.NORMAL(prob.NORMAL.24) urmărind acelaşi demers ca cel descris pentru funcţia CDF.34.3.mean.

Calculul probabilităţilor prin funcţia IDF Normal 35 .Figura 28.

Butonul de comandă Continue determină revenirea în fereastra Explore. Asta înseamnă că caracteristicile acelui eşantion aproximează cu o oarecare probabilitate caracteristicile întregii populaţii. Estimarea prin interval de încredere Alegerea unui eşantion dintr-o anumită populaţie are o anumită valoare de reprezentativitate.13. valoarea medie pentru variabila rand2004. Calculăm de exemplu. din care activăm OK pentru a comanda afişarea rezultatelor în fereastra Output 36 . unde bifăm caseta de validare Descriptives şi precizăm în caseta Confidence Interval for Mean (săgeata) nivelul de încredere dorit ( implicit e 95%). Selectăm meniul Analyze comanda Descriptive Statistics  opţiunea Explore (figura 29) In fereastra Explore selectăm variabila dorită (rand2004) şi o mutăm în zona Dependent List Activăm butonul de comandă Statistics care deschide fereastra Explore:Statistics. De exemplu nu putem spune cu siguranţă că media celor 48 de înregistrări ce fac parte din eşantionul rand2004 este exact media înregii populaţiei datorită factorilor aleatorii ce au intervenit în formarea acestui eşantion. Dar putem estima media printr-un interval “de încredere”. Astfel nu putem spune cu siguranţă cât e media populaţiei dar putem spune cu o anumită probabilitate în ce interval se încadrează.

62 7. Error .87 1.75 8.7025 3.1000 1.2478 .674 37 .1801 Lower Bound Upper Bound . Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 3.9779 3.008 Std.Tabel 29: Estimarea prin interval de încredere Se obţine raportul de mai jos (Tabel 5): Tabel 5: Raport privind estimarea prin interval de încredere Descriptives RAND2004 Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std.343 .571 6.3402 2.2489 3.557 1.4219 1.

7 t/ha.9779 şi limita superioară “ Upper Bound” = 3. pentru anul 2004 este între 2. 38 . independente şi identic observate) datele obţinute pentru 95 de eşantioane s-ar încadera în acelaşi interval de încredere.In dreptul menţiunii Mean (media) observăm valoarea media a eşantionului.7025.97 t/ha şi 3. dacă s-ar repeta studiul de 100 de ori ( adică dacă s-ar înregistra 100 de eşantioane. 3.3402 t/ha – randament mediu la grâu în anul 2004.numai 5 din cele 100 de eşantioane fiind susceptibile să dea valori în afara limitelor intervalului de încredere calculat. Limitele intervalului de încredere se găsesc în dreptul menţiunii “95% Confidence Interval for Mean” cu limita inferioară “ Lower Bound” = 2. Cu alte cuvinte. Putem spune aşadar cu o încredere de 95% că producţia medie la hectarul de grâu.

vrem să o dovedim ca fiind adevărată. Demersul testării unei ipoteze statistice Demersul testării unei ipoteze presupune parcurgerea unor etape după cum urmează: 1. Se ia decizia de a nu respinge sau de a respinge ipoteza admisă O ipoteză statistică este o presupunere cu privire la un parametru al unei distribuţii date sau cu privire la legea de probabilitate a populaţiei studiate. Ipoteza nulă (ipoteza de nul). 2.14. Se stabilesc regulile de decizie . de fapt. Ipoteza nulă pe care dorim să o testăm este notată H0. Prin ipoteza nulă H0 se admite . folosind datele înregistrate prin sondaj 6. definind regiunile de “acceptare” şi de “respingere” a ipotezei H0 5. prin regula de decizie. dorim să o discredităm. se va respinge ipoteza nulă. Se formulează ipotezele. în funcţie de problema pusă. Exemplu: ipoteza de egalitate a mediilor pentru a verifica dacă sunt diferenţe semnificative între populaţiile din care s-au extras eşantioanele observate. In procesul de testare statistică . Se alege un prag de semnificaţie pentru test 4. în principal. Se compară valoarea calculată a statisticii test cu valoarea teoretică 7. că nu există nici o diferenţă între valorile comparate. Ipoteza nulă H0 este ipoteza pe care. Ipoteza H1 este cea pe care. 39 . se formulează ipoteza nulă şi ipoteza alternativă. Ipoteza alternativă Ipoteza alternativă . Ipoteza alternativă este cea care va fi acceptată dacă. Se alege un test statistic în funcţie de distribuţia de selecţie a statisticii considerate 3. se notează cu H1. Se calculează valoarea statisticii test. ipoteza pe care dorim să o testăm în opoziţie cu ipoteza nulă. de fapt.

Testarea egalităţii unei medii cu o valoare specificată Testarea egalităţii se face cu ajutorul “One-Sample T Test” Din meniul Analyze comanda Compare Means opţiunea One. După selectarea opţiunii One-Sample T Test. Specificăm valoarea dorită 1. se parcurg următorii paşi (figura 30): Selectăm în fereastra One-Sample T Test variabila vârsta şi o mutăm în zona Test Variable (s). de exemplu să observăm dacă fermierii consideraţi au obţinut în anul 2003 un randament mai mare la grâu decât media pe ţară.428 în zona de editare Test Value Activăm butonul de comandă Options care deschide fereastra One-Sample T Test:Options în care.Sample t test Dorim. în zona Confidence Interval alegem gradul de încredere 95% după care acţionăm butonul de comandă Continue pentru a reveni în fereastra Sample T Test Figura 30: Demersul alegerii testului student pentru compararea unui eşantion cu o valoare constantă “One_Sample T Test” 40 .insse.ro) obţinem că producţia medie de grâu în Romania a fost în anul 2003 de 1428 kg/ha.15. Astfel din anuarul statistic ( www.

2912 In raportul “One-Sample Statistics” sunt redate . Explicaţia acestui coeficient a mai fost oferită pe parcursul acestui caiet ( Vezi verificarea ipotezei de normalitate – testul Kolmogorov-Smirnof-Lillefors) Mean Difference – diferenţa dintre media eşantionului şi valoarea testată ( Mean – Test Value adică 2.0253 1.numărul gradelor de libertate ale statisticii ( se calculează ca mărimea eşantionului (48) –1) Sig.N. – gradul de siguranţă al acceptării ipotezei de nul.000 Mean Difference 1. (2-tailed) . Deviation .9157 Std. Error Mean – eroarea standard a mediei Test Value – valoarea cu care s-a comparat media eşantionului T – rezultatul statisticii Student df.428 = 1.mărimea eşantionului (numărul de răspunsuri din eşantion -48) Mean – media eşantionului Std.7192 Std.2912 ) In output-ul “One-Sample Test” - 41 .428 95% Confidence Interval of the Difference Lower Upper 1.769 df 47 Sig.- Acţionăm butonul OK şi comandăm SPSS obţinerea raportului Tabelul 6: Raport “One-Sample Statistics” One-Sample Statistics N RAND2003 48 Mean 2.5570 RAND2003 t 9.7192 – 1. Error Mean . Deviation – deviaţia standard Std.1322 Tabelul 7: Raport “One-Sample Test” One-Sample Test Test Value = 1.

pentru eşantionul considerat în anul 2003 şi media randamentelor înregistrate pe ţară la grâu.- 95% Confidence Interval of the difference .2912 t/ha ( Mean Difference). Pentru acceptarea/respingerea acestei ipoteze studiem valoarea coeficientului Sig.Intervalul de încredere al valorii Mean Difference cu limita inferioară (lower) şi limita superioară ( upper) Ipoteza de nul în cazul de faţă este H0: media eşantionului nu diferă foarte mult de producţia medie înregistrată în agricultura României . 42 . Se observă din valoarea acestuia: Sig= 0. Tragem deci concluzia că între media randamentele înregistrate la grâu . Faptul că acest interval nu conţine valoarea zero înseamnă că diferenţa celor 2 medii ( a eşantionului şi valoarea testată) nu poate fi zero deci mediile nu pot fi egale. Concluzia de respingere a ipotezei de nul poate fi respinsă şi studiind intervalul de încredere al “Mean Difference” interval ce nu conţine valoarea zero.000 că ipoteza de nul este respinsă cu o probabilitate de 100 % sau că este “acceptată” cu o probabilitate de 0%. există o diferenţă cu 1.

Demersul folosit în SPSS este: meniul Analyze  comanda Compare Means  opţiunea Paired-Samples T Test Exemplu: Considerăm variabilele rand2003 şi rand2004 . verificându-se dacă diferenţele dintre valorile medii sunt semnificative. se compară mediile pentru un singur grup observat în momente diferite. Prin acest procedeu . Mutăm perechea de variabile în zona Paired Variables (în partea dreaptă a ferestrei dialog) (vezi figura de mai jos). Se calculează diferenţele dintre valorile celor două variabile pentru fiecare caz în parte şi se testează dacă diferenţele dintre mediile acestora diferă de zero. Adesea prin acest test se observă aceiaşi subiecţi în două momente diferite. Pentru aceasta selectăm în fereastra de dialog Paired Samples T Test prima variabilă rand2003 prin clic asupra ei vom vedea că SPSS o mută în Current Selections (în partea din stânga jos a ferestrei) ca Variable 1. Testarea egalităţii mediilor a două eşantioane perechi Paired –Samples T Test este un procedeu care se aplică în cazul eşantioanelor dependente. Dorim să verificăm dacă nivelul mediu al randamentelor la grâu în anul 2004 este mai mare sau mai mic decât în anul 2003.16. 43 .

4876 .8285 3.Prin apăsarea butonului de comandă OK se obţine output-ul prezentat mai jos.Figura 30: Demersul alegerii testului student pentru compararea unui eşantion cu o valoare constantă “One_Sample T Test” Intervalul de încredere al ipotezei de nul se poate modifica ( implicit e 95%) apăsând butonul Options… .000 44 .3161 N 41 41 Std.1434 .6785 Std. Error Mean .1060 t -4. Error Mean . (2-tailed) . Tabelul 8: Raportul “Paired Samples Statistics” Paired Samples Statistics Mean 2.7017 -.2734 Pair 1 RAND2003 . Deviation -.9183 .602 df 40 Sig. Deviation .RAND2004 Mean Std.1481 Pair 1 RAND2003 RAND2004 Tabelul 9 : Raportul “Paired Samples Test” Paired Samples Test Paired Differences 95% Confidence Interval of the Difference Lower Upper -.9485 Std.

De asemenea constatăm că intervalul de încredere nu conţine valoarea zero. In tabelul “Paired Samples Statistics” studiem valoarea lui Sig. Putem spune deci că. pe ansamblu .4876.In tabelul “Paired Samples Statistics” la rubrica “ Mean” sunt prezentate mediile celor două eşantioane rand2003 respectiv rand2004 .6 kg/ha. adică putem afirma că între randamentele înregistrate în anul 2003 respectiv 2004 există diferenţe semnificative. Ipoteza de nul se respinge. care este 0. 45 . randamentele obţinute la grâu în anul 2003 sunt mai mici decât cele obţinute în anul 2004. Astfel în acelaşi tabel la rubrica “Mean” putem constata valoarea acestei diferenţe : -0.. în medie cu 487.000.

Acţionăm apoi butonul Define Groups… şi definim cele două grupuri ce aparţin variabilei vârsta: 46 .sav aflată pe CD) Dorim să aflăm dacă între două categorii de vârstă ale consumatorilor există diferenţe semnificative cu privire la frecvenţa consumului de alimente ecologice. Testarea egalităţii mediilor a două eşantioane independente (Independent Samples T Test) Independent Samples T Test este un procedeu care se aplică în cazul eşantioanelor independente. Exemplu: (Folosim din nou. Prin acest procedeu se testează dacă mediile a două grupe sunt egale. Demersul testării folosind SPSS este: meniul Analyze  comanda Compare Means  opţiunea Independent-Samples T Test Figura 31: Demersul alegerii testului student pentru compararea egalităţii mediilor a două eşantioane independente (Independent-Samples T Test) In fereastra Test Variable(s) (figura 31 )mutăm variabila consumat iar în fereastra Grouping Variable mutăm variabila vârsta. baza de date IEA.17.

27 -. Aceeaşi 47 . ca în cazul considerat ( Sig. Error Difference .82E-02 8.331 –săgeata 1 figura ) atunci se folosesc varianţe comune ( Equal variances assumed).394 -.12 .694 .18 F consumati produse Equal variances alimentare certificate assumed ca fiind ecologice Equal variances not assumed .57E-02 Std. al testului t ( săgeata 2 tabelul 11) este de 0.950 Sig. Deviation . Se foloseşte în acest scop testul Levene de egalitate a varianţelor ( Levene’s test for equality of Variances) Dacă nivelul de semnificaţie observat pentru acest test este mic ( de exemplu mai mic de 0.89E-02 consumati produse alimentare certificate ca fiind ecologice Tabelul 11: Raport al testului “Independent Sample Test” Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper -.08 2. Dacă acest nivel este mare. al testului Levene este egal cu 0.27 . Error Mean 6. deoarece prin ipoteza de nul se presupune că cele două populaţii au varianţe egale. In această ipoteză se observă că coeficientul Sig.694 (mai mare decât 0. Se obţin tabelele de mai jos (tabelul 10 şi tabelul 11): Tabelul 10: Raport generat de aplicarea testului “ Independent Samples Test” Group Statistics Varsta.05) atunci se folosesc varianţe distincte (Equal variance not assumed) pentru testarea mediilor.05) şi ne arată că pentru mediile celor două grupe nu se poate trage concluzia că diferă semnificativ.684 -4.331 t -. .68 Std.57E-02 -4.75 .11 1 2 3 Calculul statisticii test pentru compararea mediilor a două populaţii cere să se verifice dacă deviaţiile standard la nivelul celor două grupe sunt semnificativ diferite. 18-35ani 35-50ani N 120 58 Mean 2. (2-tailed) Difference .“2” – care descrie categoria de respondenţii între 18-35 ani şi “3” care descrie categoria de respondenţi între 35 şi 50 ani ( vezi categoriile variabilei vârsta aşa cum au fost definite).18 .229 Mean Sig.408 df 176 123.12 Std.

interval care conţine valoarea 0. 48 . tabelul 11).concluzie o putem trage din studierea intervalului de încredere a diferenţelor (săgeata 3. In concluzie nu se poate trage concluzia că diferenţa dintre valorile medii ale celor două grupe este semnificativă.

18. 49 . Testarea egalităţii a trei şi mai multe medii ANOVA (Analysis of Variances) este un procedeu de analiză a varianţei unei variabile numerice sub influenţa unei variabile de grupare. Ipoteza de nul este respinsă dacă valoarea Sig. Ipoteza nulă este respinsă dacă valoarea Sig. Prin ANOVA se compară medii pentru trei şi mai multe subpopulaţii definite de variabila de grupare (variabila independentă). ANOVA poate fi folosită în analiza unor situaţii în care asupra variabilei numerice ( variabila dependentă) acţionează simultan mai multe variabile independente. explicativă trebuie să fie calitativă şi trebuie să aibă un număr redus de categorii (modalităţi). numită şi variabilă independentă . In astfel de cazuri . One way ANOVA (ANOVA unifactorială) este unul din procedeele de analiză a varianţei pentru o variabilă cantitativă dependentă de o singură variabilă factor ( de grupare).05 (5%) semnificând că nu sunt egale toate varianţele. Ipoteza nulă . In SPSS . este inferioară valorii 0. Această problemă implică testul de omogenitate a varianţelor subpopulaţiilor .05 (5%). pentru compararea a trei şi mai multe medii este folosit următorul demers: meniul Analyze  comanda Compare Means  opţiunea One-Way ANOVA. formulată prin acest procedeu . prin ANOVA se poate prezenta modul în care aceste variabile independente interacţionează una cu alta şi ce efecte au aceste interacţiuni asupra variabilei dependente. diferă între ele. ipoteza de testat . De asemenea . Variabila factor. la situaţii în care variabila independentă (variabila de grupare ) prezintă trei şi mai multe categorii (niveluri). (probabilitatea ) este inferioară valorii 0. Testul ANOVA. presupune egalitatea a trei şi mai multe medii: H0: m1=m2=…=mk Unde mk este media grupei mk Interpretarea rezultatelor ANOVA vizează două teste şi anume: Testul de omogenitate a varianţelor. Această metodă permite extensia analizei realizate prin testul t aplicabil asupra a două medii. semnificând că cel puţin două medii calculate la nivelul subpopulaţiilor . definite de modalităţile variabilei factor (de grupare).

Pentru variabila “Vârsta” se dă Click pe celula corespunzătoare coloanei Missing ( Figura 32 săgeata 1 ) iar în fereastra Missing Values se introduce valoarea “99” (săgeata 2).De exemplu: Utilizăm baza de date IEA. Adică dacă cei care consumă “deseori” sunt mai tineri decât celelalte două categorii. “câteodată” şi “niciodată” respectiv variabila “consumat”) exită diferenţe în ceea ce priveşte vârsta acestora.sav Dorim să vedem dacă pentru cele trei categorii de intervievaţi (cu frecvenţa definită ca: “deseori”. 50 . Figura 32: Excluderea valorilor indezirabile prin comanda “Missing Values” 1 2 După selectarea opţiunii One-Way ANOVA . se parcurg următorii paşi: .In fereastra de dialog One-Way ANOVA alegem variabila “consumat” pe care o mutăm în zona Dependent List şi variabila Vârsta pe care o mutăm în zona Factor. din fereastra Variable View vom exclude variabilele lipsă prin excluderea variabilelor ce conţin “99” adică non-răspuns. Pentru aceasta . Prin butonul de comandă Options (vezi figura şi săgeata) se deschide fereastra One-Way ANOVA :Options în care se bifează casetele de validare Descriptive.

adică se presupune că varianţele grupelor sunt egale. Se poate verifica această ipoteză cu ajutorul testului Levene-Test of Homogenity of Variances.Homogenity of variance şi Means plot pentru a se verifica îndeplinirea restricţiilor de normalitate. homoscedaticitate şi independenţă impuse unei analize ANOVA (figura 33). Figura 33: Alegerea parametrilor analizei ANOVA Restricţia de homoscedaticitate. Una din restricţiile aplicării ANOVA o constituie homoscedasticitatea. ( vezi Tabelul 11 de mai jos) 51 .

Tabelul 11: Raport generat de testul Levene
Descriptives Varsta. 95% Confidence Interval for Mean Lower Bound Upper Bound 2.36 2.85 2.35 2.67 2.35 2.81 2.44 2.67

N deseori cateodata nu consum Total 48 98 69 215

Mean Std. Deviation Std. Error 2.60 .84 .12 2.51 .82 8.24E-02 2.58 .95 .11 2.55 .86 5.88E-02

Minimum 2 1 1 1

Maximum 5 5 5 5

Tabelul 12: Analiza varianţelor generată de condiţia de homoscedasticitate
Test of Homogeneity of Variances Varsta. Levene Statistic .942 df1 2 df2 212 Sig. .391

In noile condiţii , valoarea Sig. (0.391) pentru testul de omogenitate a varianţelor este mai mare ca 0,05 sugerând că varianţele pentru cele trei categorii de consumatori sunt egale, deci restricţia de homoscedasticitate este îndeplinită şi astfel se poate aplica ANOVA. Tabelul ANOVA corespunzător pentru cele trei categorii de vârstă selectate sunt prezentate în tabelul 13 . Tabelul 13: Raportul generat de testul ANOVA pentru trei categorii de vârstă
ANOVA Varsta. Sum of Squares 95.160 9322.840 9418.000 df 2 213 215 Mean Square 47.580 43.769 F 1.087 Sig. .339

Between Groups Within Groups Total

In tabelul ANOVA sunt prezentate statistica test F (vezi testul Fisher din manualul de Statistică) , valoarea Sig. precum şi elementele de calcul pentru statistica test F.
2 SE Reamintim , statistica test F se calculează după relaţia: F = 2 SR

52

2 SE reprezintă estimatorul varianţei intergrupe (Between-Groups) . Se calculează ca

medie a pătratelor abaterilor mediei fiecărei grupe faţă de media pe ansamblul grupelor şi arată varianţa datorată influenţei factorului de grupare;
2 SR reprezintă estimatorul mediei varianţelor de grupă şi arată varianţa din interiorul

fiecărei grupe (Within Groups) , varianţa datorată influenţelor aleatorii. Cu cât mediile grupelor au valori mai diferite între ele , cu atât variaţia dintre grupe este mai mare; cu cât o variaţie , în interiorul grupelor, este relativ mai mică, cu atât statistica test F este mai mare, arătând că ipoteza nulă poate fi respinsă. In exemplul considerat statistica test F este mică (1.087) cu o probabilitate asociată Sig. ( 0.339) mai mare decât 0,05 –evidenţiază că ipoteza de egalitate a mediilor pe grupe nu se respinge, deci înclinaţiile spre consum a clienţilor nu diferă semnificativ în raport cu vârsta.

53

19. Testarea egalităţii unei proporţii cu o valoare specificată (Binomial Test)
Binomial Test este un procedeu prin care se testează ipoteze cu privire la o variabilă cu distribuţie binomială, variabilă care poate lua doar două valori, de exemplu, sexul persoanelor. Pentru astfel de variabile , se calculează frecvenţele de apariţie a fiecăreia dintre cele două valori, iar pe baza lor, media, deviaţia standard, etc. Binomial test este similar cu One Sample t-test şi este folosit pentru a compara o proporţie cu o valoare specificată. Exemplu: Dorim să verificăm dacă proporţia persoanelor mulţumite de calitatea produselor agroalimentare este mai mare decât 75 % După filtrarea datelor pentru eliminarea non-răspunsurilor efectuăm următorul demers: meniul Analyze  comanda Nonparametric Tests  opţiunea Binomial (Tabel 35) Pentru aceasta , după selectarea opţiunii Binomial şi deschiderea ferestrei Binomial Test Selectăm variabila “multumit” şi o mutăm în zona Test variable List - In zona Define Dichotomy alegem Get from date dacă avem o variabilă dihotomică sau Cut point în cazul în care dorim să dihotomizăm o anumită variabilă. In cazul nostru variabila “multumit” este codificată astfel: 1- pentru răspunsul “DA sunt mulţumit” 2- pentru răspunsul “parţial mulţumit” şi 3 – pentru “nemulţumit” In zona Cut point introducem valoarea “1” pentru a selecta valorile <=1 respectiv valorile >1. Valorile <=1 vor desemna grupa consumatorilor mulţumiţi de calitatea produselor ecologice. In zona de editare Test Proportion se precizează valoarea dorită (0.75).

54

01.60 .40 1. Sig. se poate concluziona cu o încredere de 99% că proporţia celor mulţumiţi de produsele agroalimentare ecologice diferă semnificativ de proportia de 75%. mai puţin de trei sferturi dintre consumatori sunt mulţumiţi de calitatea acestor produse. (1-tailed) a.75 Asymp. asociată testului este mai mică decât 0.00 Test Prop.000 Sunteti multumit(a) de calitatea produselor ecologice ce se afla pe piata? Group 1 Group 2 Total a. Alternative hypothesis states that the proportion of cases in the first group < .b . Datorită faptului că valoarea Sig. . b. Astfel se observă că proporţia observată în eşantion pentru grupa consumatorilor mulţumiţi e de 60% . Adică .Tabel 35: Demersul testării egalităţii unei proporţii cu o valoare specificată Se apasă butonul de comandă OK şi se declanşează obţinerea raportului (vezi Tabelul 14) Tabelul 14: Raportul generat de “Binomial Test” Binomial Test Category <= 1 >1 N 93 62 155 Observed Prop.75. 55 . Based on Z Approximation. .

20.40. Exemplu: Considerăm variabila “consumat” din fişierul “iea. In cazul nostru alegem să verificăm dacă există următoarea corespondenţă: consumatori frecvenţi 30%. consumatori ocazionali –40%. în cazul nostru variabila “consumat” şi o mutăm în zona Test Variable List. Aplicarea acestui procedeu de testare presupune următorul demers: meniul Analyze  comanda Nonparametric Tests  opţiunea Chi-Square Test. deci specificăm proporţiile 30. Se pot selecta mai multe variabile . respectiv non. fie cu o distribuţie de frecvenţă propusă. pentru fiecare variabilă obţinându-se câte un tabel de frecvenţă separat. testul Hi-pătrat este folosit pentru a verifica dacă distribuţia teoretică a frecvenţelor relative (ipoteza de nul presupune că toate categoriile au proporţii egale). Alegem Get from data. Adică dacă consumatorii se împart în mod egal în –consumatori frecvenţi. considerând categoriile definite pentru variabila “ consumat” In zona Expected Values alegem ipoteza toate proporţiile egale sau proporţii specificate (Values). Testarea egalităţii a două şi mai multe proporţii In cazul unei distribuţii nominale. In fereastra de dialog Chi-Square Test (vezi figura 34) selectăm variabila pentru care dorim să testăm proporţiile.sav” Dorim să verificăm dacă proporţia respondenţilor pe cele trei categorii este egală.30 la rubrica “Values” .consumatori consumatori –30 % . In zona Expected Range definim categoriile pentru care dorim să testăm proporţiile . consumatori ocazionali respectiv nonconsumatori. 56 .

din care se selectează OK. pentru fiecare categorie i. sunt comparate frecvenţele observate cu frecvenţele teoretice ( aşteptate conform ipotezei de nul).8 pentru răspuns “nu consum” Rezultatele sunt prezentate în tabelul de mai jos (Tabelul 15): 57 .4 pentru răspuns “cateodata” 216 x 30 % = 64. Diferenţele sunt prezentate pe categorii în coloana Residual. care comandă lansarea procedurii de obţinere a rapoartelor de mai jos (figura ) Interpretare In tabelul frecvenţelor .8 pentru răspuns “deseori” 216 x 40% = 86. Exemplele teoretice aşteptate de noi în cazul de faţă sunt: (din totalul de 216 respondenţi) 216 x 30 % = 64.Figura 34: Demersul alegerii proporţiilor de testat prin testul Hi-pătrat - Prin clic pe butonul de comandă Continue . se revine în fereastra Chi-Square Test .

330 df 2 Asymp.6 5. Se poate trage concluzia că cele trei categorii de consumatori nu au proporţia specificată: 30:40:30. Tabelul 16: Rezultatul testului Hi-pătrat Test Statistics consumati produse alimentare certificate ca fiind ecologice Chi-Squarea 6.2 In tabelul Chi Square Test se prezintă valoarea statisticii Hi-pătrat (Chi-Square) gradele de libertate (df) şi valoarea semnificaţiei (Asymp. Sig. . 3. The minimum expected cell frequency is 64.4 64. Pentru aceasta filtrăm doar categoriile de vârstă 2.8 86.01. Exemplul 2: Dorim să calculăm deviaţia de la frecvenţele teoretice pentru o distribuţie de 2 variabile: presupunem “varsta” şi “consumat” . 0 cells (. Sig). valoarea estimată a statisticii Hi-pătrat este semnificativă la un nivel de încredere de 95% deoarece valoarea Asimp.8 Residual -16.042 a.0%) have expected frequencies less than 5.8. Selectăm doar categoriile de vârstă între 18-65 de ani .8 11. Ca urmare ipoteza nulă este respinsă.Tabelul 15: Frecvenţele observate şi teoretice privitoare la aplicarea testului Hipătrat consumati produse alimentare certificate ca fiind ecologice deseori cateodata nu consum Total Observed N 48 98 70 216 Expected N 64. Sig< 0. In exemplul dat.4 ( Vezi Data  Select Cases) condiţia (varsta >1 & varsta < 5) 58 . cele mai numeroase în sondajul nostru.

Tabel 35: Demersul aplicării testului Hi-pătrat pentru două variabile Demersul este următorul (Figura 35): Meniul Analyze  Descriptive statistics  Crosstabs In fereastra Crosstabs la rubrica Row(s) trecem variabila “ consumat” iar la rubrica column(s) trecem variabila “varsta” Acţionând butonul Cells (săgeata) se deschide fereastra Cells Display unde se selectează la rubrica “ Counts” afişarea valorilor observate “ Observed” şi a valorilor teoretice aşteptate “ Expected”. Analog acţionând butonul “Statistics” se obţine o nouă fereastră din care bifăm opţiunea Chi-Square ( vezi săgeata din figura 36) 59 .

Figura 36: Alegerea opţiunii Hi-pătrat din fereastra “Statistics” După acţionarea butoanelor “Continue” şi OK” se obţin rapoartele de mai jos: Tabel 17: Raport privitor la frecvenţele observate şi teoretice pentru variabilele “consumat” şi “vârsta” 60 .

2 In figura de mai jos avem rezultatele testului Hi-pătrat.0 62 62.consumati produse alimentare certificate ca fiind ecologice * Varsta. comportamentul consumatorilor în ceea ce priveşte consumul de produse ecologice nu este influenţat de vârstă. Astfel au fost primite 29 de răspunsuri pentru consumul frecvent de produse ecologice “deseori” de către consumatorii cu vârste între 18-35 ani. nu diferă de cele teoretice pentru nici una din cele trei categorii de consumatori.0 91 91.0 200 200.0 In tabelul sunt afişate atât frecvenţele observate “count” cât şi cele teoretice “expected count”.4 17 18. Aceasta înseamnă că proporţia tinerilor din eşantion este: p= 120/200* 100% = 60% Numărul total al celor care au răspuns cu “deseori” privind frecvenţa consumului este (vezi Tabel 17) de 47. Teoretic ne aştepăm deci ( în cazul ipotezei de nul) ca 60 % din aceştia să fie tineri între 18-35 ani.6 38 37.05 ceea ce înseamnă că ipoteza de nul nu se respinge.0 consumati produse alimentare certificate ca fiind ecologice deseori cateodata nu consum Total Count Expected Count Expected Count Expected Count Expected Count Count Count Count 18-35ani 29 28.0 50-60ani 8 5. Adică frecvenţele observate .2 7 10. 35-50ani 10 13.0 7 6.8 22 22. Se observă coeficientul Sig. Frecvenţa teoretică este deci : ft= 47x 60% 61 . Cu alte cuvinte.0 58 58.2 53 54. Frecvenţa teoretică “ expected count” a fost calculată ţinând cont de urmâtoarele aspecte: Numărul total al tinerilor de 18-35 ani din eşantion este (vezi tabel Total-Count) de 120 în timp ce numărul respondenţilor este de 200. Crosstabulation Varsta.6 31 26.0 Total 47 47. adică 28.2 120 120. >0.

The minimum expected count is 5. Sig.0%) have expected count less than 5. (2-sided) .710 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases a. 62 .17. 0 cells (.Tabel 18: Rezultatul testului Hi-pătrat pentru variabilele vârsta şi consumat Chi-Square Tests Value 4.371 a 4.138 200 df 4 4 1 Asymp.365 .358 .312 .

Considerăm următorul demers: meniul Analyze Correlate  Bivariate prin care se deschide fereastra Bivariate Correlations . 63 . Astfel coeficienţii de corelaţie semnificativi la pragul de 0. După deschiderea ferestrei Bivariate Correlations se parcurg următorii paşi: -Selectăm variabilele dorite şi le mutăm în zona Variables.21. coeficienţii de corelaţie pe care dorim să-i calculăm. iar cei semnificativi la pragul de 0.01 sunt marcaţi cu două asteriscuri.05 sunt marcaţi cu un asterisc. Pentru stabilirea corelaţiei dintre două mărimi în SPSS se pot calcula trei coeficienţi de corelaţie: Pearson. Kendall şi Spearman (vezi cursul de statistică). Casera de validare Flag significant correlations este activată la deschiderea ferestrei dialog şi are ca efect semnalizarea corelaţiilor semnificative. corelaţia este o măsură a intensităţii legăturii dintre variabile. Analiza de corelaţie Analiza de corelaţie este folosită pentru a studia intensitatea legăturii dintre variabile. alegem prin bifare în casetele de validare corespunzătoare . Exemplu: In baza de date Anuarul_statistic.sav găsi date preluate din anuarul statistic privind productivitatea medie la nivel naţional pentru diferite culturi între anii 1990 şi 2003 . Astfel am dori să punem în vedere existenţa unei corelaţii între randamentele înregistrate la grâu şi cele înregistrate la orz. In zona Correlation Coefficients. In sens strict.

Correlation is significant at the 0.000 . 64 .000 . cu nivelul de semnificaţie (Sig. In raport sunt prezentate statisticile pentru fiecare variabilă .01 level (2-tailed). precum şi valoarea coeficientului de corelaţie Pearson.000 .893** .Figura 37: Demersul analizei de corelaţie - Activând OK cerem obţinerea raportului ( vezi Tabel 19) Tabel 19: Raportul de corelaţie randamente grâu-orz Correlations Grau total Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. 14 14 Orz total **.893** 1. . (2-tailed) N Grau total Orz total 1.) corespunzător.000 14 14 .

valoarea coeficientului fiind foarte apropiată de 1. luate două câte două şi valorile pragului de semnificaţie (Sig.cartofi Correlations Grau total Pearson Correlation Sig. cu atât legâtura este mai slabă. Un coeficient de corelaţie egal cu –1 arată o legătură inversă perfectă.) corespunzător . Valorile sunt distribuite simetric. De o parte şi de alta a diagonalei tabelului sunt prezentate valorile coeficienţilor de corelaţie dintre variabile. Pentru exemplul considerat s-a obţinut un coeficient de corelaţie Pearson egal cu 0. corespunzătoare egală cu 0. 14 Cartof total 65 .336 14 1.336 14 Cartof total -.000 .01 adică sunt şanse mai mici de 1% de a greşi dacă afirmăm că între cele două variabile există o corelaţie semnificativă. cu atât legâtura e mai puternică. N. corespunzători corelaţiei fiecărei variabile cu ea însăşi. Valoarea coeficientului indică intensitatea legăturii şi anume: cu cât se apropie mai mult de 1. precum şi numărul observaţiilor considerate.278 . atunci între variabile nu există legătură. respectiv cu cât se apropie mai mult de zero. Valoarea Sig.000 . Reamintim că valoarea coeficientului de corelaţie Pearson este cuprinsă între – 1 şi 1 Dacă coeficientul ia valoarea 0.Tabelul Correlations este un tabel cu matricea coeficienţilor de corelaţie. 14 -. (2-tailed) N Pearson Correlation Sig.278 . Un coeficient de corelaţie egal cu +1 indică o legătură directă perfectă între variabile. (2-tailed) N Grau total 1. Putem spune deci că culturile de grâu şi orz sunt corelate din punct de vedere al randamentelor obţinute annual. de o parte şi de alta a diagonalei coeficienţilor de corelaţie egali cu 1.893 ceea ce sugerează că între variabile există o corelaţie directă puternică . Tabelul 20: Raportul de corelaţie randamente grâu . In tabelul următor se observă că o astfel de corelaţie nu există între randamentele obţinute la grâu şi cartof.000 evidenţiază că s-a obţinut un coeficient de corelaţie semnificativ la 0.

. Dacă răspunsul a fost “ Nu cunosc aceste produse” se pun întrebările III şi IV. Astfel. II) Cum identificaţi produsele alimentare ecologice într-un magazin? 2) După spaţiile special amenajate 1) După ambalaj /sigla Altele……… 3) Dacă în urma întrebărilor I şi II observăm că intervievatul nu cunoaşte noţiunea de produs ecologic se pun întrebările III şi IV. vor fi considerate strict confidenţiale. Datele personale. se iau date le personale. furnizate de dvs. varsta) apoi se încheie interviul. se iau datele personale –(intrebarile X si XI. se trece direct la întrebarea cu numărul V fara a se mai pune intrebarile III si IV. varsta) apoi se încheie interviul. XI. -(intrebarile X. Vă rugăm să aveţi amabilitatea de a ne răspunde la următoarele 10 întrebări: I ) Consumaţi produse alimentare certificate ca fiind ecologice? 1) Deseori 2) Câteodată 3) Nu I b) Vă rugăm explicaţi de ce aţi ales una din aceste opţiuni: ……………………………………………………………………………. aţi fi dispus să achiziţionaţi aceste produse? 1) Sigur da Sigur nu IV) 2) Cred că da 3) Nu ştiu 4) Mai degrabă nu 5) Dar dacă aţi şti că preţul produselor ecologice ar fi cu 40% mai mare decât cele clasice aţi mai cumpăra? 1) Sigur da 2) Cred că da 3) Nu ştiu 4) Mai degrabă nu 5) Sigur nu V) Care sunt motivele pentru care achizitionati produsele alimentare ecologice? 66 .ANEXA CHESTIONAR Universitatea de Ştiinţe Agricole şi Medicină Veterinară a iniţiat acest studiu care urmăreşte să evalueze gradul de cunoaştere. precum şi părerile lor în legătură cu acest subiect. III ) Dacă aţi şti că produsele ecologice sunt mai sănătoase pentru că nu conţin substanţe chimice şi în plus sunt obţinute prin protejarea mediului. în rândul consumatorilor a produselor alimentare ecologice .. Dacă se cunoaşte noţiunea de produs alimentar ecologic.

telefon………………………………………………… Vă mulţumim foarte mult pentru atenţia acordată ! Se va nota apoi vârsta aproximativă a intervievatului aşa cum o apreciaţi dvs.65 ani 5 ) 65 ani 67 . XI) Vă rugăm să ne spuneţi numele şi nr. VII) piata? 1) DA 2) Partial 3 ) NU VIII) Sunteţi mulţumit (ă) de calitatea produselor ecologice ce se află pe piaţă ? 1) DA ? ……………………………………………………………………………… IX) De unde aţi aflat despre existenţa produselor alimentare ecologice? 2 ) Din reviste 3) Din magazine 4) De la un prieten 2) Parţial 3) NU Sunteti multumit(ă) de numarul de produse ecologice ce se afla pe Vă rugăm sa ne spuneti de ce aţi ales una din opţiunile “Parţial” sau “NU” 1 ) De la TV 5) De pe Internet 6) De la mine 7) Altele…………………………… X) Vă rugăm să ne spuneţi ce ocupaţie aveţi ( sau aţi avut înainte de pensionare. şomaj etc) …………………………………………………. dvs de telefon: Nume:……………………………………………………….1) pentru sanatate batrani 2 ) sunt mai gustoase 3) pentru copii / pentru 4)Altele:……………………………………………………….. VI) Cum credeţi că ar trebui încurajat consumul de produse ecologice? 1) Prin scăderea preţurilor 2) Prin publicitate mai intensă 3) Prin informarea consumatorilor asupra avantajelor acestui tip de produs 4) Altele……………………………………………………………… …. Nr. ! 1) < 18 ani 2) 18-35 ani 3) 35-50 ani 4) 50.

Sign up to vote on this title
UsefulNot useful