You are on page 1of 45

Noiuni introductive

1.1. Caracteristici (variabile) Ceea ce face ca anumite elemente s fie analizate mpreun este o caracteristic comun. irul de numere rezultat n urma aplicrii unui test de inteligen vor putea fi analizate mpreun deoarece au comun caracteristica dat de coeficientul de inteligen. n statistic caracteristicile poart numele de variabile. Deci pentru a defini o variabil avem nevoie de o etichet pentru elementul msurat i acestei etichete i se asociaz o proprietate1. Exemplul 1.1. Pentru subiecii crora li s-a aplicat un test de inteligen se poate reprezenta variabila sub urmtoarea form: Etichet Subiect 1 Valoare coef de intelig 117 Subiect 2 100 Subiect 3 98 Subiect 4 79 Subiect 5 102

ntruct ceea ce ne va interesa este caracterizarea unui grup de elemente, vom folosi n continuare denumirea de caracteristic. Caracteristicile vor de tip calitativ sau cantitativ. Caracteristicile de tip calitativ, aa cum se poate deduce din denumire ne arat o calitate a elementelor grupului. Exemplu 1.2. De exemplu putem avea caracteristica grad universitar i atunci ea ar putea fi de forma: Etichet Grad universitar Subiect 1 Subiect 2 Confereniar Lector Subiect 3 Preparator Subiect 4 Profesor

Caracteristicile de tip cantitativ sunt cele n care studiem valori asociate elementelor grupului. Exemplul 1.3 Dac studiem indicele de depresie la un grup, caracteristica va arta astfel: Etichet Indice de depresie 1.2 Populaie. Populaia2, din punct de vedere statistic, reprezint mulimea de elemente care au una sau mai multe caracteristici comune. De exemplu, putem avea populaia alctuit din persoanele din mediul urban, n acest caz caracteristica comun fiind faptul c sunt din mediu urban. Putem avea i o populaie alctuit din persoanele de sex feminin din mediul rural. n aceast situaie persoanele au dou caracteristici comune ce le reunesc ntr-o populaie: faptul c sunt de sex feminin, i c sunt din mediu rural. Elementele populaiei pot fi: persoane, obiecte, evenimente, idei, opinii, etc.
1

Subiect 1 55

Subiect 2 40

Subiect 3 46,25

Subiect 4 32,5

Am folosit termenul de proprietate pentru a cuprinde amndou posibilitile: Etichetei s-i fie asociat o valoare sau o calitate 2 O alt denumire pentru populaie este i colectivitate statistic

Putem spune c asupra elementelor unei populaii acioneaz aceleai legi statistice din punct de vedere al caracteristicii studiate. n raport cu aceste legi se poate defini gradul de omogenitate al unei populaii. Pentru studiile n tiinele sociale aceast omogenitate ne poate fi foarte folositoare n realizarea de predicii asupra populaiei studiate. Un posibil rezultat ar putea fi: cu ct omogenitatea este mai mare cu att gradul de siguran al prediciei va fi mai mare. Exemplul 1.4. Lund pe post de caracteristic nvarea limbii franceze la coal n clasa a 6-a, putem avea o populaie alctuit din elevii de clasa a 6-a ce nva limba francez la coal. S-ar putea ca omogenitatea acestei populaii s fie foarte mic, datorit faptului c elevii provin din mediul urban, iar alii din mediul rural. Desigur, n acest caz, putem transforma studiul i vom spune c analizm dou populaii: o prim populaie compus din elevii de clasa a 6-a ce nva francez i sunt din mediu urban i o a doua populaie compus din elevii de clasa a 6-a ce nva francez i sunt din mediul rural. S observm c fiecare populaie are n fapt 3 caracteristici: nva limba francez, sunt n clasa a 6-a i mediul cruia aparin. Exemplul 1.5. S presupunem c dorim s studiem la un moment dat ci cumprtori dintr-un magazin la un moment dat sunt localnici i ci sunt turiti. n acest caz vom analiza dou populaii: o prim populaie alctuit din localnicii ce cumpr din acel magazin i o a doua populaie alctuit din turitii ce au fcut cumprturi n acel magazin. Dac ns dorim s comparm cumprturile realizate de localnici cu cumprturile realizate de turiti, atunci s-ar putea s obinem o omogenitate mai mic a celor 2 populaii i atunci s-ar putea s fim nevoii s studiem dup o alt caracteristic, s zicem sexul cumprtorilor. n acest caz vom avea 4 populaii: populaia de localnici de sex feminin ce cumpr din magazin, populaia de turiti de sex feminin ce cumpr din magazin, populaia de localnici de sex masculin ce cumpr din magazin i populaia de turiti de sex masculin ce cumpr din magazin. Ca exerciiu v putei imagina ca o caracteristic de care se poate ine cont n realizarea populaiei, vrsta celor ce fac cumprturi n acel magazin. Desigur mprirea dup prea multe caracteristici duce la un numr mare de populaii studiate, ceea ce ngreuneaz considerabil cercetarea. Vom vedea ntr-unul din capitolele urmtoare c putem uni dou populaii ntr-una singur atunci cnd diferenele ntre ele nu sunt semnificative. La nivel conceptual, totul pare destul de corect, ns din punct de vedere practic, chiar i cazul n care avem de analizat caracteristicile unei singure populaii apar destule probleme 3. Pentru a nelege mai bine acest lucru este suficient s ne gndim la recensmntul populaiei unei ri. Am dat acest exemplu pentru a arta c totui analiza fiecrui individ al unei populaii se realizeaz, dei este destul de dificil de realizat. n situaia cnd se realizeaz analiza unei populaii prin analiza fiecrui individ, tiina ce descrie aceast populaie se numete Statistic Descriptiv. Totui n cele mai multe cazuri realizarea unei statistici descriptive nu se realizeaz. n aceste cazuri se folosesc uniti statistice mai mici pe baza lor putndu-se realiza o extensie la populaie. Acest gen de statistic se numete Statistic Inferenial. n seciunea urmtoare vom prezenta diferite tipuri de uniti statistice. 1.3. Eantion. Lot. O definiie destul de uzual este: se numete eantion un subansamblu al unei populaii. [P Rateau]. Pornind de la aceast definiie putem observa c un eantion reprezint mulimea de elemente4 care au una sau mai multe caracteristici comune. Desigur ai observat c aceast definiie este asemntoare cu cea a populaiei. Deci unde este diferena? Numrul de elemente care, n cazul eantionului, este mai mic dect cel al populaiei. Dar oare avnd un grup elemente
3 4

de costuri, de control al rezultatelor, etc. reamintim c elementele pot fi persoane, obiecte, idei, opinii, evenimente, etc.

ce au aceeai caracteristic putem s spunem ceva despre populaie? Doar dac eantionul este reprezentativ, dac el conine la nivel micro toate elementele eseniale ce se regsesc n toat populaia. Exemplu 1.6.. Pornind de la ipoteza5: Cu ct crete vechimea n munc cu att dorina de schimbare scade. n acest caz vom avea dou eantioane: Primul va fi format din muncitori angajai de curnd, iar al doilea din muncitori ce au o vechime mai mare n munc. S presupunem c dorim s studiem dac un fenomen poate influena o mulime de elemente. Vom face msurtorile pentru o mulime nainte de petrecerea fenomenului i apoi, pe aceeai mulime, vom face msurtori dup petrecerea fenomenului. n acest caz nu o caracteristic realizeaz reunirea ntr-un grup a elementelor. Pentru acest gen de situaii se folosete denumirea de lot. Primul lot6 se va numi lot de control, iar cel de-al doilea lot7 se va numi lot experimental. De exemplu, s presupunem c dorim s studiem dac sistemului de notare cu note de la 1 la 100 ar fi mai bun dect sistemul de notare de la 1 la 10. Pentru aceasta vom lua dou loturi. n primul lot vom avea elevii unei clase la care vom face notarea de la 1 la 10, iar al doilea lot vom avea elevii din alt clas unde vom face notarea de la 1 la 100. n acest caz am folosit denumirea de lot ntruct obiectul studiului l reprezint metoda de notare i nu elevii n sine8. 1.4. Metapopulaie Acest termen a fost introdus de biologul R. Lewis n 1970 i se refer la acea unitate statistic ce const din mai multe populaii conspecifice, trind n ecosisteme diferite i ntre care se produc schimburi de indivizi (informaie genetic) relativ frecvente 9. Acest termen s-ar putea aplica i n domeniul tiinelor sociale unde analiza unei populaii trebui s in cont i de populaiile cu care populaia analizat ar putea interaciona. De exemplu, putem avea o metapopulaie compus dintr-o populaia dintr-o ora i populaia dintr-o comun apropiat de acel ora. Caracterul de metapopulaie al celor dou populaii este dat cei ce locuiesc n comun i lucreaz n ora. 1.5. Eveniment. Odat stabilit tipul de unitate statistic cu care vom lucra10, vom dori s realizm diferite experimente, experiene pe tipul de unitate statistic ales. n teoria probabilitilor, rezultatul unei experiene se numete eveniment. Exemplu 1.7.: S presupunem c dorim s analizm ct la sut din studeni vor intra n sala de curs n cele 10 minute dinaintea cursului. Populaia va fi compus din toi studenii, deoarece indiferent de an i de facultatea de unde sunt studenii, toi au ore de curs n programa de nvmnt. Vom lua un lot11 de la un curs dintr-o anumit zi. Ca eveniment (rezultat al experienei) putem avea 20 de persoane ce au intrat in ultimele 10 minute. S notm acest eveniment cu A. Cu B vom nota evenimentul 30 de persoane au intrat n ultimele 10 minute i cu C vom nota evenimentul 70 de persoane au intrat n ultimele 10 minute la curs.
5 6

ntruct nu constituie scopul acestei lucrri nu voi insista asupra problemelor legate de eantionare. cel dinaintea petrecerii fenomenului 7 cel de dup ce fenomenul studiat a avut loc. 8 s observm c obinerea de diferene semnificative ntre cele 2 loturi nu nseamn automat c un sistem de notare este mai bun dect cellalt. 9 N.Botnariuc 10 metapopulaie, populaie, eantion sau lot 11 n acest caz putem spune c este vorba de un lot deoarece nu ne intereseaz caracteristicile populaiei (s-ar putea ca cei care intr la acel curs s nu fie toi studeni) ci fenomenul.

Un alt tip de eveniment ar putea fi n ultimele 10 minute s intre la curs mai puin de 35 de persoane. Pe acesta l putem nota cu D. Se observ c evenimentul D include i evenimentul A i evenimentul B. Vom spune c evenimentele A i B sunt evenimente primare i evenimentul D este compus. Ca tipuri de evenimente putem avea cele dou cazuri extreme: a) Evenimentul imposibil (sau evenimentul nul), care, aa cum se poate deduce din denumire, este acel eveniment care nu se poate produce. Acesta se poate obine i din 2 evenimente care se pot produce. Exemplul 1.8. S spunem c avem evenimentul A: s obinem mai mult de 7 puncte la un joc i evenimentul B:numrul obinut la aruncarea unui zar. Evenimentul rezultat din combinarea12 celor dou evenimente este C: la un joc cu zarul s obinem mai mult de 7 puncte la aruncarea unui zar. Acest lucru evident este imposibil. b) Evenimentul total. Acest gen de eveniment este cel care se produce n mod sigur n urma unui eveniment. Exemplul 1.9. n urma aruncri unui zar se obine un numr. Sau, n urma aplicrii unui test, obinem o informaie asupra celui cruia i s-a adresat testul. Cci, chiar i un refuz de completare a testului, reprezint o informaie despre cel cruia am ncercat s aplicm acel test. n general, o delimitare incorect a evenimentelor poate constitui o surs de erori.

Reprezentarea datelor ca mod de examinare preliminar fenomenului studiat


A culege datele nu nseamn doar a le nirui pe o foaie de hrtie. La fel de important este modul n care stocm datele n vederea prelucrrii lor. nainte de arta cum putem realiza aceast stocare a datelor vom prezenta cte ceva despre datele culese din teren. Serii de numere n aceast mic seciune vom prezenta ideea de serie de numere aa cum poate fi ea ntlnit n majoritatea proceselor sociale, fr a face referire la semnificaia matematic ce este mult mai larg. n acest context vom ntelege prin serie de numere, mulimea de numere ce au o caracteristic comun. Pentru a nelege mai bine aceast noiune vom lua dou exemple. Exemplul 2.1. Avem un lot de 15 subieci de sex masculin crora le-am aplicat un test de inteligen. Mulimea alctuit din rezultatele la acest test reprezint o serie de numere, caracteristica lor comun fiind faptul c ne arat coeficientul de inteligen al subiecilor dintr-un anumit lot. Putem avea o a doua serie de numere ce reprezint coeficientul de inteligen al subiecilor de sex feminin dintr-un lot de 15 subieci. Problema ce ar putea aprea este de a compara cele dou loturi prin prisma acestor dou serii de numere. Exemplul 2.2 . S presupunem c avem o ntrebare dintr-un chestionar ce este aplicat pe dou grupuri de subieci, unul n mediul rural iar al doilea n mediul urban. S presupunem c n urma prelucrrii datelor am obinut urmtoarele rezultate:

12

Matematic vorbind este vorba de intersecia celor 2 evenimente

Mediul Rural Urban

Da 64% 52%

Nu 36% 48%

n acest caz ne spunem c o prim serie de numere o reprezint procentele la rspunsuri date de subiecii din mediul rural, iar o a doua serie o reprezint procentele date de subiecii din mediul urban. Dac o serie reprezint un proces ce se petrece n timp, atunci aceasta se va numi serie temporal13. Exemplu 2.3. n tabelul de mai jos am msurat creterile anuale ale populaiei globului n perioada 1995 - 2000 Anii Nr locuitori 1995 80,781,974 1996 79,253,622 1997 79,551,074 1998 78,019,039 1999 76,861,716 2000 75,529,866 Seria este temporal ntruct ne arat un proces creterea populaiei, i acest proces este studiat ntr-o perioad de timp din anul 1995 pn n anul 2000. Analog putem avea serii de tip spaial14. Exemplul 2.4. n mai multe licee din Bucureti se pune urmtoare ntrebare profesorilor: Se poate vorbi de o dependen de computer n rndul elevilor? n urma prelucrrii datelor sau obinut urmtoarele rezultate15: Locul aplicrii Liceu sector 1 Liceu sector 2 Liceu sector 3 Liceu sector 4 Liceu sector 5 Liceu sector 6 Procent rspunsuri afirmative 58 % 49% 61% 41% 40% 44%

n acest caz seria de numere este studiat n aceeai perioad de timp, dar n puncte diferite din spaiu. Reprezentri grafice ale seriilor de numere n general, atunci cnd se face referire la reprezentare grafic, se nelege reprezentarea datelor ntr-un sistem de coordonate. Totui, uneori este de preferat folosirea altor reprezentri cum ar fi: tabele, figuri geometrice, hri, etc. Reprezentrile grafice cu ajutorul unui sistem de coordonate se numesc diagrame.
13 14

Sau serie cronologic Sau serii teritoriale 15 Datele prezentate sunt ipotetice

Astfel o diagram trebui s conin, indiferent de form, un sistem de coordonate i o legend explicativ atunci cnd se reprezint mai multe serii de numere. Diagramele cele mai folosite sunt cele bidimensionale. Aa cum se poate deduce chiar din denumire, diagramele bidimensionale au dou axe. Axa Ox16 este axa pe care reprezentm etichetele seriei de numere17, iar pe axa Oy18 valorile corespunztoare acestor etichete. Dac avem mai multe serii de numere atunci diagrama trebuie s conin o legend din care s rezulte semnificaia fiecrei serii de numere. Diagramele de tip linie Unul din modurile cel mai des folosite este reprezentarea datelor prin diagramele de tip linie, cunoscute sub denumirea de grafice. Fie urmtorul exemplu19: Exemplul 2.5. La un test, n urma corectrii rezultatelor, s-au obinut urmtoarele note: cu nota 4 3 elevi, cu nota 5 5 elevi, cu nota 6 2 elevi, cu nota 7 - 4 elevi, cu nota 8 3 elevi, cu nota 9 4 elevi, cu nota 10 3 elevi. Cu rezultatele expuse mai sus realizm un grafic:
Nr.elevi 7 6 5 4 3 2 1 0 4 5 6 7 8 9 10

Se observ faptul c folosind modul de reprezentare cu ajutorul graficului informaia obinut devine mai ampl dect n cazul prezentrii prin tabel. De exemplu se observ imediat faptul c n aceast clas exist cele dou tipuri de elevi, cei care se centreaz n jurul notei 5 i al doilea grup format din cei care se centreaz n jurul notei 7. Dac n loc de note realizm o analiz a fenomenelor n funcie de timp, atunci graficul ne va arta evoluia n timp a unui proces:

16 17

orizontal Aceste etichete pot fi sub forma de text sau numere 18 vertical 19 Din Informatica si instruire asistata de calculator

Exemplul 2.6. Dorim s analizm creterea populaiei globului n perioada 1994-200420. Atunci vom pune pe axa Ox anii iar pe Oy valorile. Vom obine urmtorul grafic:
6.5 6.4 6.3 6.2 6.1 Miliarde 6.0 5.9 5.8 5.7 5.6 5.5 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

Acest tip de grafice se poate observa faptul c dac, pe scala Oy schimbm valorile forma graficului se schimb. n cazul de mai sus valorile de pe axa Oy sunt ntre 5,5 miliarde i 6,5 miliarde. Dac ns lum valorile ntre 2,5 i 6,5 miliarde vom obine urmtorul grafic:

6.5 6.0 5.5 5.0 Miliarde 4.5 4.0 3.5 3.0 2.5 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

n acest caz creterea nu mai pare att de pronunat ca n primul caz. (Iat o prim justificare a necesitii folosirii analizei statistice n vederea prelucrrii datelor). Desigur apare ntrebarea: Care din cele dou variante ar fi cea corect? Corecte sunt amndou. Alegerea scalei este dat de problema studiat: Dac, de exemplu, studiem creterea populaiei n raport cu anul 1994, atunci este recomandabil prima reprezentare. Dac ns dorim s ne raportm la anul 1950 cnd populaia globului era aproximativ 2,5 miliarde atunci este recomandabil cea de-a doua reprezentare. Fr ns s apelm la calcule statistice putem prelucra datele astfel nct s
20

Sursa: U.S. Census Bureau, International Data Base.

obinem noi informaii chiar din aceste date. De exemplu, putem reprezenta, tot n aceeai perioad, cu ct a crescut populaia n fiecare an comparativ cu anul anterior. Vom obine datele: 1995-1994 80,781,974 1996-1995 79,253,622 1997-1996 79,551,074 1998-1997 78,019,039 1999-1998 76,861,716 2000-1999 75,529,866 2001-2000 74,220,528 2002-2001 73,002,863 2003-2002 72,442,511 2004-2003 72,496,962 Ca reprezentare vom folosi din nou diagrama de tip linie. Dup cum se observ din diagrama de mai jos, dei populaia globului continu s creasc, se observ o scdere continu a ritmului de cretere.
Ritmul de cretere al populaiei globului
82 80 78 Milioane 76 74 72 70 68
19 95 -19 94 19 96 -19 95 19 97 -19 96 19 98 -19 97 19 99 -19 98 20 00 -19 99 20 01 -20 00 20 02 -20 01 20 03 -20 02 20 04 -20 03

n lucrul cu diagrame de tip linie putem ntlni urmtoarele tipuri de reprezentri: a) datele grupate la cea mai mic valoare21

21

Putem observa chiar c ultimul exemplu se ncadreaz n aceast clas de reprezentri

b) date grupate la cea mai mare valoare

c) Datele distribuite normal

d) Date ce reprezint o metapopulaie format din dou populaii


8 7 6 5 4 3 2 1 0 30 40 50 60 70 80 90 100

n practic desigur se pot ntlni mult mai multe tipuri de grafice, dar ne-am oprit la acestea i prin prisma noiunilor ce vor fi predate n capitolele urmtoare. Observaie La graficul de la punctul d) am folosit din nou noiunea de metapopulaie. Vom da un exemplu pentru a se nelege mai bine motivaia acestei denumiri: S presupunem c aplicm un test la un lot de subieci. Din graficul rezultat deducem c am putea avea dou populaii: una format din subiecii centrai n jurul valorii 50 i un grup centrat n jurul valorii 80. Interaciunea dintre aceste dou populaii este dat de faptul c se poate produce un schimb de populaie, n sensul c un subiect din cei ce fac parte din clasa de 50 de puncte, n urma unei terapii eficiente, poate obine un rezultat mai bun i atunci ar putea trece n clasa celor cu punctaje mai bune. Histogramele Un alt mod de reprezentare a datelor este acela prin histograme. Acest tip de diagram se poate folosi atunci cnd dorim s comparm valorile ntre anumite categorii. Exemplul 2.7. In perioada noiembrie 2003 februarie 2004, s-a pus urmtoarea ntrebare elevilor de liceu din clasa a 11-a i a 12-a: La ce facultate vei da examen dup bacalaureat? n urma centralizrii datelor s-au obinut urmtoarele rezultate22: Facultate ASE Drept Medicin Informatica Politehnic Litere Psihologie Jurnalism Procent 10,7% 12,8% 6,7% 7,0% 4,4% 6,6% 6,3% 2,8%

Ca observaie, dei ntrebarea se referea clar la facultatea la care vor da examen, totui se observ c un procent important au dat ca rspuns o instituie ntreag (cum ar fi Academia de Studii Economice). ntruct acest lucru l-am considerat important pentru studierea opiunilor pentru o facultate, am lsat aceste opiuni.
100% 75%

50% 25% 0%
ati ca lo g ie Ps iho ep t re AS E Lit e Dr In for m Ju rn a li sm

n acest caz pe axa Ox am pus etichetele (ASE, Drept, Medicin, etc.), iar pe axa Oy am pus valorile corespunztoare fiecrei etichete. Tot n cadrul aceleai cercetri am pus o ntrebare
22

Am pus doar opiunile ce au ntrunit mai mult de 2%.

pe aceea i tem i prinilor elevilor: La ce facultate va da examen dup bacalaureat fiul/fiica dumneavoastr?. Facultatea ASE Drept Medicin Informatica Politehnic Litere Psihologie Jurnalism Opiuni elevi 10,7% 12,8% 6,7% 7,0% 4,4% 6,6% 6,3% 2,8% Opiuni prini 16,8% 15,0% 7,6% 6,5% 7,8% 5,0% 4,1% 2,8%

Am pus pe aceeai diagram rspunsurile elevilor i a prinilor.


18.00% 16.00% 14.00% 12.00% 10.00% 8.00% 6.00% 4.00% 2.00% 0.00% ASE Drept Medicin Informatica Politehnic elevi prini Litere Psihologie Jurnalism

Observaie. Atunci cnd am realizat diagrama doar cu opiunile elevilor am pus pe axa Oy valorile de la 0% la 100%, pentru a putea realiza o prim analiz a opiunilor elevilor n raport cu totalul opiunilor elevilor. n al doilea caz, am pus pe axa Oy valori mai mici (doar ntzre 0% i 18 %) pentru a scoate n eviden posibile diferene ntre opiunile prinilor i a elevilor. Alte tipuri de diagrame Dac la exemplu de mai sus doream s scoatem n eviden mai bine procentul opiunilor elevilor raportndu-ne la total, s-ar fi putut folosi diagrama de tip disc. Dar n aceast situaie ar trebui s mai introducem i restul opiunilor sau, pentru simplificarea reprezentrii, puteam s mai introducem o nou categorie, alte opiuni. n acest caz am fi obinut urmtoarea diagram:

Alte optiuni 42.7%

ASE 10.7%

Drept 12.8%

Medicin 6.7% Informatica 7.0% Psihologie 6.3% Litere 6.6% Politehnic 4.4%

Jurnalism 2.8%

Pentru fiecare din tipurile prezentate mai sus avem dou moduri de prezentare: bidimensional sau tridimensional. Mai jos am pus tipurile de diagrame n cele dou moduri de prezentare Bidimensional
82,000,000 80,000,000 78,000,000 76,000,000 74,000,000 72,000,000 70,000,000 68,000,000 1995- 1996- 1997- 1998- 1999- 2000- 2001- 2002- 2003- 20041994 1995 1996 1997 1998 1999 2000 2001 2002 2003

14.0% 12.0% 10.0% 8.0% 6.0% 4.0% 2.0% 0.0%


t ca ere E lo g ie iho
Drept 13% Medicin 7% Inform atica 7% Litere 7% Politehnic 4%

ep

AS

Dr

ati

L it

I nf orm

ASE 11% Alte optiuni 42%

Jurnalis m 3% Ps ihologie 6%

Ps

Ju r na

lism

Tridimensional

82,000,000 80,000,000 78,000,000 76,000,000 74,000,000 72,000,000 70,000,000 68,000,000 1995- 19961997- 19981999- 20001994 1995 1996 2001- 20021997 1998 2003- 20041999 2000 2001 2002 2003

14.0% 12.0% 10.0% 8.0% 6.0% 4.0% 2.0% 0.0%


AS E In fo rm at ica Li te re Ps iho log ie Ju rn al ism Dr ep t

ASE Alte optiuni 42.7% 10.7% Drept 12.8% Medicin 6.7% Informatica Jurnalism 2.8% Psihologie 6.3% Litere 6.6% 7.0% Politehnic 4.4%

n continuare vom prezenta i alte moduri de reprezentare grafic a datelor. Gruparea datelor n practic uneori avem de analizat o serie mare de date. Exemplul 2.8. De exemplu, la un cabinet de testare psihologic a oferilor profesioniti dorim s analizm situaia subiecilor testai n decursul unei sptmni. n cazul n care avem foarte muli subieci, pe lng faptul c realizarea unei diagrame devine anevoioas, aceasta nu are nici o relevan, aa cum se poate observa i din diagrama de mai jos:
Rezultate test
70 60 50 40 30 20 10 0

10 11 12 13 14 15 16 17 18 19 20

n aceste situaii se recomand gruparea datelor pe intervale. Dac avem lunigmea intervalului de 6 puncte atunci datele se vor putea pune astfel ntr-un tabel:

intervalul nr subiecti

36-44 4

45-53 11

54-63 5

Astfel, reprezentarea datelor va putea fi mai uor analizat:

Rezultate test
12 10 8 6 4 2 0

36-44

45-53

54-63

Alte reprezentri pentru seriile de numere Aa cum am specificat la nceputul acestui capitol, nafar de diagrame, mai exist o serie de reprezentri pentru analiza datelor. Pentru a explica mai bine vom reveni la exemplul 2.7. S presupunem c dorim s analizm comparativ opiunile prinilor cu cele ale elevilor. Pentru aceasta putem folosi urmtoarea regul: dac diferenele procentuale ntre opiunile prinilor i opiunile elevilor sunt mai mari de 2% atunci vom spune c acestea difer. n aceast situaie vom avea opiuni comune pentru prini i elevi i opiuni specifice fiecrei categorii. O posibil reprezentare a acestor date este urmtoarea:

COMUN Elevi Psihologie Medicin Informati c Litere

Prini ASE Drept Politehnic

Desigur, pentru figura de mai sus se poate folosi orice tip de form. n finalul acestui capitol dorim s atragem atenia asupra unui lucru subliniat dealtfel i de R.Fisher: Examinarea preliminar a celor mai multe date este facilitat de folosirea diagramelor. Diagramele nu demonstreaz nimic, dar aduc caracteristici excelente mai aproape de privire; de aceea ele nu reprezint un nlocuitor pentru teste ce pot fi aplicate datelor, dar sunt valoroase n indicarea acestor teste i n a explica concluziile bazate pe ele.

Indicatori statistici
n acest capitol vom prezenta principali indicatori statistici ce se pot folosi n analiza primar a datelor. Avem mai multe tipuri de indicatori statistici: - indicatori ai tendinei centrale - indicatori ai variabilitii - indicatori relativi. Indicatori ai tendinei centrale Conform ian indicatorii tendinei centrale sunt indicatori sintetici cu ajutorul crora urmrim s exprimm () ceea ce este tipic, esenial, stabil, obiectiv i caracteristic ntr-o serie de numere. La o prim privire asupra datelor de tip cantitativ putem deja observa doi indicatori: minimul i maximul. Exemplul 3.1. ntr-un liceu s-a studiat manifestarea complexului de inferioritate la un eantion de 30 de adolesceni. S-a studiat posibilitatea ca s avem o manifestare a complexului de inferioritate prin valene ridicate ale anxietii23. n urma aplicrii testului s-au obinut urmtoarele rezultate: S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 Nota A 32 31 33 27 29 25 23 22 25 21 25 S12 S13 S14 S15 S16 S17 S18 S19 S20 S21 S22 Nota A 25 19 23 27 32 31 33 27 29 25 23 S23 S24 S25 S26 S27 S28 S29 S30 Nota A 22 25 21 25 25 19 23 27

Se observ imediat c maximul este 33, iar minimul este 19. Pornind de la aceaste constatri am putea, de exemplu, s ncepem prin a investiga elevii ce au obinut aceste rezultate extreme.

23

Am luat n considerare doar anxietatea manifest

Media Acest indicator este unul dintre cei mai folosii indicatori n prezentarea datelor. Cea mai utilizat medie este media aritmetic. Din punct de vedere matematic ea se poate defini astfel: Fiind dat o serie de n numere x1, x2, , xn, media aritmetic va fi mx = x1 + x 2 + ... + x n n (1)

Folosind notaia x1 + x 2 + ... + x n =


i= 1

i= 1 n

xi , formula (1) se mai poate scrie: (2)

mx =

xi

Observaie. Dac la aplicarea unui test obinem aceeai valoare pentru toi subiecii, s zicem 35, atunci media va chiar 35. Practic ns, un asemenea rezultat ar trebui s ne duc la investigarea validitii procedeului de aplicare al testului. S relum exemplul 2.5. din capitolul anterior i s calculm pentru notele obinute de elevi o medie pe clas la acel test. Pornind de la modul de abordare a datelor avem dou posibiliti dea calcula media la testul pe clas. Metoda 1. Fie datele prezentate liniar. 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 7, 7, 7, 7, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10. Folosind formula (1) obinem mx = 6,96. Metoda 2. Putem pune date sub forma unui tabel: 4 5 6 7 8 9 10 3 5 2 4 3 4 3

Unde pe prima coloan am pus notele iar pe coloana a doua am pus numrul de elevi corespunztori pentru fiecare not. Dac dorim s calculm media pentru a afla suma notelor putem calcula astfel 4.3 + 5.5 + 6.2 + 7.4 + 8.3 + 9.4 + 10.3 iar pentru a afla numrul de elevi putem aduna numerele din coloana a doua. Modul acesta de calcul este specific mediei ponderate. Cci media unui grup la un test este dat de notele i ponderile lor. Revenind la exemplu nostru lum x1 = 4, x2 = 5, x3 = 6, x4 = 7, x5 = 8, x6 = 9, x7 = 10, i ponderile p1 = 3, p2 = 5, p3 = 2, p4 = 4, p5 = 3, p6 = 4, p7 = 3. Atunci formula medie ponderate este: m px = x1 p1 + x 2 p 2 + ... + x n p n p1 + p 2 + ... + p n (3)

Exemplul 3.2. S-a aplicat un test de atenie concentrat la copii din clasa a III-a. n urma testului s-au obinut urmtoarele rezultate: Atenie concentrat-cantitate

Valori 60 70 80 90 100

Ponderi24 1 2 1 11 7

n acest caz media va fi: mpx = (60.1 + 70.2 + 80.1 + 90.11 + 100.7) / (1 + 2 + 1 + 11 + 7 ) = 1970 / 22 = 89,54 Deci se poate presupune pentru aceast clas, c pentru caracteristica cantitate, avem 4 elevi cu o atenie concentrat mic, 11 elevi au o atenie concentrat medie i 7 au atenie concentrat mare. Problema care se pune n aceast situaie este de a raporta media acestei clase la media populaiei alctuit din elevii de clasa a III-a25. n acest ultim exemplu am prezentat un alt rol al mediei: acela de indicator de poziie. Adic raportndu-ne la medie putem spune dac o valoare se afl ntr-o anumit categorie sau n alta. De exemplu, calculnd valoarea medie a nlimii unui grup, putem defini ce nseamn individ scund i ce nseamn individ nalt pentru acel grup. Muli autori consider c avantajul mediei const n faptul c este uor de calculat. Totui acest lucru poate constitui i un dezavantaj, deoarece fiind uor de calculat comparativ cu ali indicatori, exist tendina ca cercetarea s se opreasc doar la acest indicator i doar pe baza lui s se analizeze datele. Analiz care poate duce la erori; de exemplu n cazul n care nu avem omogenitate a datelor. Cuantile Urmtorii indicatori prespun ca pentru nceput datele s fie scrise n ordine cresctoare. De multe ori, n practic, informaii importante ne pot fi aduse de modul n care datele sunt distribuite ntre cea mai mare valoarea i cea mai mic valoare. Deoaree poziia lor n raport cu seria de numere este bine determinat, aceti indicatori se mai numesc i indicatori de poziie. De exemplu, putem scrie datele n ordine cresctoare i s vedem ce date se afl la stnga mijlocului i ce date se afl la dreapta mijlocului26. Valorile ce mpart seria de numere n pri egale se numesc cuantile. Mediana Mediana este acea cuantil ce mparte o serie de numere n dou pri egale. Vom nota mediana cu Me. Modul de determinare al medianei se poate realiza n dou moduri (n funcie de numrul de elemente): 1) Dac avem un numr impar de valori, atunci mediana va fi cea care are numrul de elemente de la stnga egal cu numrul de elemente de la dreapta ei. Exemplul 3.3. ntr-o echip A li s-a cerut muncitorilor s noteze eful cu note de la 1 la 10. n urma centralizrii datelor s-au obinut urmtoarele rezultate:
24 25

Nr de elevi ce au obinut respectiv, valoarea din stnga Aceast medie a populaieise poate gsi n scala de interpretare a testului. 26 Aa cum vom vedea mai departe acest mijloc se numete median

Note acordate

AM1 1

AM2 1

AM3 1

AM4 2

AM5 10

n acest caz mediana este cea din dreptul lui AM3 i Me = 1. Eticheta AM3 se mai numete n acest caz element median27. 2) Dac avem un numr par de elemente, atunci mediana ar fi ntre dou elemente. n acest caz valoarea medianei este egal cu media acestor dou elemente. Exemplul 3.4. Analog cu problema pus la exemplul 3.3. s-a realizat o cercetare i la o echip B: BM1 BM2 BM3 BM4 BM5 BM6 Note 1 1 2 3 3 3 acordate Mediana este ntre BM3 i BM4, deci pentru a o calcula vom face media ntre valorile corespunztoare acestor etichete. Deci Me = 2,5 Care este rolul medianei? Folosirea medianei este util cnd n analiza procesului intervin preri subiective i exist pericolul ca valorile extreme s influeneze rezultatul28. Relund exemplele 3.3. i 3.4. s presupunem c dorim s studiem urmtoarea problem: n care echip eful de echip este mai bine vzut de ctre subalterni? Dac am folosi media observm c eful echipei A obine media 3, n timp ce eful echipei B obine media 2,2. Deci am putea concluziona c eful echipei A este mai bine vzut de subalterni. Folosind mediana eful echipei A obine valoarea 1, n timp ce eful echipei B obine valoarea 3. Asimetria unei serii de numere o putem determina prin studierea poziiei medianei fa de medie. n capitolul anterior, n finalul seciunii 2.2.1. am vzut cum se reprezint cele dou extreme(date grupate la cea mai mic valoare, respectiv la cea mai mare valoare). n practic, aceste cazuri le putem ntlni foarte rar. Ne-ar putea interesa ns situaiile n care seria de numere tinde spre o extrem sau alta. Dac avem curba situat mai spre stnga datelor, vom spune c avem o asimetrie spre stnga, ceea ce n practic ne va indica tendina valorilor de a se grupa spre cele mai mici valori. Analog se poate concluziona atunci cnd avem curba datelor spre dreapta. Exemplul 3.5 (Singurtate emoional). ntr-un studiu comparativ s-a aplicat un test de evalaurea a singurtii emoionale29 pe dou loturi de tineri: primul lot a fost format din tineri cu studii superioare30, iar al doilea din tineri ce au doar studii liceale31. n urma centralizrii datelor s-au obinut urmtoarele rezultate: TSL 8 4 6 3 3 19
27 28

TSS 6 5 12 10 12 11

0 14 1 13 16 6

10 3 11 10 12 13

7 21 10 27 11 13

3 9 11 9 20 6

n cartea lui Rotaru acest element este numit individ median Desigur se pot folosi mai multe metode n momentul cnd avem de analizat punctaje rezultate n urma unor preri subiective. De exemplu n patinaj se elimin cea mai mare i cea mai mic valoare i se realizeaz media valorilor rmase. 29 Esli b 30 Notai n continuare cu TSS. 31 Notai n continuare cu TSL.

7 5 12 4

10 9 6 10

16 6 5 9

13 10 3 3

7 2 1 1

6 6 3 4

n urma calculelor, pentru TSL s-a obinut media m TSL = 8,57 i mediana MeTSL = 7,00 i pentru TSS s-a obinut media mTSS = 8,53 i mediana MeTSS = 9,50. n acest caz se observ c dei din punct de vedere al mediei cele dou loturi sunt sensibil apropiate, mediana ne aduce o nou informaie: cei din grupul TSL au tendin spre valori mici, pe cnd cei din TSS au o tendin spre valorile mari. Cuartilele Cuartilele32 sunt acei indicatori ce mpart datele n patru pri egale. Se poate observa uor c ce-a de-a doua cuartil reprezint de fapt mediana. Pentru a obine cele patru cuartile putem folosi urmtoarea metod. Se calculeaz nti mediana i rezultatul l vom nota cu Q2. Apoi pentru datele din stnga lui Q2 se calculeaz mediana i vom obine valoarea Q1. Analog pentru datele din dreapta lui Q2 se calculeaz din nou mediana i vom obine Q3. Aparent aceast metod pare complicat,dar avnd n vedere faptul c i cele mai simple programe de calculator au o funcie ce poate calcula aceast median33 lucrurile devin destul de simple. Exemplu 3.5.1. Vom relua exemplul 3.5. i vom calcula cuartilele pentru TSS. Am obinut mediana egal cu 7,00. Ordonm cresctor datele i pentru irul astfel obinut calculm Q1 i Q3: TSL 0 1 1 1 2 3 3 4 4 5 5 6 6 6 7 7 7 8 9 10
32

Q1

Q2

Acest noiuni trebuie tratate cu atenie ntruct din punct de vedere al denumirii sunt foarte asemntoare. Reamintim faptul c prin cuantile nelegem acele puncte din serie ce mpart seria de numere n pri egale. 33 De exemplu n Excel avem funcia MEDIAN.

11 12 13 13 14 16 16 19 21 27

Q3

Observaie Am calculat mediana pentru un numr par de date i atunci mediana va fi egal cu media valorilor a 15-a i a 16-a. n acest caz cele dou valori sunt egale i valoarea lor este 7, deci i mediana va fi egal cu 7. Pentru calculul medianei primelor 15 date34 mediana va fi numrul de la mijloc adic a aptea vaoare. Deci Q1 va fi 3. Valoare modal35 Se numete valoare modal a unei serii de numere acea valoare ce apare de mai multe ori n acea serie. Vom nota valoarea modal cu vm. Observaie n general, cnd se folosete termenul de valoare ne gndim la valoarea exprimat prin numere. Aa cum la obiecte exist nafar de valoarea din punct de vedere financiar i alt gen de valori (de exemplu valoarea sentimental), i n aceast seciune vom folosi sensul mai larg al termenului de valoare (vezi exemplul 3.6) Relund exemplul 3.2. se observ c pentru datele Atenie concentrat-cantitate Valori Ponderi36 60 1 70 2 80 1 90 11 100 7 avem vm = 90. Observaie Se observ c pentru acest caz avem media egal cu 89,54, iar mediana este Me = 90 = vm. Aceast valoare modal poate fi folosit n interpretarea rezultatelor de tip calitativ. Un exemplu vom prezenta mai jos: Exemplul 3.6. n lucrarea [ ] Hilgard prezint un experiment n care s-au studiat dou loturi de subieci. Primul lot este compus din subieci cu anxietate mare (l vom nota cu Ma), iar al doilea lot este compus din subieci cu anxietate mic (vom nota acest lot cu Am). La un moment dat n decursul studiului subiecii ambelor loturi au fost ntrebai cum ar putea s nfrunte mai uor o ameninare. n urma centralizrii datelor s-au obinut urmtoarele rezultate:
34 35

Adic Q1 Am preferat aceast denumire (folosit n Isaic-Maniu) celorlalte denumiri cum ar fi modul sau moda, pentru a evita confuziile. 36 Nr de elevi ce au obinut respectiv, valoarea din stnga

Ma Am

mpreun cu cineva 20 10

Singur 3 18

Nu-i pas de ameninri 9 4

Se observ c valoarea modal pentru Ma este mpreun cu cineva, n timp ce la Am este Singur. n acest caz aceste valori modale ne arat respectiv prerea majoritii subiecilor din fiecare lot. Indicatori ai dispersiei n analiza unui grup ne intereseaz tendina grupului privit ca un element. Dac, de exemplu avem un lot de subieci care, n medie, a obinut la un test un anumit punctaj, atunci putem trage o concluzie asupra comportamentului grupului. Exemplul 3.7. (date fictive) n luna mai s-a aplicat unui grup de elevi din clasa a 8-a, un test de anxietate. Punctajul la acest test este cuprins ntre 0 i 10 unde cu ct punctajul este mai mare cu att anxietatea este mai puternic. n urma prelucrrii datelor media lotului de elevi a fost 6,7. Analiznd media rezult c tendina general este c grupul este n mod esenial normal din punct de vedere al anxietii cu o uoar tendin spre categoria puin nevrotic. n momentul n care ns analizm un grup prin media lui, trebuie s inem cont de faptul c media nu este singura caracteristic a unui lot de subieci i c putem avea aceeai medie la dou loturi i totui analiznd acele loturi s observm diferene importante ntre ele. O posibilitate am vzut-o deja n exemplul 3.5. unde dei avem aceeai medie pentru dou eantioane, ele sunt diferite din punct de vedere al tendinei37. Pentru a prezenta o alt situaie vom porni de la urmtorul exemplu: Msurm nlimea populaiei cu vrste ntre un an i 60 de ani n Bucureti. n acest caz obinem o medie a acestui lot de subieci, ns aceast medie nu ar avea nici o relevan din cauza variabilitii mari a valorilor. Am dat acest exemplu pentru a nelege mai bine de ce este necesar s folosim indicatori ai variaiei. Amplitudinea Amplitudinea este egal cu diferena dintre cea mai mare i cea mai mic valoare. Matematic aceasta se scrie altfel: A = xmax - xmin Exemplul 3.8. Fie n tabelul de mai jos datele din exemplul 3.1. S1 S2 S3 S4 S5 S6 S7
37

Nota A 32 31 33 27 29 25 23

S12 S13 S14 S15 S16 S17 S18

Nota A 25 19 23 27 32 31 33

S23 S24 S25 S26 S27 S28 S29

Nota A 22 25 21 25 25 19 23

Reamintim c tendina era dat de poziia medianei fa de medie.

S8 S9 S10 S11

22 25 21 25

S19 S20 S21 S22

27 29 25 23

S30

27

Avem xmax = 33 i xmin = 19. Deci amplitudinea va fi A = 33 19 = 14. x max n practic, uneori prin calculul raportului se pot obine mai multe informaii. De x min exemplu acest raport se poate folosi n studiul proceselor dinamice, pentru a afla de cte ori a crescut (sau a sczut) valoarea maxim n raport cu valoarea minim. Abaterea medie ( Am(a) ) Ne poate interesa distana dintre o valoare calculat i o valoare dat. n termeni statistici rezultatul acestei scderi se va numi abaterea valorii calculate de la valoarea dat. Exemplul 3.9. (date fictive) Se aplic un test unui pacient nainte i dup aplicarea unu tratament. nainte de tratament a obinut 35 de puncte, iar dup aplicarea tratamentului a obinut valoarea 29. tiind c valoarea critic este 40, calculm abaterea fa de aceast valoare pentru a realiza o prim aprecierea asupra fenomenului. Abaterea38 dintre punctajul obinut nainte de tratament fa de valoarea critic este 5, n timp ce abaterea dintre punctajul obinut dup tratament i valoarea critic este 11, deci exist posibilitatea ca tratamentul s aib un efect pozitiv. Observaie Am spus c exist posibilitatea ca tratamentul s aib un efect pozitiv n general, deoarece n urma aplicrii unui experiment unui singur subiect, nu putem dect s emitem ipoteze. S presupunem c dorim s studiem mai n amnunt problema pus n exemplul 3.9. Pentru aceasta ar trebui s realizm un studiu pe mai muli subieci. n acest caz notnd cu x1, x2, , xn valorile obinute de pacieni nainte de tratament i cu y1, y2, , yn valorile obinute de pacieni dup tratament. Pentru a compara abaterile fa de valoarea critic o soluie simpl este s calculm o medie a abaterilor nainte de tratament i dup tratament. Aceast medie se numete abaterea medie i se noteaz Am(a)39 Exemplul 3.9. (continuare) n urma aplicrii testului pe mai muli subieci nainte i dup tratament s-au obinut urmtoarele rezultate: Nr subiect 1 2 3 4 5 6 7 8
38 39

Inainte de tratament 35 36 33 30 36 35 29 32 Am(40) =

Abaterea fa de 40 5 4 7 10 4 5 11 8 6.75

Dup tratament 29 32 32 29 32 33 29 30 Am(40) =

Abaterea fa de 40 11 8 8 11 8 7 11 10 9.25

Val crit-val exp = 40 - 35 Abaterea medie fa de valoarea a

n practic, n cele mai multe cazuri, se calculeaz media abaterilor fa de medie. Exemplul 3.10. Pe un lot de 10 studeni s-a studiat n ce msur crete sau scade anxietatea, seara i dimineaa, la studenii aflai n tensiune i stres datorate examenelor din sesiune. O prim parte a acestui experiment a fost msurarea anxietii voalate a studenilor dimineaa. n urma centralizrii datelor s-au obinut rezultatele: anxietate voalat 12 14 20 20 12 16 18 17 15 16 16.00 abaterea fata de medie (x - m) 4 2 4 4 4 0 2 1 1 0 2.20

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 medie(m) Observaii 1. 2.

abaterea

Avnd n vedere modul de definire al abaterii, am luat distana dintre valori i medie n modul. Abaterea standart este cea mai mic abatere medie.

Abaterea medie ptratic Un alt indicator al variabilitii l reprezint abaterea medie ptratic. Aceasta se calculeaz asemntor cu abaterea fa de o valoare numai c acum n loc de modul se folosete ptratul diferenei dintre valoarea experimental i valoarea reper a, se calculeaz media acestor ptrate ale diferenelor i se extrage radicalul din valoarea obinut. Matematic aceastea se scriu astfel: ( x1 a ) 2 + ( x 2 a) 2 + ... + ( x n a) 2 n 1 Unde n reprezint numrul de valori pentru care calculm abaterea medie ptratic. Analog cu seciunea anterioar i aici, n practic, se folosete ca valoare reper, media. n acest caz abaterea medie ptratic se numete abatere standart i se noteaz cu s. S (a ) = Exemplul 3.11. Pentru valorile de la exemplul 3.10 vom calcula astfel abaterea standart: x1 x2 x3 x4 x5 x (val anx v) 12 14 20 20 12 x-m -4 -2 4 4 -4 (x-m)^2 16 4 16 16 16

x6 x7 x8 x9 x10 medie(m)

16 18 17 15 16 16,00

0 2 1 -1 0 Suma / (n-1)

0 4 1 1 0 8,22

Deci abaterea standart va fi radical din 8,22, adic va fi egal cu aproximativ 2,87. Aceste calcule devin destul de anevoioase, dar ele se pot realiza cu ajutorul softului de pe computerul. De exemplu, n Excel avem pentru calculul abaterii standart funcia STDEV. Variana Un alt indicator al dispersiei ce se folosete n practic este variana. Aceasta se exprim ca fiind ptratul abaterii-standart, adic se poate scrie astfel: ( x1 m) 2 + ( x 2 m) 2 + ... + ( x n m) 2 s = n 1
2

unde m reprezint media valorilor x1, x2, , xn . Aceast formul este valabil pentru eantion. Observaie: Termenul de varian a fost introdus pentru prima oar de Ronald Fisher n 1918 n lucrarea The Correlation Between Relatives on the Supposition of Mendelian Inheritance.

Utilizarea SPSS
Atunci cnd se vorbete despre cercetarea n sociologie i psihologie mai ntotdeauna se amintete de prelucrarea datelor cu ajutorul SPSS-ului. Ce este SPSS-ul? Denumirea provine din englez (Statistical Package for the Social Sciences) ceea ce s-ar traduce prin pachet statistic pentru tiinele sociale. Ferestre i fiiere n SPSS n SPSS vei avea ocazia s lucrai cu trei tipuri de ferestre, avnd posibilitatea s salvai coninutul fiecrei ferestre 1 - prima fereastr pe care o vei ntlni, va fi fereastra Data Editor. Are rolul de a defini i introduce datele i, n acelai timp de a ajuta la realizarea unor proceduri statistice. 2 - fereastra Output - are rolul de a afia rezultatele testelor statistice. 3 - fereastra Syntax - are rolul de a memora operaiile realizate asupra datelor. Aceasta fereastr se va deschide automat atunci cnd vei da comanda Paste. Oricare din aceste ferestre poate fi salvat. Pentru a executa aceast comand trebuie mai nti activat fereastra ce dorim s-o salvm, apoi se execut o succesiune de comenzi asemntoare cu salvarea unui document Word. Aa cum la salvarea unui document n Word, acesta va primi automat extensia .doc, la fel i aici fiecare fereastr dup scrierea numelui dat va avea i o extensie cu ajutorul creia putem s tim ce tip de fereastr avem. n tabelul de mai jos prezentm ferestrele i extensiile corespunztoare: Numele ferestrei Editor Output Syntax Extensia fiierului salvat .sav .spo .sps

Introducerea datelor n lucrul cu SPSS-ul avem dou moduri de introducere a datelor: de la tastatur sau dintr-un program cu foi de lucru. n cadrul acestei lucrri ne vom referi la primul mod de lucru. Deschiznd sesiunea de lucru cu SPSS pentru Windows, pe ecran va aprea o fereastr n care vom fi ntrebai n legtur cu ceea ce dorim s realizm:

Avnd n vedere denumirea seciunii, vom alege opiunea de introducere de date noi dup care vom da un clic pe butonul OK. Atunci fereastra de dialog va disprea i va rmne o foaie gen Excel n care putem introduce datele. Singura diferen este c n aceast fereastr coloanele nu sunt notate cu litere ci la fiecare coloan avem aceeai etichet var. Datele se introduc de la tastatur i dup scriere se apas tasta Enter. Atunci cnd vom completa acest tabel, la ca i n fel Excel, atunci cnd introducem datele trebuie s punem pe fiecare linie cte un caz (de exemplu atunci cnd dorim s analizm un lot de 31 de subieci, fiecare subiect va fi pus pe o linie cu toate caracteristicile lui) i pe fiecare coloan caracteristicile corespunztoare fiecrui caz (n exemplu de dinainte, dac dorim s realizm un studiu n funcie de vrst, mediu, ocupaie, etc. atunci vom avea o coloan pentru vrst, una pentru mediu, alta pentru ocupaie,etc.). De asemenea se recomand ca pentru fiecrui subiect s-i atribuim un numr. Pentru identificarea sexului subiecilor se poate atribui valoarea 1 pentru masculin i 2 pentru feminin.

5.2.3. Crearea unui fiier de date n aceast seciune vom prezenta modul de realizare a unui fiier de date pas cu pas. Precizm c operaiile pe care le vom prezenta sunt specifice versiunii SPSS 14.0 n versiuni anterioare procedeul diferind la anumite etape de creare a fiierului de date. n fereastra n care am introdus datele, n partea de stnga jos avem dou butoane: . Implicit este activ cel cu Data View, adic fereastra unde se introduc datele. S presupunem c am introdus urmtoarele date:

Pentru a defini baza de date va trebui s specificm pentru fiecare coloan tipul datelor. Pentru aceasta vom da un clic pe butonul . Va aprea o nou fereastr:

n prima coloan avem eticheta Name. Aceasta reprezint lista etichetelor ce apar n foaia Data View pentru fiecare coloan. Prima coloan din baza de date este cea cu etichetele pe care le-am dat fiecrui subiect. Deci vom denumi aceasta coloan Etichete . Pentru aceasta vom da un clic pe VAR00001 i de la tastatur vom scrie Etichete, dup ce vom da Enter n locul lui VAR00001 va aprea denumirea Etichete. n urmtoarea celul din dreapta trebuie s definim tipul datelor ce se vor introduce pe coloana Etichete. Deoarece datele introduse n acea coloan conin litere, automat este aleas opiunea String. Deci putem lsa opinea neschimbat. La opiunea Width se specific numrul maxim de caractere ce se pot avea datele din aceste coloane. Implicit a fost aleas valoarea 2, dou caractere, deoarece din datele introduse nu avem dect etichete de dou caractere. Dac dorim s schimbm i s putem introduce date de lungime mai mare, dm un clic pe valoarea 2 i scriem de la tastatur numrul 8. Pe liniile urmtoare vom scrie la etichete test 1, respectiv test 2 i lsm neschimbate celelalte opiuni. Vom obine fereastra:

iar dac dm un clic pe butonul

vom obine fereastra:

Ca un rezumat al celor explicate mai sus vom da un tabel cu proprietile ce se pot specifica n legtur cu fiecare coloan: Tipul de comand Type permite definirea tipului variabilei (numeric, ir de numere, logic) Width total numere de caractere Decimals (n cazul datelor numerice) numrul de zecimale cu care dorim s scriem numrul Missing Values permite desemnarea anumitor scoruri ce pot lipsi la colectarea datelor Colums permite schimbarea maximului de caractere dintr-o coloan Align permite desemnarea alinierii ntr-o coloan Measure permite desemnarea tipului de date cu care lucrm Valoarea implicit 8 2

8 dreapta scale

n continuare vom salva aceast baz de date. Salvarea se realizeaz asemntor cu modul n care se realizeaz salvarea n Excel, adic dm un clic pe opiunea File , apoi din lista ce va aprea vom selecta opiunea Save. Cnd salvm prima oar va trebui s indicm locul unde salvm baza de date i denumirea bazei de date. S presupunem c am salvat aceasta baza de date cu denumirea Baza_d_01. La salvarea bazei de date putem da o opiune de salvare a bazei de date ca fiier din alt program, de exemplu Excel.

Statistica descriptiv a bazei de date Odat realizat baza de date corect putem obine o serie de informaii utile din aceste date. Un prim lucru pe care-l putem obine este o statistic descriptiv a datelor (numr, medie, abatere standart). Pentru aceasta deschidem baza de date (n fereastra ce apare cnd deschidem SPSS-ul alegem opiunea Open an existing data source.

Iar din lista de baze de date alegem baza_d_01.sav. Se va deschide fereastra cu baza de date i din meniul acestei ferestre vom da un clic pe opiunea Analyze, apoi pe Descriptive statistics i apoi vom da un clic pe opiunea Descriptives ca n imaginea de mai jos

Se va deschide fereastra de mai jos:

S presupunem c dorim s obinem statistica descriptiv pentru datele de la testul 01. Dm un clic pe Test01 apoi un clic pe butonul Variables(s) va aprea scris Tes01 i butonul dup care n fereastra denumit se va activa. Dnd clic pe acest buton

vom obine fereastra cu datele statisticii descriptive referitoare la datele irului numit Test01

Rezultatele se pot salva sau se pot tipri urmnd aceleai operaii ca la salvarea unui document n Word. Corelaia S deschidem din nou baza de date, aa cum am prezentat la nceputul seciunii.

Dorim s calculm coeficientul de corelaie dintre cele dou teste din baza de date. Pentru aceasta din meniu vom selecta opiunea Analyse, apoi Correlate i vom merge pe opiunea Bivariate ca n imaginea de mai jos:

Dup ce vom da clic pe opiunea Bivariate va aprea fereastra:

Dm un clic pe Test01 i apoi pe Pearson din fereastr

, procednd analog cu Test02. n final cele dou vor

aprea pe fereastra din dreapta, butonul OK va deveni activ. Verificm s avem bifat opiunea

i opiunea Two-tailed care se afl pe fereastr mai jos. Apoi dm un clic pe butonul . Vor aprea rezultatele:

n partea dreapt a ferestrei vom avea afiate rezultatele. Coeficientul de corelaie, Pearson Correlation, are valoarea -0,475 iar eroarea p = 0,419. Ca s avem un coeficient de corelaie semnificativ ar trebui ca p < 0,05 i cum p-ul obinut p = 0,419 > 0,05 rezult c ntre cele dou teste nu exist o corelaie semnificativ. Comparaia ntre mediile a dou loturi n exemplul folosit n seciunile anterioare nu se poate folosi comparaia ntre medii, deci vom realiza o alt baz de date. S presupunem c pe dou loturi de subieci aplicm un test Test03. Pentru claritatea

expunerii s presupunem c loturile sunt formate din doar 10 subieci fiecare. Exemplul 86 n urma aplicrii testul Guilford de abiliti ale gndirii divergente (flexibilitatea) la un liceu s-au obinut urmtoarele rezultate: Biei Fete 5 6 11 5 11 5 8 6 7 3 6 6 13 8 6 6 8 7 11 8 De cele mai multe ori erorile apar de la introducerea datelor. Influenai de modul n care se introduc datele n Excel exist tendina de a le pune n acelai mod n baza de date din SPSS. Fiind vorba de o baz de date, punerea pe aceeai linie a valorilor unui biat cu valoarea unei fete (de exemplu pentru primele 2 valori la biei 5 i la fete 6) ar putea da impresia c ntre biatul i fata care sunt pe o linie ar putea s existe o legtur. De fapt, avem 20 de subieci care nu au legtur unul cu altul, loturile sunt independente, i pentru fiecare subiect n baza de date specificm, sexul i valoarea obinut la test. De aceea, n baza de date din SPSS, pe prima coloana vom avea declaraia sexului subiectului, iar pe a doua coloan vom pune valoarea obinut la testul Guilford. n acelai timp vom realiza i o codificare: vom nota cu m bieii i cu f fetele. Deci n foaia de declaraie a variabilelor vom scrie ca n figura de mai jos:

La variabila val_test am pus n dreptul coloanei Label eticheta Guilford pentru ca pe tabelul cu rezultate s apar i denumirea testului folosit. Apoi n foaia Data View vom introduce datele astfel nct pe coloana denumit Sex s avem m sau f corespunztoare bieilor, respectiv fetelor. n urma completrii vom obine urmtorul tabel:

Deci pn la linia a 10-a inclusiv am introdus valorile corespunztoare bieilor, iar din linia a 11-a la linia a 20-a am introdus valorile fetelor. Pentru a calcula testul t pentru loturi independente vom da un clic pe opiunea Analyze din meniu, apoi pe Compare Means, iar din fereastra ce se va deschide vom da un clic pe opiunea Independent-Samples T Test. Dup executarea acestei succesiuni de comenzi va aprea o fereastr ca-n imaginea de mai jos:

Variabila sex va fi trecut la Grouping Variable, iar variabila Guilford (val_test) va fi

trecut la Test Variable(s). Mai apoi trebuie sa precizm notaiile pentru grupuri. Pentru aceasta vom da un clic pe butonul i se va deschide fereastra:

n dreptunghiul corespunztor lui Group 1 vom scrie m, iar n cellalt dreptunghi vom scrie f. Atunci butonul Continue va deveni activ. Dm un clic pe el i n dreptul variabilei sex va aprea scris (m f). Acum putem da comanda de calcularea testului t i dnd un clic pe butonul OK va aprea urmtoarea fereastr de rezultate:

Se observ c se realizeaz n partea de sus a ferestrei o statistic descriptiv a datelor n tabelul denumit Group Statistics, iar rezultatele testului vor fi puse n tabelul denumit Independent Samples Variables. Tabelul are trei mari pri: n prima parte sunt puse etichetele

n a doua parte se calculeaz un testul pentru studiul egalitii varianelor:

Pe exemplul prezentat am obinut valoarea F = 6,946 i o valoare p = 0,017. Deoarece p < 0,05 se poate presupune c cele dou loturi au variane egale. n cea de-a treia parte se dau datele rezultate direct din aplicarea testului t:

Avnd n vedere rezultatul testului de comparare a varianelor, vom lua n considerare doar rezultatele de pe prima linie. n prima coloan avem valoarea t = 2,654, n a doua coloan avem gradele de libertate df = 18, n a treia coloan avem valoarea p = 0,016. Pentru ca p < 0,05 nseamn c avem diferene semnificative ntre medii celor dou loturi, deci putem spune c media bieilor mb = 8,60 este semnificativ mai mare ca media fetelor mf = 6,00.

Testul 2 (hi-ptrat) Am vzut c modul de a completa o baz de date n SPSS este diferit de modul n care aceste date se pun ntr-o foaie de lucru, de exemplu n Excel. Ideea de baz este nregistrarea i faptul c pe fiecare linie trebuie pus cte o nregistrare cu toate componentele ei ce vor fi folosite n analiza datelor. Dac n cazul exemplului din seciunea anterioar aveam pentru fiecare subiect de pus sexul i valoarea testului. n cazul aplicrii testului hi-ptrat n SPSS avem de fcut trei declaraii. Pentru claritatea expunerii vom folosi un exemplu: Exemplul 87 ntr-un centru de reeducare s-a pus bieilor urmtoarea ntrebare: Din ce cauz nu-i place coala? n urma centralizrii datelor s-au obinut urmtoarele rezultate: 16-17 ani 1 18 18-22 ani 4 11

mi este greu s nv m plictisesc m enerveaz profesorii 7 1 nu-mi folosete 10 19 Dorim s studiem dac exist diferene semnificative ntre cele dou loturi de subieci. Pentru nceput vom completa foaia cu Variable View a bazei de date din SPSS. Vom avea trei tipuri de caracteristici: Grup_vrst, var_rspuns i frecvene . Vom face i urmtoarele codificri: Grup vrst Variante de rspuns Denumire Codificar Denumire categorie Codificar categorie 16-17 ani 18-22 de ani e 1 2 mi este greu s nv m plictisesc m enerveaz profesorii nu-mi folosete e 1 2 3 4

Deschidem Data editor i definim mai nti baza de date n foaia Variable View. Pentru ca n tabelul cu rezultate s apar i denumirile nu doar codurile n tabelul de declaraii n coloana Values vom scrie i etichetele corespunztoare codurilor. De exemplu pentru categoria Grup vrst dm un clic pe celula din dreptul liniei categoriei i coloana Values. Atunci n dreapta celulei va aprea butonul . Dm un clic pe acest buton i va aprea fereastra:

n dreptul lui Value vom scrie codul, iar n dreptul Label vom scrie denumirea. Apoi dm un clic pe butonul . Iar codul i eticheta vor aprea n dreptunghiul de mai jos. Astfel

introducem toate codificrile i etichetele corespunztoare categoriei Grup_varsta. Analog se vor introduce i codificrile pentru var_raspuns. n final, tabelul Variable View va arta astfel:

Dm un clic pe Data View pentru a introduce datele. Datele se vor introduce asemntor cu modul n care le-am introdus la testul t:

Urmtoarea procedur ce trebuie realizat este ponderarea celulelor. Pentru a realiza aceasta, dm un clic pe opiunea Data din meniu, iar din fereastra ce se va deschide alegem opiunea Weight Cases. Va aprea fereastra:

n aceast fereastr dm un clic pe opiunea Weight cases by, se va activa butonul la Frequency Variable. Dm un clic pe Frecvene i apoi pe butonul coloana unde sunt frecvenele. Apoi dm un clic pe butonul

de

pentru a specifica

. Odat specificat faptul c

lucrm cu frecvene putem trece la calcularea efectiv a testului 2. Dm un clic pe opiunea Analyse din meniu i din fereastra ce se va deschide alegem opiunea Descriptive Statistics. Din noua fereastr ce se va deschide vom alege opiunea Crosstabs. Va aprea urmtoarea fereastr:

Variabila Grup_varsta o vom pune la Row(s) dnd un clic pe butonul Var_raspuns o vom pune la Column(s). Apoi dm un clic pe butonul

, iar variabila i fereastra:

vom da un clic pe Chi-square pentru a specifica faptul c vom utiliza testul 2, apoi dm un clic pe butonul clic pe butonul pentru a reveni la fereastra iniial. n fereastra iniial vom da un iar n fereastra ce se va deschide:

dm un clic pe opiunea Expected i pe Unstandardized apoi pe butonul Revenii la fereastra iniial, dm un clic pe butonul testului 2. n fereastra cu rezultate vor aprea trei tabele. Primul tabel

pentru calcularea rezultatelor

ne indic nite parametri generali a datelor introduse n tabel. Al doilea tabel:

ne red tabelul cu valori. n dreptul liniei denumit Residual se calculeaz diferena dintre cele dou frecvene ale celor dou grupuri corespunztoare unei variante de rspuns. De exemplu la opiunea imi este greu sa invat la grupul de 16-17 ani la Residual se observ valoarea -1.5. Aceasta ne arat faptul c pentru aceast variant de rspuns cei din categoria 16-17 ani au mai puine opiuni dect cei de la categoria 18-22 de ani. Al treilea tabel:

ne d ceea ce rezult n urma aplicrii testului 2. Valoarea 2calc este 10,771 gradele de libertate sunt 3. Valoarea p = 0,013 i cum ea este mai mic de 0,05 nseamn c avem diferene semnificative ntre cele dou grupuri, deci putem spune c cei de 16-17 ani au dat rspunsuri semnificativ diferite de cei de 18-22 de ani. Se poate observa faptul c sub acest tabel ni se atrage atenia c avem 4 celule (50% din date) cu o frecven foarte mic. i n continuare se specific faptul c minimum pentru frecven este 2,46 (deci frecvena minim recomandat este 3).

You might also like