Carte de Statistică Re ete încercate

Cuprins
Cuvînt înainte 1. Introducere. a. Ce este statistica? b. Cum cunoaşte statistica? c. Cauzalitate şi statistica. d. Foarte scurt istoric al statisticii. 2. Ingredientele statisticii. Tipuri de date. a. Date nominale b. Date ordinale c. Date intervalice d. Date ra ionale 3. Culegerea datelor statistice. Sondajul de opinie. a. Statistici de lot si statistici de sondaj. Generalizarea statistică şi limitele ei. b. Cum facem un sondaj de opinie simplu şi corect? Eşantionare, chestionar, aplicare. 4. Aperitive. Primii paşi în descrierea datelor statistice a. Imagini de ansamblu asupra datelor. i. Frecven e simple. ii. Reprezentări grafice b. Indicatori agrega i i. Tendin a centrală ii. Distribu ia datelor 1

5. Supe, ciorbe şi teste statistice simple. a. Distribu ia normală b. Teste statistice t pentru medii şi Z pentru propor ii. c. Calculul erorii unui sondaj si interpretarea ei. 6. Feluri principale şi garnituri sau rela ia dintre mai multe variabile a. Grafice pentru mai multe variabile. b. Tabele de rela ionare. c. Corela ia simplă şi par ială. Coeficien ii de corela ie. d. Regresia liniară simplă şi multiplă. 7. Pentru vegetarieni. Analiza datelor nenumerice. a. Testul Chi2 b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis c. Regresia categorială. 8. Analiza seriilor de timp a. Ce e o serie de timp? Identificarea de patternuri în serii de timp b. Trend şi sezonalitate c. Regresii cu serii de timp d. Analiza de supravie uire 9. Deserturi.

Cuvînt înainte

La primul curs de statistică pe care l-am inut la facultatea de ştiin e politice de la Universitatea de Vest din Timişoara o studentă mi-a spus pe un ton cît se poate de tranşant: habar nu are de matematică, nici nu vrea să înve e aşa ceva şi oricum a venit la facultatea de ştiin e politice tocmai ca să scape de matematică şi alte asemenea ştiin e exacte. Sunt convins 2

că această experien ă a mea e departe de a fi unică. Am încercat pe parcursul celor două semestre să o conving pe ea şi pe colegii ei, de obicei de aceiaşi părere cu ea, de utilitatea statisticii şi de simplitatea ei. Sunt convins că nu am reuşit sau nu întru totul, dar ştiu de asemenea că am reuşit să îi familiarizez cu conceptele de bază ale statisticii şi modul cum acestea func ionează în logica cercetării sociale. Cartea aceasta se adresează tocmai celor ce se tem de calculul matematic sau sunt doar neexersa i in el, precum şi celor ce fac primii paşi în lucrul cu metode ştiin ifice cantitative in cunoaşterea socială. Cartea mea vrea să fie uşor de citit, dar în primul rînd uşor de învă at şi de aplicat. Voi prezenta în paginile ce urmează principalele metode folosite în statistică, metode utilizate în cercetările din ştiin ele sociale şi nu numai; re etarul de bază pentru lucrările de cercetare din sociologie, psihologie, ştiin e politice, economice dar şi medicină şi alte ştiin e ce se bazează pe cunoaşterea empirică a realită ii. Voi insista pe interpretarea rezultatelor precum şi pe ipotezele metodelor statistice, elemente ale cunoaşterii statistice ce stau la interfa a dintre teorie si metodă şi definesc în cele din urmă limitele cunoaşterii prin statistică. În opinia mea, renumele uneori negativ pe care îl are statistica în mass-media romanească, şi mă refer aici la scepticismul foarte răspîndit fa ă de cercetările bazate pe sondaje de opinie, se datorează pe lîngă existen a reală a unor cercetări cel pu in dubioase, şi unei neîn elegeri ale limitelor cunoaşterii statistice. Desigur cunoaşterea statistică este prin felul ei imperfectă, inexactă, probabilă şi nu certă, dar puterea ei rezidă tocmai în posibilitatea de a delimita cu siguran ă uneori destul de mare intervalul în care se află realitatea. Să fiu mai explicit, statistica nu va da niciodată răspunsuri simple şi exacte. Dar astfel de răspunsuri, în măsura în care există în cunoaşterea lumii reale, nu ne sunt utile. Răspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple, nici exacte. Cu toate acestea, cunoaşterea statistică este cunoaştere, adevărul statistic chiar dacă nu este absolut este un adevăr pragmatic atît timp cît îi în elegem limitele. Mai există un motiv pentru care scriu această carte. Căutarea mea a unui manual de statistică introductiv publicat în limba romană a fost pînă acum încununată de eşec. Deşi există multe manuale de acest tip în spa iul anglofon şi nu numai, la noi pînă în prezent manualele de statistică bune au inut să se prezinte la un nivel ştiin ific prea ridicat pentru începătorii fără interes şi aplecare fa ă de cele matematice. Poate şi de aceea statistica nu a devenit ca în alte păr i, un bun comun a celor ce cercetează lumea politică, socială sau economică şi putem 3

întîlni atît de des prostii monumentale în presa romanească atunci cînd aşa-zişi analişti se apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi încerca, de fapt, să exemplific pe parcursul căr ii cîteva din erorile cele mai uzuale ale comentatorilor politici dar şi ale politicienilor din ara noastră. Uneori înclin să cred că o mai bună în elegere a felului cum cunoaşte statistica şi a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva partide de la dispari ie. Nu voi merge prea departe cu ideea de a produce o carte de re ete de statistică, totuşi ea este într-un fel justificată. Toate metodele din carte sunt într-adevăr încercate, şi vor să fie exemple de metode ce se pot aplica cu succes în cercetare. De asemenea toate interpretările pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea aten ia asupra unor erori ce apar adesea, voi aten iona fa ă de prea mult scepticism în egală măsură ca şi fa ă de un optimism exagerat. Deci condimenta i cu măsură şi, precum cei mai buni bucătari, aplica i re etele mele cu în elegere, în spiritul şi nu numai în litera lor.

4

Capitolul 1. Introducere.
Să începem uşor, cu începutul. În acest capitol aş vrea să definesc conceptul de statistică şi felul cum poate statistica cunoaşte lumea. Voi vorbi despre ra ionamentul statistic, despre eroare şi greşeală în statistică, precum şi despre cauzalitate şi statistică.

a. Ce este statistica? Statistica se defineşte de obicei ca un subdomeniu al matematicii dedicat culegerii, analizării, interpretării şi prezentării datelor. Defini ia aceasta mi se pare însă cît se poate de nesatisfăcătoare pentru că, pe de o parte nu spune nimic despre felul cum ac ionează statistica lăsînd prin urmare orice metodă ca fiind acceptabilă, şi mai apoi foloseşte un concept mult prea general si ambiguu, acela de “dată”. În acest concept este probabil ascuns chiar ceea ce eu consider a fi genul proxim în cadrul căruia ar trebui definită statistica. Anume faptul că ea este o metodă de cunoaştere. Statistica este o metodă de cunoaştere a unor obiecte sau fenomene bazată pe interpretarea rezultatelor de măsurare. Mie defini ia aceasta îmi place mai mult, deşi probabil sună încă destul de criptic. Anume, mută ambiguitatea de la conceptul de “dată” la felul cum se ob ine aceasta, adică prin măsurarea unor obiecte sau fenomene. Ei bine, eu înclin să cred că măsurarea în cauză se poate face chiar cu orice aparat de măsură atît timp cît acesta este de încredere, adică nu face erori sistematice. Totuşi, nişte exemple ar fi utile aici, nu-i aşa? Deci, aparate de măsură sunt desigur cîntarul şi metrul croitorului sau ale constructorului, ca şi şublerul sau micrometrul, dar pînă la urmă orice func ie care face univoc legătura dintre un obiect sau fenomen şi o valoare fie ea numerică sau nu, este o măsurare. Sper că nu am speriat încă pe nimeni folosind termenul de func ie în sens matematic. O func ie este o rela ie între două mul imi, în cazul nostru o mul ime de obiecte sau fenomene de acelaşi tip pe care dorim să o cunoaştem mai bine şi o mul ime de valori statistice pe care le putem analiza. Punem de fapt în rela ie ceva ce nu putem folosi nemijlocit în calculele noastre cu ceva ce putem folosi. Măsurăm de exemplu greutatea unor cîini, poate pentru a analiza efectul unor alimenta ii specifice. Folosim un cîntar, desigur, dar de fapt definim prin aceasta o func ie pe domeniul cîinilor studia i luînd valori în domeniul numerelor reale. Şi de ce facem asta? Pentru că dorim să interpretăm, să calculăm, să comparăm şi, în fine, să prezentăm cît mai simplu şi 5

coerent rezultatele cercetării noastre. Şi nu ştim să calculăm cu cîini, însă ştim să facem asta cu numere. Această problemă este mereu prezentă în cunoaştere. Nu putem “calcula” cu obiectele reale, fenomene aşa cum sunt ele. Aşa cum nu putem face calcule cu cîini, nu putem face nici cu opiniile politice şi nici cu comportamentele economice ale unor oameni adevăra i. Trebuie să le transformăm în lucruri cu care putem calcula, în valori numerice sau nenumerice, oricum valori care sunt simple şi în primul rînd complet definite prin ele însele. Să mă explic: este practic imposibil să definesc complet un obiect sau un fenomen real. Orice defini ie a cîinelui meu ar fi incompletă, ar omite un fir de blană sau chiar o caracteristică comportamentală pe care poate încă nu o cunosc. Iar de ar fi, prin absurd, posibilă o defini ie completă a lui Garu, aşa îl cheamă (ştiu, e aiurea, dar e o poveste mai lungă), ar fi de o complexitate ce ar face să fie absolut inutilă pentru orice interpretare sau analiză. Pe de altă parte rezultatul măsurării greută ii lui este 30kg ceea ce este desigur un model cît se poate de inexact pentru un cîine dar este o valoare utilă şi calculabilă atît timp cît ştim exact ce înseamnă şi nu îi conferim o mai mare importan ă decît are, anume greutatea lui Garu. Completînd această măsurătoare cu altele, precum vîrsta, rasa şi genul, ob inem un model, o defini ie incompletă şi utilă, atît incompletitudinea cît şi utilitatea ei rezultînd pînă la urmă din simplitatea ei. La fel se întîmplă şi în cazul opiniilor politice ale unei persoane, de exemplu ale colegului meu Ionică. Opiniile lui Ionică sunt complexe, anumite teme îl interesează şi este informat asupra lor avînd opinii nuan ate. Alte teme nu îl interesează şi nu are opinii asupra lor sau are opinii superficiale formate rapid. Mai mult, opiniile lui Ionică, precum a oricărei persoane inteligente sunt schimbătoare, reac ionează la schimbările din mediu, la noi informa ii şi noi evenimente. Nu avem cum efectua calcule cu opiniile lui Ionică, putem însă să măsurăm elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, îl putem întreba ce părere are despre un anumit politician şi îi putem oferi 5 variante de răspuns. Avem atunci o măsurătoare, care este în acelaşi timp o simplificare şi o datare. Acest rezultat de măsurare va fi legat de momentul la care am pus întrebarea (şi va rămîne neschimbat, deşi opinia lui se poate schimba ulterior) şi va încerca să includă opinia lui Ionică într-o schemă simplă care nu îl poate descrie evident întru totul dar care îl poate face comparabil cu al i oameni care au răspuns la aceiaşi întrebare. Şi aici este chiar principala problemă a statisticii. Statistica nu calculează cu cîini, oameni sau partide. Statistica calculează cu rezultatele unor măsurători ale acestora. Cunoaşterea în 6

general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construieşte astfel de modele prin măsurare. Cum măsoară de obicei statistica? Ei bine, oricum. Sau mai exact, depinde de temă. Statistica medicală măsoară cu aparate sofisticate dar a căror exactitate ar trebui să nu depindă de cel ce efectuează cercetarea, statistica socială sau politică este însă de obicei nevoită să-şi dezvolte propriile aparate de măsură, chestionarele. Vom reveni în capitolul al treilea la felul cum se scriu, şi cum nu se scriu chestionare. Pînă atunci să continuăm însă să discutăm cum metoda de măsurare cu chestionarul influen ează chiar conceptual cunoaşterea statistică. Un aparat de măsură trebuie să aibă două principale caracteristici pentru a fi util. Trebuie să dea un rezultat şi unul singur, şi mai mult decît atît, la repetarea măsurării să producă acelaşi rezultat sau unul foarte apropiat. Presupunînd că reuşim să-l urcăm pe Garu (cîinele meu, vă aduce i aminte) pe un cîntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o valoare apropiată de 30kg. Daca reuşim acest efort de persuasiune şi îndemînare în repetate rînduri într-un scurt interval de timp, utilizînd mai multe cîntare, acestea vor fi bune în măsura în care ne vor da aproximativ acelaşi rezultat. Pe de altă parte însă, greutatea lui Garu nu se va schimba de pe urma faptului ca a fost măsurată. Chiar daca Garu ar fi priceput ceva din cele ce i s-au întîmplat tot nu şi-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a testa aparatele de măsură pentru coeren a lor nu ne este însă accesibil în cazul chestionarului. Daca dorim să repetăm chestionarea lui Ionică suficient de curînd pentru ca opinia lui să nu se fi schimbat prea mult, el îşi va aduce desigur aminte de chestionar şi va răspunde probabil la fel măcar pentru a se arăta consecvent, caracteristică pe care societatea noastră o valorizează în sine. Există chestionare special elaborate, în special în cercetări de psihologie care rezolvă această problemă într-o oarecare măsură prin punerea a foarte multe întrebări şi repetarea unora dintre ele în forme mai mult sau mai pu in modificate. Una peste alta problema rămîne însă deschisă pentru majoritatea cercetărilor. Chestionarele nu se pot de obicei calibra atît de bine ca şi cîntarele. Solu ia la această dilemă nu este decît recunoaşterea unei alte limitări a cunoaşterii prin statistică socială. O cercetare care foloseşte o metodă de măsurare nu poate fi comparată cu o altă cercetare ce foloseşte altă metodă de măsurare. “Cîntarele” cercetării sociale nu sunt comparabile. Ca atare măsurarea depinde nu numai de obiectul măsurat ci şi de aparatul de măsură. În cercetarea statistică socială rezultatul este dependent şi specific aparatului şi metodei de măsurare. Deci, metodologia este parte din rezultat. Putem spune că rezultatul măsurării are sens, este interpretabil, există numai împreună cu metoda de măsurare. Revenind la conceptul de model pe care l-am introdus mai sus, nu numai că statistica nu 7

calculează cu cîini, sau oameni, sau fenomene, ea nu calculează de fapt nici cu greutatea, opinia sau comportamentul ci cu rezultatul măsurătorii acestora aşa cum ne-o permit aparatele de măsură. Mai simplu, dacă întrebăm un elev cît de des ridică mîna în clasă, nu vom prelucra statistic elevul (bineîn eles, doamne fereşte), dar nici măcar gradul lui de participare în clasă (ceea ce unii ar putea spera), ci o măsură de moment a opiniei lui fa ă de gradul lui de participare în clasă. Şi această măsură va depinde de felul cum e construit chestionarul, de întrebările anterioare, dar şi de evenimentele din ziua în care am efectuat chestionarea sau din zilele precedente. Aceasta pentru că măsurarea se face într-un moment anume şi cu un aparat anume. Mai mult, măsurătoarea nu se aplică participării în clasă ci opiniei elevului asupra acestei participări, opinie care depinde de părerea pe care o are despre şcoala lui, învă ătorul lui, despre sine însuşi respectiv despre dezirabilitatea de a fi activ în clasă. Toate acestea nu fac măsurarea inutilă sau cunoaşterea ob inută de pe urma ei mai pu in sigură, pur şi simplu sunt elemente ce trebuie luate în seamă. Dacă aparatul de măsură este parte din rezultatul măsurat, de aici decurge imediat faptul că nu este posibilă vreo măsurare fără o teorie ce stă la baza ei. Aparatul de măsură a fost desigur dezvoltat pe baza unei teorii, fie că a fost un cîntar fie că a fost un chestionar. Atît timp cît rezultatul măsurării nu depinde de metoda de măsurare am putea la o adică să neglijăm teoria care a produs aparatul, aceasta însă nu e nici o dată cazul în cercetarea statistică. Chiar dacă măsurarea a avut loc cu cîntarul, ideea de a măsura cu cîntarul a avut la bază o decizie şi această decizie o teorie legată de rezultatele dorite de pe urma cercetării. Cu atît mai mult în cazul în care aparatul de măsură este parte integrantă din rezultatul măsurii. În unele nefericite situa ii e posibil ca însuşi cel ce dezvoltă chestionarul şi proiectează cercetarea să nu fie pe deplin conştient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar şi atunci acestea influen ează cercetarea precum o pot influen a şi prejudecă ile celor ce o proiectează. Acestea sunt încă alte limite ale cunoaşterii pe care un bun interpret al calculelor statistice trebuie sa le aibe în fa a ochilor. Nu este posibilă măsurare fără teorie şi ca atare teoria ce stă la baza unei cercetări trebuie cît mai exact enun ată şi cît mai consecvent aplicată. Să ne întoarcem deci la defini ia noastră: spuneam că statistica se ocupă cu interpretarea rezultatelor unor măsurători. Am discutat pu in despre măsurători în sine, să vedem acum ce în elegem prin interpretări şi care anume sunt metodele de interpretare pe care le numim statistice. Rezultatele de măsurare ne dau de obicei o multitudine de caracteristici, date numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie 8

prezentate într-un fel pentru a fi de vreun folos. Chiar şi o dată prezentate, de exemplu sub forma unei liste cu greutatea a 1000 de cîini, ele cel mai adesea nu permit o utilizare, sau o în elegere a ansamblului problematicii. Ce vrea şi ce poate de fapt face statistica cu grămada de date pe care le culege prin măsurători?

b. Cum cunoaşte statistica? Există două probleme mari ale statisticii, descrierea unor date măsurate si extragerea din date măsurate a unor concluzii ce se extind şi asupra altor date, care nu au fost măsurate din motive ce in cel mai adesea de economie de timp şi bani. Prima dintre acestea este problema statisticii descriptive, cea de a doua cea a statisticii inferen iale. Statisticile descriptive se multumesc să spună ceva despre obiectele, indivizii sau fenomenele care au fost măsurate. Într-un fel şi statistica descriptivă generalizează, vrînd să spună ceva despre obiecte pe care le cunoaşte doar prin rezultatele unor măsurători. Totuşi, de obicei nu o considerăm ca fiind generalizatoare. Primii paşi în orice cercetare statistică sînt descriptivi. Încercăm să prezentăm cît mai clar şi concis şi, pe cît posibil, fără a pierde din acurate e datele măsurate. Reprezentările grafice şi tabelare, precum şi valorile agregate pe care le vom descrie în capitolul al patrulea al acestei căr i sunt metodele cele mai obişnuite ale statisticii descriptive. Ele nu prelucrează prea mult datele însă caută să ofere imagini mai uşor inteligibile decît o listă lungă de valori. Imaginile grafice pot fi în acelaşi timp şi indicatori buni pentru a recunoaşte trenduri, adică pentru a decide ce calcule se pot face în continuare, cu ce statistici inferen iale să se continue analiza datelor. Valorile agregate calculate în contextul statisticilor descriptive au un grad de prelucrare pu in mai avansat. De obicei se includ aici formule de calcul ce încearcă să găsească o tendin a centrală sau medie a datelor şi formule ce încearcă să sintetizeze în ce măsură datele sunt dispersate în jurul acestei tendin e centrale. Desigur nu întotdeuna aceste valori sunt interesante şi nu întotdeauna merită calculate. Sînt însă cazuri în care ele ne dau o imagine bună despre un fenomen. Să luăm calculul mediei, de exemplu. Media greută ii unor cîini de aceiaşi vîrstă, gen şi rasă poate reprezenta o bună bază de compara ie între rase sau genuri sau vîrste. Ne poate deci spune ceva atît timp cît este utilizată ceteris paribus. Conceptul de ceteris paribus înseamnă, “păstrînd toate celelalte caracteristici egale” şi adesea nu este uşor 9

de pus în practică. Totuşi este esen ial atunci cînd vrem să efectuăm compara ii şi să determinăm legături dintre caracteristici, cum ar fi, de exemplu greutatea şi genul cîinilor. Desigur media greută ii tutoror cîinilor de la o expozi ie chinologică poate fi în ansamblu prea pu in relevantă. Poate însemna totuşi ceva pentru cei care trebuie sa facă cură enie a doua zi! De aici, încă o concluzie importantă: de tema de cercetare depinde metoda cea mai adecvata şi nu de repertoarul de metode. Nu stiu de unde provine zicala “daca singura scula pe care o ai este un ciocan totul începe să semene a cui” dar în cazul statisticii sociale se confirmă din păcate foarte des. Dacă tot ce ştii e să calculezi medii, o să calculezi medii indiferent ce temă de cercetare şi ce date ai! Cum şi cît de mult sunt distribuite datele în jurul tendin ei centrale este o altă temă esen ială în statistica descriptivă. A i auzit cu to ii butada cu individul care stă cu un picior într-un lighean cu apă rece ca ghea a şi cu unul într-un lighean cu apă clocotită şi zice că în medie îi este bine. Există multe feluri de a calcula cît de distribuite sunt datele. În exemplul dat probabil ar fi de ajuns să calculăm diferen a de temperatură dintre cele două lighene, în marea majoritate a cazurilor avem însă de a face cu un fel de miriapod care are fiecare din mia lui de picioare în ligheane cu ape de temperaturi diferite! Statisticile inferen iale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii matematice despre cum sunt datele şi au ca principal scop testarea unor ipoteze despre popula ii de individizi sau obiecte. Inferen a statistică este de fapt formarea unor păreri justificate despre o întreagă popula ie bazîndu-ne pe măsurarea unei păr i a acesteia. Exemplul care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a opiniei publice pun întrebări unui eşantion de vreo mie de persoane şi vor să ne convingă pe noi, şi binenîn eles şi pe nişte clien i plătitori de asemenea, cum că pot spune ceva despre opinia a peste 21 de milioane de persoane. La baza acestui tupeu se află inferen a statistică adică posibilitatea de a generaliza statistic de la măsurarea unui eşantion la descrierea unei întregi popula ii. Există teorii matematice care justifică aceasta. Şi dacă cercetarea e făcută cît mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate. Bineîn eles şi în acest caz pentru interpretarea lor trebuie sa ne punem cît mai clar întrebările: ce am măsurat, pe cine am măsurat şi cu ce acurate e. Principiul fundamental al statisticii este con inut într-o teoremă matematică numită adesea şi “teorema fundamentală a statisticii”. Ea ne asigură de faptul că rezultatele măsurătorilor ce se 10

fac pe un eşantion se pot, în anumite condi ii generaliza la nivelul întregii popula ii. Vom reveni în cel de-al treilea capitol al căr ii la această teoremă fără însă a face o prezentare a ei pe placul matematicienilor. O în elegere a consecin elor acestei teoreme pentru întreaga metodă statistică este însă necesară pentru a evalua la adevărata lor importan ă mai micile sau mai marile devieri de la idealul matematic pe care le întîlnim vrînd nevrînd în cercetările empirice. În elegerea fundamentelor matematice ale statisticii ne vor permite apoi să în elegem de ce este necesară o alegere foarte bine gîndită a persoanelor pe care le intervievăm pe parcursul unui sondaj de opinie şi de asemenea de ce este necesară o construc ie bună a chestionarului pe care dorim să-l aplicăm. Testarea statistică înbogă eşte cunoaşterea într-un mod foarte apropiat principiului respingerii ipotezelor. Pe cît de scurtă este, această propozi ie necesită o explica ie destul de detaliată. La baza ei se află concep ia despre cunoaştere ştiin ifică a lui Karl Popper (). În logica ra ionalismului critic, cum şi-a numit Popper însuşi teoria, principiul cunoaşterii ştiin ifice sar putea exprima simplu în felul următor: cunoaşterea umană nu se bazează pe certitudini şi demostra ii ale unor adevăruri; ea nu progresează pe baza coroborărilor ipotezelor ci pe baza contraexemplelor. Cunoaşterea ştiin ifică dezvoltă ipoteze. Acestea sînt acceptate dacă nu se pot respinge. Dar ele nu sînt prin aceasta propriu-zis “adevărate”. Doar că ele încă nu au putut fi respinse. Deci regula cunoaşterii nu este demonstra ia ci respingerea. Nu putem de obicei ştii dacă ceva este adevărat, putem însă recunoaşte cu oarecare probabilitate dacă ceva este fals. O teorie este ştiin ifică în măsura în care se poate imagina un experiment practic ce are puterea să o contrazică. Dacă acest experiment nu reuşeşte respingerea teoriei, aceasta este pentru moment acceptată. Ea nu este “adevărată” ci acceptabilă conjunctural atît timp cît nu a fost respinsă. Ştiin a are deci ca şi scop construirea şi punerea în practică a unor experimente care încearcă să respingă teorii, sau mai exact ipoteze. În statistică ca şi în teoria Popperiană a ra ionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipoteză în elegem o propozi ie care se supune analizei. În logica clasică o ipoteză este o propozi ie din care decurge o concluzie. Acolo nu se studiază, de regulă, valoarea de adevăr a ipotezei, ci felul cum decurge din ea o concluzie. În statistică însă, tocmai ipoteza este presupunerea supusă testării.

11

O ipoteză o dată respinsă duce la o nouă interpretare a realită ii şi ca atare la noi ipoteze. Există aici o asimetrie între verificarea şi respingerea teoriilor care este esen ială şi pentru felul cum cunoaşte statistica. Statistica foloseşte principiul contraexemplului într-un sens probabilist. Să explic. Statistica poate măsura o valoare, de exemplu media greută ii cîinilor de la o expozi ie chinologică şi o poate compara cu o valoare teoretică ipotetică, de exemplu o ipotetică medie a greută ii tuturor cîinilor din lume. Pe baza acestor valori, şi a unor foarte importante presupuneri despre cum sunt în general distribuite datele şi cum au fost ele măsurate practic, statistica poate calcula care este şansa ca ipoteza să fie corectă în lumina datelor măsurate. Statistica va pune deci întrebarea în felul următor. Fie următoarea ipoteză: media greută ii tuturor cîinilor din lume este de 50kg. Daca media greută ii cîinilor din expozi ie este de 20kg poate fi oare media greută ii tuturor cîinilor din lume fi 50kg? Dacă această şansă este foarte, foarte mică există un bun motiv de a respinge ipoteza. Vom spune atunci că, dacă cîinii din expozi ie reprezintă un bun eşantion al cîinilor din întreaga lume, iar printre aceştia greutatea este distribuita normal, ipoteza cum că media de greutate a cîinilor din întreaga lume este de 50kg este aproape sigur greşită. Statistica nu ne spune cît ar fi adevărata valoare a greută ii medii a cîinilor din lume, ne poate însă spune cît nu este şi prin consecin ă ne poate da o imagine despre cam cît ar putea fi aceasta. Deci statistica lucrează oarecum după principiul popperian. Nu poate demonstra, poate însă respinge ipoteze. O bună cercetare statistică, ca şi o cercetare ştiin ifică în sensul lui Popper este o cercetare care construieşte ipoteze ce pot fi respinse şi experimente care au puterea de a respinge aceste ipoteze. Orice cercetare statistică bine construită porneşte de la o serie de ipoteze mai mult sau mai pu in explicite pe care le supune testării statistice. Evident, cel mai bine este atunci cînd aceste ipoteze sunt explicite şi ştiin ifice, adică refutabile. Deorece însă, aşa cum am văzut deja, nu este posibilă măsurare fără a accepta în prealabil anumite teorii, întotdeuna vor exista şi presupozi ii teoretice care nu se supun testării. Acestea reprezintă cadrul teoretic al cercetării şi tot ce putem face este să le conştientizăm şi să ni le asumăm căci ele determină ce şi cum cunoaştem. Însăşi acceptarea metodei statistice ca şi cale de cunoaştere este o astfel de premisă teoretică, nu neapărat acceptată de către toată lumea.

12

c. Cauzalitate şi statistica. O mare parte din cercetarea statistică încearcă să pună în rela ie mai multe rezultate de măsurare care reprezintă caracteristici diferite ale unor individizi, obiecte sau fenomene. Astfel, ca să revenim la cîinii noştrii, un cercetător ingenios poate măsura greutatea şi genul cîinilor şi conchide de exemplu, cum că, păstrîndu-ne în cadrul oricărei rase şi grupe de vîrstă, pe măsură ce un cîine are greutate mai mare el are şanse mai mari de a fi mascul. Un astfel de ra ionament este statistic absolut corect şi ne arată cît se poate de clar faptul că conceptul de cauzalitate este un concept teoretic şi nu unul statistic. Una din greşelile de interpretare cel mai curent întîlnite în citirea datelor statistice este presupunerea de cauzalitate. Foarte adesea ne este convenabil să citim rezultatul unui calcul statistic ca o dovadă de cauzalitate. Aceasta este fals chiar din două motive. Pe de o parte, aşa cum am spus-o mai sus, statistica nu dovedeşte nimic ci eventual nu respinge o ipoteză, iar mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzalită i. Este însă cît se poate de adevărat că există modele statistice ce presupun cauzalitate, cum sunt regresiile. În acest caz cauzalitatea este inclusă în model, face parte din teoria ce a stat la baza construirii modelului şi desigur, ca în orice formă de cunoaştere statistică, ea ar putea fi eventual respinsă. Caz în care am avea un bun motiv să excludem o rela ie cauzală. Dacă însă nu putem respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune decît am avut în momentul în care teoria ne-a permis să o considerăm pentru a fi modelată. Deci cauzalitatea este în teorie, în ipoteză şi nu în calcul. De aceea exemplul de interpretare de mai înainte ni s-a părut imediat greşit. Face parte din sim ul comun faptul că genul unui cîine este neschimbat toată via a lui, pe cînd greutatea poate varia. De aici “teoria” noastră despre cîini nu acceptă cauzalitatea dintre greutate şi gen ci pe cea inversă. Deci, ipoteza pe care nu o putem respinge este: “cîinii masculi sunt mai grei” şi nu “cîinii mai grei sunt masculi”. Din păcate nu este întotdeauna aşa simplu. Să luăm un exemplu clasic, rela ia dintre nivelul de educa ie al unei na iuni şi bunăstarea ei. Se ştie foarte bine că există o legătură puternică între aceste două caracteristici aproape indiferent cum le-am măsura (de ex: procent din popula ie cu studii superioare şi produs intern brut pe cap de locuitor), există însă teorii convingătoare pentru ambele direc ii de cauzalitate şi testele statistice nu au reuşit să respingă nici una dintre ele. Decizia asupra direc iei de cauzalitate este deci un apanaj al teoriei.

13

Un alt caz interesant care apare în statistică uneori este cel al falsei cauzalită i, sau într-o formă atenuată, a falsei corela ii. Variabile par a fi legate şi nu ar trebui să fie. Vreau să atrag aici aten ie asupra necesarei precau ii în a defini o legătură ca fiind o falsă rela ie dintre variabile. Eu pînă în momentul de fa ă nu am întîlnit false rela ii ci doar rela ii cu explica ii teoretice complexe sau neimediate. Sunt aceste explica ii corecte? Nu întotdeuna, dar nu pot fi imediat respinse şi sunt ca atare mai fertile decît presupunerea unei false cauzalită i. Exemplul clasic este cel al foarte bunei corela ii empirice dintre numărul de berze şi indicele conjunctural al fertilită ii, calculat ca număr de copii născu i unei femei pe parcursul vie ii fertile, calculate pe regiune. Rezultatul, des verificat în practică ar putea fi o dovadă cum că “berzele aduc copiii”. Cei ce au citit cumin i pînă aici vor observa că nu este aşa. Pe de altă parte s-ar putea să fie de acord cu faptul că, experimentul în cauză nu poate respinge o legătură dintre numărul de berze şi natalitate. Să oferim însă o teorie alternativă. O teorie cît se poate de acceptabilă chiar de către sim ul comun spune că numărul de berze, dar şi numărul de naşteri ale unei femei pe parcursul vie ii fertile este mai mare în zona rurală decît în cea urbană. Gradul de urbanizare al regiunii studiate ar reprezenta deci o variabilă care le influen ează pe amîndouă variabilele din studiul nostru. Şi mai mult, le influen ează în acelaşi sens creind astfel o rela ie pozitivă între ele. Nu era deci vorba despre o cauzalitate directă, dar nici despre o eroare. Pur şi simplu, rela ia cauzală trebuia explicată teoretic acceptabil. Adică, testul statistic nu poate alege care din cele două teorii alternative, “barza aduce copiii” respectiv “urbanizarea reduce numărul de berze şi numărul de naşteri a unei femei” este mai bună. Adecvarea cu ansamblul de teorii şi ipoteze ale cercetării are însă această sarcină. Închei aici, repetînd: testele statistice pot da indica ii despre rela ii dintre variabile dar numai teoria poate construi în termenii unor rela ii cauzale şi tot teoria trebuie să fie atentă la posibilele determinări cauzale complexe, ce implică nu numai variabilele măsurate explicit ci eventual şi altele, poate uneori chiar nemăsurabile. d. Foarte scurt istoric al statisticii. Probabil că au existat rapoarte “statistice” încă din vremurile imperiilor antice legate de impozite şi pre uri, fapt este că termenul actual de statistică provine din latina nouă folosită în administra ia germană şi italiană a secolului al 18-lea, şi mai exact din termenul statisticum collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, în Italia vremii, 14

statista chiar însemna om de stat, politician. Se pare că primul care a folosit cuvîntul statistică a fost Gottfried Achenwall în 1749, şi anume în limba germană, sub forma de Statistik şi cu sensul de analiză a datelor despre stat sau chiar de “ştiin ă despre stat”. Achenwall (17191772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind atît universitar la Marburg şi Göttingen, cît şi consilier de curte al principilor electori de BraunschweigLüneburg. Termenul de statistică a fost preluat în alte limbi şi, în fine generalizat, cu un sens apropiat celui pe care îl dăm astăzi acestei metode, pe parcursul secolului al 19-lea. Practica de a culege şi analiza date despre stat exista însă deja în Anglia şi era acolo numită aritmetică politică. Termenul avea o vechime de cel pu in un secol cînd Achenwall a inventat noul nume şi pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei căr i ce i s-a publicat postum. William Petty nu a fost statistician în sensul metodelor pe care le în elegem astăzi ca fiind statistice. A fost însă statistician prin multe dintre temele ce l-au interesat. Petty a fost şi politician, economist, inventator, antreprenor şi multe altele şi a folosit tot felul de tehnici ingenioase, chiar dacă nu întotdeuna corecte, pentru a estima, de exemplu, popula ia Londrei. Pentru ca statistica să fie cea de acum a trebuit însă să se lege mai întîi de teoria probabilită ilor. Acest domeniu al matematicii, ini ial legat mai mult de jocuri de noroc şi divertismente matematice, îşi are originile tot în secolul al 17-lea, deşi primele scrieri despre jocuri de noroc se găsesc într-o operă postumă a lui Girolamo Cardano (1501-1576), Liber de ludo aleae. Cartea a fost însă publicată abia în 1663, în anii în care apăreau şi lucrările unor Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Aceştia din urmă sunt credita i că au moşit de fapt teoria probabilită ilor prin coresponden a pe care au purtat-o asupra celebrei probleme a Cavalerului de Méré. Problema era: cum trebuie să împartă doi jucători miza totală a unui joc de noroc dacă nu vor să joace pînă la capăt, dar vor ca această impăr ire să fie propor ională cu şansa fiecăruia de a cîştiga jocul. Pe Pascal se pare că la convins în aşa măsură metoda probabilistă găsită încît a folosit-o şi pentru a argumenta existen a lui Dumnezeu, cu un succes mai de grabă incert. Destul de repede s-a observat că, deşi un joc de noroc este determinat de situa ii aleatoare, repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate şi această 15

repetare este de fapt baza a ceea ce acum numim observa ie statistică. Ideea de observa ie repetată apare deja în prima carte de teorie a probabilită ilor publicată de Christiaan Huygens (1629-1695) în 1657. Ca ştiin ă matematică următorii paşi au fost făcu i de doi celebri matematicieni Jakob Bernoulli (1654-1705) tot într-o lucrare postumă, intitulată Ars Conjectandi şi Abraham de Moivre (1667-1754) în Doctrines of Chance (publicată în Anglia). Această din urmă carte pune şi bazele statisticii în sensul modern al ştiin ei. În a doua edi ie a căr ii (1738) apare pentru prima oară o formă a distribu iei normale de probabilitate despre care vom vorbi pe larg şi în cartea de fa ă, dar şi un caz particular al teoremei limită centrală, o clasă de teoreme foarte importantă pentru statistică, pe care va trebui să o tratăm şi noi măcar un pic pentru a în elege diferite fenomene legate de erorile statistice. Şi teoria erorilor de observa ie se găseşte deja în scrieri de la începutul secolului al 18-lea, şi anume în cîteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil statistica, cu sensul de observa ie asupra statului de teoria probabilită ilor a fost Pierre-Simon Laplace (1749-1827). Laplace a fost un om de ştiin ă deosebit de prolific, ceea ce ne interesează însă acum este dezvoltarea de către el a unei aşa-zise teorii analitice a probabilită ilor. Într-o lucrare din 1812 Laplace descrie mai exact distribu ia normală, şi, pe lîngă multe altele, demonstrează şi o formă a metodei celor mai mici pătrate, încă metoda noastră de preferin ă pentru calculul ecua iilor de regresie, precum vom vedea în capitolul al şaselea. Probabil celălalt mare creator al ştiin ei statisticii a fost Carl Friedrich Gauss (1777-1855). Considerat uneori cel mai mare matematician al tuturor timpurilor, deşi mie personal nu îmi este cunoscută înăl imea lui fizică şi nu cred că cea intelectuală se poate cu adevărat măsura, Gauss a contribuit la aproape toate domeniile matematicii. Şi el a contribuit la descrierea distribu iei normale, de aici şi numele de curbă a lui Gauss ce se dă de obicei graficului distribu iei normale. Tot Gauss a clarificat şi ipotezele metodei celor mai mici pătrate. În acest caz există însă o anumite dispută de primordialitate cu Adrien-Marie Legendre (1752-1833) care a publicat aceleaşi rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt înaintea lui Gauss, acesta însă sus inea că le ştie de mult. Deja pe parcursul primei păr i a secolului al 19-lea rezultatele ştiin ifice legate de metoda de cercetare statistică s-au înmul it considerabil. Multe metode au fost dezvoltate, principalele 16

tehnici puse la punct. Dezvoltarea mare a domeniului a venit însă spre sfîrşitul secolului al 19lea şi apoi în secolul al 20-lea o dată cu interesul crescut pentru studiul societă ii, apari ia ştiin elor economice moderne şi a sociologiei. Atunci apar marile şcoli statistice cărora le datorăm arsenalul actual de metode. Pe de o parte este vorba despre şcoala engleză. Principalii ei exponen i au fost: Karl Pearson (1857-1936) care a contribuit esen ial la teoria corela iei şi a regresiei şi a dezvoltat coeficientul de corela ie r dar şi coeficientul Chi2, şi Ronald Fischer (1890-1962) ini iator de fapt al întregului domeniu al testelor non-parametrice, creator al distribu iei şi testului F şi a unei serii întregi de rezultate esen iale pentru statistica de astăzi, dar şi Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiză factorială dar şi coeficientul de corela ie ρ (rho) pentru valori ordinale, numit şi coeficient Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a dezvoltat metode de verificare a ipotezelor, distribu ia Student şi testul t, şi al ii. Dacă şcoala engleză de statistică a fost la originea multora dintre metodele statisticii aplicate, la celălalt capăt al continentului, în Rusia, au apărut lucrări esen iale pentru justificarea ştiin ifică, matematică a calculului statistic. Principalele teoreme ce stau la baza statisticii au fost demonstrate de matematicienii ruşi Pafnuty Chebyshev (1821-1894) cu inegalitatea ce îi poartă numele şi ca o consecin ă a acesteia, teorema slabă a numerelor mari, Andrey Markov (1856-1922) creatorul lan urilor Markov şi în general unul dintre creatorii teoriei proceselor stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o formă generală a teoremei limită centrală, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la demonstrarea teoremei tari a numerelor mari şi autorul unui criteriu suficient ce îi poartă numele, şi al ii. Dezvoltarea statisticii a continuat pe parcursul secolului trecut şi ca ştiin ă. Mai impresionant poate însă, statistica a pătruns în conştiin a publică o dată cu utilizarea ei pe scară largă în cercetările sociale şi cvasi-generalizarea sondajului de opinie ca metodă de culegere de informa ii despre societate, ca metodă de măsurare a societă ii. Primul sondaj de opinie a fost efectuat în Statele Unite de revista Literary Digest în 1916 pentru a prevede rezultatul alegerilor preziden iale. Fără vreo bază teoretică statistică, revista a cerut cititorilor să returneze redac iei o carte postală - chestionar. Pentru patru alegeri preziden iale la rînd, metoda a dat rezultate corecte.

17

Un pas important spre fundamentarea ştiin ifică a sondajului de opinie l-a făcut George H. Gallup (1901-1984) care în teza lui de doctorat din 1928 a dezvoltat metoda ce stă la baza sondajului de opinie statistic. Primul mare succes al lui Gallup a fost în 1936 cînd a reuşit să prevadă corect victoria lui F.D. Roosevelt în alegerile preziden iale, spre deosebire de Digest care a greşit folosind un eşantion incomparabil mai mare. Celebru atît pentru încrederea mare pe care a produs-o de la început cît şi pentru cîteva eşecuri memorabile, lui Gallup trebuie să-i recunoaştem meritul de a fi creatorul institu iei sondajului de opinie statistic.

18

Capitolul 2. Tipuri de date
Voi prezenta aici principalele tipuri de date, sau nivele de măsurare, cum se mai numeşte această clasificare. Deşi criticată pentru diverse motive aceasta împăr ire a datelor permite o în elegere simplă a felului cum se apropie statistica de fenomene. În 1946, psihologul american Stanley Smith Stevens a propus într-un articol mult citat, lăudat şi criticat apoi, o teorie a nivelelor de măsurare care avea să fie apoi repetată în aproape toate manualele introductive de statistică (Stevens, 1946). Nu am vrut să mă abat de la regulă. Prima dată să vedem totuşi la ce bun şi cum adică? Este absolut evident că măsuratorile pe care se bazează statistica nu sunt toate la fel. Din exemplele mai mult întîmplătoare din capitolul capitolul precedent (greutatea şi genul unui animal, opinia despre un politician) este evident că aparate diferite de măsură dau rezultate care fac parte din categorii cît de poate de diferite de cunoaştere. Dacă greutatea se exprimă în valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichetă, nu nume dat unei categorii, iar opinia despre politician poate fi exprimată în mai lungi sau mai scurte propozi ii, eventual chiar în grade de genul, mai bună – mai pu in bună dar nu în valori numerice concrete. Deci, Stevens a intuit cît se poate de corect, e necesară o clarificare şi o categorisire a acestor “nivele de măsurare”. Tehnic o astfel de categorisire ajută la a stabili ce metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate părea inutil, dar un exemplu sper să ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea sunt exprimate în note. Fie întrebarea de chestionar chiar cere notarea, ca la şcoala, a activită ii unui politician, sau a unui guvern sau minister în întregul lui, fie răspunsurile sînt transformate în note de către cercetător într-o activitate pe care o numim de regula codare a răspunsurilor. Răspunsurile la întrebările de opinie în final ajung să nu se distingă de rezultatele, eventual rotunjite, ale cîntăririi unui cîine. Şi totuşi diferen ele acestea sunt esen iale şi nu trebuie uitate1. Prezentarea nivelelor de măsurare în căr ile introductive de statistică mai are un avantaj. Permite o exemplificare structurată a datelor cu care lucrează statistica şi o prezentare coerentă a principalelor proprietă i ce sunt necesare pentru a putea lucra cu ele.
1 Confuzia dintre date de aceste tipuri e pe larg analizată în foarte reuşita carte a lui Darrel Huff “How to Lie with Statistics” (1954) care a apărut între timp în peste 30 de edi ii.

19

a. Date nominale Datele nominale, numite uneori şi categoriale, sunt nume date unor proprietă i ale obiectelor, indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantită i şi nici nu au o ordine implicită. Din exemplele de pînă acum, genul este o dată nominală. Indiferent cît de complexă cultural, biologic, comportamental şi aşa mai departe ar fi categorisirea pe genuri, dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt al ii chema i să scrie, ca tip de dată genul nu e altceva decît un cuvînt desemnînd o categorie. Nu putem face nici socoteli aritmetice cu genuri, nici compara ii. Masculin nu e mai mare decît feminim, şi nici sume sau medii nu putem face. Chiar daca am codifica la o adică genurile, la modul feminin = 2 şi masculin = 1, ca la codurile numerice personale din Romania, o declara ie de forma: genul mediu ar participan ilor la sondaj a fost 1,56 este ilară. Totuşi şi datele nominale trebuie sa se supună unor reguli, e drept pu ine şi simple, pentru a putea fi folosite ca date statistice. Acestea sunt: Excluderea mutuală: Categoriile unei date nominale trebuie să se excludă reciproc. Un cîine măsurat de noi nu poate fi în acelaşi timp şi mascul şi femelă, un cetă ean interogat într-un sondaj de opinie nu poate fi în acelaşi timp şi căsătorit şi necăsătorit. • Completitudinea: Orice individ măsurat în cadrul cercetării trebuie să găsească o categorie ce i se potriveşte în lista de valori posibile. Eventual se include varianta “altceva”, “altfel” dar lista de valori trebuie să poate acomoda orice situa ie. Condi iile de mai sus nu sunt întotdeuna uşor de pus în practică. Deşi cred că par a fi de bun sim , sunt situa ii în care întrebările şi listele de răspunsuri trebuie formulate cu grijă pentru a nu întîmpina probleme în analiza ulterioară a datelor. De multe ori cercetătorii chiar preferă să pună întrebările astfel încît să pară cît mai naturale celor ce trebuie să răspundă la ele şi să codifice apoi ei înşişi datele în aşa fel încît să corespundă cerin elor prelucrării statistice. Exemple tipice de date nominale sunt genul, starea civilă, na ionalitatea, apartenen a religioasă. Toate acestea au în comun faptul că pe lîngă caracterul lor nenumeric nu au nici o

20

ordine acceptată a valorilor. Asta chiar dacă unii pot fi de părere că “românii sunt mai superiori decît bulgarii”! Cu toate că datele nominale pot părea sărace din punctul de vedere al posibilită ilor calculatorii ele sunt importante în multe fenomene sociale, economice, etc. şi au fost dezvoltate multe metode statistice care să permită analiza lor sau, mai adesea, să permită analiza altor date în rela ia lor cu categorii nominale. Voi discuta pe larg astfel de metode în special în capitolul al şaptelea al căr ii. b. Date ordinale O a doua grupă de date sunt cele care, deşi nu sunt numerice, au o ordine bine definită a valorilor. Sensul de “bine definit” al unei ordini nu este nicidecum trivial. Matematicienii în eleg printr-o ordine bine definită o ordine care poate fi recunoscută pentru orice două valori şi mai mult, este şi tranzitivă. Pentru simplificare voi folosi expresia “mai mare” pentru a descrie ordinea. Atunci o ordine este bine definită dacă între oricare dintre valorile de răspuns este clar care este “mai mare”. Tranzitivitatea înseamnă că daca o valoare este “mai mare” decît alta, iar aceasta “mai mare” decît o a treia, prima valoare va fi în consecin ă “mai mare” decît cea de a treia. În plus fa ă de condi ia de ordine, datele ordinale trebuie să se supună şi condi iilor pe care leam specificat în cazul datelor nominale, să permită deci numai valori mutual exclusive şi lista acestor valori să fie completă. Diferen a esen ială dintre datele ordinale şi valorile numerice este aceea că nu are sens calculul distan ei dintre două valori, respectiv distan ele dintre valori consecutive nu se pot presupune a fi egale. Un exemplu va face mai clară această distinc ie. O întrebare tipică pentru un răspuns ordinal este cea legată de încrederea într-un politician. Să presupunem că răspunsurile posibile sunt: “foarte pu ină”, “pu ină”, “nici pu ină, nici multă”, “multă”, “foarte multă”. Se vede imediat că lista de valori este ordonată bine, între orice două valori ordinea e evidentă şi tot evidentă este şi proprietatea de tranzitivitate. Tot atît de clar este că fiecare intervievat va trebui sa decidă de fapt care e opinia lui, foarte probabil fiind că pînă în momentul interogării el să nu-şi fi pus problema încrederii în termenii întrebării. Această 21

nevoie de a decide îî diferen iază pe cei chestiona i de cei ce nu sunt chestiona i şi pune probleme în generalizarea rezultatelor la nivelul popula iei adică şi asupra celor ce nu au fost de fapt chestiona i şi nu au trebuit să se decidă în contact cu întrebarea pusă în forma dată. Un mod de a conştientiza aceasta este de a nu conferi valorilor de răspuns un sens absolut matematic, ci de a le considera interpretări personale ale celor ce au răspuns. Asta înseamnă că pentru doi intervieva i diferi i sensul unei valori de răspuns poate fi oarecum diferit, de exemplu, pragul de la “foarte pu ină” la “pu ină” încredere să fie diferit, distan a dintre două categorii să fie diferită. Intervievatul care alege un răspuns nu face altceva decît să îşi pozi ioneze opinia într-o ordine şi numai caracterul de ordine al valorilor de răspuns poate fi presupus în analiză. În ansamblu nu se poate deci presupune că există distan e între valori într-un sens matematic. Deşi se face des, traducerea valorilor de răspuns în cifre, de exemplu de la 1 la 5 în cazul nostru, este riscantă şi duce la greşeli importante. Calculul unor medii aritmetice a răspunsurilor este una din greşelile cele mai uzuale pe care le fac cercetătorii în ştiin e sociale, de multe ori chiar conştien i de abuzul implicat. Scuza uzuală pentru această greşeală este aceea că însumînd opinii ale unui număr mare de persoane, distan ele dintre variantele de răspuns, într-adevăr diferite de la o persoană la alta, se însumează şi dau o medie statistică egală. Din păcate însă nu este aşa. Există devieri sistematice de la această distan ă presupusă egală între variantele de răspuns. Şi anume, valorile extreme, de tipul “foarte pu ină încredere” sau “foarte multă încredere” sînt adesea mai “îndepărtate” de valorile proxime “pu ină încredere”, respectiv “multă încredere” decît sînt acestea de valoarea mediană, neutră. Mai grav încă, în cazul în care o anumită întrebare este receptată ca fiind legată de o presiune socială, distan ele din scală se defazează în sensul acestei presiuni. Ca şi în exemplul anterior, majoritatea întrebărilor care produc răspunsuri ordinale se bazează pe aşa zise scalograme, adică liste standardizate de răspunsuri. Cele mai obişuite, mai des folosite, sunt scalele Likert, dezvoltate deja în 1932. Scala Likert este o scală a nivelului de acord cu o propozi ie. Un exemplu simplu ar fi următorul: Sunte i de acord cu faptul că Traian Băsescu este un politician dedicat binelui ării noastre? a. Nu sunt deloc de acord c. Nu sunt de acord d. Nici de acord, nici nu e. Sunt de acord f. Sunt absolut de acord. 22

Formulările pot diferi, de regulă însă este vorba despre o scală ordinală cu un număr impar de valori. Cel mai adesea sunt 5 valori, unii cercetători din domeniul psihologiei în special, preferă totuşi scale cu 7 valori. Valoarea mediană, adică cea din mijlocul scalei este întotdeuna o valoare neutră. Acordul sau dezacordul sunt exprimate verbal în forme cît mai clare şi simple de grade diferite de radicalitate. Uneori se alege conştient eliminarea valorii mediane. În acest caz se vorbeşte de o scală Likert cu op iune for ată. Intervieva ii sunt atunci obliga i să adopte o pozi ie chiar daca ar prefera neutralitatea. Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate ini ial de sociologul şi psihologul Louis Guttman într-un articol din 1944. Guttman pune cîteva condi ii simple pentru ceea ce este o scală Guttman perfectă, şi anume: O scală Guttman este o listă ordonată de propozi ii cu care intervievatul poate fi de acord sau nu. • Să presupunem că avem 10 astfel de întrebări. Dacă intervievatul este de acord cu propozi ia 7, dar nu şi cu propozi ia 8, logica scalei presupune că el este de acord cu toate propozi iile 1-7 şi nu cu propozi iile 8-10. În aceste condi ii “scorul” lui va fi 7. Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variantă mai permisivă şi mai apropiată de realitate este modelul lui Rasch care presupune o scală de tip Guttman probabilistă, adică în care rela iile dintre răspunsuri au un caracter probabilist. Un exemplu celebru de scală de tip Guttman este des folosit în analiza rela iilor dintre grupuri etnice, religioase, na ionale, etc. Aceasta este scala Bogardus (după sociologul american care a dezvoltat-o), numită şi scală a distan ei sociale, care se bazează pe o lista de întrebări de următoarea formă: A i fi de acord ca un .......... (aici se completează categoria fa ă de care se estimează distan a socială, de exemplu “maghiar”, “rrom”, “baptist”, “homosexual”): • • • • Să vă devină rudă prin alian ă (răspunsul “da” – valoare 1). Să vă fie prieten apropiat (2) Să locuiască pe aceiaşi strada (3) Să vă fie coleg de servici (4) 23

• • •

Să fie cetă ean al ării noastre (5) Să fie doar turist în ara noastră (6) Să fie expulzat din ara noastră (7)

Valori ordinale se pot însă ob ine şi în alte situa ii. De fapt cazul cel mai cunoscut de valoare ordinală este cel al notelor şi calificativelor date elevilor şi studen ilor. Şi este şi cel mai cunoscut abuz de utilizare a unor valori ordinale. Deşi probabil o mare parte a profesorilor ar fi de acord, cel pu in eu aş fi, că “distan a” dintre un 4 şi un 5 nu este aceiaşi cu distan a dintre un 7 şi un 8, sau dintre un 9 şi un 10, medii aritmetice ale notelor se calculează în mod uzual şi se mai şi folosesc pentru a lua decizii importante pentru via a celor nota i. Problema utilizării mediei aritmetice pentru date ordinale este însă o problemă care a produs multe controverse. După părerea mea principalul motiv este prezen a atît de răspîndită a datelor ordinale, probabil cele mai des întîlnite în cercetările sociale, şi frustrarea de a renun a la o formă de prezentare atît de simplă de calculat şi în eles cum este media aritmetică. Trebuie însă men ionat că există o serie întreagă de metode puternice care lucrează cu date ordinale şi nu fac presupuneri suplimentare despre distan ele dintre valori. Alte exemple de date ordinale sînt: nivelul de educa ie (dacă formularea răspunsurilor este bine ordonată), respectiv topurile de preferin e (nu şi cele de vînzări, la care se poate calcula o diferen ă între pozi ii clar exprimată în unită i vîndute). c. Date intervalice Ultimele două categorii ale clasificării lui Stevens se referă la date numerice şi diferen ierea pe care a impus-o între datele intervalice şi cele ra ionale este şi una dintre cele mai controversate ale teoriei nivelelor de măsurare. Cu toate acestea, să vedem despre ce e vorba. În defini ia ini ială, datele intervalice sunt date numerice care au punct zero conven ional. Mai simplu spus, zero-ul intervalic nu înseamnă o “lipsă” a caracteristicii ci este o valoare ca oricare alta. Un cîine care are greutatea zero nu este un cîine, cel pu in după părerea mea. Ca atare greutatea nu este o valoare intervalică. Dacă însă cineva s-a născut la ora zero, nu înseamnă că nu s-a născut de loc. Ora zero este conven ională şi nu înseamnă absen a indica iei de timp. Deci datele calendaristice, sau de oră sunt date intervalice. Ele evident sunt altfel decît celelalte date numerice de măsurare. 24

Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete şi bine ordonate. Chiar şi caracterul conven ional al notării numerice este prezent. Diferen a este însă distan a calculabilă între două valori intervalice. Între două momente în timp se poate calcula o distan ă, fie ea în minute, secunde sau alte unită i de măsură şi o distan ă de o anumită mărime, de exemplu 5 minute, este aceiaşi indiferent pentru ce valori de timp a fost calculată. Păstrînd toate celelalte condi ii egale, dacă un ou fierbe în 5 minute la ora 14, el va ajunge la fel de tare după 5 minute de fierbere şi la ora 7. Aten ie însă, chiar dacă momentele “ora 14” şi “ora 7” sînt indica ii intervalice, nu astfel este şi durata de “5 minute”. Aceasta este o dată numerică ra ională, cum vom vedea că se numesc acestea. Adică, un ou care fierbe zero minute chiar nu fierbe de loc! Alte date intervalice sunt gradul de longitudine şi latitudine geografic, fusul orar, temperatura precum şi alte date conven ionale. Deoarece datele intervalice au distan e corect calculabile între ele, pot fi folosite în aproape orice calcule matematice. Problematică rămîne utilizarea lor în împăr iri şi înmul iri, deorece ele nu au sensul de cantitate pe care il acordăm de obicei datelor numerice. Astfel un cîine de 40kg cîntăreşte într-adevăr cît doi cîini de cîte 20kg. Pe de altă parte, ora 14 nu este cît două ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halbă de bere sunt 2 litri de bere, însă de patru ori deşteptarea la ora 3 diminea a nu face cît o trezire la ora 12. d. Date ra ionale Din prezentarea de pînă acum nu am avut cum exclude referiri la datele ra ionale. Acestea sunt datele numerice, cantitative, obişnuite. Ele apar des în cercetarea socială sau economică, şi cu atît mai mult în ecologie sau medicină şi sunt cele pentru care s-au dezvoltat cele mai multe dintre tehnicile şi testele statistice. Absolut orice calcule matematice se pot face cu aceste valori. Greutatea cîinilor, banii din portofel, valoarea produsului intern brut, numărul de locuitori ai unui oraş sau de restan e al unui student sunt toate valori ra ionale. Ele sunt rezultate ale unor măsurători cantitative, sau adesea al unor numărători. Valoarea zero nu este o conven ie, un student cu zero restan e este chiar un student cu o vacan ă lungă şi relaxantă. 25

De obicei caracterul discret sau continuu al valorilor unor date ra ionale nu se tematizează la nivelul statisticii aplicate introductive. Deşi unele metode presupun date continue, cum este cazul metodelor de regresie, se face cel mai adesea abstrac ie de la această presupozi ie. Există rezultate matematice suficient de bine fundamentate care permit o atare abordare fără pericolul de a greşi semnificativ. Şi apoi continuitatea datelor nu înseamnă statistic mai mult decît că valoarea măsurată poate fi oricît şi nu numai anumite valori, de exemplu numere întregi. O asemenea condi ie nu este de fel restrictivă.

26

Capitolul 3. Culegerea datelor statistice. Sondajul de opinie
Datele statistice pot proveni din surse oficiale, cum sunt institutele na ionale de statistică sau organiza iile interna ionale, şi atunci se referă de obicei la un ansamblu complet de obiecte, indivizi sau fenomene sau pot proveni din aşa-zise sondaje statistice. În primul caz, deşi culegerea datelor este de obicei laborioasă, ştiin ific justificarea utilizării lor nu pune probleme deosebite pentru statistician. Pe de altă parte, tehnica sondajului este una mult mai preten ioasă şi matematic mai complicată. Cu atît mai mult cu cît unii care fac sondaje şi majoritatea celor ce le citesc uită de principalele probleme implicate în validitatea lor. 1. Statistici de recensămînt si statistici de sondaj. Generalizarea statistică şi limitele ei. Cum am mai scris şi mai sus, metoda specifică de culegere a datelor în statistică este sondajul. Acesta se bazează pe o serie de teoreme matematice care permit, în condi ii foarte bine specificate, care în realitate nu sînt niciodată perfect îndeplinite, generalizarea rezultatelor de la nivelul eşantionului, adică a mul imii celor chestiona i la nivelul popula iei, adică a mul imii care reprezintă inta cercetării. Prima defini ie necesară pentru a continua este cea a popula iei. În orice cercetare statistică popula ia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetării, asupra cărora se referă ipotezele şi teoriile ei. Dacă de exemplu, vrem să facem o cercetare legată de consumul de apă minerală în România, popula ia studiului va fi întreaga popula ie a ării, de vrea 21 de milioane, cîtă e ea. Dacă însă cercetarea are caracter politic, probabil aş dori să restrîng popula ia la persoanele cu drept de vot, electoratul român, adică numai vreo 17,5 milioane. De la caz la caz, popula ia unei cercetări poate fi mul imea locuitorilor unui oraş, mul imea jucătorilor de fotbal sau a studen ilor unei facultă i, dar există şi cercetări cu alte nivele de agregare la care popula ia poate fi mul imea intreprinderilor mici şi mijlocii dintr-o regiune, mul imea jude elor Romaniei sau chiar a ărilor europene. Stabilirea popula iei cercetate este un prim pas în orice studiu statistic. Este de fapt răspunsul la întrebarea: despre cine am dori să putem spune ceva? Şi de aici decurge alegerea celor care vor fi măsura i (adică vor răspunde la întrebări) dar şi felul cum se fac măsuratorile (adică se pun întrebările) şi interpretarea rezultatelor. Alegerea popula iei este o decizie ce ine de substratul teoretic al studiului dar în acelaşi timp determină teoriile ce vor fi folosite în continuare pe parcursul proiectării cercetării. 27

Nu toate cercetările statistice sunt bazate pe date culese prin sondaj. O mare parte dintre metodele folosite atît pentru descrierea datelor cît şi pentru testarea unor teorii se aplică, cu la fel de mult succes, şi pe alte tipuri de date. Este vorba despre ceea ce numim date de recensămînt. Suntem obişnui i cu acest termen ca desemnînd o chestionare periodică, dar totuşi rară, a întregii popula ii a ării pe teme legate mai mult de statutul social-economic. Conceptul are însă o defini ie ceva mai largă. Un recensămînt este o cercetare care presupune intervievarea (sau mai general, măsurarea) tuturor membrilor popula iei studiate. Deci tehnic un studiu care tratează statele europene folosind date culese din toate aceste state este un recensămînt la fel cum tot recensămînt este un studiu care intervievează to i studen ii unei anumite facultă i atît timp cît rezultatele nu se doresc a fi generalizate pentru alte grupuri de studen i. Deşi în cazul recensămîntului induc ia statistică nu are rolul pe care i l-am pomenit în introducere, există aşa cum am mai spus şi aici un anumit nivel de generalizare. Anume, prin faptul că folosim modele mai mult sau mai pu in simple pentru indivizii studia i şi încercăm totuşi să tragem concluzii despre comportamentul lor sau despre opiniile lor. Tot ce am putea ştii, de exemplu, despre studen ii facultă ii de ştiin e politice din Timişoara sunt răspunsurile pe care aceştia le dau la un chestionar. Am putea totuşi să încercăm să verificăm dacă pentru aceştia se poate sus ine faptul că cei ce lucrează în perioada studen iei sunt mai pu in interesa i de problemele legate de organizarea academică. Este posibilă o astfel de cercetare? Desigur. Este sigur că se poate răspunde la întrebare? Evident, nu. Întrebarea este o ipoteză de lucru, s-ar putea să poată fi respinsă, s-ar putea însă să nu se poată face acest lucru. Indiferent însă de aceasta, rezultatele se vor referi numai la studen ii chestiona i şi nu se vor putea generaliza, după regulile statisticii cel pu in, la al i studen i, din alte facultă i sau alte oraşe. În unele cazuri, probabil pentru a evita confuzia curentă cu recensămintele na ionale men ionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot în elegîndu-se de fapt popula ia care este în acelaşi timp şi “eşantion” al cercetării. În general un eşantion este mul imea aleasă prin vreo metodă oarecare, a celor ce vor fi chestiona i (sau măsura i) în cadrul unei cercetări. Dacă de exemplu, la o fabrică de ciorapi trebuie făcut un studiu statistic al egalită ii lungimii ciorapului stîng cu ciorapul drept, probabil că s-ar decide că este suficientă măsurarea unui eşantion şi nu al întregii popula ii 28

ciorăpeşti. S-ar putea alege, şi ar fi chiar cea mai bună metodă, de pe banda de produc ie tot a o mia pereche de ciorapi pînă cînd se ajunge la un număr dorit, de exemplu tot o mie de perechi. Perechile de ciorapi măsura i vor forma eşantionul, produc ia ce are loc în perioada în care se aleg perechile de ciorapi e popula ia cercetată. Există multe metode de a alege un eşantion, unele mai bune, altele mai pu in, unele mai simple, altele mai pu in. Vom reveni la acestea în partea a două a acestui capitol. Pentru moment să încerc să explic de ce putem face asta. De ce e suficient să măsurăm o mie de ciorapi ca să spunem ceva despre cîteva sute de mii, sau de ce un institut de sondare a opiniei publice e suficient să întrebe nu mult mai mult de o mie de oameni pentru a prevedea suficient de bine rezultatul unor alegeri preziden iale? Explica ia stă în cîteva teoreme matematice. Ele sînt în general cunoscute ca fiind “legile numerelor mari”, “teorema fundamentală a statisticii” şi “teorema limită centrală”. Nu cred că aş fi de prea mare folos cititorilor acestei căr i dacă le-aş enun a matematic corect. Voi încerca deci numai să le povestesc. Legile numerelor mari sînt o serie întregă de teoreme, probabil prima fiind enun ată de Bernoulli în 1713. Toate aceste teoreme spun lucruri asemănătoare. Ele de fapt vorbesc despre repetarea unor experimente, de exemplu aruncarea unui zar. Esen ial este ca repetarea această să se facă în aşa fel încît fiecare aruncare de zar (sau ce experiment ar fi) să fie independentă de celelalte. Dacă e aşa şi notăm rezultatele, pe măsură ce numărul de experimente creşte felul cum se distribuie rezultatele observate se apropie din ce în ce mai mult de felul cum sunt distribuie toate rezultatele posibile. În cazul unui zar bine echilibrat, pe măsură ce repetăm aruncarea cu zarul ne apropiem din ce în ce mai mult de o distribu ie în care fiecare fa etă apare de un număr egal de ori. Traducerea în statistică e simplă. Fie o informa ie oarecare de interes pentru cercetarea noastră, o dată statistică cum i-am spus pînă acum, sau o variabilă cum i se mai spune. Ea este cumva distribuită în popula ie (de exemplu genul e distribuit cam jumătate – jumătate, perechile de ciorapi inegali sunt cam 5% din produc ie, etc.). Ei bine legile numerelor mari ne asigură de faptul că dacă alegem să chestionăm (măsurăm) un număr de indivizi (perechi de ciorapi) atunci atît timp cît alegerea unui individ este independentă de celelalte alegeri, pe măsură ce numărul celor aleşi creşte, distribu ia rezultatelor de măsurare se aproprie de distribu ia valorilor în întreaga popula ie. Simplu spus asta înseamnă că un eşantion mai mare e mai bun decît unul mai mic. Dar mai spune două lucruri esen iale. O dată, faptul că adăugînd la eşantion în mod corect nu ne îndepărtăm de la distribu ia pe care 29

dorim să o aflăm ci ne tot apropiem de ea şi în al doilea rînd, mai important, ne spune cum trebuie să alegem eşantionul. Anume astfel încît fiecare alegere să fie independentă. Din păcate, aşa cum vom vedea asta nu este chiar aşa uşor în statistică ca la aruncarea cu zaruri. O formă a legii numerelor mari, cunoscută şi ca teorema Glivenko-Cantelli a fost adesea numită teorema fundamentală a statisticii. Ea ne asigură incă mai bine de apropierea aceasta a distribu iei valorilor observate de cele existente în popula ie, apropiere ce în matematică se numeşte convergen ă. Teorema Glivenko-Cantelli ne spune că această convergen ă este uniformă pe măsură ce creşte volumul eşantionului. Bun, deci, din cele de pînă acum ştim că măsurînd un eşantion din ce în ce mai mare ne apropiem din ce în ce mai mult şi uniform de felul cum variabilele ce ne interesează sunt distribuite în popula ie, atîta timp cît fiecare element din eşantion l-am ales independent de celelalte (vom spune în general că eşantionul e ales aleator, la nimereală). Pare de bun sim , cred. Întrebarea mare ce se pune acum este, cît de mare trebuie să fie eşantionul astfel încît apropierea să fie suficient de bună? Altfel, desigur, dacă pentru o popula ie de 21 de milioane, distribu ia din eşantion se apropie de distribu ia din popula ie pe măsură ce se adună milioanele de chestionare nu am rezolvat prea mare lucru. Aici intervine teorema limită centrală. Şi ea face parte dintr-un grup de teoreme numită în general teoreme limită centrală. Pentru a deosebi teorema cea mai importantă dintre acestea, o teorema enun ată şi demonstrată de Lyapunov la începutul secolului 20, ea se scrie adesea cu litere mari (Teorema Limită Centrală!). Ea ne spune că în anumite condi ii, importante pentru matematicieni, o sumă de variabile aleatoare necunoscute, dar independente tinde la o distribu ie normală cînd numărul acestor variabile tinde la infinit. Condi iile pomenite nu sunt de fapt foarte restrictive, ele spun că variabilele însumate trebuie chiar să fie “oricum”, “la nimereala” şi faptul că trebuie să aibă aceiaşi medie şi dispersie. Aceasta, a doua condi ie nu este de fapt chiar atît de restrictivă, deşi poate părea. De fapt ea nu este restrictivă pentru că orice variabilă aleatoare poate fi “împinsă” spre stînga sau dreapta graficului ei prin simpla adunare sau scădere a unei valori numerice. Nu se schimbă cu nimic caracteristicile variabilei, pur şi simplu graficul se împinge încoace sau încolo. Deci orice variabilă poate fi adusă la aceiaşi valoare medie fără a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu mult, aşa că nu o mai comentăm aici. Bun, deci, le insumăm şi iese ceva numit distribu ie normală, o distribu ie despre care vom mai vorbi. Precum vedem ea este foarte importantă în statistică. Nu e foarte simplă matematic, dar pentru majoritatea utilizatorilor de statistică e 30

suficient să cunoască cîteva din principalele ei proprietăti. Şi pe moment cel mai important este că e cunoscută. E foarte important. Să reluăm de fapt ideea. Avem un număr de tot felul de variabile despre care nu ştim mai nimic şi dacă le adunăm toate iese ceva cunoscut. Asta e foarte confortabil pentru că la urma urmei în orice cercetare ce presupune studierea comportamentului unor oameni putem să fim destul de siguri că sunt o gramadă de variabile pe care nu le-am putut măsura şi încă şi mai multe la care nu ne-am putut nici măcar gîndi. Ei bine, astea toate însumate în efectele lor produc ceva cunoscut. Deci, grija mare că sunt atîtea şi atîtea care nu pot fi luate în seamă nu e chiar aşa de justificată. Această grămadă de variabile sunt de fapt eroarea care trebuie luată în seamă cînd încercăm să estimăm o valoare. Prin faptul că se poate estima corect forma sumei variabilelor care nu le luăm în seamă în mod explicit se ob ine şi formula care permite estimarea erorii. Cum am văzut din teoremele numerelor mari această eroare este legată de volumul eşantionului. Deci aici putem estima volumul unei eşantion pentru a ob ine cu probabilitate mare o anumită precizie a cercetării statistice.

31

2. Cum facem un sondaj de opinie simplu şi corect? 1. Eşantionarea aleatoare Din considerentele (aproape) matematice din sec iunea precedentă putem să extragem o concluzie esen ială pentru tehnica sondajului de opinie. Anume, garan ia matematică pentru posibilitatea unei estimări statistice corecte este ca alegerea eşantionului studiat să fie pur aleatoare, adică să nu depindă chiar de nimic. Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei. Premisele sunt următoarele. Avem o urnă din care se pot extrage bile şi în care se găsesc un număr de bile de diverse categorii. De exemplu, bile albe şi negre. Extragem din urnă cîte o bilă, notăm culoarea ei şi o introducem la loc. Legea numerelor mari ne asigură că repetînd opera ia asta de multe ori vom ob ine o bună estimare a distribu iei bilelor în urnă. Modelul acesta se numeşte “schema bilei reîntoarse” şi introducerea bilei la loc în urnă este esen ială pentru că astfel şansa de a alege o bilă de o anumită culoare rămîne cea de la început pentru fiecare extragere. Dacă ne-am imagina o urnă cu un număr foarte mare de bile din care extragem un număr relativ mic, am putea presupune că distribu ia rămîne aproape neschimbată chiar dacă bila nu se introduce la loc, adică dacă aceiaşi bilă nu mai poate fi extrasă de mai multe ori. Aceasta este situa ia unui sondaj real. Ideal ar fi deci să avem un recipient mare de tot în care stau cumin i to i membrii popula iei pe care dorim să o studiem şi să extragem de acolo rînd pe rînd cîte unul, să-l interogăm şi săl punem la loc. Aceasta este însă posibil numai par ial. Să vedem ce corecturi sunt necesare pentru a putea să ne apropiem cît mai mult de acest modelul teoretic. În primul rînd, în oala noastră nu va sta chiar toată popula ia pe care vrem să o cercetăm. (Îi spun oală, pentru că urnă mi se pare prea morbid, şi recipient prea preten ios.) Există două feluri de aborda problema asta. Pe de o parte, e normal să încercăm să luăm o oală cît mai cuprinzătoare, pe de altă parte e la fel de normal să redefinim popula ia în func ie de oala aleasă. Hai să dau cîteva exemple. Să zicem că dorim să aflăm ceva despre popula ia oraşului Timişoara. Să alegem recipientul din care “extragem” subiec ii cercetării. De exemplu, Pia a Operei. Punem operatori de sondaj 32

în pia ă şi îi învă ăm să abordeze cetă eni în mod aleator. Indiferent cîte ore ar sta operatorii noştrii în pia ă şi indiferent în ce zile ar sta acolo, recipientul acesta nu va con ine toată popula ia Timişorii în nici un caz. Mai mult, cei ce trec prin pia ă vor fi probabil persoane care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, să fie în special persoane care nu sunt angajate în muncă: studen i, elevi, pensionari, amatori de fotbal, actori şi statisticieni. Pur şi simplu, faptul de a trece în Timişoara prin Pia a Operei e deja un anumit mod de comportament şi ar putea influen a şi alte comportamente şi op iuni ale celor aleşi să răspundă la chestionar. Un astfel de eşantion nu va fi reprezentativ pentru întreaga popula ie a oraşului. Oala e pur şi simplu prea mică. Pe de altă parte, nu ştiu dacă clientul cuiva ar fi mul umit cu aser iuni de genul: “o treime din cei ce trec prin Pia a Operei ziua în amiaza mare ar cumpăra detergentul ...”. Bun, e preferabil deci să alegem altă oală. O op iune care se oferă este cartea de telefon. Fie deci, cartea de telefon, oala din care se aleg la nimereală numere de telefon. Intervievarea prin telefon are şi avantajul de a fi rapidă şi confortabilă. Este însă oala asta destul de mare? Depinde. Practic punînd astfel problema redefinim popula ia de la “popula ia oraşului Timişoara” la “popula ia oraşului Timişoara abonată la Romtelecom”. Această popula ie poate fi o mai bună sau mai proastă aproximare a popula iei ini iale dar nu va fi în nici un caz o aproximare statistică pentru că apartenen a la cea de a doua popula ie nu este una aleatoare fa ă de prima popula ie. Mai simplu, popula ia celor care au telefon în Timişoara nu a fost aleasă în mod întîmplător din toată popula ia oraşului, persoanele cu pricina au avut de făcut paşi administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit minim, poate chiar un efort logistic. Deci putem linistit presupune că cei ce au telefon sunt altfel decît cei ce nu au. Deci, cele două popula ii nu sunt interşanjabile. Posesorii de telefon vor avea probabil în medie un venit mai mare, vor fi localiza i în anumite cartiere, etc. Totuşi, clientul nostru s-ar putea să fie mul umit de rezultate ob inute pe popula ia restrînsă atît timp cît volumul ei este suficient de apropiat de volumul popula iei ini ial considerate. La începutul anilor 1990 aş fi fost clar împotriva intervievării telefonice. Pe vremea respectivă foarte multe familii nu aveau telefon deşi ar fi dorit să aibă, iar cei ce aveau telefon aveau în mod clar caracteristici particulare, de obicei de natură profesională. Deşi aceasta poate să fie teoretic adevărat în continuare, deoarece numărul de abonamente telefonice în mediul urban se apropie foarte mult de numărul total de gospodării, redefinirea popula iei nu este una care să deranjeze prea mult. Discrepan a dintre mediul urban şi cel rural rămîne însă atît de mare încît

33

un sondaj pe o popula ie ce include şi mediul rural, ca de exemplu, popula ia unui jude , nu se poate în nici un caz efectua telefonic. O alternativă similară cu cartea de telefon dar, cel pu in teoretic mai bună este folosirea listelor de alegători. Din păcate, aşa cum s-a văzut la alegeri, migra ia popula iei intern şi interna ional a făcut ca listele electorale să fie destul de greu practicabile, adresele de pe liste nepotrivindu-se adesea situa iei din realitate. Apoi, ob inerea listelor electorale pentru o cercetare oarecare nu este ceva chiar aşa de uşor. Important de notat că listele cu toată popula ia, cum sunt listele electorale sau căr ile de telefon, se numesc cadre de eşantionare şi au marele avantaj de a uşura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintrun cadru de eşantionare este posibilă. Să revenim însă la alegerea recipientului. Daca nici cadre de eşantionare bune nu sunt ce se poate face? Se poate, de fapt, defini oala astfel încît să cuprindă chiar pe toată lumea? Probabil nu. Aproxima ia cea mai bună este de a considera oraşul, jude ul sau ara în distribu ia ei teritorială ca fiind chiar oala şi a alegere de aici pe baza adreselor gospodăriilor. Alegerea unei adrese va fi de fapt o metaforică extragere din urnă. Evident, nici aşa nu avem chiar urna teoretică în care se află toate bilele. Lipsesc cei ce nu se află la domiciliul stabil sau nu au un domiciliu stabil, fie ei nomazi prin modul lor de via ă, pleca i în concedii sau la muncă în străinătate. Aşa cum ştim, în cazul Romaniei de astăzi numărul acestora este important şi redefinirea popula iei este esen ială în acest caz, dar de obicei ea este întru totul acceptabilă. “Oala” geografică va însemna parcurgerea oraşului pe baza unui itinerariu. Operatorul va parcurge străzile - locuin ele şi va alege - extrage dintre ele. Bineîn eles, din motive practice va trebui ales un punct de unde porneşte operatorul în itinerariul lui. Pentru că se lucrează cu mai mul i operatori şi pentru că există prejudecata cum că o distribu ie geografică uniformă ar înbunătă i relevan a sondajului, se aleg de obicei puncte de pornire pe cartiere. Ideal ar fi ca aceste puncte să fie alese chiar aleator, de exemplu aruncînd cu un dart pe un plan al oraşului. Pe de altă parte, distribu ia uniformă a punctelor de pornire, deşi nu este justificată matematic elimina riscul ca doi operatori să ajungă la aceiaşi familie! Am văzut problemele legate de metaforica noastră urnă, să vedem cum arată alegerea din urnă, extragerea aleatoare. În forma teoretică atunci cînd experimentatorul bagă mîna în urnă el nu simte nici o diferen ă între bile. Toate sunt la fel, alegerea nu are loc pe baza unei caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde decît cele 34

albe. Regula esen ială a alegerii aleatoare, se poate exprima astfel: fiecare membru al popula iei trebuie să aibă aceiaşi şansă să fie ales în eşantion. Pare simplu, nu e. Numai dacă avem un cadru de eşantionare aceasta se poate face (aproape) perfect. Atunci un generator de numere aleatoare pe calculator ne poate alege un eşantion cît de mare vrem. Aceasta ar fi o eşantionare aleatoare perfectă. Mai există o variantă la fel de bună, dar mai pu in laborioasă. Dat fiind construc ia listelor, fie electorale, fie telefonice, care se face alfabetic, pozi ia unei persoane în listă nu e legată de anumite caracteristici. De aceea se poate folosi o metodă mai simplă, aşa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim nume. Apoi se aplică un pas de eşantionare. Acesta se calculează ca raport dintre volumul popula iei şi volumul eşantionului. De exemplu, în Timişoara sunt aproximativ 140.000 de abonamente telefonice. Daca dorim un eşantion de 1000 de persoane, pasul de eşantionare va fi de 140. Punem în eşantion, de exemplu, primul număr telefonic din carte, apoi numărul al 141-lea, apoi al 281-lea, şi aşa mai departe. Şansa unui număr de a fi ales depinde de alegerea primului număr, aceste se alege din valori între 1 şi 140. Oricum toate numerele de telefon au aceiaşi şansă de a fi alese independent cui apar in, şi în mod evident, ceea ce e cel mai important, nu contează nici un fel de caracteristici social-economice, etnice sau comportamentale ale celor aleşi. Să ne gîndim la varianta pe care am considerat-o cea mai bună pentru alegerea “urnei”, anume parcurgerea geografică a localită ii. În acest caz avantajul de a lucra cu situa ia reală a adreselor este şi motivul principalului dezavantaj. Anume, nu există un cadru de eşantionare ceea ce face alegerea simplă aleatoare sau pseudo-aleatoare imposibilă. Cum alegem locuin ele ca să dăm tuturor aceiaşi şansă, şi o dată aleasă o locuin ă cum dăm tuturor locatarilor aceiaşi şansă? Esen ial este desigur ca alegerea să nu fie influen ată de calită i ale locuirii şi persoanelor. Adică, casele mai drăgu e să nu fie favorizate fa ă de cele mai neîntre inute, persoanele mai primitoare fa ă de cele mai pu in primitoare, eventual chiar unele etnii fa ă de altele! Metoda care se foloseşte este construirea unui itinerariu-algoritm. E ca şi cum am face o alegere pseudo-aleatoare în care pasul de eşantionare nu mai e un număr de rînduri pe o foaie de carte de telefon ci un număr de case pe o stradă sau un număr de locuin e într-un bloc. Ce contează este ca metoda să includă toate cazurile posibile astfel încît argumente care in într-adevăr de condi iile de locuire să nu conteze. Cel mai rău este ca operatorul să aleagă după argumente de genul: “s-a terminat strada, acum pot să o iau la stînga sau la dreapta, dar la stînga e noroi!”. Poate părea nesemnificativ, dar prin repetare, dacă astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eşantionului şi la 35

situa ia în care apartenen a la o categorie social-economică dezavantajată să scadă probabilitatea de a face parte din eşantion. Apoi mai există o situa ie asemănătoare de defazare a eşantionului care e foarte periculoasă. Aceasta este cunoscută ca autoselec ie. Evident, dacă numai cei ce se autopropun, răspund la un chestionar, cum e de exemplu, cazul chestionarelor ce apar în reviste, eşantionul nu are nici o relevan ă statistică. Am văzut că aşa au dat greş sondajele din revista americana “Literary Digest” puse fa ă în fa ă cu metoda lui Gallup care presupune alegerea aleatoare. Există însă o situa ie perversă în care o aproape similară, chiar dacă ceva mai benignă, autoselec ie apare ca efect pervers al unei eşantionări şi selec ii cît se poate de corecte. Astfel, dacă numărul celor ce refuză să răspundă la chestionar e foarte mare, cei ce acceptă pot fi considera i a fi (aproape) autoselecta i. E clar că aici rolul operatorului este esen ial, el/ea trebuie să fie potrivit de politicos-insistent astfel încît cel intervievat să trebuiască să ia evident o decizie pentru a refuza şi varianta implicită, lipsită de efortul de a decide, să fie aceea de a răspunde. Din păcate nu avem o metodă mai bună de a reduce ponderea refuzului de a răspunde la chestionare. În anii de imediat după 1990 ponderea celor care refuzau interviurile operatorilor de sondaj era foarte mică. Această pondere a crescut destul de mult devenind în multe cazuri semnificativă. Cîteva reguli simple reduc totuşi pu in ponderea nonrăspunsurilor. Operatorul de interviu trebuie să înceapă prin a se prezenta cît mai clar şi trebuie să se refere fie la institutul care efectuează sondajul, fie la clientul sondajului. Esen ial este ca poten ialul intervievat să priceapă cît de repede despre ce e vorba, adică să nu creadă că operatorul vrea să-i vîndă sau să-i ceară ceva. Apoi el trebuie să se simtă valorizat pentru faptul că părerea lui contează, respectiv că a fost ales să-şi spună părerea. 2. Eşantionarea stratificată Stratificarea este o variantă de înbunătă ire a eşantionării luînd în seamă caracteristici ale popula iei care sunt de tip categorial. Matematic nu se poate calcula cu cît e mai bună o astfel de eşantionare fa ă de una simplă aleatoare, şi nici măcar dacă e mai bună. Ea are totuşi avantajul de a ne asigura posibilitatea unor teste statistice care pot fi importante în cercetare. Aici însă trebuie să expun întîi metoda pentru a fi mai explicit. Orice popula ie se poate împăr i în categorii diferite. Genuri, religii, zone de reziden ă, tipuri de locuire, etc. Unele dintre acestea sunt cunoscute la nivelul popula iei din date statistice 36

oficiale. De exemplu, dacă avem de făcut un sondaj într-un anume jude putem afla din anuarul statistic cî i locuitori sînt în mediul urban şi cî i în mediul rural, cî i în oraşul reşedin ă de jude , cî i în alte oraşe. Mai mult, unele din aceste categorii se pot cunoaşte chiar înainte de intervievare, se pot lua în seamă în eşantionare şi selec ie. Astfel prin simple propor ii se pot calcula eşantioane stratificat. Un exemplu simplu pentru jude ul Timiş ar fi următorul. În tabel am trecut popula ia totală urbană şi rurală din 2006 conform Institutului National de Statistică. Am calculat apoi procentele fa ă de totalul popula ional al jude ului şi, în fine cîte chestionare dintr-un total de 1000 ar trebui aplicate în mediul rural şi cîte în mediul urban pentru a păstra volumele straturilor. Număr locuitori Urban Rural Total 414.680 244.619 659.299 Procent 62,9% 37,1/ 100% Număr chestionare 629 371 1000

Această metodă este folosită cel mai adesea pentru a crea eşantioane pentru o popula ie mare şi distribuită, cum ar fi popula ia unei ări, de obicei eşantionarea nu este doar stratificată ci şi multistadială. Aceasta presupune mai mul i paşi de stratificare şi alegere aleatoare. Cel mai simplu ar fi să vedem cum se face aceasta pentru o popula ie cum ar fi cea a Romaniei. Primul pas, sau primul stadiu, este împăr irea după tehnica stratificării pe care am văzut-o mai înainte a eşantionului în func ii de regiuni de dezvoltare. Romania este împăr ită, mai mult sau mai pu in administrativ în opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis unită i administrativ-teritoriale cum sunt jude ele, dar sunt suficient de bine particularizate socioeconomic. În mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, deşi sunt criticate tocmai pentru că nu se potrivesc şi mai bine cu acestea. Oricum, ceea ce contează pentru statistician este faptul că regiunile de dezvoltare sunt folosite de Institutul National de Statistică ca unită i de raportare. Adică, toate datele statistice teritoriale sunt disponibile şi la nivel de regiune. În plus, evident cele opt regiuni sunt mai potrivite ca straturi decît foarte multele jude e ale ării. Romania are 41 de jude e. Dat fiind un eşantion obişnuit, care aşa cum ştim depăşeşte cu pu in 1000 de chestionare, numărul de chestionare care s-ar aplica într-un jude ar fi ilar de mic şi de greu de distribuit în consecin ă. Hai să fiu pu in mai explicit. 37

Împăr ind chestionarele pe jude e rezultă în medie vreo 25 de chestionare pe fiecare jude . Dacă luăm în seamă numai costurile de transport care apar împăr ite pe fiecare chestionar e clar că merita căutată o metodă mai bună. Să vedem cum arată tabelul cu distribu ia chestionarelor după primul stadiu. Număr locuitori Nord-Est Sud-Est Sud Muntenia Sud-Vest Oltenia Vest Nord-Vest Centru Bucureşti Ilfov Total 3.781.932 2.980.559 3.619.796 2.461.463 2.198.504 2.983.614 2.860.490 2.325.037 23.211.395 Procent 16,3% 12,8% 15,6% 10,6% 9,5% 12,9% 12,3% 10,0% 100% Număr chestionare 163 128 156 106 95 129 123 100 1000

Al doilea stadiu este, de obicei, distribuirea pe medii de reşedin ă. Aceasta se poate face pe o simplă împăr ire rural – urban, cum am văzut deja în exemplul precedent, sau pe o ceva mai complexă împăr ire în trei zone, rural – localită i urbane mici (sub 100.000 de locuitori) – localită i urbane mare. Aceasta este împăr irea pe care o folosesc majoritatea institutelor de sondare a opiniei publice de pe la noi. Împăr irea aceasta duce în fine la o distribu ie a chestionarelor prin care se află cîte chestionare trebuie făcute pe fiecare regiune şi fiecare tip de localitate. Atunci apare primul pas de selec ie aleatoare, dintr-o listă de localită i pe regiuni şi tipuri de localită i se aleg, în mod teoretic aleator, localită i care le vor reprezenta pe toate celelalte din aceiaşi regiune şi acelaşi tip. Deci, ar trebui alese măcar o localitate urbană mare, una mică şi o localitate rurală pentru fiecare regiune. În realitate se aleg de obicei mai multe localită i din cîte o categorie, aşa cum vom vedea şi din exemplul următor. Să dezvoltăm o regiune oarecare, de exemplu regiunea Nord-Est în forma mai simplă a distribu iei rural - urban. Număr locuitori Rural 2.105.562 Procent 56,4% 38 Număr chestionare 92

Urban Total

1.629.384 3.734.946

43,6% 100%

71 163

Deci vor trebui aplicate 71 de chestionare în oraşe din regiunea Nord-Est şi 92 chestionare în sate şi comune din regiune. Cel mai probabil se vor alege din listele de localită i două oraşe şi trei sau patru comune pentru intervievare, dar numărul localită ilor alese este de fapt la latitudinea celui care organizează sondajul şi are cel mai adesea motiva ii legate de costuri. Desigur pentru a fi statistic în regulă alegerea localită ilor trebuie să fie aleatoare, sau măcar independentă de considera ii legate de caracteristici socio-economice ale localită ilor. De obicei aici se opreşte stadializare unei astfel de eşantionări. Numai dacă numărul de chestionare este mai mare se mai poate merge un pas mai departe şi se mai pot împăr i în continuare localită ile în categorii, de exemplu localită i de şes vs. de deal, etc. La finalul metodei stratificate, fie ea multistadială sau nu, rămîne tot o alegere aleatoare a celor ce vor fi intervieva i, fie cu ajutorul căr ii de telefon, a listelor electorale sau a itinerariului pe teren. De fapt, privind pu in în urmă alegerea punctelor de pornire a unei eşantionări pseudo-aleatoare cu itinerariu este tot un fel de eşantionare multistadială. Dacă numărul de chestionare pentru fiecare din aceste puncte se stabileşte luînd în seamă volumul popula ional al cartierului în cauză eşantionarea este chiar stratificată. Am spus pe undeva la începutul acestei sec iuni că, matematic vorbind eşantionarea stratificată nu este mai bună decît cea simplă aleatoare. Ea se foloseşte mai des însă pentru că are alte avantaje. Anume, un sondaj de opinie se face cel mai adesea pentru a testa ipoteze şi a descrie comportamente popula ionale. Ipotezele statistice de obicei compară comportamente şi op iuni între subgrupuri din popula ie. Eşantionarea stratificată ne asigură că o parte din categorisile popula iei se vor regăsi cu necesitate în eşantion. Astfel, suntem în acest caz siguri că vom putea compara regiunile între ele, zonele de reşedin ă, etc. Din motive similare de multe ori la selec ia partenerilor de interviu se verifică (statistic se spune că se controlează) şi distribu ia pe genuri. De obicei se face prin alternan ă simplă. Operatorului i se indică să intervieveze alternativ o femeie – un bărbat. Desigur, teoremele matematice pe care se bazează statistica ne promit că aceste distribu ii vor ieşi bine şi prin alegerea simplă aleatoare. Însă în condi iile în care numărul chestionarelor nu este foarte mare, un control asupra anumitor variabile popula ionale ne poate asigura în fa a unor eventuale probleme. 39

O altă problemă care trebuie men ionată pe undeva şi care ine în cele din urmă de eşantionare este alegerea unei ore cît mai potrivite pentru interviuri. Aici necazul este că o fereastră de timp prea mică, de exemplu între orele 18 – 20, deşi ar putea surprinde pe majoritatea celor aleşi pentru a fi intervieva i disponibili, duce la prelungirea timpului afectat operării sondajului şi ca atare şi la creşterea costurilor. Una peste alta, în cazul intervievării la domiciliu se alege de obicei un interval orar între orele 16 şi 21. Vara se poate profita un pic mai mult deoarece pe lumină şansa ca operatorul să fie refuzat este ceva mai mică! Important pentru alegerea intervalului orar al chestionării este însă să nu faci gafe prea mari. Dacă de exemplu pornim prin sat duminică înainte de masă vom nimeri pe multă lume la biserică, iar cei pe care îi vom găsi acasă vor avea un alt profil comportamental şi valoric decît cei pe care nu îi găsim acasă. Aşa putem da peste cap o eşantionare altfel onorabilă. 3. Eşantionări ne-aleatoare Există şi metode de alegere a celor intervieva i care nu au nimic de a face cu statistica. Ca atare, astfel de metode nu au o relevan ă matematică pe care să o putem calcula şi nu se bazează în vreun fel pe regulile statisticii. Totuşi se folosesc pentru că sunt simple, ieftine, pentru că uneori sunt inevitabile şi pentru că de multe ori aşa-zise sondaje nu sunt neapărat făcute de specialişti sau comandate de clien i bine informa i. Cea mai des folosită metodă de eşantionare ne-aleatoare este metoda de eşantionare pe cote. Aceasta seamănă cu metoda stratificată. Dacă însă la eşantionarea stratificată se determină un număr relativ mic de straturile în aşa fel încît să lase loc şi unei alegeri aleatoare, cotele se construiesc mai exact. Straturile de obicei se fac în aşa fel încît să nu includă caracteristici ale persoanelor intervievate. Cotele con in tocmai astfel de caracteristici. De exemplu, din date statistice oficiale se deduce ponderea din popula ie pe grupe de vîrstă şi genuri şi se calculează, întocmai ca la eşantionarea stratificată, numărul de persoane de fiecare categorie care trebuie intervievat. Fiecare operator primeşte atunci un număr din chestionare şi o matrice de genul: Femei 18 – 35 ani 35 – 50 ani 4 chestionare 5 chestionare 40 Bărba i 5 chestionare 6 chestionare

50 – 65 ani Peste 65 ani

5 chestionare 4 chestionare

4 chestionare 3 chestionare

De multe ori numărul de caracteristici cotate e chiar mai mare şi poate include întrebări filtru de genul “consuma i bere?” sau “locui i în această localitate?”. Bineîn eles folosind eşantionarea pe cote nu se mai pot alege cei intervieva i aleator, fie din cartea de telefon, lista electorală sau cu itinerariu, pentru că în nici care din aceste liste şi pseudo-liste persoanele nu apar cu specificarea unor caracteristici ale lor. Operatorul alege partenerii de interviu conform cotelor prin orice metodă doreşte, pe stradă, dintre vecini, şi aşa mai departe. Astfel nu se mai exclude nici auto-selec ia, nici subiectivitatea alegerii operatorului. O altă metodă de eşantionare ne-aleatoare este inevitabilă în cazul popula iilor rare. Ea se numeşte metoda bulgărelui de zăpadă. Imagina i-vă că popula ia cercetată ar fi popula ia amatorilor de jazz sau a cetă enilor italieni stabili i în Banat. Astfel de popula ii nu apar în listele electorale, nu sunt de discernut din cartea de telefon, iar folosirea itinerariului ar duce la atît de multe eşecuri încît ar dura şi costa enorm de mult. Nu po i bate din uşă în uşă în căutarea iubitorilor de bonsai pînă aduni suficiente interviuri! Dacă nu po i asimila un astfel de grup rar cu o asocia ie formală tot ce po i face este să recunoşti faptul că persoane din astfel de grupuri sunt de obicei legate între ele în re ele sociale. Persoanele din grupuri rare se cunosc între ele. Aşa func ionează metoda bulgărelui de zăpadă. Se porneşte de la un număr de persoane care apar in popula iei şi care au fost identificate în vreun mod oarecare. Apoi fiecare dintre acestea este rugată să specifice alte persoane din aceiaşi popula ie pe care le cunosc. Din aproape în aproape se poate ajunge la un număr rezonabil de mare de interviuri. Desigur relevan a matematic-statistică a aceastei metode nu poate fi calculată. În fine, unele posturi de televiziune sau ziare folosesc termenul de sondaj de opinie pentru un număr oarecare de interviuri scurte efectuate cel mai adesea pe stradă. Aceasta nu este o eşantionare ne-aleatoare, pur şi simplu nu e nici un fel de eşantionare şi răspunsurile nu pot şi nu trebuie să fie considerate a fi vreun sondaj de vreun fel. 4. Chestionarul Ei, am ajuns fa ă în fa ă cu cel pe care dorim să-l intervievăm. Acum, ce? Acum chestionarul!

41

Spuneam că statistic vorbind fiecare din membrii popula iei trebuie să aibă aceiaşi şansă să facă parte din eşantion. Tot atît de important, metoda de măsurare – chestionarul – trebuie să aibă un efect cît mai mic asupra opiniilor măsurate. Dacă eu vreau să cîntăresc ciobăneşti mioritici, şi aleg prin cea mai bună metodă posibilă un eşantion, iar apoi înainte de a-i cîntări, îi tund pe că eii din eşantion ca să fie mai drăgu i, nu prea am gîndit bine. To i membrii eşantionului vor avea o greutate mai mică prin pierderea de blană ce le-am cauzat-o. Greutatea lor nu va mai putea fi generalizată la nivelul popula iei din care au fost aleşi. Exemplul pare extrem, dar în realitate interviul în sine şi felul cum este construit chestionarul nu au cum să nu îi diferen ieze pe cei intervieva i de cei ce nu sînt intervieva i. Dacă dorim să putem generaliza rezultatele trebuie să ne străduim să scriem chestionare care să influen eze cît mai pu in răspunsurile celor chestiona i. Această carte nu are scopul de aprofunda nici teoretic, nici aplicativ scrierea de chestionare. Şi totuşi, este cît se poate de important să nu se neglijeze partea aceasta a designului unei cercetări. Degeaba am folosi cele mai moderne metode de cercetare şi am proceda cu maximă precau ie la interpretarea rezultatelor, daca chestionarul e prost conceput, prost va fi şi rezultatul. Există multe capcane în scrierea unui chestionar, unele pot fi folosite chiar şi inten ionat. Avantajul de a scrie o carte este că te po i erija în în elept şi da sfaturi. Avantajul de a o citi este că po i sări pasajele de genul acesta. Deci, aten ie, urmează sfaturi bine inten ionate! 1. Cele mai grave denaturări ale rezultatelor se ob in prin ceea ce în engleză se numesc “leading questions”. Sunt întrebări care for ează un anumit răspuns sau măcar favorizează un anumit răspuns. Întrebări de acest gen leagă de obicei unul dintre răspunsurile posibile de un concept foarte indezirabil sau, mai pu in eficient, de unul foarte dezirabil. Pentru a construi astfel de întrebări se folosesc construc ii discursive puternic încărcate valoric negativ sau pozitiv. O întrebare pusă pare-se într-un sondaj efectuat în oraşul Cluj suna astfel “Sînte i de acord cu reînfiin area în oraşul nostru a universită ii de limbă maghiară care a existat in perioada Horthistă?”. În întrebare se face legătura dintre universitatea de limbă maghiară şi fascismul maghiar for îndu-se astfel un răspuns negativ. Se crează chiar senza ia că a sus ine reînfiin area universită ii de limbă maghiară ar fi o formă de a sus ine sau chiar a readuce Horthismul. Sigur astfel de întrebări nu prea se pun din greşeală. Se poate însă întîmpla şi aşa ceva. De exemplu, se poate întreba cu mai mult sau mai pu ină candoare: “Considera i că ar trebui pedepsite crimele comunismului?”. În formularea 42

aceasta apare perechea de cuvinte “crimă” şi “pedeapsă”. Un răspuns negativ dat acestei asocieri devine aproape imposibil, astfel încît din întrebare nu aflăm cu adevărat mai nimic despre opinia celui întrebat fa ă de crimele comunismului. O altă formă de creştere a probabilită ii unui anumit răspuns se poate ob ine prin adăugarea unei propozi ii explicative înaintea întrebării, propozi ie care să favorizeze anumite interpretări. 2. Uneori, ce e drept destul de rar, se întîlnesc şi întrebări la care lista de răspunsuri permite numai anumite aprecieri, sau scade posibilitatea unor opinii prin trecerea lor implicită la categoria altele. Iată un frumos exemplu cules de mine de curînd: “Ce părere aveti despre MBA-ul AMERICAN al UNIVERSITATII DESALES2? 1. Excelentă ! 2. Foarte bine - dar e prea scump 3. Bună - păcat că e doar în limba engleză 4. E un lucru bun dar nu mă interesează acum 5. Nu mă interesează subiectul” Evident scala nu este numai incompletă ci şi tenden ioasă. Nu există nici o variantă de răspuns negativă! Dacă cumva te interesează subiectul părerea pe care o po i avea poate fi numai de la bine în sus. 3. O altă formă de denaturare a răspunsurilor se poate ob ine prin formularea prea preten ioasă a întrebării sau a posibilelor răspunsuri. Aceasta are efectele cele mai devastatoare în cazul în care completarea chestionarului se face prin interviu cu un operator. În caz de autoadministrare şansele ca cel ce completează chestionarul să sară peste întrebările pe care nu le în elege sau la care nu ştie să răspundă sunt mai mari. Dacă însă este întrebat de către un operator, cel chestionat tinde să prefere să dea un răspuns oarecare decît să-şi recunoască lacuna de în elegere. În special bărba ii se simt obliga i să răspundă ceva. Există şi un nume pentru treaba asta, se numeşte “sindromul răspunsului masculin” (male answer syndrom) şi termenul se pare că a fost folosit prima dată în 1986 de către Sam Hunt într-o caricatură. Fapt este că atît eu cît şi mul i al ii ne-am lovit de această problemă şi de preponderen a masculină a celor care răspund fără să în eleagă întrebarea. Problema poate să apară la formularea întrebării, ca de exemplu: “în ce măsură vă afectează personal implementarea aquis-ului comunitar?”. Pot apărea însă astfel de probleme şi la con inutul întrebării. Am văzut un chestionar, de exemplu, care fusese aplicat unui eşantion al popula iei unui jude întreg şi con inea întrebarea: “Ce tip de balet
2

Majusculele şi semnele de punctua ie apar astfel în original.

43

prefera i? 1. clasic, 2. modern, 3. contemporan, etc.”. Cred că este cît se poate de evident că ponderea celor care au într-adevăr preferin e formate la acest nivel este neglijabil de mică, majoritatea celor chestiona i neavînd nu numai preferin e dar nici măcar o imagine foarte clară a acestor diferen e. Bineîn eles răspunsuri se găsesc, ce înseamnă însă ele nu prea se poate spune. Probabil interpretarea cea mai rezonabilă este că s-a ob inut un fel de preferin ă generală a conceptelor de clasic, modern şi contemporan, independent de felul cum arată baletul cu pricina. 4. Problemele din punctele precedente par a fi destul de uşor de evitat. Există însă şi situa ii mai complicate. Una dintre acestea este efectul de serie ce se crează cînd apar una după alta mai multe întrebări de acelaşi tip, cu aceleaşi posibilită i de răspuns. O serie de acest tip ar putea avea forma: “ce părere ave i despre? (foarte bună, bună, nici bună nici proastă, proastă, foarte proastă)” urmată de o listă lungă de politicieni sau institu ii. Dacă intervievatul nu are o opinie foarte bine conturată el va tinde să repete acelaşi răspuns, cel pu in de la un moment încolo. Aici efectul e mai prezent la autoadministrare şi se poate evita cît de cît la interviul cu operator recitind întreaga întrebare “ce părere ave i despre A?” “ce părere ave i despre B?” şi aşa mai departe. 5. O altă problemă, tot legată într-un fel de liste, apare cînd o întrebare are un număr mare de răspunsuri posibile. Parcurgerea sau audierea acestora poate fi greoaie, astfel primele răspunsuri din listă fiind alese preferen ial. La intervievare orală este de preferat să nu se citească de loc lista de răspunsuri şi operatorul să aleagă ulterior din listă pe baza răspunsului spontan al celui intervievat. 6. Listele de răspunsuri care se citesc mai pun o problemă. Ele trebuie să fie complete, adică să poată acomoda toate opiniile posibile. Solu ia confortabilă de a adăuga întotdeuna şi un caz “altceva” sau “altfel” pe cît este de necesară pe atît este uneori de insuficientă. Alternative care ar aduna un număr considerabil de op iuni vor fi men ionate mult mai rar dacă rămîn în categoria “altceva”. Problema listelor de răspunsuri este deci una de echilibrare. Prea pu ine variante de răspuns nu recunosc bine opiniile, prea multe de asemenea, iar lipsa lor totală poate face ca răspunsurile să fie de a dreptul incomensurabile şi foarte greu analizabile. 7. În fine, mai vreau să atrag aten ia asupra problemei estimărilor. Foarte des în chestionare i se cere celui intervievat să estimeze cantită i de consum sau valori. “cît cheltui i lunar pentru produse nealimentare?”, “cîte ore pe săptămînă vă uita i la televizor la un anumit program?”, etc. Unele din aceste întrebări pot părea acceptabile, la altele nimeni nu poate estima răspunsul în mod cît de cît corect. Cei ce construiesc astfel de întrebări, fie nu îşi 44

dau seama de imposibilitatea estimărilor de acest gen, fie mizează pe o echilibrarea a răspunsurilor prin efectul de masă. Ei gîndesc cam în genul următor, sigur e greu să te apropii mult de valoarea reală, dar unii spun mai mult, al ii mai pu in şi iese cam ce trebuie. Ei bine, nu există nici un motiv statistic să iasă cam ce trebuie. Mai mult, este foarte posibil, dar de nedovedit, că tocmai anumite categorii, de exemplu cei cu venituri mai mari, să-şi exagereze estimările iar al ii să subestimeze valorile. Un test statistic care nimereşte peste caracteristici cu efect asupra direc iei de denaturare a estimării va fi în acest caz total eronat şi nu avem nici un mod de recunoaşte aceasta. Cel mai bine este să acceptăm faptul că punem întrebări la care intervieva ii chiar pot răspunde corect în măsura propriei lor conştiin e. 8. Există şi alte capcane ale chestionarelor. Regula cea mai bună este pînă la urmă verificarea chestionarului prin administrarea explorativă pe un număr de persoane, rude, prieteni, studen i. Şi nu uita i, pune i întrebări la care voi înşivă a i fi în stare să răspunde i. Din toate cîte le-am enumerat mai sus cred că s-a putut deduce că un chestionar care nu influen ează de loc intervievatul nu e posibil. Tot ce rămîne de făcut este să scriem chestionare care impun cît mai pu in intervieva ilor şi lasă părerile acestora să transpară. Asta bineîn eles dacă dorim cu adevărat să aflăm ceva despre opiniile celor chestiona i. În fine, încă un sfat legat de scrierea de chestionare. Ordinea întrebărilor din chestionar trebuie de asemenea gîndită. Principalul argument ine aici de oboseala intervievatului. De obicei la primele întrebări se răspunde cu ceva mai mare aten ie, pe măsură ce trece timpul răspunsurile devin din ce în ce mai automate. De aceea e de obicei preferabil să se înceapă cu întrebările mai grele, care necesită o aten ie mai mare la formulare. La sfîrşit se lasă întrebările care culeg aşa-zisele variabile independente. Acestea sunt informa ii care in de obicei de statutul socio-economic al celor intervieva i (se şi numesc adesea variabile SES, după prescurtarea de la englezescul Socio-Economical Status) şi includ vîrsta, ocupa ia, statutul marital şi alte întrebări la care chiar răspunsuri date neatent sunt de regulă corecte. 5. Aplicarea chestionarului Am văzut din sfaturile de mai sus şi faptul că alegerea unui anumit mod de aplicare a chestionarului are repercursiuni asupra completării lui, asupra răspunsurilor pe care le primim. 45

Însăşi cercetarea sociologică are repercursiuni. Comportamentul diferit al subiectului cercetării ca urmare al activită ii de cercetare la care e supus a fost numit efect Hawthorne. Efectul îşi are numele de la legendarele studii Hawthorne conduse de sociologul şi psihologul american Elton Mayo (1880 - 1949) la fabrica Hawthorne a Western Electric Company, undeva pe lîngă Chicago, în anii dintre 1924 şi 1932. Mayo care s-a ocupat în special de cercetări industriale a vrut să studieze efectul schimbărilor de la locul de muncă asupra productivită ii muncii. De exemplu, a schimbărilor legate de iluminat. Printre altele, a observat cu această ocazie o înbunătă ire ini ială a productivită ii muncii independent ce schimbare se făcea. După o vreme productivitatea scădea din nou la valoarea de bază. Mayo a ajuns la concluzia că anumite modificări comportamentale tranzitorii au loc pur şi simplu din cauza experimentului şi nu a condi iilor modificate. Astfel productivitatea a crescut atît cînd a crescut iluminatul din hală cît şi cînd a scăzut iluminatul, şi aşa mai departe. Oamenii tind să se comporte altfel dacă sunt observa i. Această observa ie poate destul de banală este de o importan ă foarte mare în tehnica sondajului de opinie. Aşa cum am mai spus, pune sub semnul întrebării însăşi logica generalizării statistice pentru că cei ce au fost aleşi pentru a face parte din eşantion se vor comporta diferit, vor da poate răspunsuri diferite tocmai pentru că fac parte din eşantion. E chiar posibil ca opinia lor să fie sincer şi remanent modificată prin chestionare şi răspunsurile corecte şi sincere pe care le dă să nu mai fie astfel generalizabile. Este însă posibil ca din motive legate de felul cum cel intervievat percepe dezirabilitatea socială să-şi schimbe răspunsurile. Adică să considere că deşi el personal ar avea o părere mai degrabă proastă despre o anumită persoană mult lăudată (ştiu eu, de exemplu Corneliu Coposu sau Papa Ioan Paul al II-lea, sau cine ştie cine) să prefere un răspuns neutru sau chiar moderat pozitiv pentru a fi în ton cu discursul public. Efectul aplicării chestionarului poate fi mai mare sau mai mic, dar nu poate fi exclus cu totul. Să începem cu diferen a esen ială. Chestionările pot fi auto-aplicate sau realizate prin interviu cu operator. Cum am văzut cea de a doua variantă are o serie de avantaje legate de designul chestionarului. De asemenea, garantează un număr mai mic de chestionare nereturnate sau necompletate şi poate ajuta în condi ii ideale şi la o mai bună în elegere a chestionarului. Pe de altă parte efectele legate de aplicarea chestionarului sunt mai mari în cazul prezen ei unui operator decît în cazul auto-aplicării. Să vedem totuşi cum pot fi ele atenuate. În primul rînd mediul în care are loc chestionarea este bine să fie cît mai familiar celui chestionat. Ideal este deci să fie intervievat sau să 46

completeze chestionarul acasă. Cel mai rău este dacă e intervievat sau pus să completeze chestionarul undeva unde nu se simte la locul lui, unde se consideră în inferioritate şi este ca atare tentat să se adapteze situa iei, de exemplu, într-o institu ie publică, într-un spital, etc. în cazul interviurilor cu operator este importantă şi rela ia spontană ce se crează cu acesta. Există adesea, în special la persoane în vîrstă confruntate cu operatori tineri, o tendin ă de simpatie. Combinînd aceasta cu lipsa unor opinii ferme pe anumite teme se poate uşor ajunge la răspunsuri de complezen ă, care au în substrat dorin a de a fi în acord cu operatorul sau de face o impresie pozitivă. Efecte similare apar şi atunci cînd cel intervievat se simte în inferioritate evidentă fa ă de operator din punct de vedere al educa iei sau veniturilor. În special femeile sunt tentate să caute răspunsuri adecvate opiniilor pe care le proiectează asupra celor ce le intervievează. Apoi mai apare uneori şi o dorin ă de “a ieşi bine”, de a da răspunsul corect sau adecvat. Operatorul ideal este deci un fel de robo el, nici prea antipatic ca să nu fie refuzat, nici prea simpatic ca să nu denatureze răspunsurile, şi în plus total lipsit de părere proprie în felul cum citeşte întrebările, dă din cap sau zîmbeşte la răspunsuri. Unii preferă operatorii empatici, care aprobă opiniile celui intervievat, al ii operatori iner i. Fapt este că operatorii empatici pot crea o anumită dezinhibare care facilitează sinceritatea intervievatului. Capitolul acesta rămîne dator cu o importantă parte calculatorie. Aşa cum am pomenit de mai multe ori pentru sondajele efectuate cu eşantionare statistică aleatoare se poate calcula o aşazisă marjă de eroare, adică o eroare acceptabilă a estimărilor statistice. Pentru a putea prezenta modul de calcul al acestei marje de eroare este însă necesară o prezentare mai amănun ită a distribu iei normale. În fine, însăşi calculul marjei de eroare este legat de testul t pe care îl vom prezenta în prima parte a capitolului 5 al acestei căr i împreună cu distribu ia normală. Am decis să grupez elementele mai matematizate separat de cele discursive pentru a facilita o parcurgere graduală a materialului şi reduce riscul abandonului lecturii de către cei care resimt un disconfort la prima întîlnire a unei formule matematice. Sper să fi reuşit măcar în parte.

47

Capitolul 4. Aperitive. Primii paşi în descrierea datelor statistice
În precedentele două capitole am văzut ce tipuri de date foloseşte statistica şi cum le adună. În acest capitol voi prezenta cele mai simple şi des folosite metode de reprezentare a datelor. Indiferent cit de departe s-ar merge cu analiza datelor şi cît de sofisticate ar fi metodele folosite în cele din urmă, o analiză exploratorie a datelor se face întotdeuna. În acest capitol vom vedea cum punem prima dată mîna pe un set de date, cum ne apropiem de el, cum îl facem inteligibil. Seturile de date culese prin sondaj sau referendum fie că le-am produs noi înşine, le-am preluat de la institu ii oficiale sau de la al i cercetători se pot în elege şi uneori chiar vizualiza sub forma unor tabele. Fiecare linie corespunde de obicei unui individ şi fiecare coloană unei variabile. Uneori chiar se culeg datele pe teren folosind astfel de tabele numite fişe de răspuns. Pe de altă parte, toate programele pe calculator care lucrează cu date statistice le reprezintă sub această formă, fie că e vorba de Excel, folosit uneori şi pentru prelucrări statistice primare, fie că e vorba de soft-uri specializate ca SPSS, Stata, Statistica, Gauss sau altele. În imaginea de mai jos se vede un fragment al unui set de date în Stata.

48

O astfel de tabelă are în mod curent peste 1000 de linii şi zeci sau chiar sute de coloane. Afişarea în sine a tabelei nu permite ca atare o citire prea facilă şi nu prea poate duce la vreun fel de considera ii inteligente. E pur şi simplu prea mare, plină de cifre şi lipsită de sensuri. Deci, ce facem? a. Imagini de ansamblu asupra datelor. Frecven e şi reprezentări grafice. Prima idee este de a prezenta în vreun mod simplu şi concis cîte o variabilă, adică o coloană a tabelei de date. Să presupunem că respectiva coloană con ine răspunsuri legate de frecven a gătitului în familiile din Baia Mare3. 1051 de intervieva i au răspuns la întrebarea: “Cît de des se găteşte la dumneavoastră în familie?”. Răspunsurile posibile au fost “zilnic”, “de mai multe ori pe
3

Valorile sunt reale şi provin dintr-un sondaj efectuat în 2003. Popula ia a fost popula ia oraşului Baia Mare, eşantionarea a fost multistadială aleatoare cu itinerariu cu luarea în considerare a cartierului de reşedin ă, densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiec ilor între orele 16 şi 21 asigurîndu-se prezen a majorită ii celor angaja i în cîmpul muncii.

49

săptămînă”, “săptămînal” şi “mai rar”. Tabelul cu rezultate ar avea 1051 de linii şi nu da o imagine prea clară asupra distribu iei datelor. Modul de a reprezenta inteligibil şi scurt valorile ar fi să număr apari iile fiecărei valori şi să le prezint sintetic aşa cum apar în tabelul de mai jos. Numărul de apari ii ale unei anumite valori se numeşte frecven ă. De aceia un astfel de tabel se numeşte de obicei tabel de frecven e sau uneori tabel de frecven e simple pentru că se referă la o singură variabilă.

Valoare Zilnic de mai multe ori pe săptămînă Săptămînal mai rar Total

Frecven ă 547 476 26 2 1051

Procent 52,0% 45,3% 2,5% 0,2% 100%

Procent cumulat 52,0% 97,3% 99,8% 100,0%

Cum interpretăm, sau mai exact cum citim o astfel de tabelă? Să observăm întîi că variabila în cauză este ordinală, chiar dacă forma ei are un caracter total nenumeric există o ordine bine definită. Prima coloană de valori numerice, sub titlul de frecven ă prezintă numărul de persoane intervievate care au ales acest răspuns, a doua coloană ne dă ponderea procentuală a răspunsului iar a treia cumulează acest procentaj cu procentajele din categoriile cu valoare mai mică. Frecven a şi procentajul simplu se pot calcula pentru orice tip de variabilă, ele nu fac calcule cu variabila în sine ci cu frecven a ei de apari ie. Procentajul cumulat are sens numai la variabile care au o ordine definită, astfel un procentaj cumulat pentru variabile nominale, deşi poate fi calculat, are mai pu in sens. Ce aflăm din tabela de mai sus? În primul rînd faptul că răspunsurile s-au grupat în zona “cu gătit frecvent”. Peste jumătate din cei întreba i sus in că la ei în familie se găteşte zilnic. Numărul celor care sus in că la ei se găteşte mai rar decît săptămînal este foarte foarte mic, numai două persoane din eşantion au răspuns astfel. Observăm de asemenea că peste 97% dintre intervieva i declară că la ei în familie se găteşte de mai multe ori pe săptămînă. Paragraful de mai sus este o simplă transcriere a principalelor rezultate ale tabelei de frecven e. Strategia ei este simplă şi se foloseşte des. Ea începe cu prezentarea valorii cel mai des întîlnite. În cazul nostru este valoarea “zilnic”, apoi se trece la valoarea cea mai rară. La 50

variabile ordinale se obişnuieşte eventual o prezentare a capetelor scalei. În cazul de mai sus este vorba despre aceleaşi valori. Apoi se prezintă rezultate cumulative, dacă au sens. O precua ie mare trebuie avută la men ionarea valorilor numerice. Aici se poate induce în eroare destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de după virgulă. După dorin ă se poate trunchia sau rotunji. Statistica este o estimare cu o anumită eroare. Prezentarea unor valori cu tot cu zecimale produce impresia unei exactită i pe care nu o putem promite cu conştiin a curată. O a două regulă legată de prezentarea procentajelor se referă la valorile rare. În cazul unor categorii cu număr mic de cazuri valorile procentuale pot induce în eroare. Aceasta se întîmplă în special atunci cînd procentajele se calculează pe volumuri popula ionale care oricum sunt mici. Deci, spune i numărul de cazuri şi nu procentajul aferent unei valori cand acest număr e mic. Ce înseamnă mic depinde de decizia fiecăruia dar este de bun sim să considerăm o op iune rară una care nu are mai mult de 10-15 cazuri. Pe de altă parte în general statistic se consideră un lot mic, un lot cu mai pu in de 30 de cazuri. Cum spuneam, conştiin a fiecăruia şi particularită ile cercetării trebuie să decidă în cele din urmă. Tabelele de frecven e sunt adesea înso ite de grafice. O prezentare grafică este pentru mul i cititori mai confortabilă, permite de obicei o în elegere mai rapidă a unor trenduri sau distribu ii. Există însă multe feluri de prezentări grafice şi nu toate se potrivesc pentru orice situa ie. Graficele cele mai simple şi generale, valabile în aproape toate situa iile sunt graficele cu bare. Ele pot fi folosite şi în cazul variabilelor nominale şi nici nu depind prea mult de numărul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila prezentată deja.

51

60,0%

50,0%

40,0%

Procent

30,0%
52,05% 45,29%

20,0%

10,0%

0,0% zilnic de mai multe ori pe saptamana

2,47%

0,19%

saptamanal

mai rar

27. Cat de des se gateste la dvs. in familie?

Dimensiunea barelor trebuie să fie propor ională cu valoarea variabilei. Iată un frumos exemplu din presă cum nu se face un grafic simplu:

În exemplu, valorile de pe bare nu au nici o legătură cu dimensiunea barelor. Exemplul cel mai flagrant este la graficul din mijloc: bara cu valoarea dată de 82 este mai mare decît cea cu valoarea 98, la rîndul ei mai mare decît cea de 108. Una peste alta trendul crescător este anulat, chiar inversat. Mai mult, bara cu salariul mediu din 1990, valoarea 153 USD este mult mai mare decît bara cu salariul mediu din 2005, valoare 257 USD. Exceptînd că datele nu prea au legătură cu cele oficiale, dimensiunea greşită a barelor crează impresia unui nivel salarial din 1990 neatins în prezent. Părea simplu de făcut un grafic cu bare. Uite că se poate da în bară şi aici. În graficele cu bare pot apărea valorile pe baza căruia a fost construit fie procentual fie ca şi frecven e. Dimensiunea barelor va fi desigur aceiaşi fie că s-a ales reprezentarea pe baza 52

valorilor absolute sau procentuale. Tot ce se schimbă este scala axei verticale. Forma şi culoarea barelor pot fi desigur diverse. Clar este că vizualizarea oferă un acces mai direct la informa ie şi permite aceasta şi unor cititori care preferă să nu aibă de a face cu valori numerice dacă nu este neapărat necesar. Pe lîngă graficele cu bare mai sunt şi alte variante care însă se potrivesc mai degrabă unor situa ii particulare. De exemplu, graficul de tip plăcintă (sau tort, cum prefera i) prezintă valorile ca şi felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru reprezentarea procentajelor pentru că transmite bine faptul că valorile împart un tot, o popula ie, în categorii.

27. Cat de des se gateste la dvs. in familie?
zilnic
2,47%

de mai multe ori pe saptamana saptamanal mai rar

45,29%

52,05%

Graficul plăcintă de mai sus într-adevăr ne dă o imagine mai clară cît de pu in reprezintă din ansamblu procentajul de 0,2% şi chiar cel de 2,5%. Un alt avantaj al graficului plăcintă este posibilitatea de eviden iere a unei felii considerate importante. De exemplu:

53

27. Cat de des se gateste la dvs. in familie?
2,47%

zilnic de mai multe ori pe saptamana saptamanal mai rar

0,19%

45,29%

52,05%

Pe de altă parte dacă variabila ar fi avut un număr mare de valori folosirea unei diagrame plăcită ar fi fost mai degrabă menită să inducă în eroare. Iată un exemplu comparativ cu un grafic cu bare şi unul plăcintă pentru o altă întrebare din acelaşi sondaj.

54

30,0%

2. De unde va place cel mai mult sa va faceti cumparaturile?
piata agroalimentara supermarket butic

Procent

20,0%

Center chiosc magazin specializat centru comercial depozit en-gros Metro Hoffer Profi nu am loc preferat Mol moldova

10,0%

0,0%
va do ol at m er ef pr ol c M lo am nu i of Pr r fe of H os ro -gr et M it en ial z rc po me zat de co iali ru pec nt s ce in az ag m sc io ch r te en C t ra tic rke nta bu a e rm alim pe su gro a a at pi

2. De unde va place cel mai mult sa va faceti cumparaturile?

Graficul plăcită transmite poate o imagine de ansamblu interesantă dar nu prea poate fi citit atunci cînd sîntem interesa i şi de op iunile mai rare. O altă problemă a graficului plăcintă este că se pretează în special variabilelor nominale. Dacă în graficul cu bare, precum şi în alte forme de grafice o ordine a valorilor este vizibilă la un grafic plăcintă o astfel de ordine nu se percepe. Evident, în cazul variabilelor nominale nici nu ne dorim o asemenea ordine. Al treilea tip de grafic foarte răspîndit este graficul linie. Acesta seamănă cel mai mult cu graficele de func ii matematice aşa cum se înva ă la şcoală. Crează deci senza ia unei ordini a valorilor şi chiar unei continuită i. Ca atare nu merge la variabile nominale în nici un caz, dar nu e de dorit nici la variabile ordinale. Este însă ideal pentru valori numerice fie ele intervalice, fie ra ionale şi în special cînd numărul valorilor e mare. Ca în exemplul de mai jos.

55

40

30

valori absolute

20

10

0 83 80 77 75 73 71 69 67 65 63 61 59 57 55 53 51 49 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 7

59. Cati ani aveti?

Graficul reprezintă distribu ia pe vîrste a eşantionului din cercetarea din care am tot dat exemple în acest capitol. Pe axa orizontală se găsesc vîrstele celor ce au răspuns la întrebări, pe verticală e numărul persoanelor de o anumită vîrstă. Pe scurt deci: graficele cu bare merg în aproape orice situa ie, plăcintele sunt perfecte pentru variabile nominale şi în special dacă au un număr mic de valori, graficele linie se potrivesc la variabile ra ionale şi intervalice şi în special dacă au un număr mare de valori. Pe lîngă aceste trei tipuri, care sunt într-adevăr cele mai răspîndite, există o serie de alte variante, grafice suprafa ă, diagrame de puncte, histograme, precum şi o serie întreagă de grafice care sunt legate de anumite prelucrări statistice cum ar fi graficele de regresie, de cluster, şi altele. Unele le vom pomeni la momentul oportun, altele nu. Încă un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur şi simplu pentru că părerea mea este că nu trebuie analizate graficele, ci datele care se află în spatele lor. Un grafic este o prezentare vizuală, desigur confortabilă şi deosebit de utilă, dar nu con ine mai mult decît tabelul pe baza căruia a fost creat. Poate însă induce în eroare mult mai mult. Luînd prea de bune ce vedem pe grafic putem să supraevaluăm, de exemplu, tendin e care statistic nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune cu nimic mai mult decît un tabel de frecven e. Totuşi privind graficul există o tenta ie de a spune, de a vedea mai mult. Aceasta este desigur benefică dacă ne ajută să alegem testele de care avem nevoie în continuare, dar total malefică dacă ne duce la concluzii fără să mai calculăm nici un 56

fel de teste, cum de altfel se mai întîmplă. Deci, precau ie şi sfatul meu este, prezenta i graficele dar analiza i rezultatele de calcul. Toate graficele din exemplele din această sec iune s-au referit la prezentarea unei singure variabile. Există desigur diferite moduri de a prezenta mai multe variabile pe acelaşi grafic. În capitolul 6. al acestei căr i voi încerca să dau ceva amănunte despre cum se lucrează statistic cu rela ia dintre mai multe variabile. Voi începe cu tabelele de rela ionare care într-un fel sunt similare tabelelor de frecven e pentru cazul a două (sau arareori trei) variabile. Atunci voi prezenta şi graficele aferente acestor tabele, aşa cum acum am pus unele lîngă altele tabele de frecven e şi graficele simple în acest capitol. b. Indicatori agrega i Indicatorii statistici agrega i sunt valori calculate pe baza uneia sau mai multor variabile şi care ne oferă informa ii despre ansamblul valorilor variabilei sau despre valorile variabilei privite ca un grup de date. De obicei se identifică, mai mult sau mai pu in for at, întreg domeniul statisticii descriptive cu indicatorii statistici. Care sînt însă aceşti indicatori? Vrînd, nevrînd fiecare dintre noi ne-am lovit de mediile aritmetice dacă nu şi de al i indicatori. În sec iunea aceasta o să prezint indicatorii principali pentru analiza tendin ei centrale şi distribuirii datelor, apoi în capitolul 6. voi reveni la cî iva indicatori care ne ajută să analizăm rela ia dintre mai multe variabile. I. Tendin a centrală.

Sub numele acesta un pic preten ios se ascund diferite feluri de a calcula media unor variabile. Ca atare s-ar putea să fie aparent uşor de în eles ce este tendin a centrală a unei variabile, aşa cum desigur este uşor de în eles şi de ce este ea atît de criticată ca şi mod de a descrie un grup de date. De aceea, cred că pot să scap fără să mai dau şi o defini ie. Principalul indicator pentru tendin a centrală este media aritmetică simplă. Pe lîngă faptul că destul de rar calculul unei medii dă informa ii relevante despre o variabilă trebuie să men ionăm şi faptul că uneori calculul mediei este chiar greşit conceptual. Pentru corectitudine să prezentăm însă un exemplu şi, bineîn eles, prima formulă din această carte. 57

Să presupunem că am cules numărul de la pantofi a studentelor din seminarul nostru de statistică. Rezultatul ar putea fi sintetizat într-o tabelă în felul următor. Nume Ana Ioana Oana Olivia Angela Carla Nadina Media Număr 37 36 38 39 39 37 39 37,88 Media = ( NumărAna + NumărIoana + NumărOana + NumărSimona + NumărOlivia + NumărAngela + NumărCarla + NumărNadina ) / 8

Simona 38

58

Media a fost calculată astfel: s-au adunat toate valorile din coloana Număr aferente numerelor de pantofi şi apoi suma s-a împăr it la numărul fetelor, adică la 8. Valoarea finală, care apare şi pe ultima linie a tabelei este media aritmetică a numerelor la pantofi a fetelor din grupa de seminar. Şi această medie este 37,88. Ne spune asta ceva? Sigur. Anume că media numerelor la pantofi ale fetelor din această grupă de seminar este 37,88. Ne poate spune mai mult decît atît? Nu, în nici un caz. Ne poate fi de vreun folos? Depinde. În general media unei variabile x se notează cu x¯, µ(x), µx sau cu E(x), unde E provine din engleză de la expectancy. De altfel, media se mai numeşte şi în limba romană uneori, aşteptare statistică. Originea acestei denumire vine de la media măsurătorilor repetate ale aceluiaşi reper. Media măsurătorilor reprezintă, statistic vorbind, apropierea cea mai bună de valoarea reală care se măsoară, de aceea media este valoarea “aşteptată” a măsurătorii. Calculul simplu al mediilor este arareori util în sine. Poate, de exemplu, dacă se face design-ul unui ascensor, o informa ie despre greutatea medie a unei persoane dintr-o anumită popula ie poate fi importantă pentru că ar sta la baza specificării numărului maxim de persoane care pot călătorii de o dată cu ascensorul. Pe de altă parte, media poate fi un bun indicator comparativ. De exemplu, dacă greutatea medie a unui student de la facultatea de litere e mai mică decît greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevărat!) această informa ie poate avea o anumită valoare în contextul unei cercetări. Aşa cum vom vedea există teste statistice care compară medii ale unor variabile pe eşantioane diferite pentru a avea indicii dacă popula iile din care s-au ales aceste eşantioane diferă din prisma variabilelor studiate. Deci, media aritmetică poate fi o apropiere facilă, deşi superficială pentru a vedea dacă două, sau mai multe popula ii diferă. Să luăm de exemplu ipoteza următoare: “nu există diferen e între studen ii de la mecanică şi cei de la litere.” Un test poate respinge această ipoteză dovedind că există o diferen ă de greutate medie relevantă între aceste două popula ii. Deci ceva diferen e trebuie să existe între cele două popula ii. Pentru cei ce încă nu s-au prins, diferen a de greutate vine din faptul că ponderea fetelor este incomparabil mai mare la facultatea de litere decît la facultatea de mecanică şi fetele sînt, în medie mai uşoare decît băie ii. Sigur, butada cu omul care stă cu un picior într-un lighean cu apă clocotită şi cu unul într-un lighean cu apă cu ghea ă dar în medie ar trebui să-i fie bine, este strict matematic corectă.

59

Totuşi, media este un indicator comparativ valoros tocmai pentru ca este simplu şi induce în eroare doar atunci cînd îi conferim un con inut informa ional mai mare decît are. Cea mai mare problemă legată de medii este calculul acestora atunci cînd variabilele nu permit aceasta. Principial matematic este corect să calculăm medii atît pentru variabile ra ionale cît şi pentru variabile intervalice. Astfel media greută ii sau a înăl imii (care sunt variabile ra ionale) sunt conceptual la fel de corecte ca şi media temperaturilor sau a orelor de deşteptare (care sunt variabile intervalice). În toate aceste cazuri media are sens pentru că calculul diferen elor este consistent. Adică, dacă din 5 kg de orez vindem 3 kg ne rămîne la fel de mult ca atunci cînd vindem dintr-un stoc de 60 kg, 58 kg. Şi de asemenea dacă am dormit de la ora 5 diminea a pînă la ora 12 înainte de masă am dormit tot atîtea ore ca şi de la 10 seara pînă la 5 diminea a, atîta doar că poate sînt mai mahmur în primul caz. Deci sumele şi diferen ele precum şi împăr irea la scalar (adică la numere şi nu la variabile aleatoare) este consistentă atît pentru variabile ra ionale cît şi pentru variabile intervalice. Pe de altă parte nimeni nu cred că inten ionează să calculeze media unor variabile nominale, chiar dacă ele au reprezentare numerică, cum sunt de exemplu numerele de pe tricourile unor jucatori de fotbal. Astfel de valori, deşi sunt formal numere, sunt esen ial nume date unor indivizi şi media lor nu are nici un sens. Greşeala care se face însă adesea este calculul mediilor unor variabile ordinale. Este o greşeală care este foarte adesea acceptată pentru că extinde de fapt calculul mediilor şcolare la cercetarea socială. Nici notele de la şcoală nu sunt mai mult decît variabile ordinale. Cum am mai spus, mul i profesori ar accepta faptul că diferen a dintre o notă de 7 şi una de 8 este mai mică decît diferen a dintre un 4 şi un 5. Totuşi, suntem învă a i cu mediile şcolare şi nu ne punem problema unei posibile incorectitudini rezultate din procedura de mediere în sine. Mediile oricăror variabile ordinale sunt desigur similare ca şi relevan ă cu acest caz. Atunci, de ce să nu acceptăm astfel de calcule? Ei bine, departe de mine gîndul cum că o decizie asupra vie ii unui elev e mai pu in importantă decît o cercetare ştiin ifică. Este însă un fapt că medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru nivelul de pregătire a unui elev pe o durată mai mare de timp sau chiar pentru un grup de domenii ale cunoaşterii. Media şcolară greşeşte desigur atunci cînd aduce la egalitate o medie de 7 rezultată dintr-un 10 şi un 4 cu o medie care s-a ob inut dintr-un 8 şi un 6. Probabil mai greşeşte şi atunci cînd face media dintre note date de cadre didactice diferite. Ştim cu to ii că 60

anumi i profesori înclină să dea note mai mici decît al ii. Astfel, pentru un 7 la un anumit profesor s-ar putea să fie necesare cunoştiin e mai multe decît pentru aceiaşi notă la un alt profesor. Toate aceste considera ii sunt cunoscute şi fac parte din bunul sim comun pentru oricine a trecut prin învă ămînt. Nu este însă aşa în cazul unei cercetări sociale. Variabilele care se mediază acolo nu sunt atît de discutate ca şi notele noastre de la şcoală, ca să nu pomenesc de notele copiilor noştrii! Ca atare rela iile care se maschează prin calcul nu sunt atît de evidente ca cele pe care le maschează media şcolară. Mai mult decît atît, rela iile s-ar putea să nici nu fie cunoscute. Aceasta e suficient pentru ca în cazul mediilor variabilelor ordinale dintr-o cercetare statistică să fim cu adevărat induşi în eroare. Al i indicatori ale tendin ei centrale sunt modul şi mediana. Modul unei variabile statistice este pur şi simplu valoarea care apare cel mai des printre datele culese. De exemplu, în exemplul de mai sus, numărul la pantof 39 apare de 3 ori, mai des decît oricare altă valoare. 39 va fi deci modul sau, cum se mai spune “modul distribu iei”. Determinarea modului nu presupune nici un calcul, ba mai mult nici măcar o ordine a valorilor. Se poate deci stabili care e modul religiei sau cetă eniei într-un grup de persoane, deşi aceste variabile sunt nominale. Nu există nici o restric ie pentru folosirea modului. Pe de altă parte spunînd că modul distribu iei religiei în popula ia Timişorii este “creştin-ortodox” nu spunem decît că în Timişoara sunt mai mul i creştin-ortodoxi decît membrii ai oricărei alte religii. Bineînteles folosind termenul de mod, propozi ia este mai greu de în eles şi sună mai ştiin ific. Deşi eu aş sfătui împotriva unei exprimări criptice inutile, sunt situa ii în care poate fi de folos în contactul cu clien i mai snobi! Dezavantajul esen ial al modului este că ne spune chiar mai pu in decît media. Practic aflînd care e valoarea care apare cel mai des în eşantion eliminăm din informa ia transmisă o mare parte a datelor culese. Dacă media se calcula totuşi din toate datele culese, modul nu reflecta decît o parte a datelor culese. Ca atare determinarea şi raportarea modului au sens numai la variabile nominale, unde altceva nu se poate folosi. Mediana este un indicator al tendin ei centrale care este gîndit esen ialmente pentru variabile ordinale. Mediana necesită existen a unei ordini între valorile culese dar nu şi efectuerea unor calcule. Să revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se ordonează, aşa cum se vede din tabelul de mai jos: 61

Nume Ioana Ana Carla Oana Simona Olivia Angela Nadina

Număr 36 37 37 38 38 39 39 39

Mediana 38 Mediana este valoarea care apare la mijlocul listei. În cazul nostru este 38, valoarea de pe pozi ia a 4-a şi a 5-a dintr-o listă de 8 cazuri. Dacă am fi cules 1001 de valori, valoarea de pe pozi ia 501 ar fi fost mediana. Precum se vede, mediana poate avea şi două valori diferite în cazul în care lista are un număr par de elemente. Vorbim atunci de valorile mediane. Uneori se calculează o medie artimetică între cele două valori mediane, aceasta însă este desigur un fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicată calcularea unei medii aritmetice. II. Distribu ia datelor

Aşa cum am văzut şi din exemplele precedente, media este adesea desconsiderată pentru că obturează distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 şi un 10 la fel ca şi dintrun 8 şi un 6. O temperatura medie de 250 C poate rezulta dintr-o maximă diurna de 300 C şi o minimă noctura de 200 C sau dintr-o maximă diurnă de 500 C şi o minimă nocturnă de 00 C. De aceea atunci cînd se descrie statistic o variabilă, media se dublează întotdeuna de un indicator care să ne transmită cît de departe sunt distribuite datele în jurul mediei. Există mai multe metode de calcul ale distribuirii datelor. Am ales să le parcurg în ordinea complexită ii calculului. Prima data însă o considera ie. Distribu ia datelor implică un sens al distan ei fa ă de medie. Spunem că datele sunt mai îndepărtate sau mai apropiate de medie. Aceasta presupune desigur o ordine şi nu se poate aplica unor variabile nominale. Ca atare

62

distribu ia datelor se poate măsură numai în cazul variabilelor care sunt măcar ordinale. Precum vom vedea majoritatea indicatorilor necesită chiar variabile intervalice sau ra ionale. Variantele cele mai simple sunt desigur cele gîndite pentru variabile ordinale. Toate acestea se bazează pe ordonarea valorilor din listă şi aplicare unei metode care se bazează pe conceptul de interval. Hai să revedem lista cu numerele de pantofi. Nume Ioana Ana Carla Oana Simona Olivia Angela Nadina Număr 36 37 37 38 38 39 39 39

Mediana 38 Intervalul este format întotdeuna din două valori. Intervalul simplu este perechea formată din valoarea cea mai mică şi cea mai mare care au fost culese. În cazul nostru intervalul datelor este (36, 39). Am vazut că mediana împarte lista în două. O astfel de împăr ire se poate face în continuare şi în cele două jumătă i astfel lista întreagă se împarte în patru păr i numite cvartile. Se ob in două valori noi care sunt de fapt medianele jumătă ilor de listă. Perechea lor este intervalul intercvartilic, în cazul nostru (37, 39). Se preferă uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel se elimină valorile extreme. Se poate întîmpla ca într-un eşantion că apară cazuri extreme, rare care să denatureze rezultatele. Evident astfel de cazuri vor fi însă pu ine. La urma urmei, dacă nu ar fi pu ine nu ar mai denatura rezultatul, ci ar fi chiar parte esen ială a acestuia! Utilizînd intervalul intercvartilic avem un termen de comparatie care nu ia în seamă cazurile rare, extreme, cazurile outlier (periferice).

63

Reprezentarea de mai jos sper sa clarifice şi mai bine sensul intervalului intercvartilic. Ioana 36 C0 Ana 37 Prima cvartilă C1 Carla 37 Oana 38 A doua cvartilă C2 Mediana Valoarea care separă a doua de a treia cvartilă, valoarea C2, este Mediana. Intervalul (C0, C4) este intervalul datelor, iar (C1, C3) este intervalul intercvartilic. Uneori se numeşte chiar valoarea C1 prima cvartilă sau cvartila inferioară, C2 a doua cvartilă şi C3 a treia cvartilă sau cvartila superioară. Metoda pe care am prezentat-o mai sus poate desigur fi extinsă la un număr mai mare de astfel de grupări. În general asemenea împăr iri ale datelor ordonate se numesc cvantile sau qcvantile unde q este numărul de intervale. Împăr irea cea mai uzuală rămîne cea în patru grupuri, adică în cvartile (4-cvantilele), dar se mai găsesc prin literatură şi conceptele de cvintile (împăr irea în 5 intervale de valori), decile (împăr irea în 10 intervale), percentile (împăr irea în 100 de intervale) şi altele ale căror nume sunt construite analog. Prezentarea intervalelor ca perechi de valori nu necesită nici un fel de calcule matematice. Uneori intervalele se raportează însă ca diferen e ale valorilor extreme, adică ca lungime a intervalului. Aceasta poate fi pu in problematic în cazul variabilelor ordinale nu ridică însă desigur nici un fel de probleme pentru variabile intervalice sau ra ionale. Folosind nota iile de mai sus intervalul datelor (în engleză se foloseşte range) se calculează astfel: range = C4 – C0 adică diferen a dintre cea mai mare şi cea mai mică valoare culeasă. Unele defini ii vorbesc în acest context despre lungimea celui mai mic interval care con ine toate datele. Intervalul intercvartilic, notat de multe ori IQR, este: 64 Simona 38 Olivia 39 A treia cvartilă C3 Angela 39 Nadina 39 A patra cvartilă C4

IQR = C3 – C1 O altă denumire utilizată uneori pentru intervalul intercvartilic este aceea de jumătate mediană a datelor. Cu aceste calcule am făcut deja un pas în direc ia indicatorilor distribuirii datelor intervalice şi ra ionale. În cazul acestor date posibilită ile de calcul fiind mult mai mare s-au căutat metode mai compexe care să permită o descrierea cît mai completă a datelor într-o singură valoare. Asta înseamnă că şi formulele vor fi pu in mai complicate. Există mul i astfel de indicatori dar am decis să mă concentrez numai pe cei ce se folosesc în mod uzual, anume abaterea standard (numită în analogie cu termenul englezesc şi devia ie standard) şi dispersia (numită din acelaşi motiv şi varian ă). Dispersia se calculează după următoarea formulă: σ2 = 1/N ∑i=1,n (xi - x¯)2 Merită să comentez un pic formula de mai sus. Nucleul, miezul ei este o diferen ă, o abatere, de aici şi numele indicatorului. Se scade din valoarea xi , adică valoarea variabilei x pentru individul i media valorilor x, adică x¯. Adică, pentru început se calculează cu cît se abate fiecare valoare culeasă de la medie. Este şi normal să procedăm aşa, la urma urmei căutăm o valoare care să exprime cît de distribuite sunt datele, adică cît de tare se abat ele de la medie. Dorim însă o singură valoare pentru întreg setul de date. O idee ar fi să adunăm toate aceste abateri. Ce s-ar întîmpla daca am face aşa. Ei bine, unele abateri sunt pozitive, altele sunt negative pentru că unele valori sunt sub medie, altele evident peste medie. Dacă am aduna toate abaterile, valorile pozitive s-ar atenua cu cele negative şi nu am mai afla cît de distribuite sunt datele cu adevărat. De fapt, e chiar mai grav decît atît. Suma tuturor abaterilor va fi întotdeuna 0, şi asta din motive pur şi simplu matematice de calcul al mediei aritmetice. De aceea ridicăm la pătrat diferen a, abaterea. Astfel se ob ine o valoare care este întotdeuna pozitivă şi abaterile pozitive nu se mai anulează cu abaterile negative. Aşa se ajunge la formula (xi -x)2. Apoi adunăm toate aceste abateri pentru ca să ob inem o singură valoare care să spună ceva despre abaterea totală. Aşa ajungem la ∑i=1,n (xi -x)2. Spune oare această sumă 65

cu adevărat ceva? Ei bine, da şi nu. Da, pentru că este într-adevăr o sumă de abateri. Totuşi nu, pentru că un număr mare de valori chiar destul de apropiate pot da aceiaşi sumă totală ca şi un număr mic de valori care sunt mult mai îndepărtate de medie. Deci trebuie să împăr im acest rezultat la numărul datelor culese, la volumul popula iei studiate. De aceea împăr im suma la N. Rezultă formula pe care am prezentat-o şi anume: σ2 = 1/N ∑i=1,n (xi -x)2 Unele lucrări de statistică preferă în locul dispersiei rădăcina ei pătrată σ, numită şi abatere standard sau devia ie standard. Ideea este că, deoarece abaterea s-a calculat cu ridicare la pătrat, pentru a ob ine un indicator care să exprime mai corect cu cît se abat cu adevărat valorile de la medie ar trebui extras radical din valoarea rezultată din calcul. Aceasta se mai numeşte şi abatere medie pătratică, o denumire care exprimă foarte bine modul de calcul. Într-adevăr în calcule se face o medie, adică o sumă împăr ită la numărul de valori adunate, a abaterii ridicate la pătrat. Avantajul abaterii standard este deci acela că valoarea ei poate fi foarte bine comparată cu media. În via a reală avem însă problema de a nu putea culege toate datele unei variabile aleatoare, de aceea şi abaterea standard sau dispersia pe care o calculăm va trebui tratată ca o estimare bazată pe un eşantion a abaterii reale, adică a celei care există la nivelul întregii popula ii. Atunci ceea ce vom face pentru a ne asigura că reducem riscul de a greşi, este să supraestimăm pu in abaterea fa ă de valoarea calculată prin formulă. Modul de calcul obişnuit este înlocuirea valorii N, a volumului popula iei cu N-1. O altă diferen ă, de astă dată pur conven ională este notarea. Dacă de regulă dispersia calculată la nivel de popula ie ne notează cu σ2, dispersia estimată pe baza unui eşantion se notează mai de grabă cu s2. Formula este deci: s2 = 1/(N-1) ∑i=1,n (xi -x)2 Analog se ob ine şi abaterea standard estimată pe baza unui eşantion, s.

66

Am prezentat în acest capitol indicatorii statistici de bază pentru descrierea unei singure variabile. Există desigur în statistică şi al i indicatori, cum ar fi de exemplu cei de kurtosis sau înclinare (în engleză, skewness), indicatori care se pot în elege ca descriptivi pentru forma distribu iei unei variabile, adică chiar pentru felul cum arată graficul variabilei. Aceşti indicatori sînt însă destul de rar utiliza i în practica cercetărilor empirice, fie ele sociale sau chiar din ştiin ele exacte. De asemenea există o serie de indicatori care descriu rela ia dintre două sau mai multe variabile. La aceştie ne vom referi pe larg în capitolul 6. Cum s-ar zice am terminat aperitivele, reci şi calde, grafice, frecven e simple şi indicatori descriptivi. Vom trece acum, în capitolul care vine la temelia analizei statistice, supele şi ciorbele statistice, esen ele, cum s-ar zice, adică testele statistice.

67

Capitolul 5. Supe, ciorbe şi teste statistice simple.
Testele statistice ar trebui să fie păr i obligatorii ale oricărei cercetări bazate pe statistică. Ele sînt metodele de cunoaştere cele mai puternice în statistică. În capitolul introductiv al acestei căr i am discutat un pic despre felul cum cunoaşte statistica şi am prezentat conceptual şi cam general ideea care stă în spatele testării statistice, ideea respingerii ipotezelor. În capitolul de fa ă vom vedea cum se poate face aceasta din punct de vedere tehnic, care sunt paşii, algoritmul pentru o testare statistică. Pentru a în elege însă felul cum se calculează şi se analizează testele statistice e nevoie, pe lîngă acea introducere teoretică ce ine oarecum de filosofia metodei ştiin ifice, şi de cîteva cunoştiin e de matematică. Nu e mare lucru şi voi încerca să le formulez cît mai simplu. a. Distribu ia normală Cea mai mare parte a testelor statistice se bazează pe faptul că datele sînt distribuite “normal”. Aşa cum am mai pomenit în capitolul introductiv, o atare presupunere este justificată prin teorema limită centrală. Am lăsat însă complet în obscuritate ce înseamnă de fapt această “normalitate” a distribu iei datelor. Să încep cu începutul. O distribu ie aleatoare sau probabilistă este o func ie care leagă valorile unei variabile de probabilitatea cu care pot apărea aceste valori. Corect matematic această func ie se numeşte densitate de probabilitate. Pentru fiecare valoare pe care o poate lua o variabilă, densitatea de probabilitate ne spune care e probabilitatea ca această valoare să fie cu adevărat întîlnită. Fie de exemplu, aruncarea cu banul. Avem atunci două valori, cap şi stemă şi fiecare are probabilitatea de a apărea de ½ ori. Adică ori e cap, ori e stemă. Şi atît. Densitatea de probabilitate va fi deci o func ie care nu are decît două argumente posibile. Matematic defini ia asta se scrie cam aşa: densitate : {cap, stemă} → (0, 1) Func ia densitate ia valori întotdeuna în intervalul (0, 1) pentru că valorile pe care le ia sunt probabilită i şi probabilită ile sunt întotdeuna între 0 şi 1. Probabilitate 0 înseamnă de fapt că

68

evenimentul în cauză este imposibil, 1 înseamnă că este sigur. Valorile fun iei densitate din exemplul nostru vor fi: densitate (cap) = ½ densitate (stemă) = ½ Desigur densită ile de probabilitate pot fi mult mai complicate decît atît dacă valorile care le poate lua o variabilă devin mai multe. Rămîn însă cîteva reguli clare: 1. densitatea ia întotdeuna valori între 0 şi 1. 2. suma tuturor valorilor pe care le ia densitatea, adică pentru toate valorile posibile ale variabilei, este 1. Distribu ia normală, numită şi Gaussiană4 este de fapt o familie de mai multe distribu ii cel mai bine caracterizabile prin func iile lor de densitatea care se pot descrie cu o singură formulă dependentă de doi parametrii. Graficul acestor func ii, numit şi Gaussiană, curba lui Gauss sau clopotul lui Gauss este foarte cunoscut chiar dacă nu întotdeuna bine în eles. Să aruncăm o privire la un astfel de clopot al lui Gauss înainte de a merge mai departe.

Atribuirea distribu iei normale lui Gauss nu este întru totul corectă. Deşi Gauss a avut un rol important în analiza distribu iei normale nu el a fost cel ce a definit-o ci de Moivre în 1734, deci mul i ani înainte de lucrările lui Gauss pe această temă, publicate în 1809. De asemenea nu el a fost cel ce a denumit curba clopot. Aceasta i se datorează lui Jouffret şi a avut loc mai tîrziu, în 1872.

4

69

Ca pe orice grafic de func ie pe desenul de sus avem reprezentate puncte care corespund unor valori de pe două axe. Axa x a unei func ii densitate de probabilitate reprezintă întotdeuna valorile pe care le poate lua variabila descrisă. Aşa cum la variabila “aruncarea cu banul” acestea erau “cap” şi “stema”, la o distribu ie normală valorile sînt toate numerele reale. Distribu ia din grafic se mai numeşte şi distribu ia normală standard, dar vom mai reveni la acest fapt. Să vedem prima dată ce ne mai poate spune graficul de mai sus. În primul rînd, distribu ia normală este o distribu ie continuă. Adică func ia de densitate are valori de probabilitate pentru toate punctele de pe axa x, nu doar pentru anumite puncte. Mai simplu spus, densitatea de probabilitate e o curbă continuă, fără întreruperi, orice valoare de pe axa x are un corespondent pe curbă. Mai mult, deşi din grafic nu rezultă foarte clar, va trebui să mă crede i pe cuvînt că distribu ia normală este şi nemărginită. Adică orice valoare poate fi atinsă, doar că unele se ating cu probabilitate foarte, foarte mică. Pe grafic, forma de clopot a curbei rezultă din faptul că valorile pe care le poate atinge variabila se adună în jurul unui punct anume. În varianta standard, cea din desenul de mai sus, acest punct este valoarea 0. Faptul că aici curba se ridică la punctul ei cel mai înalt înseamnă de fapt că această valoare e atinsă în culegerea variabilei cu probabilitatea cea mai mare, de aproape 0,4 sau 40%. Pe măsură ce ne îndepărtăm de acest punct central probabilitatea scade continuu, astfel încît valori mai mici decît -4 sau mai mari decît +4 se ating cu probabilită i aproape nule, fiind aproape imposibil de întîlnit practic. Deci, dacă culegem date ale unei variabile distribuite normal standard avem cele mai multe şanse să le găsim în apropierea punctului 0 şi mai mult decît atît, o valoare va avea şanse de apari ie cu atît mai mici cu cît e mai departe de 0. Clopotul este în plus simetric fa ă de punctul central 0. Probabilitatea aferentă unei valori a este aceaşi ca şi pentru –a. Această simetrie este un motiv suficient pentru a observa că valoarea centrală, punctul 0 în cazul desenului de mai sus, este mediana distribu iei, dar în acelaşi timp şi media şi modul distribu iei normale. 70

Spuneam că distribu iile normale formează o familie. Există două caracteristici care determină distribu ia normală: media şi abaterea standard (sau dispersia, e totuna de fapt). Dacă revenim la grafic, o modificare a mediei va împinge pur şi simplu întregul grafic mai la stînga sau mai la dreapta. Pe de altă parte, o modificarea a abaterii va face ca datele să fie distribuite mai larg. Adică, pe măsură ce creşte abaterea standard curba devine mai plată, probabilitatea unor valori mai îndepărtate de medie crescînd şi bineîn eles aducînd după sine scăderea probabilită ii aferente mediei. Aceasta are loc pentru că, aşa cum am mai scris, suma tuturor probabilită ilor posibile ale unei densită i de probabilitate trebuie să rămînă 1. Dacă abaterea standard e mai mică, probabilitatea unor valori îndepărtate de medie e desigur şi ea mai mică şi curba se ascute crescînd probabilitatea valorilor apropiate mediei. Forma standard din graficul de mai sus se ob ine pentru o medie 0 şi o abatere standard 1.

În graficul de mai sus sunt reprezentate 4 distribu ii normale diferite, pe lîngă cea standard avem o distribu ie cu media schimbată la o valoare mai mică, -2 şi dispersia micşorată la 0,5. Avem pe grafic şi trei distribu ii cu media egală cu 0. Una este distribu ia standard, iar alte două au dispersii schimbate, una cu o dispersie mai mare, de 5 şi una cu o dispersie mai mică, de 0,2. Se vede cum distribu ia cu dispersie mare, adică cu valorile distribuite mai larg e mult aplatizată, iar disribu ia cu dispersie mică e mai ascu ită decît varianta standard. 71

Am ocolit pînă acum formula func iei de densitate reprezentate aici. Formula este destul de complexă, dar pot linişti pe oricine, o cunoaştere a ei nu este necesară pentru aplicarea, citirea şi analiza corectă a unor teste statistice şi nici măcar pentru alte procedee statistice chiar mai avansate. Densitatenormală =

În formula de mai sus, s-a notat, ca de obicei, cu µ media şi cu σ abaterea standard. Distribu ia normală de medie µ şi abatere standard σ, adica dispersie σ2 se notează în general N(µ, σ2). Aşa cum am văzut mai sus distribu ia normală standard este deci N(0, 1). Înainte de a vedea cîteva proprietă i importante ale distribu iei normale, să mai luăm o pauza de la partea prea tehnică ca să povestim despre frecven a de apari ie a distribu iei normale. Cum am mai pomenit în capitolul introductiv, distribu ia normală este esen ială în statistică din cauza teoremei limită centrală. Să rememorăm pu in ce zice aceasta. Dacă avem un număr mare de variabile aleatoare, despre care ştim foarte pu ine, anume numai că au aceiaşi medie şi dispersie, suma lor tinde la o distribu ie normală cînd numărul lor tinde la infinit. Mai mult dacă aceste variabile aleatoare au media µ şi abaterea standard σ atunci normala la care tinde suma lor este N(nµ, σ2n). Redefinind variabilele din sumă printrun procedeu numit standardizare acestă normală poate fi înlocuită cu distribu ia normală standard N(0, 1). Acum sa vedem ce înseamnă toate acestea. Dacă avem un bun motiv să credem că evenimentele pe care le studiem sunt determinate de o gramadă de variabile care se însumează în efectele lor atunci e de bun sim să considerăm tot ce nu am luat în seamă în cercetarea noastră, adică acei factori de eroare ca fiind distribu i normal. Pe o atare presupunere se bazează aproape întreaga teorie a testelor statistice. Există deci o multitudine de situa ii în care putem fi linişti i că aşa se întîmplă. Putem fi siguri că comportamentul uman sau institu ional depinde de foarte mul i factori pe care nu îi cunoaştem. To i aceşti factori vor influen a rela iile dintre variabilele pe care le studiem ca un fel de distorsiuni, ca nişte erori permanent prezente, inevitabile. Pe de altă parte aceste erori vor fi predictibile în forma lor. Fiind normale ele vor arăta ca o curba clopot standardizată. Adică probabilitatea ca ele să fie 0 va fi mai mare decît oricare altă valoare pe care o pot lua. Mai mult probabilitatea ca eroarea 72

să aibă o valoare anume e cu atît mai mică cu cît această valoare e mai departe de 0. Deci zgomotul care deranjează interpretarea datelor e destul de cuminte, pe măsură ce e mai mare în valoare (adică mai depărtat de 0), deci ar influen a mai mult rezultatul, şansa ca el să se producă e mai mică. Există totuşi şi situa ii în care distribu ia normală a factorilor nelua i în seamă în cercetare nu are loc. În primul şi în primul rînd se întîmplă aşa dacă nu am luat în seamă un factor esen ial pentru cele cercetate. Există factori cauzali care sunt atît de importan i în efectul lor asupra variabilelor cercetate încît nu pot fi lua i la grămadă. Hai să luăm un exemplu pentru a clarifica lucrurile. Să presupunem că dorim să cercetăm rela ia dintre veniturile angaja ilor din armata romană şi anii de şcoală pe care i-au absolvit. Ipoteza de bun sim este că pe măsură ce o persoană are mai multe studii va avea şi venituri mai mari. Necazul este că nu e aşa. De ce oare? Ei bine tocmai pentru că o variabilă importantă, cu efect mare nu a fost luată în seamă. Şi anume vechimea. Am luat exemplul cu armata tocmai pentru că acolo poate fi cel mai evident. Pe măsură ce o persoană îmbătrîneşte în oaste are venituri din ce în ce mai mari. Şi cum expansiunea învă ămîntului superior este la noi un fenomen relativ recent, cei mai în vîrstă au în general (ca să nu vorbim de grade mai mici) mai pu ini ani de şcoală. Deci, cu vechime mai mare presupune de regulă mai pu in şcolit dar mai bine plătit. Dacă luăm însă în calcul vechimea, o controlăm cum se spune în jargonul statistic, rela ia dintre venit şi educa ie devine cea bănuită, pozitivă. La aceiaşi vechime, cei mai bine şcoli i sunt mai bine plăti i. Ei bine, ce am învă at? Dacă există variabile care au un efect esen ial asupra variabilelor pe care le studiem, este bine să le găsim. Lăsîndu-le în factorii de eroare nu mai putem miza pe o sumă de multe variabile cu efect individual mic. Aşa cum se spune nimic nu e mai practic decît o bună teorie. Trebuie deci să putem identifica teoretic toate variabilele cu efect mare şi să lăsăm în suma factorilor de eroare numai variabile care au efecte mici oarecum egale ca importan ă. Un alt caz interesant este cînd efectele variabilelor neluate în seamă nu este aditiv ci multiplicativ. Asta ar însemna că efectele nu se adună pur şi simplu ci se poten ează reciproc, se înmul esc. Nu e uşor de găsit exemple pentru aşa ceva, evident situa iile fiind de fapt destul de rare. Totuşi, după mai multe căutări şi adîncă chibzuială, iată un caz: să presupunem că avem de făcut un studiu statistic al unui mediu ecologic. Analizăm de exemplu efectul festivalurilor de jazz şi rock asupra crapilor comparînd numărul de crapi pescui i an de an în 73

timpul festivalului de la Gărîna în rela ie cu programul muzical. Evident sunt o grămadă de variabile ecologice care au efect (probabil incomparabil mai mare decît cine cîntă la festival) asupra popula iei de crapi din lac. Aici intră desigur volumul popula iilor altor peşti, plante, păsări, insecte, şi aşa mai departe. Ei bine, peştii şi plantele depinzînd unii de al ii în lan ul dezvoltării lor nu se pot considera ca efecte aditive. Ele sunt multiplicative5. Şi ca atare pentru modelarea lor nu se poate recurge la teorema limită centrală în forma ei clasică. În acestă situa ie teorema limită centrală se schimbă pu in dar nu esen ial din punctul nostru de vedere. Se foloseşte o aşa zisă teoremă limită centrală multiplicativă. Diferen a care apare este că distribu ia limită la care tinde combina ia variabilelor aleatoare nu este o distribu ie normală ci una aşa-zis log-normală. Ecua ia func iei de densitate log-normale diferă pu in de func ia de densitate normală:

Nu e cazul să ne batem capul prea mult cu această situa ie. Să inem doar minte că există solu ii pentru aşa ceva dar e nevoie de alte teste. În fine, problema care este cea mai importantă este că identificarea cazului în care efectele variabilelor neluate în seamă se înmul esc în loc să se adune este departe de a fi facilă. Bun. Hai să revenim la considera iile esen iale pentru testarea statistică. Am descoperit deci că factorul de eroare într-o rela ie statistică poate fi adesea considerat ca fiind distribuit normal şi în plus standardizat cu media 0 şi dispersia 1. Pentru că distribu ia aceasta, N(0, 1) este complet cunoscută putem să observăm următoarele:

Sincer, faptul că rela iile dintre soiuri într-un mediu natural sînt mai degraba multiplicative decît aditive e un exemplu clasic din literatura statistică pentru distribu ia log-normală. Alte cazuri clasice sunt concentrările de poluan i, sensibilitatea indiviziilor la substan e chimice şi medicamente, timpul de supravie uire după tratament împotriva cancerului, şi altele.

5

74

Într-un interval de o dispersie de la medie, adică de fapt într-un interval de la -1 la +1 se găsesc 68,26% din toate cazurile unei distribu ii normale. Adică luînd la nimereală o valoare, dacă o variabilă este distribuită normal, şansa ca valoarea aceasta să se afle în intervalul -1, +1 este de 68,26%. Aşa este şi cu factorii de eroare care se adaugă la estimările noastre, pentru că acolo avem o distribu ie normală şi chiar nu ştim exact ce valoare e într-un caz anume. Ştim însă că sunt 68,26% şanse să fie între -1 şi 1 a distribu iei standardizate. În intervalul de două dispersii, deci de la -2 la +2 sunt 95,44% dintre cazuri. În intervalul de trei dispersii, de la -3 la +3 sunt 99,74% dintre cazuri! Care e atunci logica unui test. Păi să presupunem că dorim să verificăm dacă media numărului la pantof al femeilor din Romania este 36. În paranteză fie spus, faptul că numerele de la pantofi sunt distribuite normal în cadrul unui gen este cu adevărat dovedit empiric. Alegem deci un eşantion reprezentativ le măsurăm pe toate la picioare şi calculăm media. Iese ceva, să zicem 39. Acum trebuie să standardizăm această valoare, pentru că evident distribu ia numerelor de la pantof cît o fi ea de naturală nu are cum avea media 0 şi dispersia 1. În urma standardizării 36-ul devine evident 0, iar 39-le devine de exemplu 2. Atunci ne uităm pe grafic şi vedem că şansa ca eroare statistică să adauge 2 la media standardizată este de 2,27%! Adică există o probabilitate de 2,27% ca totul să fie corect, mediile în regulă, media popula iei să fie într-adevăr 36 şi aşa mai departe, dar din motive absolut normale ale erorii aleatoare nouă să ne fi ieşit 39. 75

Hai să reluăm un pic ideea. Deci avem o distribu ie normală pe care o luăm de bună pentru început, distribu ia numerelor de la pantofi cu o medie de 36 şi o dispersie σ2 şi o valoare găsită empiric, media eşantionului de 39. Acum ne punem problema: cam care e şansa ca totul să fie în regulă, adică diferen a dintre cele două medii, cea teoretică (36) şi cea empirică (39) să fie cauzată de eroarea acceptabilă a unui sondaj. Pentru aceasta standardizăm distribu ia. În exemplul nostru găsim că există o şansă de 2,27% să fie aşa. Asta înseamnă că există o şansă de 97,73% să nu fie aşa! Adică, dacă avem deplină încredere în sondajul efectuat de către noi, putem să spunem că există o probabilitate de 97,8% ca media numărului la pantof al femeilor din Romania să nu fie 36. După această gustărică să vedem acum de-a amănuntul cum se face. b. Teste statistice pentru medii şi propor ii. Testarea statistică se descrie de obicei ca un algoritm, adică o serie de paşi care se întreprind pentru a lua o decizie. Totul porneşte de la construirea unei ipoteze şi se termină cu respingerea sau nerespingerea acesteia. Aşa cum am văzut şi mai de vreme, cunoaşterea statistică este una negativă. Nu poate confirma nimic, dar poate infirma. Adică, aşa cum am văzut din exemplu, dacă rezultatul empiric e suficient de aproape de cel teoretic nu avem nimic de spus, decît eventual că nu putem respinge ipoteza. Dacă însă este improbabil de îndepărtat atunci putem spune: asta chiar nu se poate! Ipoteza se poate respinge pentru că dat fiind ce am cules noi din sondaj probabilitatea ca ceea ce am presupus la început să fie adevărat este infimă. Să vedem paşii. În primul rînd se defineşte o ipoteză. În cercetarea empirică acesteia i se spune de obicei ipoteză nulă sau ini ială şi se notează cel mai adesea cu H0. Aceasta este ipoteza pe care vom dori să o putem respinge. Construirea unei ipoteze necesită de obicei o muncă importantă de abstractizare şi modelare. Testele statistice pot respinge numai ipoteze foarte simple. Deci ceva de genul: “este via ă pe Marte” cît o fi ea de ipoteză nu prea poate fi testată statistic în această formulare. Ipotezele de cercetare care au bază teoretică şi importan ă în cunoaştere trebuie traduse în rela ii matematice simple de genul “media numărului la pantof al femeilor din Romănia este 36” sau “veniturile bărba ilor şi ale femeilor sunt egale” adică lucruri care cu adevărat se pot respinge. În general ipotezele statistice sunt 76

rela ii de egalitate sau de inegalitate care implică valorile unor variabile şi valori prestabilite. Verificăm deci rela ii între grupuri sau popula ii şi rela ii dintre popula ii şi valori teoretice. Trebuie să putem traduce teoriile noastre în astfel de rela ii pentru ca statistica să ne fie de vreun folos. O dată stabilită ipoteza nulă, în unele cercetări se propun şi una sau mai multe ipoteze alternative, notate de obicei cu Ha. Aceste ipoteze se consideră ca ipoteze de urmat în cercetarea viitoare în caz că se respinge ipoteza nulă. Ele nu sunt ipoteze confirmate nici măcar dacă au fost construite ca nega ii logice ale ipotezei nule. În acest caz sunt pur şi simplu ipoteze care nu au fost respinse. Adică pot fi considerate, în tradi ia popperiană despre care am vorbit în introducere ca fiind “pe moment acceptabile”. După stabilirea ipotezelor trebuie stabilită valoarea testată, numită uneori după obiceiul englezesc şi statistică. Aceasta este o valoare agregată culeasă din date şi care intervine în test. În exemplul cu pantofii este media numărului la pantof. Ar putea fi o medie, o propor ie, sau diferen a unor medii sau propor ii. Valoarea testată nu este altceva decît un rezultat al opera ionalizării, adică al traducerii în formulă matematică a ipotezei. După aceasta, în func ie de valoarea pe care dorim să o testăm se determină distribu ia statistică a acesteia. În esen ă e vorba de a stabili dacă se poate presupune că valoarea testată este distribuită normal, iar dacă nu, dacă putem stabili cum o fi distribuită (de exemplu lognormal) şi ce test avem pentru aşa ceva. De exemplu, dacă distribu ia este una normală se poate aplica o metodă de standardizare, se aduce distribu ia la forma N(0, 1) şi se pozi ionează valoarea testată pe această distribu ie. Aşa putem spune ce şanse are o asemenea valoare să fie atinsă (sau una mai mare sau mai mică, dacă ipoteza este o inegalitate). O dată stabilită distribu ia statistică, se aplică un test statistic, adică o formulă de calcul valorii testate. Se ob ine un fel de indicator, numit adesea după numele testului sau mai general valoare de test. Vom vedea în cele ce urmează valoarea t, valoarea Z, şi aşa mai departe. Fiecare astfel de test nu este de fapt decît o formulă. Apoi se determină zonele critice. Zonele critice, uneori numite şi zone de respingere sau rejec ie sunt intervalele în care trebuie să se găsească valoarea calculată prin testul statistic pentru ca ipoteza să fie respinsă. Aceste intervale ar trebui stabilite dinainte. Există de fapt 77

două moduri de lucru. Varianta obişnuită este de a calcula valoarea de test şi apoi a vedea dacă se află în afara intervalului de probabilitate de 95% sau de 99%. Limitele acestor intervale sunt cele care se numesc valori critice şi intervalele complementare intervalelor de probabilitate de 95% respectiv 99% sunt chiar zonele critice. Dacă valoarea calculată este în aceste zone critice, probabilitatea ca această valoare să fie atinsă în condi iile validită ii ipotezei este mai mică de 5% sau chiar de 1%. Dacă, de exemplu valoarea calculată este mai mare decît valoarea de test pentru 95%, deci se află în afara intervalului de probabilitate de 95%, atunci probabilitatea ca ipoteza să fie corectă este de cel mult 5%, ceea ce este foarte pu in şi ipoteza poate fi respinsă. Multe din programele pe calculator care efectuează teste statistice calculează o aşa-zisă significan ă a testului. Aceasta e chiar probabilitatea ca valoarea calculată să fie atinsă în condi iile ipotezei. Nu mai este atunci nevoie să comparăm cu valoarea critică. Putem spune, chiar cît este probabilitatea ca ipoteza să fie adevărată. Şi bineîn eles putem decide pe baza acestei probabilită i dacă ipoteza se poate respinge sau nu. În literatura de statistică aplicată se definesc în general două tipuri de erori care se pot întîmpla în testarea statistică: Eroarea de tip I, numită şi eroare α sau “fals pozitiv” are loc dacă se respinge o ipoteză nulă care e de fapt adevărată. Probabilitatea de face o astfel de eroare este de fapt acea significan ă a testului statistic. • Eroarea de tip II, numită şi eroare β sau “fals negativ” are loc dacă nu se respinge o ipoteză falsă. Există şi alte clasificări ale erorilor de decizie, dar aceasta este cea mai răspîndită. În experien a mea trebuie să recunosc că nu am găsit nici o dată vreun uz practic al faptului de a fi ştiut care este diferen a dintre cele două tipuri de erori. Este însă important să fim conştien i de faptul că erorile, fie ele de tip I sau tip II nu pot fi cu totul eliminate. Dacă se aplică corect o metodologie statistică se poate însă determina probabilitatea ca ele să apară. În fapt, probabilitatea care determină zona critică aşa cum am văzut mai sus este chiar probabilitatea unei erori de tip I.

78

Dacă pînă acum am vorbit de teste la un mod cam general şi ceea ce am spus era în principiu valabil pentru orice test statistic să trecem acum la lucruri practice. Cum se face de fapt, ce se calculează şi cu ce se compară valoarea de fapt? Testul t pentru media unei variabile aleatoare Testul t (numit şi Student după pseudonimul autorului său, statisticianul englez W.S. Gossett) este un test care verifică ipoteze în condi ii de normalitate a distribu iei datelor şi cunoaştere a dispersiei datelor. Gossett a fost, în vremea în care a dezvoltat testul, statistician la fabricile Guiness din Dublin, Irlanda şi l-a dezvoltat pentru a verifica cît mai simplu calitatea berii. Ideea era de a calcula cîtă încredere se poate acorda unor analize biochimice ale berii făcute pe eşantioane relativ mici. Deşi am citit pe undeva că Gossett a folosit din modestie un pseudonim, se pare că motivul adevărat pentru care Gossett şi-a publicat metoda în 1908 sub pseudonim a fost faptul că vroia să ocolească contractul care îl lega de fabrica Guiness. Testul se foloseşte şi acum pe scară largă, chiar şi acolo unde avem eşantioane mici. Cu diversele forme ale testului t se pot analiza ipoteze legate de media unei variabile aleatore, compara ii între mediile unor variabile aleatoare pe două popula ii, precum şi ponderea unor subgrupuri în popula ii şi compara ii între ponderea unor subgrupuri în două popula ii. Să le luăm însă pe îndelete. În forma cea mai cunoscută testul t verifică o ipoteză exact ca în exemplul nostru. Adică verifică ipoteza dacă media unei variabile la nivelul popula iei este egală cu media aceleiaşi variabile pe un eşantion. Sau altfel exprimat, este suficient de mare diferen a între media măsurată pe eşantion şi media presupusă ipotetic pe popula ie pentru a respinge presupunerea. În exemplul nostru media presupusă pentru numărul la pantof al femeilor din Romania era 36 şi media găsită pe eşantion era 39. Testul t este cel ce ne spune dacă putem respinge ipoteza nulă sau nu. Testul t poate fi folosit dacă sînt îndeplinite cîteva precondi ii. În primul rînd trebuie să cunoaştem media şi dispersia la nivelul popula iei, apoi variabila trebuie să fie distribuită normal şi eşantionul trebuie să fie aleator. În realitate situa ia e cam aşa: media o presupunem teoretic pentru că la urma urmei pe asta dorim să o testăm. Distribu ia normală este o problemă relativ mică, dacă avem un eşantion mare şi nu este un caz special în care distribu ia este evident nenormală presupunem de obicei normalitatea fără să ne batem prea mult capul. 79

Cum am tot povestit teorema limită centrală ne dă aici o mînă serioasă de ajutor. Evident, faptul că eşantionul trebuie să fie aleator nu poate fi însă ocolit. Oricare dintre metodele statistice necesită aceasta. Nu înseamnă că nu se pot face testări şi în alte condi ii dar atunci nu mai e vorba despre a verifica rela ia dintre media unei popula ie şi a unui eşantion, ca în cazul clasic al testului t, ci între mediile a două loturi. Problema care este cea mai mare în cazul testului t este însă faptul că de obicei nu avem cum să cunoaştem dispersia reală a variabilei în popula ie. Aceasta se rezolvă de regulă prin introducerea unei presupuneri suplimentare. Şi anume aceea că dispersia la nivelul popula iei este aproximativ egală cu dispersia la nivelul eşantionului. Să vedem deci ce valori avem: • • µ – media pe popula ie, pe care o presupunem şi o punem în ipoteză s – abaterea standard pe eşantion care se poate calcula şi înlocuieşte de fapt σ, abaterea standard la nivelul popula iei pe care nu o putem calcula. • • x – media pe eşantion care e uşor de calculat n – volumul eşantionului.

Ipoteza va suna deci cam aşa “media variabilei este µ”. În exemplu era: media numerelor la pantofi este 36. Calculăm acum testul t astfel: t = (x – µ) / (s/n½ ) Aceasta nu este altceva decît transformarea din N(µ, s2) în N(0, 1), adică standardizarea distribu iei normale. Valoarea t se va raporta la curba normală standard aşa cum se raportează valoarea x la curba normală ini ială. Să presupunem că valoarea de 39 la picior a fost ob inută pe un eşantion de 1000 de femei şi abaterea standard la nivelul eşantionului a fost 2. Să vedem ce iese: t = (39 – 36) / (2/10) = 15

80

Să ne aducem aminte de felul cum arată distribu ia normală standard şi cam unde s-ar afla valoare 15 pe axa x a acesteia.

Precum se vede din grafic, probabilitatea ca într-o distribu ie normală standard valoarea să fie mai mare de 3 este de 0,1%. 15 fiind mult mai mare decît 3, probabilitatea ca ipoteza să fie adevărată este mult mai mică decît 0,1%. Avem deci 99,9% motive să respingem ipoteza. Am ocolit însă zonele critice folosite în mod obişnuit. Să vedem care sunt acestea: Intervalul de probabilitate de 95% este (-1,96, 1,96). Această înseamnă că într-o distribu ie normală standard 95% dintre cazuri se găsesc în intervalul (-1,96, 1,96). Deci dacă avem o valoare aflată în afara intervalului acesta, şansa ca valoarea să fie atinsă în condi iile validită ii ipotezei este mai mică decît 5%. Se mai spune şi că -1,96 şi 1,96 sunt valorile critice de significan ă (sau probabilitate) de 95%. În aceiaşi logică se defineşte şi intervalul de probabilitate de 99%. Acesta este (-2,57, 2,57). Există de asemenea tabele ale valorilor t care dau exact probabilitatea ca o anumită valoare calculată să fie atinsă. Să sistematizăm pentru o mai uşoară privire de ansamblu: Ipoteze de forma “media = valoare” se pot respinge: • • cu probabilitate de 95% dacă valoarea t < -1,96 sau t > 1,96. cu probabilitate de 99% dacă valoarea t < -2,57 sau t > 2,57.

Deoarece 15 este în afara intervalului de probabilitate de 99%, de fapt cum am văzut chiar în afara intervalului de 99,9% ipoteza se poate respinge cu o probabilitate mai mare decît 99% (sau, de fapt 99,9%). La modul de analiză al rezultatelor nu am luat în seamă faptul că 81

rezultatul testului ne spune vrînd – nevrînd şi pe ce parte a intervalului se află rezultatul aceasta înseamnă că de fapt putem să înbunătă im un pic significan a sesizînd faptul că de o parte a distribu iei normale avem de fapt o significan ă de 50% şi doar pe partea cealaltă adăugăm la aceasta jumătate din significan a datorată zonei critice. Deci dacă suntem în varianta cu 95% putem de fapt considera că respingem ipoteza cu 97,5% iar în varianta cu 99% cu 99,5%. Testul t pentru două medii Adesea ipoteza care se pune nu con ine o valoare explicită, cum era în exemplul precedent. Multe probleme statistice urmăresc de fapt să compare grupuri sau păr i ale unor eşantioane. Ipoteza este în asemenea cazuri ceva de genul “femeile de la ară au în medie acelaşi număr la picior ca şi femeile de la oraş” sau “fotbaliştii romani dau în medie la fel de multe goluri ca şi fotbaliştii germani” şi alte asemenea probleme cutremurătoare. Un fel de a pune întrebarea care prezintă o gamă largă de probleme este următorul. Este oare posibil ca cele două eşantioane să fie extrase din aceiaşi popula ie. Dacă ar fi aşa mediile calculate pe cele două eşantioane ar trebui să fie suficient de apropiate. Dacă însă aceste medii diferă mult (în sensul testului t) ipoteza că eşantioanele sînt extrase din aceiaşi popula ie se poate chiar respinge. Aşa se poate stabili principial că două grupurie popula ionale diferă esen ial din punctul de vedere al unei anumite variabile. Aşa se poate de exemplu stabili că femeile şi bărba ii au venituri diferite în Romania. Se iau două eşantioane aleatoare de valori salariale şi se testează dacă acestea ar fi putut fi culese dintr-o singură popula ie. Multe probleme interesante pot fi reduse la ipoteze de acest tip. Avem în asemenea cazuri două grupuri de măsurători, putem să le spunem eşantioane dar nu sunt din punctul de vedere al testului. Şi anume nu sunt eşantioane din punctul de vedere al testului pentru că nu se urmăreşte rela ia dintre aceste date şi o popula ie mai generală ci rela ia dintre cele două grupuri de măsurători. Ca şi în cazul precent, este necesar să avem o distribu ie normală a variabilei testate. În plus cele două eşantioane trebuie să fie independente ceea ce în cazul unei eşantionări corecte aleatoare ar trebui să fie cazul, şi trebuie să cunoaştem următoarele: s1 – abaterea standard pe primul eşantion. x1 – media pe primul eşantion 82

• •

• • • •

n1 – volumul primului eşantionului. s2 – abaterea standard pe al doilea eşantion. x2 – media pe al doilea eşantion n2 – volumul celui de-al doilea eşantionului.

Formula de test care se calculează este:

Analiza rezultatului se face la fel ca şi în cazul precedent. Valorile critice sînt aceleaşi, interpretarea se face la fel. Să luăm deci un exemplu şi să-l calculăm. Voi folosi date dintr-un sondaj de opinie efectuat pe popula ia IMM-urilor din mediul rural din România în 2005. Ipoteza de testat este “vîrsta medie a patronilor de IMM-uri din mediul rural nu diferă în func ie de gen”. Avem deci două eşantioane, unul cu femei, un altul cu bărba i. Volumul eşantionului total a fost de 1122 persoane, dintre acestea 1100 au răspuns la întrebarea de vîrstă (genul a fost completat de operator). În calcule am putut lua 631 de bărba i şi 479 de femei. Vîrsta medie a bărba ilor a fost 45,6 ani, iar a femeilor 42,4. Abaterile standard sînt 10,4 la vîrsta bărba ilor şi 9,1 la vîrsta femeilor. Este oare diferen a dintre cele două medii relevantă? Sînt femeile care patronează IMM-uri din zona rurală într-adevăr mai tinere decît bărba ii? Pentru aceasta trebuie să aplicăm testul t pentru medii. Informa iile pe care le-am inclus în text sînt suficiente pentru a lua o decizie. Programele de statistică fac prima dată un test de egalitate a dispersiilor. Pentru aceasta se foloseşte testul F al lui Fisher. Nu îl vom discuta în această carte. E bine de ştiut totuşi la ce foloseşte. Ipoteza acestui test este: “dispersia pe primul eşantion e egală cu dispersia pe al doilea eşantion”. Dacă significan a testului e bună, adică cît mai apropiată de 0, atunci ipoteza aceasta se poate respinge. În func ie de rezultatul testului, pentru dispersii care nu pot fi considerate egale se foloseşte formula pe care am dat-o. Pentru dispersii egale se putea folosi o formulă simplificată şi oarecum înbunătă ită prin faptul că se putea calcula dispersia pe întreg eşantionului, ceea ce se presupune a fi o estimare mai bună a dispersiei la nivel popula ional.

83

În cazul din exemplu, valoarea testului F este 6,682 şi significan a este 0,01. Pentru interpretarea testului F se folosesc de regulă tabele, însă aşa cum am spus şi mai sus significan a este informa ia suficientă pentru analiză. În cazul significan ei de mai sus, care e foarte bună, ipoteza de dispersii egale poate fi respinsă. Se calculează atunci varianta de test t pentru dispersii diferite, adică exact formula de mai sus. Rezultatul este: t = 5,39 cu Sig = 0,000 Deci ipoteza de egalitate a mediilor se poate respinge cu o probabilitate de 99,9%. E aproape sigur: femeile care patronează IMM-uri în mediul rural sînt mai tinere decît bărba ii cu pozi ii similare. Pentru o explica ie aş presupune de exemplu că printre persoanele de vîrstă mai înaintată femeile sînt mai pu in înclinate spre pozi ii patronale decît printre persoanele mai tinere. Astfel distribu ia pe sexe e mai echilibrată la vîrste mai mici şi media de vîrsta a femeilor patron rezultă ca fiind mai mică decît a bărba ilor patron. Desigur interpretarea aceasta trebuie coroborată cu alte rezultate statistice. Ipotezele discutate pînă aici s-au referit întotdeuna la egalită i. Testele au încercat să respingă fie faptul că o medie are o anumită valoare exactă, fie faptul că două medii sunt egale. Aceasta a făcut ca zonele critice să fie simetrice. La urma urmei se poate respinge ipoteza de egalitate şi atunci cînd valoarea empirică e mult mai mare şi atunci cînd e mult mai mică decît valoarea din ipoteză. Am men ionat deja că faptul că valoarea empirică e mai mare sau mai mică ne apare ca un rezultat suplimentar şi poate înbunătă i significan a. Există însă situa ii în care ipoteza este chiar construită ca o inegalitate. Astfel de ipoteze cer să fie analizate doar prin prisma unei singure zone critice. Să mă explic. Dacă ipoteza era de forma “media = valoare” atunci zonele critice de significan ă 99% sunt intervalele (-∞, 2,58) respectiv (2,58, ∞), adică tot de se află în afara intervalului de probabilitate de 99% care este (-2,58, 2,58). Dacă însă ipoteza este de forma “media > valoare” atunci ea respinge numai dacă ceea ce ne dă testul e mult mai mic decît 0, deci numai un capăt de distribu ie normală respinge ipoteza. Acest capăt e evident totdeuna cel opus semnului din ipoteză. Adică testăm o inegalitate cu semnul > (mai mare) capătul care respinge va fi cel negativ (mai mic decît media standard 0), dacă testăm o inegalitate cu < (mai mic) atunci se poate respinge ipoteza 84

cu intervalul critic pozitiv. Mai avem însă ceva, valorile critice devin mai mici la testele cu inegalitate deoarece intervalul de 95% sau 99% va fi nelimitat pe un capăt. Deci: Ipoteze de forma “media > valoare” se pot respinge: • • cu probabilitate de 95% dacă valoarea t < 1,81. cu probabilitate de 99% dacă valoarea t < 2,23.

Ipoteze de forma “media < valoare” se pot respinge: • • cu probabilitate de 95% dacă valoarea t > 1,81 cu probabilitate de 99% dacă valoarea t > 2,23.

Testul Z pentru propor ii În mare parte dintre cercetările empirice nu ne interesează însă testarea unor ipoteze legate de medii. De fapt dacă ne gîndim la sondajele de opinie politice sau sociale pe care le mai vedem din cînd în cînd în presă greu ne vine în minte o situa ie în care să ne fi interesat media unei variabile. Cel mai adesea ceea ce ne interesează mai mult este să testăm ipoteze legate de propor ii. Astfel de ipoteze ar fi de exemplu “Partidul Vie ii Romaneşti va trece pragul electoral” sau “cetă enii români de religie ortodoxă preferă manelele în mai mare măsură decît cei de religie catolică”. Hai să vedem cum se traduc aceste ipoteze astfel încît să fie testabile. În prima ipoteză men ionată “Partidul Vie ii Romaneşti va trece pragul electoral”, ceea ce vrem să aflăm este de fapt dacă ponderea din electorat a celor care votează cu partidul în cauză e mai mare decît 5%. Bineîn eles la această întrebare se poate răspunde corect într-un exit-poll, adică un sondaj făcut chiar la ieşirea de la urne. În sondaje preelectorale se poate însă face o previziune destul de bună la astfel de întrebări. Indiferent cum ar fi, în chestionar 85

va apărea o întrebare de genul “cu ce partid a i votat?” sau “cu ce partid ve i vota?”. Dacă m intervieva i dintr-un eşantion total de volum n, răspund că vor vota cu PVR atunci avem de verificat de fapt dacă m/n este cu adevărat mai mare decît 5%. Ipoteza se va scrie “m/n > 5/100” În a doua ipoteză va trebui să dezvoltăm un chestionar care, pe lîngă alte întrebări, se interesează şi de gusturile muzicale ale celor intervieva i. Desigur întrebarea se poate pune în multe feluri, în final însă vom determina că un anumit număr de persoane preferă manelele. Acestea vor fi probabil de religii diverse. Să presupunem că dintre aceştia mo vor fi ortodocşi, iar mc catolici. Să notam numărul total al ortodocşilor chestiona i no, iar al catolicilor nc. Atunci putem spune că dintre ortodoxi mo/no preferă manelele, iar dintre catolici mc/nc. Pentru a testa dacă prima pondere e în mod relevant mai mare decît cea de a doua, ipoteza va avea forma “mo/no > mc/nc”. Perechea de ipoteze din exemplele de mai sus este analoagă celor două metode de testare pe care le-am prezentat deja. Adică primul exemplu testează rela ia dintre o propor ie stabilită empiric şi o valoare teoretică, iar a doua ipoteză rela ia dintre două propor ii, ambele stabilite empiric, adică măsurate. Pentru verificarea ipotezelor legate de propor ii se foloseşte de regulă testul Z. Logica lui este însă aceiaşi ca a testului t discutat pînă acum. Să vedem prima dată formula pentru teste privitoare la o propor ie. Pentru a calcula valoarea de test avem nevoie de p – ponderea empirică (adică de exemplu ponderea celor ce au răspuns că vor vota cu PVR), ^p – ponderea teoretică (adică de exemplu ponderea celor care ar fi trebuit să răspundă pentru ca ponderea să fie exact 5%) şi n – volumul eşantionului. Cu acestea se calculează Z.

Dacă avem două ponderi de comparat ca în exemplul al doilea, formula va avea forma următoare:

86

Aici n1 este numărul de intervieva i din primul eşantion (în exemplu, numărul total de ortodocşi din eşantionul total), iar n2 este numărul de intervieva i din al doilea eşantion (în exemplu numărul total de catolici din eşantionul total). p1 şi p2 sunt ponderile persoanelor care intră în categoriile ce se compară (adică p1 = mo/no ponderea celor care preferă manelele dintre ortodocşi, respectiv p2 = mc/nc dintre catolici). În ambele cazuri rezultatul testului, Z se compară cu zonele critice definite ca şi pînă acum. Aceasta pentru că şi acest test face de fapt o transformare a valorilor pe o distribu ie normală standard şi logica respingerii unei ipoteze rămîne aceiaşi, a depărtării fa ă de valoarea 0, media distribu iei normale standard. Iată regulile de decizie simplificate pentru cazul, mai general, al ipotezelor cu două propor ii empirice Ipoteze de forma “p1 = p2” se pot respinge: • • cu probabilitate de 95% dacă valoarea Z < -1,96 sau Z > 1,96. cu probabilitate de 99% dacă valoarea Z < -2,57 sau Z > 2,57.

Ipoteze de forma “p1 > p2” se pot respinge: • • cu probabilitate de 95% dacă Z < 1,81. cu probabilitate de 99% dacă Z < 2,23.

Ipoteze de forma “p1 < p2” se pot respinge: • • cu probabilitate de 95% dacă Z > 1,81. cu probabilitate de 99% dacă Z > 2,23.

Sumarul acesta de reguli se poate aplica uşor în practică. Tot ce trebuie făcut este să se formuleze simplu ipoteza, apoi se calculează valoare t (sau Z), se aplică regula de decizie şi gata: am făcut o cercetare empirică corectă statistic. c. Calculul erorii unui sondaj si interpretarea ei. 87

Calculul erorii unui sondaj de opinie este de fapt o aplica ie a testelor statistice simple. De aceea am preferat să amîn discutarea acestei probleme pînă acum. Vom vedea deci ce înseamnă acele erori pe care le raportează institutele de sondare a opiniei publice şi de asemenea cum se stabileşte volumul unui eşantion. În mod curent eroarea care se raportează la un sondaj de opinie este eroarea cea mai mare cu care se poate estima o pondere cu o probabilitate de 95%. Am văzut pînă acum că estimarea unei ponderi se poate face doar cu o anumită probabilitate. Nu există o stabilire prin sondaj a unei valori exacte. Probabilitatea cu care se estimează ponderea dictează de fapt care e zona critică. De aici rezultă respingerea unei ipoteze. La sondajele de opinie se foloseşte de regulă intervalul de probabilitate de 95%. Este vorba despre estimarea unei propor ii, folosim deci testul Z pentru o propor ie. Formula, pe care am dat-o şi mai sus este:

Pe noi ne interesează în acest caz însă eroarea, adică cu cît diferă estimarea noastră de valoarea adevărată, într-un sondaj aceasta se interpretează ca fiind diferen a dintre ponderea găsită în eşantion şi ponderea din popula ie, adică ponderea „reală“. Ca atare extragem din formula de mai sus diferen a dintre valoarea empirică şi valoarea din popula ie. ^p – p = Z * sqrt (p*(1-p)/n) În această formulă trebuie înlocuit Z cu o valoare critică, astfel încît să se stabilească cu ce probabilitate dorim să ne încadrăm în eroarea calculată. Astfel dacă dorim ca eroarea ^p – p să nu fie depăşită cu o probabilitate de 95% vom lua Z = 1,96. Aceasta este varianta cea mai obişnuită. Dacă dorim o precizie de 99% va trebui însă să calculăm folosind Z = 2,57. Observăm că acestea sunt tocmai valorile critice, adică valorile de 95%, respectiv 99% din distribu ia normală standard.

88

Există mai multe feluri de a folosi această formulă. Putem cu ajutorul ei să calculăm eroarea pentru estimarea unei anumite propor ii în cazul unui sondaj de opinie cunoscut. Atunci cunoaştem valorile p şi n şi stabilim cu o probabilitate de 95% în ce interval se poate afla ^p. Putem de asemenea stabili care este cea mai mare eroare pe care o poate lua estimarea de propor ii în cadrul unui anumit sondaj (ceea ce se numeşte de obicei marjă de eroare). Atunci efectuăm acelaşi calcul dar în aşa fel încît să maximizăm eroarea pentru orice pondere posibilă. Putem să stabilim cu ajutorul aceleiaşi formule şi care e volumul eşantionului necesar pentru a nu depăşi o anumită marjă de eroare. Atunci considerăm diferen a ^p – p cunoscută. Aceasta este marja de eroare pe care suntem de acord să o acceptăm, şi alegem p astfel încit eroarea să fie maxim posibilă în cazul dat şi îl calculăm pe n, volumul eşantionului. Estimarea marjei de eroare a unui sondaj de opinie Începem cu această aplica ie a formulei pentru că ea este probabil cea mai importantă. A i văzut sau auzit desigur la (aproape) orice prezentare a unui sondaj de opinie specificari de genul “marja de eroare a sondajului este 3% cu o probabilitate de 95%”. Ce înseamnă aceasta? Marja de eroare este abaterea cea mai mare de la valoarea “reală”, adică valoarea pe popula ie pe care o poate avea valoarea calculată pe eşantion în cazul unui sondaj anume. În formula de mai jos, notăm marja de eroare cu E. De fapt E = max (^p – p), adică înlocuind în formula de mai sus: E = max (Z * sqrt (p*(1-p)/n)) În această formulă Z este dat de precizia pe care o dorim, adică pentru precizia de 95% va fi 1,96. n este volumul eşantionului, deci o valoare cunoscută, din moment ce sondajul a avut loc. Singura valoare care se poate alege astfel încît să se maximizeze formula este p. Pentru aceasta observăm că trebuie de fapt să alegem p astfel încît produsul p*(1-p) să fie maxim. Valoarea p este o pondere adică o valoare subunitară. Maximul produsul se atinge ca atare

89

pentru p = 0,5. Cine nu crede poate calcula matematic. Iese. De aici rezultă, că pentru o precizie de 95% avem

E = 1,96 Deci marja de eroare a unui sondaj depinde numai şi numai de volumul eşantionului. Graficul de mai jos ne arată cum arată forma distribu iei normale centrate în jurul ponderii de 0,5 pentru diferite volume de eşantioane.

Dacă, de exemplu avem un eşantion de 1000 de persoane, un volum uzual, marja de eroare a acestui eşantion va fi: E = 0,98 / sqrt (1000) = 0,03099 Ceea ce se mai poate scrie ca fiind 3,1%.

90

Calcul de mai sus are desigur şi nişte premise matematice. Principala premisă este aceea că eşantionul este aleator. Ştim deja că aceasta nu este chiar întotdeuna perfect îndeplinită, dar un sondaj de opinie bine efectuat se apropie cît se poate de mult de acest deziderat tocmai pentru a putea garanta marja de eroare promisă. Să vedem acum, cum se citeşte de fapt un rezultat statistic prin prisma marjei de eroare. Fie de exemplu un sondaj cu 1000 de interviuri, la care 500 de persoane, adică o pondere de 0,5 (sau 50%) au răspuns că ar vota Partidul Vie ii Romaneşti. Atunci statisticianul responsabil poate spune cam aşa: “Există o probabilitate de 95% ca din ansamblul popula iei studiate cei care ar vota PVR să reprezinte un procentaj între 46,9% şi 53,1%.” Dacă ponderea pe care trebuie să o estimeze este mai mică sau mai mare decît 0,5 ştim că eroarea poate fi calculată mai exact şi va fi ceva mai mică. La urma urmei marja de eroare este eroarea cea mai mare la estimarea de propor ii şi formula generală a erorii depinde de valoarea p. Calculul volumul eşantionului pe baza marjei de eroare De multe ori problema se pune invers. Avem de efectuat un sondaj de opinie şi clientul nostru îşi doreşte o anumită marjă de eroare, de exemplu 2%, numai aşa ca să aibă el sondajul cel mai tare din jude . Atunci vom folosi aceiaşi formulă: E = 0,98 / sqrt (n) Dar vom cunoaşte pe E, marja de eroare dorită şi va trebui să-l calculăm pe n, volumul eşantionului. Dacă extragem pe n din formulă, iese: n = 0,98 / E2 Înlocuind în formulă E = 0,02 ob inem n = 2400, pentru E = 0,03, n = 1067. Tabelul de mai jos con ine şi alte perechi de marje de eroare şi volume de eşantioane: Marja de eroare Volumul eşantionului 1% 2% 3% 91 9605 2400 1067

4% 5% 10%

600 384 96

Calculul erorii pe estimare a unei anumite propor ii Să continuăm cu aplica ia cea mai simplă a formulei şi una din greşelile cele mai des întîlnite în interpretarea sondajelor de opinie. Cum am văzut, marja de eroare este de fapt eroarea maximă care se face la o estimare cu precizie de 95%. Aceasta e atinsă atunci cînd se estimează valori apropiate de 0,5, adică de 50%. Cu toate acestea nu o dată citim interpretări în care valoarea marjei de eroare este folosită pentru a da intervale de estimare pentru procentaje mult mai mici. De exemplu, iată un fragment de declara ie a lui Alin Teodorescu, deputat PSD şi, pe deasupra, sociolog: “16% în sondaje înseamnă 19 sau 13. Marja de eroare e de 3%.”6 Are sau nu dreptate politicianul-sociolog. Bineîn eles nu, pentru că pentru estimarea unui procentaj de 16% eroarea este mai mică decît marja de eroare, care este atinsă atunci cînd se estimează 50%. Cu cît este însă mai mică? Articolul de ziar nu ne dă cu exactitate volumul eşantionului, dar dnul Teodorescu ne dă un indiciu foarte bun cînd declară că marja de eroare a sondajului a fost 3%. Deci, volumul eşantionului trebuie să fi fost cam 1067 de persoane. Să înlocuim în formulă şi să calculăm: eroarea = 1,96 * sqrt (p*(1-p)/n) = 1,96 * sqrt ((0,16 * 0,84)/1067) = 0,02199 Exprimată tot în procente eroarea la estimarea unui procentaj de 16% este 2,2%. Corect am putea spune, valoarea procentuală de 16% din eşantion se traduce astfel “procentajul în ansamblul popula iei studiate este aflat cu o probabilitate de 95% între 13,8% şi 18,2%”. Iată o exprimare de o candoare deosebită, legată de aceiaşi problemă: “Strict sociologic, ce-i sub marja de eroare practic nu se ia in calcul.”7 Evident nu este aşa. Mai mult, valorile mici,

6 7

“Alin Teodorescu: PSD s-a comprimat din cauza integrarii in UE”, interviu în Cotidianul, 1.02.2007. Pavel Lucescu “Chinurile lui Felix”, editorial în Cotidianul, 26.02.2007.

92

adică cele pe care ziaristul le numeşte “sub marja de eroare” se estimează mai exact decît valorile în jur de 50%. Să calculăm pu in. Un procentaj de 3% se va estima într-un sondaj cu marja de eroare de 3% cu o eroare de: eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010. Deci, dacă s-a măsurat un procentaj de 3% pe eşantion, putem spune cu o probabilitate de 95% că ponderea în ansamblul popula iei este între 2% şi 4%. Factor de corec ie pentru popula ii finite Iată un fragment de articol din ziarul Tricolorul: “Dar, iată, scorurile sondajului real efectuat de IMAS, aşa cum le-am aflat chiar din interiorul PSD. Eşantion: 1.257 de persoane. Marjă de eroare: ± 1,8%.”8 Este aşa ceva posibil de fapt? Am văzut că marja de eroare şi volumul eşantionului sunt legate printr-o formulă cît se poate de simplă şi se poate uşor calcula: pentru 1257 de persoane se ob ine o marjă de eroare de 2,7%. Pentru 1,8% ar fi nevoie de un număr de 2963 de interviuri. Şi totuşi ceea ce scrie ziarul nu este întru totul imposibil pentru că în toate exemplele şi discu iile de pînă acum am considerat că popula ia este foarte mare fa ă de volumul eşantionului. Practic am presupus că avem o popula ie infinită. Sau mai exact nu am făcut nici un fel de presupunere despre volumul popula iei. Este însă de bun sim să ne gîndim că dacă popula ia pe care o cercetăm e mică, de exemplu, de 1000 de oameni, cum ar fi la un studiu despre elevii unei şcoli, marja de eroare nu poate fi 4% la un eşantion de 600, adică cuprinzînd bine peste jumătate dintre to i elevii. Trebuie să existe un factor de corec ie care înbunătă eşte marja de eroare în cazul în care popula ia studiată este mică. Acest factor de corec ie este numit factor de corec ie pentru popula ii finite. El se foloseşte numai atunci cînd volumul eşantionului este suficient de mare fa ă de volumul popula iei. Teoretic însă s-ar putea calcula oricînd, doar că valoarea lui este de obicei foarte aproape de 1. Formula factorului de corec ie este.

“Presedintii PRM si PSD vor semna un protocol de colaborare!”, editorial nesemnat, Tricolorul, Anul III, Nr. 643 - 06.05.2006

8

93

În formulă N este volumul popula iei şi n volumul eşantionului. Factorul calculat astfel se înmul eşte cu marja de eroare pentru a da marja de eroare corectată. Să vedem prima dată dacă ar merita calculat factorul pentru eşantioanele obişnuite, de 1067 de persoane, avînd ca popula ie, de exemplu, electoratul României, de aprox 18 milioane de persoane. F = sqrt (18000000 – 1067 / 18000000 – 1) = 0,9999 Ei bine, acest factor de corec ie ar trebui înmul it cu marja de eroare, dar valoarea e atît de apropiată de 1 încît este evident de ce nu se obişnuieşte aşa ceva. În exemplul dat, ra ionamentul este însă altul. Dacă la un eşantion de 1257 de persoane s-a ob inut o marjă de eroare de 1,8% înseamnă că s-a folosit un factor de corec ie şi acest factor a coborît marja de la valoarea de 2,7% care s-ar fi ob inut pentru o popula ie cît România la valoarea de 1,8%. Acest factor de corec ie este de fapt uşor calculabil: 1,8 = F * 2,7 F = 1,8 / 2,7 = 0,67 Înlocuind în formula lui F această valoare precum şi n = 1257, rezultă: 0,67 = sqrt (N – 1257 / N – 1) De aici rezultă: N = (1257 – 0,672) / (1 – 0,672) = 2285. În concluzie articolul din ziar poate avea dreptate doar în măsura în care popula ia din care s-a ales eşantionul avea un volum de 2285 de persoane.

94

Capitolul 6. Feluri principale şi garnituri sau rela ia dintre mai multe variabile
Voi încerca şi de astă dată să mă apropii de tema rela iilor dintre variabile începînd cu ce e mai simplu, reprezentările grafice, şi continuînd apoi cu tabele de frecven e, indicatori de rela ionare şi în fine voi încheia capitolul acesta cu o tehnică ceva mai avansată, regresia liniară. Pînă acum în această carte m-am ocupat de o singură variabilă o dată. Am văzut cum se reprezintă o variabilă, grafic sau tabelar, prin frecven ele ei, am calculat indicatori care descriu o variabilă şi am testat ipoteze referitoare la o variabilă. În cercetarea statistică problemele care ni se pun se referă însă adesea la rela ia dintre două sau chiar mai multe variabile. Multe ipoteze care se pun, se referă la efectul unor variabile asupra altora. Ne interesează cum influen ează vîrsta op iunile electorale, ce efect are educa ia asupra alegerii unei anumite mărci de bere. Ne interesează ce categorii sociale ascultă anumite emisiuni de radio, pentru a ştii ce tip de publicitate ar fi de interes pentru aceştia. Vrem să aflăm care dintre studen i vor cu adevărat să emigreze şi care vor să-şi continue studiile în străinătate. Toate aceste întrebări necesită studierea unor rela ii dintre variabile. De multe ori, dar nu întotdeuna, teoria pe care ne bazăm ca să construim ipotezele noastre separă variabilele în cauze şi efecte. În statistică efectele le numim variabile dependente, iar cauzele variabile independente. Nu este întotdeuna simplu, există însă şi variabile care sînt aproape mereu tratate ca independente. Aşa sînt genul, vîrsta, zona de reşedin ă (urban sau rural), statutul marital şi altele care în pu ine ipoteze sunt considerate efecte ale altor variabile. În general aceste variabile se suprapun peste aşa-zisele variabile SES (socio-economic status). Genul sau vîrsta celui intervievat, de exemplu, nu se prea pot considera efecte ale unor alte variabile. Pe de altă parte, selec ia aleatoare poate eviden ia faptul că popula ia studiată are o distribu ie a genurilor sau vîrstelor particulară. Aşa este de exemplu dacă popula ia noastră e formată din cei ce îşi fac cumpărăturile într-un anumit magazin. În acest sens şi genul poate fi privit ca un efect al op iunii de a face aprovizionarea pentru familie. Alte variabile SES, ca de exemplu venitul sînt chiar mai des variabile dependente.

95

Oricum ar fi, cel mai adesea, într-o cercetare statistică rela ionăm variabile numite generic independente cu variabilele intă ale cercetării, numite de regulă variabile dependente.

a. Grafice pentru mai multe variabile. Reprezentările grafice pentru mai multe variabile au o paletă mai restrînsă de op iuni la dispozi ie. O parte din reprezentările uzuale în cazul unei singure variabile nu sunt potrivite în cadrul graficelor cu mai multe variabile. Astfel, graficele plăcintă nu se adaptează prea bine la mai multe variabile. Nici graficele de linii nu se pretează la prezentarea rela iilor dintre variabile. Ele se pot însă folosi pentru a prezenta mai multe variabile una alături de cealaltă. Reprezentările folosite cel mai des sunt graficele de bare, care permit chiar vizualizarea rela iilor. Cel mai simplu mod de grafic pentru mai multe variabile prezintă dezvoltarea paralelă a unor variabile. În exemplul de mai jos avem o reprezentare liniară a două variabile. Acestea sînt numărul de studen i la 10.000 de locuitori pe ansamblul Europei de Est şi de Vest în perioada 1950 – 2000 (dintr-o cercetare proprie, Reisz, Stock, 2007).

96

Graficul se pretează la compararea celor două trenduri dar nu vizualizează cu adevărat rela ia dintre cele două variabile. Le pune doar una lîngă cealaltă. Dar e frumos oricum, nu? Există grafice similare şi cu bare. Să luăm şi aici un exemplu.

4,00

1. Cate beri ati baut? 7. Cat de des v-ar place sa fie Festivalul Berii?

3,00

Mittelwert

2,00

1,00

0,00 dumineca sambata

ziua

În graficul de mai sus se prezintă un rezultat de la o cercetare efectuată la festivalul berii Timisoara în anul 2003. Barele albastre reprezintă media de beri băute, iar barele verzi un indicator al frecven ei medii dorite de către intervieva i pentru festivalul berii. Întrebarea se punea la ieşirea din arealul festivalului. Cele două medii sunt prezentate diferen iat pentru cele două zile ale festivalului. Totuşi graficul nu ne spune nimic despre felul cum au răspuns la întrebarea a doua cei ce au băut mai multe beri fa ă de cei ce au băut mai pu ine beri. Pentru asta e nevoie de o altă abordare a rela iei reprezentate pe grafic. Graficele care prezintă cu adevărat rela ii sunt grafice de bare, în care una dintre variabile este o variabilă categorială, sau tratată ca şi variabilă categorială. Această variabilă are rolul de variabilă independentă. Ea se trece pe axa x, iar variabila sau variabilele dependente apar pe axa y. De fapt chiar şi graficul de mai sus prezenta o rela ie. Variabila independentă era ziua de festival. Dar să revenim la problema enun ată mai sus, cum e rela ia dintre consumul de bere şi frecven a dorită a festivalului

97

4,00

7. Cat de des v-ar place sa fie Festivalul Berii?

3,00

2,00

1,00

0,00 Nici o bere 1 - 2 beri 3 - 4 beri 5 beri si mai mult

Bautori

În grafic sunt prezentate medii ale frecven ei dorite ale festivalului în func ie de numărul de beri consumate, număr care a fost recodat pe categorii de către mine (întrebarea nu era pe categorii, ci deschisă). S-ar fi putut folosi şi alte valori în loc de medie, cum ar fi dispersia, suma, procentajul peste o anumită valoare, etc. De asemenea valoarea exactă se poate reprezenta sau nu pe grafic, dependent de forma ei, numerică sau nu. Pe lîngă faptul că frecven a dorită a festivalurilor berii creşte cu numărul de beri băute se mai observă două lucruri care in de reprezentările grafice în general . Anume, că numărul de categorii de pe axa x este relativ mic şi că acestea se citesc într-o formă ordonată pur şi simplu din obiceiul nostru de a parcurge de la stînga la dreapta orice text şi de a impune mental o ordine chiar şi acolo unde aceasta nu există. Prima dintre aceste două observa ii este doar par ial restrictivă. Acolo unde numărul de valori este foarte mare într-adevăr citirea graficului devine anevoioasă dar totuşi numărul de categorii poate fi crescut destul de mult. Aceasta totuşi nu prea se face pentru că graficul construieşte de regulă barele fără să raporteze numărul de cazuri folosite şi ca atare anumite bare pot fi calculate pe un număr foarte mic de cazuri şi pot induce în eroare cititorul. Acest risc există desigur şi la un număr mai mic de categorii dar este mult diminuat. Să vedem un exemplu de grafic de rela ionare cu bare cu un număr mare de categorii: 98

5,00

4,00

1. Cate beri ati baut?

3,00

4

2,00
4 3 4 3 3 3 2 2 1 0 1 2 2 2 3 2 2 2 2 2 1 1 0 2 2 2 2 2 2 2 2 2 2 1 1 3 4 3 3 4 3 3 3

1,00

2

1 1 1

1 1

1 1

0,00

Graficul con ine media de beri băute pe vîrste. Informa ia prea detaliată şi incertitudinea numărului de cazuri pe categorii fac graficul foarte greu de citit. Recodarea vîrstei pe categorii mai mari duce la următorul rezultat, mult mai citibil:

78,00 76,00 73,00 70,00 63,00 61,00 59,00 57,00 55,00 53,00 51,00 49,00 47,00 45,00 43,00 41,00 39,00 37,00 35,00 33,00 31,00 29,00 27,00 25,00 23,00 21,00 19,00 17,00 15,00 13,00

8. Varsta:

2,50

2,00

1. Cate beri ati baut?

1,50

1,00

0,50

0,00 pana la 20 21 - 35 36 - 50 51 - 65 peste 65

Varsta pe categorii

99

Rela ia existentă dintre vîrstă şi consumul de bere la festival devine astfel mult mai clară şi poate produce o ipoteză statistică care merită verificată. Evident graficul nu trebuie însă considerat ca fiind suficient pentru a trage concluzia “la festivalul berii, cu cît un vizitator e mai bătrîn bea mai pu ină bere”. Această ipoteză merită însă testată. Pentru o declara ie de genul “tinerii beau mai multă bere decît bătrînii” nu există oricum nici o bază. Nu trebuie nici o clipă uitat că studiul s-a ocupat de festivalul berii, într-un an dat, în condi ii meteo aşa cum au fost, cu muzica aşa cum a fost, şi aşa mai departe. Toate aceste condi ii de mediu fac total imposibilă generalizarea la un consum de bere sau chiar alcool în condi ii nespecificate. Cea de a doua observa ie, cea legată de ordinea implicită sau explicită a categoriilor reprezentate necesită de asemenea o anumită aten ie. Bineîn eles, dacă variabila de pe axa x, cea considerată categorială, este o variabilă ordinală sau chiar intervalică sau ra ională, trebuie să fim aten i ca ordinea reprezentată a categoriilor să corespundă ordinii matematice a acestora. Dacă însă variabila categorială nu are o anume ordine, este o variabilă nominală reprezentarea devine problematică atunci cînd numărul de categorii e mare. La un număr mic de categorii tenta ia de a le privi ca o serie e mult mai mică. În fine, tot ce putem şi trebuie să facem în asemenea cazuri este să aten ionăm cititorul rezultatelor noastre, respectiv să nu ne lăsăm noi înşine prinşi în capcana automatismelor de gîndire. Să lăsăm acum berea şi să trecem şi la un alt tip de grafic de rela ionare cu bare. Cu ajutorul graficelor cu bare se poate reprezenta şi mai bine rela ia dintre două variabile, e drept poate ceva mai dificil citibil. Mă refer la grafice care suprapun bare cu dimensiuni propor ionale cu categoriile unor variabile definite de o altă variabilă. Să vedem însă cum arată aşa un grafic pentru a îl putea descrie mai bine.

100

250
19

25.1. Grupe de varsta
Intre 20 - 29 Intre 30 si 39 Intre 40 si 49 Intre 50 si 59
58

200

Peste 60

150
48

100
0 34

26

0

0

50

50

29

31 83 19 40 0 0

29

0 0

0

17 0

16

17

1 11

je ta co tri ra tu ul ic lv si ii ic rv t se an m ta va in rie st du in

co

co

to au

1. In ce domeniu ati lucrat inainte de a intra in somaj?

Graficul face parte dintr-o cercetare care a inclus un sondaj de opinie efectuat pe şomeri din mediul rural din Romania în 2005. În imagine avem rela ionarea dintre domeniul în care persoana a lucrat înainte de a intra în şomaj şi grupa de vîrstă. Valorile trecute pe grafic sunt valori absolute, adică exact numărul de persoane din fiecare categorie. Se vede nu numai cît de mare este o categorie a axei x, dar şi cum se distribuie ea pe grupele de vîrstă. Un astfel de graf se numeşte “stacked bar graph”, adică grafic de bare stivuite. O altă formă a barelor stivuite reprezintă distribu ia procentual, extinzînd fiecare categorie a axei x la 100% şi prezentînd subcategoriile definite de cea de a doua variabilă în procentaje. Graficul, care ar putea fi mai uşor de citit, obturează bineîn eles dimensiunea categoriilor. Totuşi aceasta poate fi intuită, prin afişarea procentajelor subcategoriilor din ansamblul eşantionului aşa cum se vede în exemplul de mai jos.

ric ag

ab nt

c tru ns

ra tu ul

e at ilit

tii

101

1,0

0,0%

0,0% 3,39%

0,0%

0,0%

0,0% 0,18%

0,0%

0,0%

25.1. Grupe de varsta
Intre 20 - 29 Intre 30 si 39

0,8

6,07%

0,54% 10,36% 5,54% 8,93%

Intre 40 si 49 Intre 50 si 59 Peste 60

0,6
2,86%

8,57% 3,04% 3,04% 2,14%

5,18%

0,4

4,64%

3,39%

1,96%

0,2
5,18%

7,14% 14,82% 2,86%

0,0

0,0%

0,0%

0,0%

je ta co tri ra tu ul vic sil ii ic rv t se an m ta va in rie st du e in at ilit ab nt co ii ct tru ns co

1. In ce domeniu ati lucrat inainte de a intra in somaj?

Am prezentat graficele de rela ionare cele mai uzuale, nu există însă restric ii, orice grafice corecte matematic se pot la o adică folosi. Vreau sa repet însă un comentariu pe care l-am făcut legat de graficele referitoare la o singură variabilă. Se zice că o imagine spune mai mult decît 1000 de cuvinte. Tot ce se poate, dar o imagine este şi mult mai pu in exactă decît cele 1000 de cuvinte, ca atare: prezenta i grafice, dar analiza i valorile care stau la baza acestora. b. Tabele de rela ionare, Teste de rela ionare Tabelele de rela ionare sunt de fapt tabelele care stau la baza graficelor stivuite. Astfel de tabele au fost gîndite ini ial pentru variabile categoriale, şi sînt practice într-adevăr numai pentru variabile cu un număr relativ mic de valori, de indiferent ce tip de variabilă. Iată în tabela de mai jos tocmai datele care stau la baza graficelor stivuite prezentate mai înainte.

to au ra tu ul ric ag

102

1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta Valori absolute
25.1. Grupe de varsta Intre 20 29 1. In ce domeniu ati lucrat inainte de a intra in somaj? agricultura auto constructii functionar Industrie invatamant servicii silvicultura tricotaje Total 29 0 83 0 16 17 11 40 0 196 Intre 30 si 39 29 0 26 0 19 0 3 50 12 139 Intre 40 si 49 34 16 48 1 31 0 1 0 0 131 Intre 50 si 59 0 0 58 17 0 0 0 0 0 75 Peste 60 0 0 19 0 0 0 0 0 0 19 Total 92 16 234 18 66 17 15 90 12 560

Tabela con ine numărul de cazuri care corespund fiecărei coresponden e a celor două variabile. Aşa cum se vede, o celulă e definită de categoriile pe rînduri şi coloane. Un exemplu va clarifica cel mai bine aceasta. Dacă dorim de exemplu să aflăm cî i din eşantion care au lucrat în construc ii înainte de a intra în şomaj sunt din categoria de vîrstă între 20 şi 29 de ani, vom căuta coloana aferentă acestei categorii de vîrstă apoi o vom parcurge pentru a găsi linia care con ine valorile celor ce au lucrat în construc ii. Valoarea din celula cu pricina este 83. Deci 83 de persoane din această subcategorie au fost intervievate în cadrul cercetării. Linia şi coloana de total sunt şi mai uşor de citit. Astfel ultima linie, cea marcată “Total” con ine numărul de intervieva i pe categoriile specificate în capetele de coloană. De exemplu, 196 de persoane pentru categoria “între 20 şi 29 ani”, 139 în categoria “între 30 şi 39 ani” şi aşa mai departe. Ultima coloană, marcată de asemenea “Total” con ine valorile aferente categoriilor definite în capetele de linii. De exemplu, pentru “construc ii” valoarea este 234. Volumul total al eşantionului se va găsi în col ul din dreapta jos al tabelului, la intersec ia liniei şi coloanei de total. În cazul cercetării din care am extras tabelul de mai sus s-au efectuat 560 de interviuri. O astfel de tabelă ne permite să comparăm uşor categoriile şi subcategoriile. Urmărind numai coloana şi linia de total putem spune astfel că “cei mai mul i şomeri au lucrat în domeniul construc iilor” şi “cei mai mul i şomeri sunt între 20 şi 29 de ani”. De asemenea putem spune că “numărul şomerilor scade pe măsură ce categoria de vîrstă e mai mare”. Dacă comparăm 103

diferitele coloane sau linii între ele mai putem face şi observa ii de forma “între 20 şi 39 de ani numărul şomerilor proveni i din silvicultură îl depăşeşte pe cel al celor ce provin din orice alt domeniu cu excep ia construc iilor”9 sau “în categoria de vîrstă între 50 si 59 de ani există şomeri proveni i din functionari, probabil din foste CAP-uri şi SMA-uri, o categorie care nu apare la alte grupe de vîrstă”. De asemenea putem stabili cea mai mare categorie, numită şi categorie modală, după indicatorul de tendin ă centrală pentru variabile nominale – modul care e valoarea care apare cel mai des într-o distribu ie. În exemplul nostru este tocmai cea a “şomerilor care au lucrat în construc ii şi au între 20 şi 29 de ani”. Toate observa iile de mai sus le-am bazat pe valorile absolute din tabel. Pentru a putea avea însă o bază de compara ie cel mai adesea tabelele de rela ionare con in procentaje pe rînduri şi coloane. Mai jos se află tabela recalculată con inînd aceste procentaje.
1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta
25.1. Grupe de varsta Intre 20 29 1. In ce domeniu ati lucrat inainte de a intra in somaj? auto agricultura Nr. % linie % coloană Nr. % linie % coloană constructii Nr. % linie % coloană functionar Nr. % linie % coloană industrie Nr. % linie % coloană invatamant Nr. % linie % coloană servicii Nr. % linie % coloană silvicultura Nr. % linie 29 31,5% 14,8% 0 ,0% ,0% 83 35,5% 42,3% 0 ,0% ,0% 16 24,2% 8,2% 17 100,0% 8,7% 11 73,3% 5,6% 40 44,4% Intre 30 si 39 29 31,5% 20,9% 0 ,0% ,0% 26 11,1% 18,7% 0 ,0% ,0% 19 28,8% 13,7% 0 ,0% ,0% 3 20,0% 2,2% 50 55,6% Intre 40 si 49 34 37,0% 26,0% 16 100,0% 12,2% 48 20,5% 36,6% 1 5,6% ,8% 31 47,0% 23,7% 0 ,0% ,0% 1 6,7% ,8% 0 ,0% Intre 50 si 59 0 ,0% ,0% 0 ,0% ,0% 58 24,8% 77,3% 17 94,4% 22,7% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% Peste 60 0 ,0% ,0% 0 ,0% ,0% 19 8,1% 100,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% 92 100,0% 16,4% 16 100,0% 2,9% 234 100,0% 41,8% 18 100,0% 3,2% 66 100,0% 11,8% 17 100,0% 3,0% 15 100,0% 2,7% 90 100,0% Total

9

Popula ia studiului a fost cea a şomerilor din mediul rural din Romania.

104

% coloană tricotaje Nr. % linie % coloană

20,4% 0 ,0% ,0%

36,0% 12 100,0% 8,6% 139 24,8% 100,0%

,0% 0 ,0% ,0% 131 23,4% 100,0%

,0% 0 ,0% ,0% 75 13,4% 100,0%

,0% 0 ,0% ,0% 19 3,4% 100,0%

16,1% 12 100,0% 2,1% 560 100,0% 100,0%

Total

Nr. % linie % coloană

196 35,0% 100,0%

Să vedem cum se citesc asemenea tabele. Primele indicii sînt pozi iile celulelor de 100% de pe ultima linie şi ultima coloană. Să căutăm aceiaşi celulă ca şi în exemplul cu valori absolute, “şomeri proveni i din domeniul construc iilor cu vîrste între 20 şi 29 de ani”. Găsim următoarea configura ie de celule:
Nr. % linie % coloană 83 35,5% 42,3%

Valoarea Nr. este desigur cea pe care am ştiut-o deja. Cele două procentaje de citesc astfel: • • 35,5% dintre şomerii care au lucrat în construc ii au între 20 şi 29 de ani. 42,3% dintre şomerii cu vîrste între 20 şi 29 de ani au lucrat în construc ii.

Acestă citire este cel mai uşor de re inut în rela ie cu pozi ia valorii de 100%. Dacă această valoare este pe linie, cum e în cazul “% linie”, evident procentajul e o parte din categoria ce apare pe linie. Şi anume partea care e definită de către coloana în care apare valoarea. Valoarea de pe linie este “construc ii”. Deci e vorba de 35,5% dintre cei care au lucrat în construc ii. Ei bine, ce e cu ei? Ei fac parte din categoria care e definită pe coloană, adică au între 20 şi 29 de ani. Procentaje fac categoriile comparabile. Abia prin compararea procentajelor se poate spune ce e mult şi ce e pu in în rezultatele statistice ale unui sondaj. Pe de altă parte, procentajele pot induce în eroare dacă sunt calculate pentru categorii foarte mici. Să privim şi un alt tabel de rela ionare. Tabelul provine dintr-o cercetare efectuată pe popula ia intreprinderilor mici şi mijlocii din mediul rural din Romania în 2005. În tabel găsim rela ia dintre nivelul de pregătire şi genul patronilor de IMM-uri din mediul rural.
Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? * Genul

105

Genul masculin Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? Fara pregatire scolara Nr. % linie % coloana Scoala primara Nr. % linie % coloana Scoala generala Nr. % linie % coloana Scoala profesionala / Liceu Nr. % linie % coloana Colegiu / Universitate Nr. % linie % coloana Studii post-universitare Nr. % linie % coloana Total Nr. % linie % coloana 4 100,0% ,6% 7 100,0% 1,1% 16 64,0% 2,6% 298 60,6% 48,0% 251 54,7% 40,4% 45 42,5% 7,2% 621 56,8% 100,0% feminin 0 ,0% ,0% 0 ,0% ,0% 9 36,0% 1,9% 194 39,4% 41,1% 208 45,3% 44,1% 61 57,5% 12,9% 472 43,2% 100,0% Total 4 100,0% ,4% 7 100,0% ,6% 25 100,0% 2,3% 492 100,0% 45,0% 459 100,0% 42,0% 106 100,0% 9,7% 1093 100,0% 100,0%

Un exemplu de citire al tabelului ar fi cam aşa: “Majoritatea patronilor de IMM-uri din mediul rural sînt bărba i, aceştia reprezentînd 56,8% din total. Există totuşi o categorie educa ională, a celor cu studii post-universitare, unde femeile sunt preponderente, reprezentînd 57,5%”. Să vedem cum am găsit valorile din fragmentul de interpretare al tabelului. Am prezentat linia de total, apoi am găsit că una singură dintre categorii prezintă o altă distribu ie a genurilor decît aceasta. Am ales deci pentru raportare “% linie” pentru categorie “Studii postuniversitare” şi am prezentat în text una dintre valori, cealaltă e bineîn eles complementară fa ă de 100% fiimd vorba de distribu ia genurilor. Tot aceiaşi rela ie linie / coloană se putea citi şi astfel: “Din ansamblul patronilor de IMM-uri intervieva i 9,7% au studii post106

universitare, categoria aceasta este însă suprareprezentată printre femeile patroni, unde reprezintă 12,9% fa ă de numai 7,2% dintre bărba ii patroni.” Pentru această prezentare am folosit procentajele de pe coloane pentru total, femei şi bărba i aferente categoriei “Studii post-universitare”. Mai jos, fragmentul de tabelă cu datele:
Nr. % linie % coloana 45 42,5% 7,2% 61 57,5% 12,9% 106 100,0% 9,7%

Pentru cine e curios cum de se poate aşa ceva, şi ce caută oricum aşa mul i patroni cu studii post-universitare, iată pe scurt explica ia. În mediul rural sînt pu ine firme, ca atare dintre acestea cabinetele medicale şi farmaciile au o pondere relativ mare. Medicii şi farmaciştii au adesea studii post-universitare, reziden iate, specializări, şi alte cursuri. De asemenea aceste profesii includ un număr mare de femei, chiar o preponderen ă a femeilor, în special la nivelul mediciilor de familie. Ca o regulă simplă dar nu obligatorie, analiza unui tabel se face în următorii paşi: • Primele informa ii pe care le dăm de obicei despre un tabel se referă la linia şi/sau coloana de total. • • Apoi dăm valorile modale, celulele care con in cele mai multe cazuri. Urmează categoriile distribuite altfel decît cele de total. Acestea se prezintă comparativ cu coloana sau linia de total. • În fine, dacă dorim, putem face compara ii între linii sau coloane alese.

Aşa cum am făcut şi în exemplu, cînd prezentăm distribu ia pe o anumită linie sau coloană trebuie să o comparăm cu distribu ia pe linia, respectiv coloana de total. Altfel pă im ca acela care aflînd că 80% dintre cei răni i în accidente de circula ie nu au cartea de identitate la ei, a hotărît să îşi ia întotdeuna cartea de identitate cu el. A socotit el că are de 4 ori mai pu ine şanse să fie rănit într-un accident! Ce a greşit individul de fapt? Păi nu a luat în seamă că avea de a face cu două variabile: rănit în accident sau nu, cu cartea de identitate la el sau nu. Numai dacă am ştii cî i dintre to i participan ii la trafic au cartea de identitate la ei, adică distribu ia de total, am putea trage o concluzie, comparînd cu datele din categoria “accidentat”. Am putea atunci descoperi prin compara ie dacă persoanele care nu au acte de identitate la ei au un profil care îi predispune la a deveni victimele unul accidente. Şi bineîn eles nici atunci decizia de nu lua actele la el nu îi foloseşte la nimic şi asta pentru că posesia actului de 107

identitate şi accidentarea sînt evenimente totuşi independente. Modificînd unul dintre ele de fapt nu îl influen ăm pe celălalt. S-ar putea însă amîndouă să fie efecte ale unor caracteristici comportamentale comune. S-ar putea să fie. Sau nu. Încă două reguli, de astă dată aproape obligatorii, dacă nu vre i să fi i acuza i de ageamie statistică. Nici o dată nu raporta i într-un sondaj procentaje cu mai mult decît o zecimală. Şi aşa valorile sunt supuse unor erori, prezentînd mai multe zecimale da i impresia că ave i nişte informa ii mai exacte sau nu în elege i sensul statistic al rezultatelor. De fapt, mai bine ar fi să nu se raporteze nici o zecimală. Totuşi cutuma de a raporta o zecimală există pentru că rotunjirea sau trunchierea poate obtura o valoare de 0,5 ceea ce e deja destul de mult. A doua regulă: nu prezenta i procentaje acolo unde numărul cazurilor e mic. De exemplu, în cercetarea din care provine tabelul de mai sus s-au nimerit doar patru patroni de IMM-uri care au declarat că nu au nici o pregătire şcolară. Faptul că to i aceştia sînt bărba i nu este relevant şi nu e cazul să ascundem numărul mic scriind ceva de genul “100% dintre patronii de IMM fără pregătire şcolară sînt bărba i”. Toate observa iile pe care le-am făcut pe baza tabelelor au un caracter de ipoteze. Ele nu sunt confirmate în relevan a lor statistică. Aceasta însă se poate face. Există o serie de teste de rela ionare care sunt specifice diferitelor tipuri de variabile şi care verifică în general ipoteze de dependen ă. Astfel de ipoteze au forma generală “valorile variabilei 1 sînt independente de valorile variabilei 2”. Dacă reuşim să respingem această ipoteză avem bune motive să considerăm variabilele ca fiind rela ionate, dependente una de alta. De obicei putem face chiar mai mult. Putem, pe baza rezultatelor de test să spunem cam cît de “tare” este această rela ie. Pentru a ajunge însă acolo cred că ar merita să vorbesc pu in despre conceptul de “independen ă” statistică. Am pomenit de cîteva ori pe parcursul acestei căr i despre independen ă. Am vorbit despre independen ă în special cînd am vorbit despre eşantionare, dar a trebuit să men ionăm conceptul şi cînd am comentat istoria statisticii şi principalele legi statistice. De asemenea, vreau să elimin o confuzie din capul locului, conceptul de variabilă independentă în rela ia cu o variabilă dependentă se referă la o rela ie unde nu există “independen ă” între variabile. Variabilele se influen ează între ele, şi care este cea pe care o considerăm independentă şi care dependentă ine de construc ia modelului, adică de partea ne-

108

statistică din teorie. Denumirile de “independen ă” sînt întîmplător aceleaşi, conceptele nu au nici o legătură. Ce e deci “independen a” evenimentelor aleatoare? Fie prima dată o defini ie simplă din teoria probabilită ilor apoi o voi comenta. Un eveniment este independent de un altul dacă probabilitatea ca evenimentul să aibă loc nu se schimbă dacă are loc sau nu cel de-al doilea eveniment. Să începem comentariul iar cu prietenul nostru care umblă fără acte la el. După ce a aflat că probabilitatea ca pe avion să fie o bombă este de 1 la 10.000 iar probabilitatea ca pe avion să fie două bombe e 1 la 100.000.000 a hotărît să plece el cu o bombă în concediu. În exemplul de mai sus avem un eveniment repetat: o bombă pe avion. Probabilitatea de a avea două bombe se calculează atunci aşa: p2 = p1 * p1 unde p1 este probabilitatea de a avea o bombă pe avion, deci p2 = 1/10.000 * 1/10.000 = 1/100.000.000 Această regulă de înmul ire este regula de compunere a probabilită ii evenimentelor independente. Adică dacă existen a unei bombe este independentă de existen a celei de a doua bombe, deci nici unul din terorişti nu ştie de celălalt atunci probabilitatea de a avea două bombe pe avion e produsul probabilită ilor celor două evenimente luate separat. Dacă tot am început, ce a greşit din nou amicul nostru? Păi dacă a luat cu el o bombă probabilitatea ca aceasta să fie pe avion este 1, evident dacă trece prin verificare, dar dacă e găsită, oricum nici omul nu ajunge pe avion ci în altă parte. Atunci însă probabilitatea de a avea două bombe devine aceiaşi cu probabilitatea de a avea o bombă pe avion. p’2 = p1 * 1 = p1

109

Regula de înmul ire a probabilită ilor este valabilă la compunerea unor evenimente independente. Regula generală e pu in mai complicată. Fie două evenimente A şi B, atunci probabilitatea ca ele să aibă loc de o dată este: P(A şi B) = P(A) * P(B | A) Unde P(B | A) este probabilitatea evenimentului B condi ionat de A, adică probabilitatea să aibă loc B dacă are loc şi A. Evident, dacă A şi B sînt independente, adică nu se influen ează reciproc atunci P(B | A) = P(B) adică probabilitatea că să aibă loc B nu se schimbă dacă are, sau nu are, loc A. Conceptul pe care l-am descris mai sus este cel de independen ă a evenimentelor probabiliste. În testele statistice lucrurile nu stau însă aşa de simplu şi aşa de transparent. Variabilele statistice culese empiric nu prezintă nici o dată o independen ă atît de perfectă ca variabilele teoretice din probabilită i. Datele pe care le culegem sînt întotdeuna dependente de o grămadă de factori care mai de care mai greu de prevăzut. În fine, rezultatul este că orice este legat de orice în mai mare sau mai mică măsură. Testul trebuie să determine dacă legătura poate fi considerată întîmplătoare, un zgomot sau factor de eroare, sau este esen ială şi necesită explica ii teoretice. Principiul de bază al acestei verificări este în majoritatea cazurilor unul care se poate în elege cel mai bine prin conceptul de tabelă de rela ionare. Faptul că două variabile sînt independente înseamnă de fapt că modificarea uneia nu afectează modificarea celei de a doua. Asta înseamnă că în tabela care le rela ionează faptul că o variabilă se distribuie într-un fel nu poate avea efect pe felul cum se distribuie cealaltă variabilă. Şi de aici decurge faptul că rîndurile, respectiv coloanele aferente diferitelor categorii ale uneia din variabile sunt propor ionale, sau pentru că trebuie să gîndim statistic, nu se abat prea mult de la propor ionalitate. Deci independen a statistică a două variabile se testează de fapt tot prin testarea egalită ii între nişte propor ii, anume propor iile determinate de apartenen a la categoriile unei variabile pe distribu ia celeilalte variabile. O să dau un exemplu teoretic pentru că mi se pare mai simplu: Fie variabila x cu categoriile x1 şi x2 şi variabila y cu categoriile y1 şi y2. O tabelă de rela ionare ar arăta cam aşa:
x

110

x1 y y1 y2 total C11 C21 Ct1

x2 C12 C22 Ct2

total C1t C2t Ctt

În tabel C11 este numărul de indivizi care au valoarea x1 la variabila x şi valoarea y1 la variabila y. C1t este numărul total de indivizi care au valoarea 1 la variabila y şi orice valoare la variabila x şi aşa mai departe. Faptul că x şi y sînt independente ar însemna, cum am spus că distribu ia lui x nu o influen ează pe cea a lui y, deci ipoteza de independen ă se traduce astfel: C11 / C12 = C21 / C22 = Ct1 / Ct2 sau C11 / C21 = C12 / C22 = C1t / C2t Testele care au fost dezvoltate pentru aceste ipoteze depind de tipul variabilelor. Aşa cum am formulat ipoteza mai sus ea e posibilă pentru orice tip de variabilă, dar metodele calculatorii permit o mai mare complexitate şi rezultate mai diferen iate pe măsură ce tipul de variabilă este mai numeric (iertată-mi fie folosirea abuzivă a comparativului, dar sper că se în elege ce vreau să spun). Principalele teste care verifică significan a rela ionării dintre două variabile depind de tipul acestora: Pentru variabile nominale: Testele Phi şi Cramer, coeficientul de contingen ă Pentru variabile ordinale: Testele Gamma şi Kendall, Coeficien ii de corela ie ρ (rho) al lui Spearman şi τ (tau) al lui Kendall. • Pentru variabile intervalice şi ra ionale: Testele Eta, Coeficientul de corela ie r al lui Pearson, dar şi ρ al lui Spearman şi τ al lui Kendall. • Pentru orice tip de variabilă: Coeficientul χ2 (Chi2) al lui Pearson.

• •

111

Cei mai importan i dintre cei de mai sus sînt coeficien ii de corela ie şi coeficientul χ 2. Următoarea sec iune ne vom preocupa de coeficien ii de corela ie, iar apoi în capitolul viitor vom discuta mai pe larg coeficientul χ 2. Cît despre celelalte teste, următoarea regulă simplă facilitează citirea rezultatelor acestora. Orice program de statistică care calculează astfel de teste le raportează împreună cu un rezultat de significan ă care este o valoare cu atît mai bună cu cît e mai aproape de 0. Practic trebuie să citim acest rezultat care este de obicei notat Sig sau S sau chiar “significance” sau ceva similar. Acest rezultat este probabilitatea de a face o eroare de tip I, adică să respingem ipoteza de independen ă în condi iile în care aceasta este adevărată. Mai simplu spus cu cît significan a testului e mai aproape de 0, ipoteza de independen ă se poate respinge mai sigur. Există aici o problemă care nu trebuie însă neglijată. Testele de rela ionare pot fi influen ate dispropor ioat de mult de diferen e pe anumite categorii. Aceasta se întîmplă în special cînd eşantionul e suficient de mare dar variabilele testate au un număr mare de categorii. În acest caz o diferen ă pe o anumită categorie poate duce la respingerea unei ipoteze care este adevărată. E o situa ie în care o rela ie dintre cele două variabile face ca rapoartele din ipoteză să fie aproape egale cu excep ia unuia care însă se abate mult de la celelalte. Rămîne în asemenea cazuri de obicei să continuăm testarea şi prelucrarea eventual separînd una dintre cele două variabile în două astfel încît valoarea care se abate de la regulă să fie modelată de către o variabilă de sine stătătoare, numită de regulă variabilă filtru. c. Corela ia simplă şi par ială Corela ia Pearson Corela ia Pearson este o metodă de testare a rela iei dintre două variabile ra ionale sau intervalice. Din păcate se foloseşte uneori în mod abuziv şi la variabile ordinale. Coeficientul de corela ie este o valoare numerică care indică gradul de dependen ă şi direc ia dependen ei între două variabile statistice. Deşi în general identificată cu matematicianul britanic Karl Pearson care a analizat şi descris metoda pe larg, coeficientul a fost prima dată introdus de către Francis Galton, un statistician (şi nu numai) britanic dintr-o genera ie anterioară.

112

Dat fiind două variabile x şi y, valorile pe care le iau acestea pentru un individ i, xi şi yi, coeficientul de corela ie rxy “al lui Pearson” se calculează astfel:

Formula nu e foarte simplă, există însă bineîn eles tot felul de programe pe calculator care ştiu să o calculeze astfel încît bătaia noastră de cap nu este să înmul im şi să ridicăm la pătrat ci să interpretăm rezultatele. Există însă şi cîteva precondi ii ale utilizării coeficientului de corela ie care sînt foarte importante: • Cele două variabile care se rela ionează trebuie să fie ra ionale şi distribuite normal, dacă aceasta nu e cazul trebuie folosit un alt indicator de rela ionare, de ex. Chi2 • Cele două variabile aleatoare trebuie să aibă dispersii finite şi nenule. Această condi ie e relativ slabă fiind considerată practic îndeplinită întotdeuna. • Coeficientul de corela ie verifică numai rela ii liniare între variabile. Două variabile aflate într-o rela ie neliniară, de exemplu x = sin y, deşi se determină complet una pe alta, vor ieşi ca fiind necorelate. Să vedem însă ce valori dă coeficientul de corela ie şi cum se interpretează acestea: Intervalul de valori al coeficientului de corela ie este (-1, +1). rxy = -1 rxy între -1 şi -0,7 rxy între -0,7 şi -0,3 rxy între -0,3 şi 0 rxy = 0 rxy între 0 şi 0,3 rxy între 0,3 şi 0,7 rxy între 0,7 şi 1 rxy = 1 determinare complet negativă. Atunci cînd x creşte, y scade. corela ie negativă puternică. corela ie negativă medie corela ie negativă slabă înseamnă că cele două variabile nu sunt rela ionate corela ie pozitivă slabă corela ie pozitivă medie corela ie pozitivă puternică determinare completă pozitivă 113

Criteriile din tabelul de mai sus sînt cele care se folosesc de regulă în sociologie. În psihologie se preferă adesea intervale mai apropiate de origine, o corela ie fiind considerată puternică chiar de la un coeficient de 0,5 în sus. Oricum trebuie observat că intervalele sînt în mare măsură arbitrare şi trebuie privite mai mult ca nişte indica ii decît ca regulă. În practica de cercetare e mai bine să se analizeze corela iile comparativ cu ansamblul valorilor de corelare din cadrul cercetării. Aceasta este adevărat şi referitor la indicatorii de regresie care au o semnifica ie înrudită cu coeficien ii de corela ie. Un exemplu de interpretare cred că este oricum necesar. În tabelul de mai jos se găseşte corela ia dintre vîrstă patronilor de IMM-uri din Transilvania şi cifra de afaceri a firmei, conform unei alte cercetări efectuate în 2006:

12. Care a fost cifra de afaceri a firmei in 2005? 12. Care a fost cifra de afaceri a firmei in 2005? Corela ia Pearson Significan ă (bilaterală) N 48. Ce varsta aveti? Corela ia Pearson Significan ă (bilaterală) N 539 ,096(*) ,028 530 1

48. Ce varsta aveti? ,096(*) ,028 530 1

980

* Corelatia este significantă cu nivelul de 0,05 (bilateral).

Tabelul prezintă valorile coeficientului de corela ie, significan a acestuia şi numărul de valori utilizate pentru calcul. Prima observa ie ce trebuie făcută în cazul acestui tabel e discrepan a mare în număr de răspunsuri la întrebări. Astfel, se vede că la întrebarea “12. Care a fost cifra de afaceri a firmei in 2005?” au răspuns 539 persoane, iar la întrebarea “48. Ce vîrstă ave i?” au răspuns 980 de persoane. Pentru corela ie s-au putut folosi 530 de cazuri, cei ce au răspuns la ambele întrebări. De altfel, eşantionul final a avut exact 1000 de persoane. Faptul că pu in peste jumătate au răspuns numai la întrebarea 12. poate duce la bănuiala unei selec ii defazate. Adică, cei ce au răspuns la întrebare au ceva aparte, o caracteristică diferen iatoare fa ă de cei care nu au răspuns. Chiar şi aşa, putem testa dacă pentru ei există o legătură cu între vîrstă şi cifra de afaceri a firmei. Valoarea coeficientului de corela ie este 114

0,096 deci o valoare foarte mică. Aceasta înseamnă că putem linişti i considera că cifra de afaceri a firmei şi vîrsta patronului nu au o legătură statistică. Bine, bine, dar ce ne facem cu significan a? Am spus doar că aceasta este probabilitatea de a face o eroare de tip I. Adică de a respinge o ipoteză de independen ă adevărată. Şi în cazul de mai sus significan a este sub 0,05 deci şansa ca să respingem o ipoteză adevărată e foarte mică. Ca să în elegem corect cele două valori trebuie să separăm două concepte: Cît de tare sînt rela ionate cele două variabile? respectiv Cît de siguri putem fi de această rela ionare? Coeficientul de corela ie ne răspunde la prima dintre aceste întrebări, significan a lui la cea de a doua. Să mai luăm un exemplu din aceiaşi cercetare, rela ia dintre cifra de afaceri şi profitul net al firmei:

12. Care a fost cifra de afaceri a firmei in 2005? 12. Care a fost cifra de afaceri a firmei in 2005? Corela ia Pearson Significan ă (bilaterală) N 13. Care a fost profitul net al firmei in 2005? Corela ia Pearson Significan ă (bilaterală) N 539 0,045 0,394 368 1

13. Care a fost profitul net al firmei in 2005? ,045 ,394 368 1

399

Din tabela de sus se vede că nici între cifra de afaceri şi profitul net al IMM-urilor nu există o corela ie, dar că nici significan a nu e prea grozavă. Deci şansa de a face o eroare de tip I, adică de a respinge o ipoteză adevărată este mare, de vreo 40%. Asta înseamnă că în primul caz putem spune că există o corela ie foarte slabă între cele două variabile, pe cînd în acest al doilea caz nu putem respinge ipoteza de independen ă a variabilelor. Există în practică vreo diferen ă între aceste două interpretări? Da şi nu. Ambele ne încurajează să considerăm variabilele ca fiind în mare măsură independente. Dacă însă significan a e bună, adică apropiată de 0, avem o mai mare încredere în rezultat, rezultatul e mai sigur. Al i coeficien i de corela ie Am văzut mai înainte că coeficientul de corela ie al lui Pearson presupune variabile ra ionale sau intervalice. Există însă şi coeficien i care permit rela ionarea de variabile ordinale. Cei 115

mai uzuali sînt coeficientul ρ (rho) al lui Spearman şi coeficien ii τ (tau) ai lui Kendall, din care există trei variante a, b şi c. Aceşti coeficien i nu fac presupuneri asupra distribu iei datelor, aşa că pot fi folosi i nu numai atunci cînd datele nu sînt intervalice sau ra ionale ci şi atunci cînd, deşi sînt intervalice sau ra ionale, ele nu sînt distribuite normal sau rela ia dintre ele nu este liniară. Ne vom ocupa acum numai de coeficientul ρ al lui Spearman, numit şi coeficientul de ordine de rang (rank-order), care are avantajul de a avea o formă şi ca atare şi o interpretare foarte asemănătoare cu coeficientul r al lui Pearson. Să vedem formula prima dată, deşi şi în acest caz este foarte pu in probabil să o calculăm de mînă:

În formulă n este numărul de perechi pentru care se calculează corela ia. d este diferen a dintre rangul lui x şi rangul lui y pentru cîte o pereche. Rangul este pozi ia pe care o are o valoare x sau y în lista ordonată a tuturor valorilor culese. De fapt, coeficientul lui Spearman este exact coeficientul lui Pearson la care valorile variabilei sînt înlocuite cu rangurile lor. Aşa se elimină problema caracterului lor nenumeric şi se foloseşte numai faptul că sînt ordonate. Rangurile elimină problema diferen ei inegale între valorile ordonate consecutiv ale variabilelor ordinale. Deoarece am văzut că metoda de calcul poate fi interpretată ca un coeficient de tip Pearson al rangurilor şi interpretarea valorilor rezultate din calcul se face la fel. Să vedem deci un exemplu. În tabelul de mai jos avem corela ia dintre “viteza” de acomodare cu locul de muncă şi gradul de satisfac ie cu acesta la un grup de absolven i ai sec iei de informatică a Universită ii de Vest din Timişoara. Ambele variabile sînt ordinale. Deşi numărul de cazuri e mic se observă o corela ie cu o significan ă foarte bună. Ipoteza de independen ă dintre cele două variabile se poate respinge cu o certitudine mai mare de 99%. Nivelul de corela ie nu este însă foarte puternic, valoarea coeficientului fiind 0,509. Cît de mare este de fapt această valoare ar trebui determinat prin compara ie cu al i coeficien i de corela ie din acelaşi studiu.

116

Cât de repede s-a acomodat cu jobul (1,…,5) Spearman-Rho Cât de repede s-a acomodat cu jobul (1,…,5) Este satisfacut de jobul actual? Coeficient Sig. (bilateral) N Coeficient Sig. (bilateral) N ** Corelatia este significanta cu nivelul de 0,01 (bilateral). 1,000 . 54 ,509(**) ,000 54 Este satisfacut de jobul actual? ,509(**) ,000 54 1,000 . 54

Corela ia par ială O problemă importantă a coeficien ilor de corela ie aşa cum i-am prezentat pînă acum este influen a pe care o pot avea alte variabile asupra rela iei studiate. Din cele văzute pînă acum nu am putut aplica principiul ceteris paribus. Adică nu am putut studia efectul unei variabile asupra alteia păstrînd factorii de mediu constan i. Corela ia par ială este o metodă de a studia rela ia dintre două variabile controlînd efectul unei de a treia. Ca de obicei, devine mai uşor de în eles cu un exemplu. Mă voi folosi de un sondaj de opinie făcut în jude ul Arad, atît în mediul rural cît şi urban, pentru a studia consumul cultural. În următorul tabel apare corela ia (Pearson) dintre numărul de căr i cumpărate anual şi vîrstă:
Q15. În medie, câte carti cumparati I2. vârsta: Corela ie Pearson I2. vârsta: Coeficient Sig. (bilateral) N Q15. În medie, câte carti cumparati pe an? Coeficient Sig. (bilateral) N 1,000 . 594 -,212(**) ,000 594 pe an? -,212(**) ,000 594 1,000 . 595

** Corelatia este significanta cu nivelul de 0,01 (bilateral).

Corela ia dă un rezultat cît se poate de clar: cu cît vîrsta e mai mică numărul de căr i cumpărate anual e mai mare. Analizînd valorile din tabelă găsim o corela ie negativă, de 117

putere mică, dar significan ă foarte bună. Întrebarea pe care putem să ne-o punem în acest caz este însă dacă efectul e dat chiar de vîrstă sau există variabile mediatoare în acest lan cauzal. Fiind vorba de o temă de consum cultural este normal să studiem care e de fapt influen a nivelului de pregătire, variabila care are de regulă efectul cel mai mare asupra consumului cultural.
Q15. În medie, câte Variabile de control I2. vârsta: I4. nivel de pregatire: I2. vârsta: Corelatie Sig. (bilateral) Grade de libertate Q15. În medie, câte carti cumparati pe an? Corelatie Sig. (bilateral) Grade de libertate 1,000 . 0 -,087 ,034 591 carti cumparati pe an? -,087 ,034 591 1,000 . 0

Într-adevăr controlînd efectul nivelului de pregătire, efectul vîrstei se diminuează de la o corela ie de peste -0,2 se ajunge la un nivel de sub -0,1. Deci efectul sesizat al vîrstei nu este independent de nivelul de pregătire. Faptul că significan a a rămas bună ne asigură importan a rezultatului. Tinerii avînd în general mai multă educa ie decît vîrstnicii, efect al expansiunii învă ămîntului în ultimele două decenii, ajung să şi cumpere mai multe căr i. Pe de altă parte discrepan a dintre rezultate nu este atît de mare încît să nu putem totuşi spune că tinere ea are un efect, foarte mic dar semnificativ, asupra cumpăratului de căr i chiar în condi iile controlării nivelului de pregătire. Am analizat corela iile par iale după aceiaşi metodologie pe care o folosim şi pentru corela iile simple, fie ele Pearson sau Spearman. Şi e corect aşa. Corela iile par iale sînt corela ii de tip Pearson, aceasta înseamnă că ele verifică de regulă rela ii liniare între variabile intervalice sau ra ionale (în general variabile cantitative) distribuite normal. De aici provine o premisă importantă, corela ia par ială trebuie analizată în rela ie cu corela ia Pearson şi nu cu alte forme de corela ii. Ca atare, în exemplu am for at un pic metoda. Şi anume, am folosit o variabilă de control ordinală. Celelalte două variabile în cauză sînt ra ionale şi se pot presupune a fi distribuite mai mult sau mai pu in normal. Verificarea normalită ii se poate face de fapt cu un test, testul 118

Kolmogorow-Smirnow, dar de regulă nu este necesară pentru a accepta rezultatele unei analize corela ionale. Variabila de control are însă un cu totul alt rol în felul în care se calculează corela ia par ială. Corela ia par ială nu este o “corela ie de trei variabile”. Utilizarea variabilelor ordinale pe post de variabile de control, deşi nu întru totul corectă este foarte des făcută şi de fapt acceptabilă. d. Regresia liniară simplă şi multiplă Analiza de regresie este o metodă statistică considerată în general a fi ceva mai avansată. Şi aceasta, în special pentru că presupune o serie de condi ii ce se impun datelor. În sine metoda este destul de uşor de aplicat şi de analizat fiind practic un pas mai departe în ordinea lucrurilor pornind de la corela ia Pearson. Regresia liniară analizează de asemenea rela ii liniare între variabile cantitative distribuite normal, dar pe lîngă puterea rela iei încearcă să traseze de fapt chiar forma acesteia. Modelul regresiei liniare presupune existen a unei rela ii de cauzalitate între o variabilă aşa-zis dependentă şi una, sau mai multe, variabile independente care o influen ează pe cea dependentă. Metoda încearcă să găsească cît de mult determină modificarea unei variabile modificarea celeilalte şi cît din modificarea unei variabile e explicabilă prin modificarea celeilalte. Pentru a ne apropia cît mai corect de problema ce şi-o pune analiza de regresie, cel mai bine ar fi să luăm un set de date şi să urmăm pas cu pas construirea regresiei liniare. Vom exemplifica bineîn eles pentru început întregul demers pentru regresia liniară simplă, adică cu o singură variabilă independentă. Vom folosi o rela ie cît se poate de clară, cea dintre numărul de studen i la 10.000 de locuitori şi produsul intern brut pe cap de locuitor. Datele provin din diferi i ani (de fapt anii 1950 - 2000) din aproape toate ările europene (25 de ări) şi au fost colectate pentru un studiu bazat tocmai pe diverse tipuri de ecua ii de regresie (Reisz, Stock, 2006). Primul pas într-o analiză de regresie, numit uneori excesiv de preten ios şi “metoda grafică” este reprezentarea rela iei dintre cele două variabile ca un nor de puncte şi încercarea de a construi ipoteze pe baza efectului pur vizual. Graficul de mai jos este acest “nor de puncte” pentru cazul nostru.

119

600,00

500,00

400,00

studper10000

300,00

200,00

100,00

0,00 0 5000 10000 15000 20000 25000 30000

GDP

Ce putem observa este că valori mai mari ale numărului de studen i la 10.000 locuitori par a se asocia cu valori mai mari ale produsului intern pe cap de locuitor. Asocierea se poate presupune a fi oarecum liniară. Graficul e dominat de un grup compact de puncte care se grupează asemănător cu o linie. Pe lîngă acest grup există însă şi multe puncte care se prezintă oarecum disparat de rest. Rolul modelului de regresie este să descrie matematic linia principală şi să determine cam cît din rela ie dintre cele două variabile se regăseşte în aceasta şi cît e de fapt cuprins în cazurile “excep ionale”. Altfel, metoda încearcă să determine cît e regularitate liniară în rela ia dintre cele două variabile. Ideea e de a trasa o dreapta pe graficul de puncte de mai sus astfel încît ea să fie cît mai apropiată de toate punctele reprezentate. Această apropiere de “toate” punctele e tocmai problema majoră pe care o ridică regresia.

120

500,00

studper10000

400,00

300,00

200,00

100,00

0,00 5000 10000 15000 20000 25000

GDP
În graficul de mai sus apare acelaşi nor de puncte, de astă dată cu o linie trasată pe pozi ia dreptei de regresie. Ca orice dreaptă şi aceasta are o ecua ie de forma următoare: S = b0 + b1 * GDP GDP e desigur valoarea x a dreptei, iar S este valoarea de pe axa y pentru dreaptă. Valoarea S se doreşte să fie un fel de aproximare a valorii studper10000. Este o aproximare pentru ca aşa cum spuneam, S se determină astfel încit să fie cît mai aproape de punctele norului. Desigur punctele de pe dreaptă aferente valorilor variabilei GDP nu au cum sa fie egale cu punctele potrivite cu valorile Studper10000. Dacă ar fi egale, ar ieşi tocmai norul de puncte şi nu o dreaptă. Fiecare din punctele din nor diferă de punctele de pe dreaptă printr-o abatere. Deci Studper10000 – S = abatere, adică, înlocuind formula dreptei care determină S avem Studper10000 – (b0 + b1 * GDP) = abatere 121

Studper10000 = b0 + b1 * GDP + abatere Dat fiind că ecua ia de mai sus trebuie să fie satisfăcută pentru toate valorile măsurate ea se traduce de fapt într-un număr atît de mare de ecua ii cîte perechi de măsurători există. Dacă notăm cu indici i aceste perechi rezultă formula: Studper10000i = b0 + b1 * GDPi + abaterei Această ultimă formă este ceea ce în general numim ecua ia de regresie. În această ecua ie Studper10000, GDP şi abatere sînt variabile aleatoare, iar b0 şi b1 pur şi simplu numere, adică aşa-numite valori scalare. Studper10000 se numeşte de obicei variabilă intă sau variabilă dependentă, GDP este pe pozi ia numită regresor, variabilă explicativă sau independentă. Modelul presupune de fapt că variabila independentă se repercutează cauzal asupra variabilei dependente şi felul cum ea o cauzează pe aceasta este unul modelabil liniar, adică în practică, apropiat de o linie. Abaterea se mai numeşte uneori şi reziduu sau eroare. În cazul unei cercetări, valorile variabilelor, atît cea dependentă cît şi cea independentă sînt cunoscute. Ele rezultă din măsurători, indiferent de ce tip ar fi acestea. Ceea ce trebuie calculat sînt coeficien ii ecua iei, adică coeficien ii dreptei de regresie, valorile b0 şi b1. Coeficien ii aceştia trebuie găsi i în aşa fel încît abaterea să fie cît mai mică. Abaterea care se minimizează trebuie să se refere la toate punctele. De aceea prima idee ar fi să minimizăm suma tuturor abaterilor. Ştim deja că asta nu e o idee bună, de cînd am calculat dispersia. Şi anume, nu e o idee bună pentru că abateri pozitive şi negative se atentuează şi ceea ce dorim noi este ca abaterile să fie cît mai mici în valoare absolută. De aceea cel mai bine este să încercăm să minimizăm suma pătratelor abaterilor. Metoda care se bazează pe acest principiu este una dintre cele mai importante în statistică şi se numeşte de regulă metoda celor mai mici pătrate. În engleză se zice ordinary least squares şi de aceea cel mai adesea se prescurtează cu OLS. Metoda e surpinzător de veche, fiind publicată la începutul secolului al nouăsprezecelea în mod independent de către americanul Robert Adrain (1808), Gauss (1809) şi Legendre (1805). Gauss a fost însă cel care a enun at teorema care ne asigură de faptul că estimarea dată de metoda celor mai mici pătrate este cea mai bună estimare liniară nebiasată a dreptei de regresie. O asemenea estimare se mai numeşte BLUE (best liniar 122

unbiased estimate). Deoarece teorema a fost demonstrată mai tîrziu de către statisticianul rus Andrei Markov, ea poartă în general numele de teorema Gauss-Markov. Metoda OLS este însă destul de preten ioasă din punct de vedere al condi iilor necesare pentru ca ea să fie aplicabilă şi eficientă. Condi iile, care se numesc de regulă condi iile GaussMarkov sînt următoarele: Variabilele aleatoare abaterei au media 0. Variabilele aleatoare abaterei au o dispersie finită egală pentru to i indicii i. Aceasta se numeşte homoschedasticitate (sau omogenitate a dispersiei). • Variabilele aleatoare abaterei sînt necorelate între ele. Condi ia se mai numeşte absen a autocorela iei. Prima dintre condi ii este nesemnificativă. La urma urmei dacă media variabilelor abaterei are fi nenulă s-ar putea adăuga această valoare la termenul liber al ecua iei şi abaterile s-ar aduce astfel la media nulă. Celelalte două condi ii pot fi uneori greu de îndeplinit în cercetări cu date reale. Cu toate acestea, metodă OLS se foloseşte chiar şi în cazurile în care condi iile GaussMarkov nu sînt perfect îndeplinite. Condi ia de homoschedasticitate se poate testa cu testul Breusch-Pagan. Dacă se aplică OLS în condi ii de heteroschedasticitate de obicei coeficientul de corela ie r al lui Pearson (şi coeficientul de determinare R2 despre care vom vorbi în curînd) pot fi subestima i. Aceasta e mai pu in grav decît supraestimarea. În practică s-ar putea să nu recunoaştem nişte rela ii existente dar e pu in probabil să găsim ceva acolo unde nu e nimic. Altfel spus ipoteza de independen ă între variabilele din ecua ia de regresie este mai greu de respins în condi ii de heteroschedasticitate decît ar trebui să fie. Condi ia de absen ă a autocorela iei se testează cu testul Durbin-Watson10. Problema autocorela iei abaterilor este cel mai adesea prezentă în cercetările cu serii de timp, adică cu valori ale unor variabile care sînt măsurători ale aceluiaşi fenomen în diferite momente de timp. Abaterile care rezultă din ecua ii cu valori pentru aceiaşi indivizi în diverse momente de

• •

10

Ca şi în cazul Breusch-Pagan şi pentru testul Durbin-Watson, consider că modul de calcul şi interpretare a acestor teste depăşeşte cadrul unui manual introductiv de statistică. Importantă este cunoaşterea numelui testului pentru ca la nevoie să fie posibilă documentarea. Iar ca regulă generală, citirea valorii de significan ă a testului pe care o dau aproape toate soft-urile statistice poate da o indica ie bună de interpretare.

123

timp au toate şansele să prezinte autocorela ii. Autocorela ia duce de obicei la supraevaluarea significan ei testelor, de exemplu al testului t. Există o serie întreagă de variante de rezolvare ale acestei probleme. Fiecare dintre ele are însă dezavantaje. Cercetări recente au ajuns la concluzia că folosirea metodei OLS rămîne de preferat multor variante mai complicate de definire sau/şi rezolvare a regresiei liniare. Pentru a avea încredere în rezultatele date de metoda OLS în condi ii de autocorela ie a abaterilor, se impun o serie de alte condi ii asupra variabilelor. Să vedem deci care sînt rezulatatele regresiei liniare şi cum se citesc ele. Fie deci ecua ia de regresie pe care am prezentat-o mai sus. Să vedem rezultatele metodei OLS şi apoi să le explic pas cu pas.

Model 1

R ,728(a)

R-Patrat ,530

Eroarea standard a estimatorului 78,75713

Coeficienti

Coeficienti nestandardizati Model 1 (Constanta) GDP B -7,664 ,016 Eroarea standard 5,143 ,000

Coeficien i standardizati Beta ,728 T -1,490 35,052 Significanta ,136 ,000

a Variabila dependenta: studper10000

Tabelele de mai sus sînt o parte a rezultatelor metodei OLS. De obicei se mai raportează şi valori intermediare cum ar fi chiar sumele de pătrate calculate şi altele. Prima tabelă ne precizează cît de puternică este legătura dintre cele două variabile din ecua ie. Coeficientul R este chiar coeficientul de corela ie al lui Pearson. Valoarea este în cazul nostru o valoare care desemnează o corela ie destul de puternică, 0,728. Acest coeficient se ridică la pătrat şi se ob ine R2 = 0,530, coeficientul de determinare. Coeficientul acesta reprezintă procentul din modificarea variabilei intă care se poate explica prin modificare variabilei regresor. În cazul nostru am citi cam aşa: 53% din varia ia numărului de studen i la 10,000 de

124

locuitori se explică prin varia ia produsului intern brut pe cap de locuitor11. Deci, cu cît R2 e mai mare, regresorii au un efect mai mare asupra variabilei dependente. Ca efect al intervalelor de evaluare a coeficientului de corela ie, o regresie este puternică dacă R2 e mai mare decît 0,5 (corespunzător unui R mai mare de 0,7 ridicat la pătrat). De fapt, valorile trebuie şi de această dată privite în contextul cercetării practice. Dacă în general în teme de natură psihologică chiar şi un R2 de 0,3 e considerat bun, în econometrie, unde rela iile dintre indicatori se supun unor reguli mai simple, valori mari, de peste 0,9 nu sînt chiar o raritate. Al doilea tabel con ine coeficien ii de regresie, numi i adesea b sau B. Coeficien ii b sînt cei din ecua ia de regresie propriu-zisă. Deci pe baza tabelei putem spune că: Studper10000i = -7,664 + 0,012 GDPi + abaterei sau, că Si = -7,664 + 0,012 GDPi este ecua ia dreptei de regresie. Pentru fiecare dintre aceşti coeficien i se propune şi o ipoteză de forma: “coeficientul b este nul” ceea ce echivalează cu a spune “regresorul nu are nici un efect asupra variabilei intă”. Pentru această ipoteză se efectuează testul t şi se dă în tabel valoarea testului şi significan a lui. Vedem că significan a coeficientului lui GDP este foarte bună (testul t dă peste 35), însă significan a coeficientului termenului liber nu e aşa grozavă (t = -1,49). Deci acest coeficient al termenului liber este ceva mai nesigur. Coeficientul lui GDP se poate citi astfel. Dacă valoarea GDP creşte cu o unitate, numărul studen ilor la 10000 de locuitori creşte cu 0,012 unită i. Desigur exprimarea aceasta sună foarte mecanicist şi nu trebuie în eleasă altfel decît ca o modelare, sau poate chiar mai vag, ca o metaforă a rela iei dintre variabile. Totuşi vom vedea că interpretarea coeficien ilor de regresie, precum şi a coeficientului de determinare, ne poate da indica ii despre puterea cu care influen ează diferite variabile independente variabila dependentă a unei cercetări.

11

În cercetările mele pe această temă, rezultatul a fost pînă la urmă mai nuan at, varianta de mai sus neluînd în seamă eterogenită i locale existente în felul cum variabilele educa ionale şi economice se influen ează reciproc. Am ales să prezint aici însă forma cea mai simplă, scopul fiind la urma urmei unul educa ional. Deci, nu mă cita i cu rezultatul din exemplu, legătura dintre numărul de studen i şi produsul intern brut e mai complicată decît pare aici!

125

Coeficientul Beta din tabel este o valoare standardizată care ia în seamă valoarea medie şi dispersia variabilei independente. Aceasta va fi interesant, cum vom vedea, în special la regresia multiplă pentru că va permite compararea efectelor mai multor variabile independente care evident au medii diferite. Regresia multiplă extinde metoda prezentată mai sus la un număr mai mare de variabile independente care se repercutează asupra aceleiaşi variabile intă. Voi descrie în continuare şi aceasta pentru ca apoi să vedem în continuare cum se pot analiza acestea. Pentru a exemplifica regresia multiplă o să folosesc o extindere a aceleiaşi probleme. Regresia multiplă diferă de cea simplă prin numărul regresorilor. Deci, dacă în exemplul precedent am avut un singur regresor al cărei efect asupra variabilei intă ne interesa, în cazul unei regresii multiple numărul regresorilor va fi mai mare. Pentru a păstra lucrurile cît mai simple posibil să luăm doi regresori. În exemplul simplu, inta era numărul de studen i la 10.000 de locuitori şi regresorul era produsul intern brut pe cap de locuitor. Să luăm acum un al doilea regresor, numărul de organiza ii neguvernamentale interna ionale active în anul studiat în ara cu pricina. Motiva ia acestei extinderi a modelului este următoarea: teoriile globalizării ale şcolii neoinstitu ionaliste de la Stanford (John Meyer, Francesco Ramirez, şi al ii) găsesc că expansiunea învă ămîntului are loc peste tot în lume indiferent de nivelul de dezvoltare economică. Mai mult, ei găsesc că în a doua jumătate a secolului 20, expansiunea educa ională a avut loc peste tot în lume, indiferent dacă economia era în creştere sau în descreştere. De aici ei ajung la concluzia că dezvoltarea învă ămîntului nu are legătură cu dezvoltarea economică. Ipoteza lor este însă aceea că dezvoltarea învă ămîntului este un epifenomen al globalizării şi ca atare ar trebui să depindă de un indicator care măsoară nivelul de globalizare al unei ări. Tot ei propun numărul de organiza ii non-guvernamentale interna ionale active la un moment dat într-o ară ca un astfel de indicator. Acest indicator este notat de regulă cu ingo (de la international non-governmental organizations). Am avea atunci o ecua ie de regresie în care avem doi regresori, unul indicînd dezvoltarea economică şi un altul gradul de globalizare. Ecua ia este următoarea: Studper10000i = b0 + b1 * GDPi + b2 * ingoi + abaterei 126

Observăm că logica formulei rămîne aceiaşi, apare un termen în plus, cu coeficientul de regresie b2 şi variabila de regresie ingoi. Statistic vorbind, pînă acum efectul pe care îl avea ingo asupra variabilei intă nu era eviden iat separat, deci făcea parte din ansamblul de efecte care se adună în abatare pentru a forma o variabilă aleatoare. Desigur, aşa cum vom vedea o parte a efectului variabilei ingo era de asemenea inclus implicit în efectul produsului intern brut pe cap de locuitor. Deci abaterea din noua ecua ie de regresie nu mai con ine aceiaşi lucru ca şi abaterea din ecua ia simplă, ea este “cură ată” de efectul pe care l-ar putea avea ingo. Cît de mare este acest efect ne poate spune o compara ie între ecua ia de regresie simplă şi cea multiplă. Pînă acolo, cîteva remarci. Condi iile pe care le-am specificat pentru ca metoda celor mai mici pătrate să fie func ională rămîn aceleaşi. Apare însă un fel de condi ie suplimentară. Aceasta nu influen ează eficien a metodei dar schimbă modul cum se citesc rezultatele. Ea se referă la coliniaritatea regresorilor, adică independen a lor. În esen ă este de preferat ca regresorii să fie independen i. Dacă sînt independen i efectele lor asupra variabilei intă sînt pur şi simplu însumate. Dacă însă nu este aşa, şi de obicei în lumea reală nu este aşa, atunci efectul sumei regresorilor este cu atît mai mic fa ă de suma efectelor regresorilor cu cît regresorii sînt mai corela i între ei. Poate sună pu in neclar, ce vreau eu să zic de fapt. Fiecare regresor ar putea apărea într-o regresie simplă, de exemplu, una cu produsul intern brut, ca şi în exemplu, şi una cu organiza iile non-guvernamentale interna ionale. Fiecare dintre acestea două ar da un anume nivel de explicare a varia iei numărului de studen i, o valoare specifică a R2. În exemplul nostru, această valoare este ceva peste 50% pentru ambii regresori (vezi Reisz, Stock, 2006). Dacă cei doi regresori ar fi independen i, sau aproape independen i, regresia multiplă ar trebuie să dea o valoare R2 de 100%!. Este însă de bun sim să observăm că o ară este cu atît mai încadrată în societatea globală cu cît este mai dezvoltată economic. Deci cei doi indicatori trebuie să fie corela i destul de puternic. De fapt, coeficientul de corela ie este de 0,83 şi relevant cu o significan ă de 0,000. Fiind o corela ie atît de mare e de bănuit că adăugînd la regresia simplă ce verifică efectul produsului intern brut şi efectul globalizării ării nu se schimbă mare lucru. O astfel de situa ie se numeşte multicoliniaritate sau, dacă corela ia e aproape perfectă, redundan ă. Să vedem rezultatele ecua iei noastre de regresie multiplă:

127

Model 1

R ,753

R-Patrat ,566

Eroarea standard a estimatorului 76,00829

Coeficienti

Coeficienti nestandardizati Model 1 (constanta) GDP ingo B -4,468 ,009 ,059 Standardfehler 5,123 ,001 ,006

Coeficienti standardizati Beta ,413 ,376 T -,872 11,559 10,528 Significanta ,383 ,000 ,000

a Variabila dependenta: studper10000

Să analizăm acum rezultatele. Prima tabelă ne dă indicatorii de corela ie (R) şi determinare (R2) dintre variabila intă şi grupul de regresori luat în ansamblu. Importantă este aici citirea coeficientului de determinare. Exact ca şi în cazul regresiei simple coeficientul de determinare ne spune ce procent din modificarea variabilei intă se explică prin modificarea variabilelor de regresie. În cazul nostru observăm că R2-ul regresiei simple era de 0,530, iar cel al regresiei multiple cu adăugarea indicatorului de globalizare este de 0,566. Diferen ă, numită uneori şi R2c sau modificare a coeficientului de determinare (c vine de la change, modificare sau schimbare) este foarte mică, de 0,036. Pentru a analiza această modificare este însă obligatorie analiza corela iei regresorilor. În cazul nostru, cum am mai spus, regresorii sînt puternic corela i. Dacă regresorii ar fi fost independen i, valoarea R2c ar fi fost interpretabilă ca efect al indicatorului de globalizare. Dat fiind corela ia existentă valoarea R2c este cîştigul de informa ie pe care îl adaugă regresorul suplimentar. Să mergem mai departe şi să studiem mai de aproape tabela a doua, cea cu coeficien ii de regresie. Din ea rezultă că ecua ia de regresie are forma: Studper10000i = -4,468 + 0,009 GDPi + 0,059 * ingoi + abaterei Valoarea coeficientului GDP nu diferă radical de valoarea pe care acest coeficient o avea în cazul regresiei simple, aceasta fiind explicabil tot prin corela ia mare dintre regresori. Din ecua ia de mai sus putem extrage următoarele două declara ii:

128

Dacă produsul intern brut pe cap de locuitor creşte cu un dolar, numărul studen ilor la 10.000 de locuitori creşte cu 0,009. Dacă numărul organiza iilor non-guvernamentale interna ionale active într-o ară creşte cu una, numărul studen ilor la 10.000 de locuitori creşte cu 0,059.

Desigur, cum am mai scris şi mai sus, exprimate aşa rela iile par imposibil de simple şi directe. Şi desigur o citire atît de naivă ar fi greşită. Totuşi pînă la urmă, considerînd cauzalită i complexe şi re ele de influen ă evident indirecte şi complicate rezultatul acesta este. Un produs intern brut pe cap de locuitor mai mare cu un dolar e legat de un număr de studen i la 10,000 de locuitori mai mare cu 0,009. Ne-am dori să comparăm coeficien ii de regresie între ei. Este într-adevăr 0.059 mai mare decît 0,009? Care dintre cele două variabile de regresie are efectul mai mare în realitate? Pentru aceasta se poate folosi un indicator numit puterea unui regresor care se calculează foarte simplu ca produs la coeficientului de regresie cu media variabilei regresor. La urma urmei, ne interesează care e valoarea medie numerică ce se repercutează asupra variabilei intă. În exemplu avem: Media GDP Ingo 9740,97 1139,7700 Coeficientul 0,009 0,059 Puterea 87,66 67,24

Observăm că citirea pur şi simplu a coeficien ilor de regresie b ne-ar fi dus pu in în eroare. Coeficientul indicatorului de globalizare era de vreo 6 ori mai mare decît coeficientul indicatorului economic. Aceasta ar fi putut să ne ducă cu gîndul la un efect mult mai mare al acestuia. Pentru a putea însă compara cu adevărat efectele nu trebuie uitată valoarea în sine a indicatorilor. Şi într-adevăr media indicatorului economic este de aproape 9 ori mai mare decît media indicatorului de globalizare. Înmul ind, rezultă puterile relative şi rezultă că numărul de studen i este determinat în mai mare măsură de creşterea economică decît de globalizare. Trebuie să observăm şi faptul că cele două puteri sînt totuşi destul de apropiate. Ele au acelaşi ordin de mărime. Diferen a dintre ele se poate da, de exemplu, procentual. Astfel putem spune că efectul creşterii economice este cu aproape 30% mai mare decît efectul globalizării în modelul de regresie liniară de mai sus sau invers, puterea efectului globalizării 129

asupra expansiunii învă ămîntului superior este aproximativ trei-sferturi din puterea efectului creşterii economice. Evident, modelul în sine, explică, aşa cum am văzut, numai jumătate din varia ia variabilei intă. Tabelele ecua iei de regresie ne oferă şi ele un indicator comparativ apropiat de puterea unei variabile independente, valorile Beta. Aceste valori reprezintă coeficien i standardiza i pentru variabilele aleatoare, coeficien i care iau în considerare valoarea medie a variabilelor independente, dar şi dispersia lor. În exemplul nostru valorile Beta au fost: 0,412 pentru GDP şi 0,376 pentru ingo reproducînd destul de îndeaproape calculele noastre de mai sus. Desigur o decizie rapidă asupra importan ei regresorilor într-o ecua ie de regresie multiplă este mai uşor de luat folosind ceea ce raportează softul statistic. Pe de altă parte “puterea regresorului” aşa cum am calculat-o mai sus este un concept mai simplu şi poate duce ca atare la mai pu ine confuzii. Să rezumăm acum avantajele şi dezavantajele regresiei multiple. Regresia multiplă are ca principal avantaj posibilitatea comparării efectelor unor variabile (definite în model ca regresori) asupra variabilei intă. Pentru asta luăm în seamă gradul lor de corelare reciprocă, să calculăm modificarea coeficientului de determinare şi puterile regresorilor. Al doilea mare avantaj este că regresia multiplă poate “cură a” abaterile de efecte care nu pot fi considerate pur şi simplu aleatoare. Dacă avem un singur regresor tot ce mai are efect asupra variabilei intă este împins în factorul abatere (sau eroare). Aceasta poate duce la neîndeplinirea condi iilor Gauss-Markov, cele cu lipsa autocorelării şi a heteroschedasticită ii. Deci o regresie multiplă poate avea efecte benefice asupra modelului. Îl poate face mai exact, prin creşterea coeficientului de determinare, şi îl poate face şi mai uşor rezolvabil matematic. Atunci ar trebui să tot adăugăm regresori pînă ajungem să descriem toată varia ia variabilei intă şi gata: am descris complet problema! Din păcate aşa ceva în lumea reală nu se prea poate şi în plus regresia multiplă are şi anumite dezavantaje care ne determină să o folosim cu oarecare măsură. Necazul cel mai mare cu regresia multiplă este supraspecificarea modelului. Nu e chiar tragic dar poate duce la anumite incurcături dacă nu este interpretată cu grijă. Supraspecificarea înseamnă de fapt includerea unui număr prea mare de regresori. În astfel de situa ii analiza 130

rela iilor dintre regresori nu se mai poate face atît de simplu ca în cazul exemplului nostru în care deşi exista multicoliniaritate, erau numai doi regresori. Un efect al supraspecificării este desigur creşterea şanselor de multicoliniaritate. Pe de o parte, avînd mul i regresori există şanse mai mari ca unii dintre ei să fie puternic corela i cu al ii. Pe de altă parte, mai apare şi posibilitatea ca un regresor să fie foarte apropiat de o combina ie liniară a altor regresori. Ce se întîmplă în astfel de cazuri este că acelaşi obiect sau fenomen apare în ecua ia de regresie de mai multe ori prin mai multe măsurători diferite între ele. Pericolul supraspecificării nu apare deci, atunci cînd fenomene diferite, bine-definite teoretic (ca în exemplu, creşterea economică şi globalizarea) sînt în mod dovedit corelate, ci atunci cînd folosim mai multe variabile care măsoară acelaşi fenomen. De ce? Ei bine, pentru că estimarea efectului fenomenului în sine devine problematică. Utilizînd mai multe măsurători pentru fiecare din fenomenele studiate, compararea efectelor acestor fenomene devine incertă. Fiecare dintre măsurătorile fenomenului vor avea un impact subestimat prin prezen a celorlalte măsurători. Suma impactelor variabilelor care apar in aceluiaşi complex teoretic trebuie de asemenea tratată cu grijă pentru că poate fi influen ată de rela ii diferite cu celelalte variabile ale modelului. Desigur, aşa cum am mai spus, multicoliniaritatea nu este o problemă care să facă modelul inutil sau metoda inexactă. Multicoliniaritatea cu un număr mare de regresori complică însă semnificativ analiza modelului. A doua problemă a supraspecificării este legată de alegerea variabilelor. Incluzînd în model un număr mare de variabile, multe dintre acestea vor avea un impact redus asupra variabilei intă. Astfel de efecte, care ajung să fie de a dreptul neglijabile nu fac decît să complice modelul şi să acorde unor variabile o nemeritată aten ie. Variabile care au fost incluse în model şi au un efect foarte mic au probabil acelaşi impact cu o gramadă de alte variabile care nu au fost incluse în model. Prezen a lor acolo face însă ca ele să fie interpretate, discutate şi să li se atribuie, chiar fără a supraevalua valorile, o importan ă mai mare decît altor variabile. Să discutăm în încheierea acestui capitol pu in despre felul cum ar fi bine să se facă specificarea modelului de regresie liniară. În general se consideră modelul de regresie ideal, un model cu un număr minim de variabile, cît mai pu in dependente între ele şi cu un impact individual cît mai mare. Nu întotdeuna există aşa ceva, şi chiar dacă există, în majoritatea cercetărilor nu avem cum să găsim un asemenea model. Mai mult decît atît, găsind variabile de impact maxim asupra variabilei intă s-ar putea să nu găsim altceva decît o măsură a 131

aceluiaşi fenomen. Oricum, dezideratul fiind găsirea unui număr mic de variabile independente de impact mare, cercetătorul trebuie să îşi dea silin a să determine variabilele care au efectul cel mai mare asupra variabilei intă. Pentru asta bineîn eles trebuie să-şi folosească cît de mult posibil bunul sim ştiin ific şi cultura de specialitate. Trebuie să modelez creşterea numărului de studen i, ce regresori iau? Trebuie să pornesc de la un soi de repertoar al fenomenelor pe care teoria le-a pus în legătură cu fenomenul intă al modelării. Apoi trebuie să verific prin regresii simple efectul acestor regresori asupra variabilei intă şi prin analiză de corela ie gradul de multicoliniaritate dintre regresori. De obicei în finalul acestui demers se dezvoltă mai multe modele concurente la explicarea fenomenului intă. Acestea se calculează, iar rezultatele se compară între ele.

132

Capitolul 7. Pentru vegetarieni. Analiza datelor nenumerice.
În acest capitol mă voi referi la modurile cum statistica se poate apropia de date care nu au caracter numeric, cantitativ. Datele acestea, numite de regulă calitative nu permit utilizarea oricăror metode statistice. Ele sînt mai preten ioase, se pot face mai multe greşeli la “prepararea” lor. Pe de altă parte, datele calitative ne pot oferi o pătrundere în subiect la un nivel mult mai amănun it. Ele permit trecerea dincolo de mult criticata superficialitate a cantitativului. Aşa cum am văzut deja astfel de date sînt prezente foarte des în cercetările sociale, economice, şi nu numai. Din experien a mea aceste variabile sînt chiar majoritare în cercetările de acest tip. Arareori avem nevoie de valori simple cantitative în studii legate de comportamentul oamenilor, fie el social, economic sau politic. Cu excep ia vîrstei, aproape că nu avem date ra ionale în studiile de pia ă, de exemplu. Nici măcar informa iile legate de venituri nu sînt cu adevărat ra ionale, pentru că nu avem la dispozi ie statele de plată ale celor intervieva i, ci o auto-estimare a venitului lunar, de obicei pe categorii. Ce să mai spun, greutatea sau înăl imea persoanelor intervievate interesează prea pu ini clien i ai marketing research-ului. Chiar dacă acestea ar avea vreo legătură, de exemplu, cu consumul de bere al celui intervievat, atîta timp cît nu au relevan ă din punct de vedere al planificării şi designului publicită ii sau distribu iei, interprinderile producătoare sînt prea pu in interesate de ele. Deci, majoritatea întrebărilor de interes pentru cercetările statisticii sociale se dovedesc a fi categoriale, uneori chiar nominale, dar cel mai adesea ordinale. A nu se în elege de aici că datele cantitative sînt chiar irelevant de rare. Ele apar adesea în cercetări medicale, geografice, economice, uneori în studii politice comparative interna ional, în sociologie organiza ională şi ecologie. În capitolele precedente am trecut în revistă o serie întreagă de metode care nu erau gîndite a fi utilizate pentru variabile fără caracter cantitativ. Cu toate acestea, o parte dintre ele îşi păstrează validitatea şi atunci cînd sînt aplicate unor date calitative. Problema esen ială legată de alegerea metodei este simplă: cu date calitative nu se fac calcule. Aceasta însă nu înseamnă că nu se pot calcula frecven ele de apari ie a lor. Deci, de exemplu, nu se poate face o corela ie simplă Pearson cu date cu care nu se poate calcula. Am văzut însă că se poate face o corela ie Spearman, pentru că acolo calculele nu se fac cu valorile variabilelor în sine ci cu pozi iile lor într-o listă ordonată de ranguri. Un alt exemplu. Desigur nu se pot efectua teste 133

legate de media unor variabile calitative (chiar dacă ele sînt reprezentate prin valori numerice), pe de altă parte se pot foarte bine efectua teste cu frecven ele de apari ie a unor astfel de variabile. Hai să fiu mai clar, fie o întrebare de opinie, de genul: “Sunte i de acord cu ...?” şi răspunsurile sînt “1. Da; 2. Nu”. Calculul mediei răspunsurilor este total lipsit de sens pentru că presupune adunarea de valori 1 şi 2 adică adunarea de Da şi Nu şi împăr irea la numărul lor. Pe de altă parte testarea faptului că frecven a de apari ie a unui Da este relevant diferită de 50% este absolut corectă. E vorba despre un test similar la urma urmei, diferen a este că în primul caz se fac calcule cu valorile variabilei iar în al doilea caz cu frecven ele de apari ie a acestor valori. Tot ce am discutat pănă acum legat de prezentări tabelare, grafice, indicatori, teste, etc. are valabilitate şi în cazul variabilelor calitative atît timp cît metoda nu presupune calcule cu valorile variabilelor. În cele ce urmează o să adaug la re aterul nostru de metode cîteva care au fost gîndite special pentru variabile calitative. Cel mai adesea ele se eviden iază printr-un număr mai mic de restric ii sau presupuneri legate de variabile. De aceea ele se folosesc adesea şi în cazul unor variabile ra ionale sau intervalice despre care avem mai pu ine informa ii. De exemplu, variabile despre care nu putem presupune că ar fi distribuite normal. Astfel de metode sînt adesea numite şi metode non-parametrice sau cu distribu ie liberă. Denumirea de nonparametric poate să inducă în eroare de-a binelea. Şi eu am fost multă vreme convins că aşa se numesc metode care pur şi simplu nu au parametrii. Ei bine, nu e aşa. Metodele nonparametrice sînt metode la care nu se fac presupuneri a-priori despre parametrii. E mult mai simplu să le numim metode fără distribu ii presupuse a-priori, sau metode libere de distribu ie. Din păcate e bine să inem minte şi denumirea inducătoare în eroare pentru că ea e folosită în diverse programe statistice (de ex. în SPSS) şi în multe căr i de statistică. Cea mai utilă şi răspîndită metodă non-parametrică este testul Chi2. a. Testul Chi2 De fapt există o întreagă familie de teste numite Chi2. Ele efectuează testarea folosindu-se de o familie de distribu ii de probabilitate numită Chi2. Familia aceasta este mai largă decît familia de distribu ii normale şi o include pe aceasta din urmă ca o limită a ei.

134

Cel mai important dintre testele Chi2 este testul Chi2 al lui Pearson. Simplu, puternic, fără presupuneri greu de îndeplinit, testul se poate folosi cu încredere aproape peste tot. E aproape un panaceu universal. De obicei se foloseşte la variabile calitative pentru că nu presupune efectuarea de calcule cu variabilele testate. Cu toate acestea se poate folosi liniştit şi în cazul variabilelor ra ionale sau intervalice şi este chiar indicat în cazul în care acestea nu au o distribu ie normală sau log-normală. Singura condi ie practică este ca numărul de valori pe care le ia variabila să nu fie prea mare. Să vedem însă ce testăm. Ipoteza pe care o testează testul Chi2 al lui Pearson este că distribu ia unei variabile nu diferă semnificativ de o distribu ie teoretică dată. Adică frecven ele de apari ie a valorilor unei variabile corespund unei reguli, unei distribu ii cunoscute. De exemplu, această distribu ie ar putea fi uniformă, adică fiecare valoare să apară de un număr egal de ori, sau ar putea fi orice altă distribu ie fie că are vreo relevan ă teoretică sau e pur şi simplu propusă de cercetător. Hai să luăm un exemplu pentru a clarifica felul cum se pune o ipoteză pentru testul Chi2. Să luăm de exemplu o cercetare pe care am mai folosit-o pe parcursul acestei căr i. E vorba despre un studiu de pia ă efectuat în Baia Mare în 2003. În tabelul de mai jos apare distribu ia pe frecven e a unei întrebări simple cu răspunsurile organizate sub forma unei scale ordonate. Evident, variabila răspuns este o variabilă ordinală:
10. Cat de des se fac cumparaturile la dvs. in familie?

Frecven ă zilnic de mai multe ori pe saptamana saptamanal mai rar Total 446 370 168 67 1051

Procent 42,4 35,2 16,0 6,4 100,0

Ipoteza tipică pentru un test Chi2 va compara distribu ia valorilor cu o distribu ie uniformă. Distribu ia de mai sus este de fapt lista de frecven e ce apare pe a doua coloană a tabelului: 446 - 370 - 168 - 67. Distribu ia uniformă ar fi atinsă dacă toate valorile ar fi la fel de probabile, adică am avea o listă care se obtine împăr ind volumul popula iei (aici 1051) la numărul valorilor posibile (aici patru), deci: 263 – 263 – 263 – 263. Testul verifică dacă cele două liste diferă semnificativ una de alta. Poate nu pare foarte interesant. Hai să luăm însă 135

pu in altfel problema. Să considerăm un subgrup din popula ia noastră. De exemplu, cei care au studii superioare. Pentru ei frecven a cumpărăturilor arată astfel:
10. Cat de des se fac cumparaturile la dvs. in familie?

Frecven ă Zilnic de mai multe ori pe saptamana Saptamanal mai rar Total 102 118 55 4 279

Procent 36,6 42,3 19,7 1,4 100,0

Lista de frecven e este de 102 – 118 – 55 – 4. Diferă oare cu adevărat această listă de distribu ia celor care nu au studii superioare, vizibilă în tabela de mai jos:
10. Cat de des se fac cumparaturile la dvs. in familie?

Frecven ă Zilnic de mai multe ori pe saptamana Saptamanal mai rar Total 344 252 113 63 772

Procent 44,6 32,6 14,6 8,2 100,0

Ipoteza de egalitate ar suna atunci cam aşa: “fie că au sau nu studii superioare, locuitorii din Baia Mare fac cumpărăturile la fel de des“. Asta e mult mai interesant pentru o firmă de marketing. De o asemenea observa ie sau observa ii de acest gen poate depinde modul cum se organizează o campanie de publicitate sau de promovare a unui produs. Observăm că este o ipoteză de acelaşi tip ca şi în primul caz. Avem două liste de frecven e: 102 – 118 – 55 – 4 şi 344 – 252 – 113 – 63. “La ochi” ele diferă. Valorile procentuale pentru primele două categorii par a se inversa, iar a patra categorie care e nesemnificativă pentru prima listă e considerabil mai mare în cea de a doua. Totuşi sînt oare aceste diferen e suficiente ca să respingem ipoteza, adică să spunem că între cele două grupuri existe diferen e semnificative în frecven a cu care îşi fac cumpărăturile. Să vedem deci cum se calculează. Valoarea de test Chi2 se ob ine astfel:

136

În formulă Oi sînt frecven ele observate ale valorilor variabilei, Ei frecven ele aşteptate, sau teoretice. i ia valori de la 1 la 4, adică are atîtea valori cîte valori poate lua variabila noastră. Avem de comparat doua liste de frecven e de lungime i, unele vor lua locul valorilor Oi, celelalte vor sta la baza calcului valorilor Ei. O sa luăm acum valorile pentru intervieva ii cu studii superioare ca fiind valorile Oi. Valorile Ei vor fi valorile care s-ar găsi în grupul celor cu studii superioare dacă distribu ia ar fi aceiaşi ca şi în grupul celor fără studii superioare. Pentru a găsi valorile Ei trebuie să proiectăm procentajele aşa cum apar în tabela de referin ă la numărul total de cazuri din tabela testată. Mai clar, dacă distribu ia ar fi aceiaşi atunci procentele aşa cum apar la cei fără studii superioare ar trebui să apară şi la cei cu studii superioare. Atunci 44,6% ar trebui să fie în categoria “zilnic”. Adică numărul aşteptat de cazuri este pentru această categorie 44,6% din volumul eşantionului de test, adică 279. Calculul e deci foarte simplu, o regulă de trei simplă aplicată volumului total, sumei de valori Oi pentru procentajul fiecărei frecven e din cel de-al doilea grup: E1 = 279 * 44,6 / 100 = 124,4. Valoarea 124,4 diferă fa ă de 102, cîte cazuri sînt de fapt în eşantion. Calculînd şi celelalte procente rezultă o listă de frecven e astfel: 124,4 – 91,0 – 40,7 – 22,9. Valorile nu sînt întregi pentru că se ob in aplicînd procentajele aşa cum am explicat. Să exemplificăm acum calculul valorii Chi2: Chi2 = (102 – 124,4)2/124,4 + (118 – 91)2/91 + (55 – 40,7)2/40,7 + (4 – 22,9)2/ 22,9 Valoarea calculată este Chi2 = 32,66. Programele statistice ne-ar da şi o significan ă. În cazul de fa ă ar fi 0,000, deci foarte bună. Dacă însă nu am folosi un soft statistic ar trebui să folosim o tabelă de valori. Astfel de tabele pentru valorile Chi2 se găsesc de obicei la capătul căr ilor de statistică (inclusiv în această carte), dar există şi pe internet, de exemplu la adresa http://www.statsoft.com/textbook/sttable.html unde se găsesc tabele de valori şi pentru alte teste foarte des utilizate, testele t, Z şi F (tabelele pentru t şi Z se găsesc şi în cartea de fa ă). 137

Să studiem pu in tabela de la pagina ***. Pentru a citi această tabelă de valori Chi2 avem nevoie de încă un termen numit grad de libertate, prescurtat df, din engleză, de la “degrees of freedom”. În cazul testelor Chi2 acest grad de libertate nu este altceva decît numărul valorilor pe care le-a luat variabila testată minus 1. Adică, în exemplul nostru unde aveam patru valori posibile, 4 – 1 = 3 grade de libertate. Căutăm în tabel pe linia potrivită numărului de grade de libertate pînă dăm de prima valoare care e mai mare decît valoarea Chi2 ob inută prin calcul. Significan a, adică probabilitatea de a face o eroare de tip I, va fi atunci valoarea din capul de tabel a coloanei precedente. Observăm că pe măsură ce creşte valoarea Chi2, se înbunătă eşte, adică scade ca valoare significan a. În exemplul nostru valoarea calculată e mai mare decît oricare din valorile de pe linia pentru 3 grade de libertate. Deci significan a e mai bună decît cea mai bună significan ă din tabel. Deci şansa de a respinge o ipoteză corectă, căci aceasta era eroarea de tip I, este foarte, foarte mică, de fapt mai mică decît 0,001. Putem ca atare respinge liniştit ipoteza. În concluzie, testul Chi2 din exemplu permite respingerea ipotezei de egalitate între cele două distribu ii. Adică datele noastre sînt suficiente pentru a putea spune că cei cu studii superioare au o distribu ie a frecven ei de a face cumpărături semnificativ diferită de cei ce nu au asemenea studii. Exact la fel ca şi în exemplu se pot compara orice două liste de valori de frecven e. Fie că una este empirică şi una teoretică, fie că ambele sînt empirice. b. Testele Wilcoxon, Mann-Whitney şi Kruskal Wallis Vom continua cu alte teste non-parametrice. Testul Wilcoxon este o alternativă nonparametrică la testul t al lui Student pentru două medii, pe care l-am descris în capitolul 5. Deşi testul Wilcoxon a fost propus pentru un nivel de măsurare a datelor cel pu in intervalic, nu se fac nici un fel de presupuneri despre distribu ia datelor. Ca atare testul este potrivit de cîte ori nu sînt satisfăcute condi iile testului t, care presupune normalitate. Să rememorăm scurt ipoteza testului t pentru două medii. Testul t pentru două medii verifica o ipoteză de egalitate sau inegalitate a două valori care se ob ineau ca medii ale unei variabile 138

aleatoare. Mediile se calculează pentru două eşantioane. Cele două eşantioane trebuie să prezinte o distribu ie normală de aceiaşi dispersie a variabilei a cărei medie se testează şi pot fi independente sau dependente. Ipoteza de normalitate cu dispersie egală este destul de tare, în multe situa ii o asemenea presupunere restric ionînd mult posibilitatea de folosire a testului. Aici intervine testul Wilcoxon. Pe de altă parte, trebuie să observăm că testul t presupune întotdeuna un calcul de medie, deci testul se poate referi numai la variabile cantitative. Şi aici e nevoie de o generalizare care să facă metoda folositoare şi în alte cazuri. Testul Wilcoxon face o asemenea generalizare folosind în locul valorilor pozi iile într-o ierarhie de frecven e. De fapt, testul Wilcoxon transformă testul t într-un mod analog cu felul cu corela ia Spearman transformă corela ia Pearson. Ca atare, variabilele testate prin testul Wilcoxon trebuie să fie ordinale, dar nu neapărat intervalice sau ra ionale. Deşi se efectuează nişte diferen e între valori în cazul Wilcoxon scopul acestora este doar de a stabili care valori sînt mai îndepărtate sau mai apropiate de o cvasi-medie. Testul se foloseşte frecvent pentru întrebări de opinie. Să vedem însă ce şi cum calculează. Ipoteza testului de defineşte astfel. Fie două eşantioane, care pot fi total independente, dar cel mai adesea sînt rezultate din reinterogarea aceluiaşi eşantion. Pe cele două eşantioane se identifică o aceiaşi variabilă. Ipoteza este că distribu ia acestei variabile este egală în cele două eşantioane. Un exemplu simplu: să presupunem că am efectuat un tratament oarecare şi dorim să vedem dacă se repercutează asupra unei variabile. Ştiu eu, am tuns un preşedinte şi vrem să vedem dacă aceasta a dus la creşterea sau scăderea popularită ii lui. Variabila de popularitate va fi atunci culeasă o dată înainte de tundere, o dată după. Deoarece această variabilă nu este de fapt cantitativă nu se poate stabili cu un test t dacă diferen a medie sesizată este relevantă statistic sau nu. Se pot folosi evident teste Z pentru a stabili dacă a crescut relevant procentul simpatizan ilor sau nu, testul Wilcoxon ne oferă însă o singură testare de ansamblu a diferen ei distribu iei. Pentru această se ac ionează astfel: 1. Să notăm cele două valori ale variabilei, simpatia înainte de tuns – x, şi simpatia după tuns – y. Pentru fiecare individ i chestionat vom avea două valori xi şi yi. 2. Calculăm modulul diferen ei zi = | xi –yi | 3. Ordonăm valorile zi, eliminăm valorile nule şi acordăm fiecărei valori o valoare rang în func ie de pozi ia pe care o ocupă în lista ordonată. Dacă două sau mai multe valori 139

z sînt egale punem rangul mediu. De exemplu dacă valorile de pe pozi ia 5 şi pozi ia 6 sînt egale, ambele primesc rangul 5,5. 4. Calculăm acum suma rangurilor care corespund abaterilor pozitive şi suma rangurilor care corespund abaterilor negative12. Valoarea cea mai mică dintre acestea două este valoarea de test. Valoarea de test se numeşte uneori T, alteori S sau chiar W. Valorile critice pentru testul Wilcoxon se găsesc de asemenea în tabele organizate în func ie de significan ă şi numărul de cazuri. O regulă simplă este: cu cît valoare e mai mare cu atît significan a e mai bună, dar evident trebuie verificată tabela pentru a decide într-un caz particular. Soft-urile statistice care efectuează testul Wilcoxon raportează desigur şi significan a rezultatului care se citeşte cum ne-am obişnuit deja, ca probabilitate de a efectua o eroare de tip I. Deci cu cît valoarea significan ei e mai mică cu atît putem respinge ipoteza de nemodificare a variabilei cu un risc de eroare mai mic. O significan ă bună este, de regulă, una cu valoare sub 0,05. O dezvoltare interesantă a testului Wilcoxon este testul U, numit şi Mann-Whitney, MannWhitney-Wilcoxon sau Wilcoxon-Mann-Whitney. Am văzut că testul Wilcoxon se putea folosi acolo unde aveam un design de tip înainte-după, adică valori înperecheate. Trebuia să avem două eşantioane în care să construim perechi. Aceasta este o situa ie care apare desigur la anumite tipuri de cercetări dar testul de tip rang merită extins şi la alte situa ii. De aici ideea testului U. Idee pe care de altfel tot Frank Wilcoxon a propus-o şi încă în acelaşi articol din 1945 cînd a definit şi testul numit de obicei testul Wilcoxon, cel pe care l-am prezentat anterior. Şi asta cu toate că era chimist şi nu statistician. Ipoteza testului U este că două eşantioane provin din aceiaşi popula ie, adică au o distribu ie egală a variabilei testate. O asemenea ipoteză poate fi de folos în multe întrebări de cercetare. Să vedem nişte exemple. Situa ia de cercetare pe care am folosit-o pentru a prezenta testul Chi2 se pretează şi pentru utilizarea testului U. Verificarea faptului că frecven ele de a face cumpărături ale celor cu sau fără studii superioare sînt sau nu diferite se poate traduce şi în limbajul ipotezei testului U. Avem în acest caz o popula ie de ansamblu cu anumite obiceiuri legate de frecven a de a face cumpărături. Dacă am alege aleator două eşantioane din această popula ie ele ar putea diferi
12

De fapt ajunge dacă calculăm una dintre aceste sume.Cealaltă rezultă uşor pentru că suma tuturor rangurilor este oricum n(n+1)/2 unde n este numărul de valori.

140

doar întîmplător din punctul de vedere al variabilei frecven ă de cumpărare. Să presupunem însă că alegerea se face pe baza unei caracteristici, cum ar fi prezen a studiilor superioare. Atunci, dacă această caracterististică nu are nici o relevan ă asupra variabilei “frecven ă a cumpărăturilor” cele două eşantioane rămîn din perspectiva acestei variabile ca eşantioane aleatoare provenite din aceiaşi popula ie. Dacă însă testul ne permite să respingem această ipoteză înseamnă că variabila de selec ie, prezen a studiilor superioare, are un efect semnificativ asupra variabilei testate, frecven a cumpărăturilor. Deci cele două eşantioane nu se pot considera ca apar inînd aceleiaşi popula ii. În mod similar orice situa ie în care o variabilă categorială binară se repercutează pe o variabilă ordinală se poate testa cu testul U. Regula de ansamblu este următoarea. Variabila categorială care împarte eşantionul nostru în două defineşte de fapt două eşantioane. Testul verifică faptul că cele două eşantioane nu diferă din punctul de vedere al distribu iei unei variabile ordinale. Hai să mai luăm un exemplu tipic. Să presupunem că cele două eşantioane sînt determinate de gen. Avem deci un eşantion de bărba i şi unul de femei şi o variabilă de test care este răspunsul la întrebarea: Care este venitul lunar al familiei dumneavoastră? Evident răspunsul la o astfel de întrebare este o estimare a venitului lunar familial. Dacă am ob ine o diferen ă semnificativă am putea deduce că cele două genuri estimează diferit veniturile lor familiale. De exemplu, nu m-aş mira dacă bărba ii ar avea o tenta ie de a supraevalua venitul şi femeile de a-l subevalua. Dacă ambele grupuri evaluează corect, sau se abat în aceiaşi direc ie, ar trebui să nu avem nici o diferen ă statistic semnificativă. Deci, am putea conclude că nu se poate respinge ipoteza cum că estimările făcute de bărba i şi femei fac parte din aceiaşi distribu ie, sînt eşantioane ce provin din aceiaşi popula ie. De altfel, aplicînd testul U pentru întrebarea de mai sus, folosind date din sondajul la care mam mai referit, cel din Baia Mare, din 2003. ob inem următorul rezultat:
Rang

Suma 61. Genul 66. Venitul lunar familiar? feminin masculin Total N 553 474 1027 Rang mediu 504,28 525,34 rangurilor 278865,00 249013,00

Statistica de test

141

66. Venitul lunar familiar? Mann-Whitney-U Significan ă (două capete) 125684,000 ,229

a Variabila de grupare: 61. Genul

Cel mai uşor putem să analizăm acest rezultat citind significan a. După cum se vede ea nu e suficient de bună pentru a respinge ipoteza. Deci, nu putem spune că femeile şi bărba ii estimează în mod diferit veniturile lor familiale. Metoda de calcul a testului U este foarte simplă. 1. Se ordonează toate valorile variabilei testate (venitul lunar familial), indiferent dacă fac parte din grupul 1 (la noi, femeile), sau grupul 2 (bărba ii). 2. Fiecărei valori i se asociază rangul ei în lista ordonată. Ca şi în cazul testului Wilcoxon, valori egale vor primi un rang mediu. 3. Se calculează suma rangurilor pentru grupul 1 (R1) şi suma rangurilor pentru grupul 2 (R2). 4. Valoarea de test U este valoarea mai mică dintre U1 şi U2 unde acestea se calculează asfel: U1 = R1 – (n1* (n1+1))/2 şi U2 = R2 – (n2* (n2+1))/2. Există desigur tabele care dau valorile critice pentru testul U. În aceste tabele valorile sînt specificate în rela ie cu volumele celor două eşantioane, n1 şi n2. Un pas mai departe pe acelaşi fir logic îl face testul Kruskal-Wallis. Anume, dacă în testul Mann-Whitney compara ie se face între două grupuri, testul Kruskal-Wallis permite compara ii între mai multe grupuri, sau mai multe eşantioane ca să folosim chiar limbajul testului. Ipoteza testului Kruskal-Wallis este analogă ipotezei Mann-Whitney: Un număr oarecare de eşantioane au fost extrase din aceiaşi popula ie. Ca şi în cazul Mann-Whitney de fapt eşantioanele le definim printr-o variabilă de categorisire, cel mai adesea o variabilă nominală, şi testarea o facem pe o variabilă care este cel pu in ordinală. Ca şi în cazul precedentelor teste

142

non-parametrice nu există presupuneri de normalitate a distribu iilor sau alte restric ii similare. Aceasta permite utilizarea şi acestui test cu o varietate foarte mare de date. De fapt putem în elege testul Kruskal-Walis ca un test de rela ionare între două variabile, una categorială, posibil chiar nominală şi una cel pu in ordinală. Testul verifică dacă prima variabilă are repercursiuni asupra distribu iei celei de a doua. Metoda de calcul se bazează pe aceiaşi idee ca şi în cazul precedentelor două teste. Toate valorile, independent de grupul din care fac parte se ordonează şi fiecărei valori i se asignează rangul ei. Apoi se efectuează următorul calcul:

Unde: • • • • g este numărul grupurilor. N este suma volumurilor eşantioanelor, adică N = n1 + n2 + ... ng ni este volumul eşantionului i, adică corespunzător categoriei i a variabilei de selec ie rij este rangul observa iei j din grupul i

• •

, adică media tuturor rangurilor din grupul i , adică media tuturor rangurilor.

Uneori valoarea calculată la testul Kruskal-Wallis se notează H, alteori K. Cu toate că formula poate părea ceva mai complicată ea nu este decît o extindere logică a formulei U pentru un număr mai mare de grupuri. Merită de observat că toate calculele care se fac se fac cu ranguri şi nu cu valorile propriu-zise ale variabilelor. Aşa se elimină de fapt presupunerile asupra distribu iei variabilei testate. Tot ce ne trebuie este să existe o ordine a valorilor pentru a putea atribui ranguri. Există o metodă mai confortabilă de a analiza testul Kruskal-Wallis care simplifică şi mai mult lucrurile. Varianta pe care o prefer şi eu şi v-o propun şi vouă reduce testul la un test Chi2 în următorul fel. Se calculează pentru fiecare grup de valori, sau eşantion rangul mediu şi 143

apoi se aplică pur şi simplu un Chi2 pentru ipoteza de egalitate a tuturor rangurilor medii. Adică, dacă eşantioanele sînt provenite din aceiaşi popula ie, deci aproximează aceiaşi distribu ie a datelor, diferen ele dintre rangurile medii trebuie să fie pur aleatoare, întîmplătoare. Atunci însă ele nu vor fi în mod relevant diferite de o distribu ie uniformă. Astfel am tradus ipoteza testului Kruskal-Wallis la o ipoteză de tip Chi2 cu distribu ie uniformă. Majoritatea soft-urilor statistice pe care le cunosc abordează testul Kruskal-Wallis în acest fel. Să vedem un exemplu de aplica ie, de astă dată folosind un alt set de date. Popula ia cercetării este popula ia intreprinderilor mici şi mijlocii din mediul rural din Transilvania. Am testat dacă numărul de proprietari ai intreprinderii depinde de domeniul principal de activitate. Domeniul de activitate este evident o variabilă nominală. Nu există o ordine între “agricultură” şi “transporturi”! Pe de altă parte domeniul de activitate defineşte pe popula ia firmelor subgrupuri care pot fi în elese ca eşantioane diferite. Variabila “număr de proprietari” este ra ională, dar probabil nu este distribuită normal, nici măcar cu aproxima ie.
Rang

5. Care este domeniul principal de activitate? 3. Care este numarul de proprietari ai firmei? Agricultura Comert - en detail Comert - en gros Productie Servicii - profesiuni Servicii - turism Servicii - consultanta Servicii - agricole Constructii Total N 16 454 45 76 147 107 39 5 33 922 Rang mediu 423,50 488,43 497,28 495,32 381,39 417,61 381,00 313,00 599,50

Statistica pentru Testul(a,b)

3. Care este numarul de proprietari ai firmei? Chi-patrat Df Significanta asimptotica 55,822 8 ,000

144

a Kruskal-Wallis-Test b variabila de grupare: 5. Care este domeniul principal de activitate?

Valoarea Chi2 şi significan a testului sînt cît se poate de concludente. Ipoteza că firmele din grupurile definite de domeniul principal de activitate au la fel de mul i proprietari poate fi respinsă cu o probabilitate de a greşi de 0.000. Să închei acest capitol în care am trecut în revistă cîteva teste printr-o în elepciune simplă dar utilă. În esen ă, tot ce e variabilă ra ională sau intervalică trebuie să se poată testa cu t sau Z (ceea ce e cam acelaşi lucru), iar tot ce e variabilă ordinală sau nominală se poate testa într-un fel sau altul folosind Chi2. Există desigur şi variante mai complicate şi multe, multe alte teste gîndite pentru diferite ipoteze, dar pentru multe din lucrările mai mult sau mai pu in ştiin ifice şi utilizarea acestor teste simple ar fi deja un cîştig extraordinar pentru cunoaştere. c. Regresia categorială. În capitolul precedent am prezentat analiza de regresie liniară atît în forma ei simplă cît şi multiplă. În toate aceste variante datele implicate în ecua iile de regresie erau date numerice cu care se efectuau calcule. Această restric ie limita desigur utilizarea metodei regresiei la un anume tip de cercetări. Există însă şi tipuri de regresie care au fost gîndite să analizeze rela ii între variabile care pot avea diferite forme, chiar şi variabile nominale. Aceste modele de regresie nu sînt utile numai pentru luarea în considerare a unor variabile nominale, ci şi în cazul unor variabile care pur şi simplu nu se supun preten iilor metodelor de rezolvare ale regresiei liniare. Regresia categorială nu este un singur tip de regresie. Mai mult, putem să o considerăm ca o clasă de modele care în forma generală a ecua iei de regresie, aceiaşi ca şi în capitolul precedent includ variabile care nu se supun regulilor obişnuite. Principalele modele care implică variabile nenumerice în ecua ii de regresie sînt: Regresia liniară cu utilizarea variabilelor dummy, care permite modelarea efectelor variabilelor nominale. • Regresia logistică binară sau multinomială (ambele pot avea formele logit şi probit), care permite definirea unor variabile nominale ca variabile intă a regresiei. • Regresia logit sau probit ordonată, care permite utilizarea variabilelor inte ordinale. 145

Unele soft-uri de statistică oferă şi o aşa-zisă regresia categorială cu scalare optimală care permite definirea scalei pentru fiecare variabilă din ecua ia de regresie în parte. Aceasta este o alternativă generală la care utilizatorul nu trebuie să-şi bată prea tare capul cu modelul folosit şi primeşte rezultatele sub o formă interpretabilă uşor, la fel ca la o regresie liniară obişnuită. În această sec iunea nu doresc mai mult decît să clarific primul dintre modelele enumerate mai sus, modelarea variabilelor nominale cu ajutorul variabilelor dummy. Variabilele dummy sînt variabile care au două valori, de obicei codate 0 şi 1. De fapt, modul de codificare nici nu prea are vreo importan ă, sensul acestuia fiind mai mult unul logic decît numeric. Adică 0 înseamnă fals sau absent, 1 înseamnă adevărat sau prezent. În mod tradi ional variabilele dummy au apărut în cercetările economice pentru a modela sezonalitatea. E foarte simplu. Să considerăm o ecua ie de regresie liniară cu două variabile regresor din care una dummy: yi = a + b1 xi + b2 di + ei unde yi este variabila intă, xi variabila regresor, di variabila dummy şi ei eroarea pentru fiecare caz i la care s-au cules date. Să zicem, de exemplu că dorim să modelăm rela ia dintre consumul de bere (y) şi consumul de alune (x). Să zicem că am cules date de la buticuri, reprezentînd vînzări zilnice. Observa iile ne-au dus însă la gîndul că această rela ie depinde cumva de anotimp. Faptul că iarna se bea mai pu ină bere decît vara nu ar trebui neapărat să modifice rela ia dintre cantită ile de bere şi cele de alune. Dar observa iile ne duc cu gîndul că iarna se mănîncă mai multe alune la aceiaşi cantitate de bere. Deci s-ar putea dependen a să fie cumva diferită. Pentru a putea lua aceasta în considerare am putea să modelăm rela ia cu două ecua ii una pentru vară şi una pentru iarnă. Sau am putea folosi o variabilă dummy, o variabilă cu două valori. În modelul din exemplu aceasta este variabila d. Luăm ca atare d = 1 pentru acei i pentru care valorile x (alune) şi y (bere) au fost culese vara şi d = 0 pentru acei i pentru care valorile au fost culese în alte anotimpuri. De fapt am împăr it eşantionul şi avem: pentru d = 1: yi = a + b1 xi + b2 + ei = (a + b2) + b1 xi + ei 146

iar pentru d = 0: yi = a + b1 xi + ei Cele două ecua ii diferă prin termenul liber, în primul caz acesta este a + b2, iar în al doilea caz a. Deci, dacă am reprezenta grafic cele două drepte ele ar fi paralele. Altfel spus, efectul sezonalită ii modelat cu variabile dummy presupune că rela ia dintre consumul de alune şi consumul de bere nu diferă prin cantitatea de bere care se consumă la o creştere a consumului de alune de o alună ci pur şi simplu consideră că sezoanele pornesc de la un nivel diferit al rela iei dintre consumul de bere şi cel de alune. Faptul că efectul sezonalită ii este dat la aceste modele de o valoare scalară, valoarea b2 şi nu de o variabilă aleatoare face ca astfel de modele să se mai numească modele cu efecte fixe. Cu o asfel de extindere a modelului regresiei liniare putem lua în calcul nu numai efecte de sezonalitate ci şi orice efecte care sînt modelabile cu variabile cu două valori. Pe parcursul căr ii am mai avut ca exemple de astfel de variabile, genul sau prezen a studiilor superioare. Interesant este că o foarte simplă generalizare ne permite să includem în ecua ii de regresie variabile nominale cu oricîte valori. Să luăm o variabilă nominală cu mai multe valori, de exemplu, religia. Mai jos este o tabelă de frecven e care reprezintă religiile locuitorilor jude ului Arad conform unui sondaj de opinie:
I8. religie:

Frecventa adventist baptist catolic evanghelic fara religie grecocatolic martor al lui iehova neoprotestant 5 30 76 1 5 2 1 4

Procent ,8 5,0 12,8 ,2 ,8 ,3 ,2 ,7

147

ortodox penticostal reformat Total

437 28 6 595

73,4 4,7 1,0 100,0

Datele culese prezintă 11 categorii, pentru o modelare corectă probabil diversele rituri neoprotestante ar trebui reunite, ca şi cele protestante, ob inîndu-se astfel un număr mai mic de categorii: ortodox, catolic, greco-catolic, protestant şi neoprotestant şi fără religie. Modelarea cu variabile dummy presupune construirea cîte unei variabile pentru fiecare dintre aceste valori. Deci în locul variabilei “religie” cu valorile din listă vom avea o variabilă “ortodox” cu valorile “da” şi “nu”, o variabilă “catolic” cu valorile “da” şi “nu” şi aşa mai departe. În total modelarea cu variabile dummy presupune înlocuirea unei variabile nominale cu atîtea variabile dummy cîte valori poate lua variabila nominală. Să considerăm rela ia de regresie care modelează dependen a dintre numărul de căr i cumpărate anual şi vîrstă. Cartei = a + b1 Virstai + ei Modelul rezolvat cu metoda celor mai mici pătrate dă: Cartei = 2,146 – 0,026 Virstai + ei Rela ia este deci negativă, cei cu vîrsta mai mică cumpără mai multe căr i. Significan ele coeficien ilor sînt bune, dar coeficientul de determinare este mic (0,098) deci vîrsta explică în mică măsură cumpărarea de carte. Să vedem dacă nu cumva religia, care este la urma urmei o caracteristică culturală, are şi ea un efect asupra obiceiului de a cumpăra căr i. Pentru aceasta redefinim religia sub forma unor variabile dummy. Considerăm deci 6 variabile şi rezultă modelul următor: Cartei = a + b1 Virstai + b2 Ortodoxi + b3 Catolici + b4 Greco-Catolici + b5 Protestanti + b6 Neoprotestanti + b7 FaraReligiei + ei Rezolvarea cu metoda celor mai mici pătrate ne dă următorul rezultat prezentat ca şi tabelă:

148

Model

Coeficienti B Eroare standard ,604 ,003 ,579 ,593 1,074 ,778 ,596

T

Significanta

1

(constanta) I2. vârsta: ortodox catolic grecocatolic protestant neoprotestant

1,899 -,025 ,252 ,187 -,120 -,051 ,255

3,142 -7,891 ,436 ,315 -,112 -,065 ,427

,002 ,000 ,663 ,753 ,911 ,948 ,669

a Variabilă dependentă: Q15. Cate carti cumparati pe an?

În tabela de mai sus sînt coeficien ii ecua iei de regresie, împreună cu rezultatele unor teste de significan ă. Testele verifică ipoteza că variabila regresor nu are efect asupra variabilei intă. Altfel spus verifică ipoteza că coeficientul variabilei este semnificativ diferit de 0. Tabela arată că deşi significan a efectului vîrstei rămîne bună şi coeficientul vîrstei este stabil fa ă de regresia simplă, significan a variabilelor dummy aferente diferitelor grupuri religioase este foarte proastă. Practic nu putem respinge ipoteza generală: “apartenen a religioasă nu are efect asupra numărului de căr i cumpărate anual”. În acest context o discu ie a semnelor coeficien ilor diferitelor variabile dummy este lipsită de sens, ar reprezenta chiar o greşeală gravă, deşi acesta ar fi fost următorul pas dacă significan ele ar fi fost bune. Am fi observat atunci că anumite religii au efect pozitiv, adică coeficien i pozitivi, altele efect negativ asupra numărului de căr i cumpărate. Să alegem acum o altă variabilă calitativă, nivelul de pregătire. Am recodat nivelul de pregătire pe patru categorii: şcoală generală sau mai pu in, studii liceale, studii postliceale, studii superioare. Pentru fiecare am construit o variabilă dummy exact ca în exerci iul precedent şi am calculat ecua ia de regresie. Rezultatul tabelar este mai jos:

Model

Coeficienti B Standardfehler ,466 ,003 ,461

T

Significanta

1

(constanta) I2. vârsta: generala

1,747 -,016 -,580

3,746 -4,759 -1,260

,000 ,000 ,208

149

liceu postliceala superioare

-,109 ,851 ,906

,454 ,489 ,468

-,239 1,738 1,936

,811 ,083 ,053

a Variabila dependenta: Q15. Cate carti cumparati pe an?

Efectul variabilei “nivel de pregătire” este mult mai clar. Pentru a analiza tabela ne uităm la semnul şi valoarea coeficien ilor precum şi la significan a lor. Se observă că efectul este mai significant pentru treptele de pregătire mai înalte. Astfel efectul studiilor superioare este singurul clar semnificativ. Ipoteza de independen ă a numărului de căr i cumpărate anual de nivelul de pregătire poate fi respinsă cu o probabilitate de 95% pentru cei cu studii superioare. De asemenea efectul este evident pozitiv. O influen ă pozitivă ceva mai mică şi mai pu in semnificativă au şi studiile postliceale. Pe de altă parte efectul studiilor liceale sau generale este negativ asupra numărului de căr i cumpărat, dar în acelaşi timp mai pu in significativ. În special în cazul celor care au numai studii liceale este greu să vedem vreun efect asupra numărului de căr i cumpărate. O citire corectă ar fi de fapt: cei cu studii liceale par a cumpăra mai pu ine căr i, dar acest rezultat este insuficient de sigur. Interesant este şi faptul că coeficientul de determinare al ecua iei de regresie care era de sub 10% creşte la 23% prin introducerea variabilei “nivel de pregătire”. Am putea lua în seamă variabila ordinală “nivel de pregătire” şi altfel. Am putea să o recodăm numeric, de genul “şcoală generală” este 1, “studii liceale” este 2, etc. şi să o considerăm ca variabilă numerică. O asemenea abordare ar fi însă mult mai brutală, în esen a ei incorectă şi mult mai pu in nuan ată pentru că nu ar putea determina efecte individuale ale diferitelor nivele de pregătire. Pe de altă parte abordarea efectelor individuale ale nivelelor de pregătire este o utilizare nominală a variabilei şi omite faptul că aceste nivele au de fapt o ordine bine definită.

150

Capitolul 8. Analiza seriilor de timp
Foarte des analiza statistică caută să afle cate ceva despre derularea unor evenimente în timp sau dezvoltarea în timp a unor caracteristici. Însăşi modul nostru de a cunoaşte con ine adesea intrinsec o raportare la timp. Vorbim despre “o vară calduroasă” implicit comparand-o cu alte veri; observăm o rela ie între evenimente şi o identificăm ca pe o cauzalitate, asumand evident o rela ie de consecutivitate temporală; spunem că, de exemplu, “pre urile astea cresc mereu” sau că “e din ce in ce mai greu să găseşti un meşter zilele astea!” considerand existen a unor trenduri temporale.

151

Capitolul 9. Deserturi şi cum putem să le stricăm sau cum se poate greşi în statistică
După ce Darrel Huff a publicat celebra şi deja pomenita lui carte “Cum să min i cu statistici”, multe căr i de statistică introductive au inclus capitole de genul “cele mai frecvente 10 erori” sau greşeli care se fac în statistică. Nu vreau să mă sustrag de la această plăcută sarcină deşi pînă acum am pomenit multe dintre greşelile tipice şi pe ici pe colo am dat şi exemple de cum se fac ele, dacă cineva ar dori să se inspire. Oricum în acest capitol de final o să reiau cu noi exemple o parte din ele, cele care mi se par cele mai frecvente şi cele mai dăunătoare. Aşa cum observa şi Huff, argoul statistic, precum şi al altor ştiin e, presupune nu numai un scriitor atent şi precaut, dar şi un cititor avizat. Declara iile bazate pe statistici induc în eroare cel mai adesea prin omisiuni. Iar cititorul neavizat este tocmai acela care nu sesizează ce lipseşte în informa ia publicată. Omisiunile fatale Anumite ingrediente nu au voie să lipsească din meniul pe care statistica îl pune pe masa cititorului, fie el avizat, fie nu. Pentru ca o informa ie de natură statistică să aibă sens şi valoare de cunoaştere, o serie de informa ii colaterale sînt necesare. De exemplu, la un sondaj trebuie să ştim volumul eşantionului, metoda de eşantionare, şi aşa mai departe. Majoritatea mass mediei, precum şi a cercetătorilor au aflat aceasta şi ne raportează cu sinceritate şi volumul eşantionului şi marja de eroare. Ceea ce e desigur foarte bine. Mai există şi excep ii memorabile, în care omisiunile sînt atît de multe, încît nu mai ştim de fapt de ce ni s-a comunicat ceva. Iata ştire din ziarul Libertatea, Nr. 3392, sâmbãtã 22 septembrie 2001 pe care o reproduc în întregime (!). “Potrivit rezultatelor unui sondaj de opinie, 53% din cetatenii rusi nu cred in existenta unei a doua vieti. In cadrul aceluiasi sondaj, 36% dintre subiecti au declarat ca sunt convinsi in existenta vietii dupa moarte. 11% dintre participantii la sondaj au declarat ca nu pot raspunde la aceasta intrebare.” Aici nu ştim volumul eşantionului, şi bineîn eles nici marja de eroare. Aici trebuie să recunosc că Libertatea este în general consecvent în a omite asemenea informa ii. Ce e mai interesant e 152

felul cum par a fi formulate răspunsurile la întrebare. Dacă adunăm procentajele iese exact 100%. De unde rezultă că scala de op iuni nu a permis “cetă enilor ruşi” din sondaj nici un fel de dileme. Fie “nu cred”, fie sînt “convinşi”. E încă bine că s-a acceptat că unii chiar nu pot răspunde. Cam pu ini după experien a mea. Oricum, astfel de informa ii cu tentă statistică chiar nu au nici o valoare de informare. Să trecem însă la treburi mai serioare. Mai rar decît neprezentarea volumului eşantionului se evită o altă omisiune. Cînd ni se prezintă o valoare procentuală trebuie să ştim pe cîte cazuri s-a ob inut acel procentaj. Aceasta este obligatoriu dacă numărul de cazuri este deosebit de mic. Nu este de regulă nici o problemă la procentaje care se calculează din ansamblul eşantionului, pentru că volumul acestuia este cel mai adesea cunoscut. Necazul apare cînd, de exemplu într-o tabelă de rela ionare, apar procentaje ale unor categorii subordonate. În asemenea cazuri procentajul nu se mai referă la întreg eşantionul. E vorba de cazuri de genul “25% dintre bărba ii de sub 25 de ani sînt de părere că ...”. La astfel de propozi ii precizarea volumul e esen ială. O opinie împărtăşită de către un sfert dintr-o categorie popula ională este desigur importantă. Ceea ce totuşi nu e cazul dacă în eşantion întreaga categorie e reprezentată de 12 persoane, din care un sfert sînt abia 4 oameni. Ştim că matematic vorbind, ceea ce contează sînt la urma urmei numerele mari. Cazul de mai jos nu e chiar o “infrac iune statistică” pentru că informa ia din articol este pînă la urmă suficientă dacă dorim să refacem noi calculele. Dar pe cititorul neavizat tot îl induce în eroare, ceea ce putem liniştit incadra la “contraven ii”. Astfel de omisiuni apar cel mai adesea în lucrări cu preten ii ştiin ifice. Exemplul de mai jos provine dintr-o teză de doctorat în pedagogie de la Universitatea de Stat din Moldova13: “În func ie de gen, înregistrăm recunoaşterea unei palete mai largi de forme de instruire la bărba i: (3% dintre bărba ii chestiona i şi-au exprimat op iune pentru lucrul în bibliotecă, fa ă de 0% la femei; 4% dintre bărba i şi-au exprimat op iunea pentru mass-media).” Ce a vrut autorul să ne spună de fapt? Ei bine, a vrut să compare genurile din perspectiva modurilor de instruire recunoscute şi a conchis că bărba ii men ionează mai multe astfel de forme. Pentru a sus ine aceasta ni se exemplifică două forme de instruire (folosesc termenul
13

Am decis să nu dau mai multe amănunte bibliografice.

153

autorului) men ionate într-o chestionare de către bărba i în mai mare măsură decît de către femei. Prima omisiune este cea a procentajului de femei care declară mass-media ca fiind o formă de instruire. Din tabelele din document se poate afla însă că acest procentaj este de 1%. Problema cea mare este însă că nu se specifică volumul asociat acestor procentaje. Nici în tabelele care apar pe lîngă fragmentul citat mai sus nu apar frecven e, ci numai procentaje. Căutînd un pic prin teză găsim pînă la urmă volumul eşantionului. Aici surpiză maximă, pentru mine, cel pu in: “Popula ia investigată: Subiec ii studiului au fost 175 de adul i, participan i la diferite seminarii (...), dintre care 116 femei şi 79 de bărba i” Din cele de mai sus eşantionul nu pare a fi aleator. Mai departe: Hai să nu fiu cîrcotaş şi să nu adun 116 cu 79. Observ însă că 3% dintre bărba i sînt probabil 4 persoane, iar 4% sînt 5 persoane. 1% dintre femei este 1 persoană. Ei bine, nu numai că omisiunea este nepermisă la numere aşa mici, dar concluzia din studiu este absolut hazardată. O altă omisiune foarte des întîlnită se referă la formularea întrebării. De multe ori un concept complex şi chiar ambiguu este prezentat ca fiind rezultat direct dintr-un sondaj de opinie. Iată un exemplu tipic din Evenimentul Zilei Nr. 4892, 31 Mai 2007. Prezentînd un sondaj de opinie cu informa iile de rigoare (“Sondajul a fost efectuat pe un esantion de 1.244 de persoane si are o marja de eroare de 2,8%”) se face în text remarca: “Sondajul IMAS constata modificari substantiale si la capitolul increderii in personalitatile politice: Traian Basescu, 60%, inregistrand un plus de 11 procente: Theodor Stolojan (32%), Gigi Becali (30%), Calin Popescu-Tariceanu (19%), Mircea Geoana (16%).” Nu ni se spune desigur ce este acea “încredere” şi, ceea ce e şi mai grav, nu ni se spune ce reprezintă procentajele raportate. Putem doar bănui răspunsul la prima întrebare, dar la a doua întrebare nu avem nici un indiciu. Întrebarea pe care o pun de obicei sondajele de opinie la acest subiect este ceva de genul “Cîtă încredere ave i în următoarele personalită i politice?”. Răspunsurile posibile sînt de obicei “Foarte multă”, “Multă”, “Pu ină”, “Foarte pu ină” eventual cu o op iune la mijlocul scalei. Prima omisiune este absen a specificării răspunsurilor care au fost incluse în procentajul de încredere. E oare vorba despre suma categoriilor “foarte 154

multă” şi “multă” încredere? Probabil. Dar exista oare o categorie medie sau nu? Şi dacă da, cum a fost formulată? Şi unde intră ea, la încredere sau la absen a încrederii? Apoi, problema esen ială: cum au interpretat intervieva ii conceptul de încredere? Încerca i să răspunde i la întrebare. Cîtă încredere ave i într-un anume politician? La ce vă gîndi i cînd trebuie să răspunde i? Vă gîndi i la încrederea că va face se spune, sau la încrederea că va spune ce crede, sau la încrederea că ceea ce spune vă va conveni. Poate că e vorba despre o senza ie mai generală de simpatie sau de familiaritate mai de grabă decît de predictibilitate. Faptul că conceptul de încredere este un concept destul de larg face ca răspunsul să fie dependent de contextul în care se pune întrebarea. Contextul poate face ca încrederea să fie interpretată întrun anumit fel. Dacă înainte de întrebarea de încredere se discută despre ac iuni politice sau anumite declara ii politice aceasta poate induce o anumită în elegere şi poate duce la o evaluare de un anumit fel. Bineîn eles un articol de ziar nu poate şi nu trebuie să dea întregul chestionar, dar astfel de considera ii fac discutabilă comparabilitatea rezultatelor la “cote de încredere”. Aşa că aser iunea din articol, cum că Traian Băsesc înregistrează “un plus de 11 procente” nu prea înseamnă mare lucru. Omisiunile pe care le-am men ionat, volumul eşantionului, volumul unei categorii, formularea întrebărilor şi a răspunsurilor, nu au de obicei inten ia de a induce în eroare. Totuşi în unele cazuri ele o fac pentru că încurajează implicit o citire mai generală a rezultatelor decît ar fi permis. Ele pot implica, în special pentru cititorul neavizat, generalizări sau compara ii care sînt nesus inute. O altă problemă care este conexă omisiunii formulării întrebării este confunzia legată de variabila măsurată. Aşa cum am văzut din întrebarea despre încredere nu este întotdeuna evident ce se măsoară. O eroare gravă este confuzia de variabilă. Ce măsurăm de fapt? De multe ori cercetările ştiin ifice, şi în special cele din domeniul social şi economic conceptualizează la un nivel teoretic abstract. Apoi statisticianul este pus în situa ia de a opera ionaliza teoria, adică de a găsi ceva suficient de măsurabil şi suficient de apropiat de formularea teoretică astfel încît ipotezele de cercetare să poată fi testate. Atunci cînd un concept teoretic este prea vag pentru a putea fi măsurat direct, statisticianul trebuie să găsească o variabilă care să ină locul acestui concept în cercetarea empirică. Metoda se numeşte de regulă analiză cu variabile proxy după cuvîntul englezesc pentru înlocuitor. Cît de bine se pretează o variabilă proxy pentru a ine locul unui concept nemăsurabil este de obicei 155

nedecidabil. Totuşi o doză de bun sim ştiin ific există în modul cum se pot face astfel de defini ii. O altă cale de abordare a aceleiaşi probleme este utilizarea analizei de cale (sau, iarăşi englezeşte, analiză path). În acest caz variabila nemăsurabilă este inclusă într-o cale logică deductivă, şi înlocuită în cercetare printr-o variabilă care îi este precursor logic. Desigur determinarea logică a variabilei care este oricum nemăsurabilă printr-o altă variabilă nu poate fi completă şi oricum nu poate fi determinată prea clar. Sigur înlocuiri de acest tip se pot face, dar nu trebuie nici o clipă uitat că înlocuirea e valabilă foarte limitat şi doar la nivelul conceptual al respingerii de ipoteze, al contraexemplului deci. După introducerea aceasta pu intel cam filosofică, ce e de spus, de fapt? O mare grijă trebuie avută de cîte ori în cercetare sau în prezentarea unor rezultate apar concepte ce par a fi greu de măsurat. Textul nostru trebuie să spună exact ce am măsurat de fapt şi de ce. Hai să dau un exemplu autocritic. Într-o serie de cercetări am avut nevoie să măsor ceva ce teoria numea “gradul de globalizare” sau de “includere în societatea globală” a unei ări într-un moment anume. Am mai dat exemple din aceste cercetări aşa că unii poate îşi amintesc că am folosit numărul de organiza ii non-guvernamentale active în ara respectivă pentru a măsură globalizarea. Este evident o variabilă proxy. Cît e de bună? Nu pot spune decît că am decis după o cumpănire destul de serioasă a alternativelor pe care le propune literatura din domeniu. Ce pot spune în apărarea mea? Faptul că am prezentat în articolele ştiin ifice rezultate din aceste cercetări, ce este de fapt variabila şi nu am pretins că ar fi mai mult decît un indicator posibil al gradului de globalizare. Erorile cele mai frecvente legate de obiectul unei măsurători se fac în studii de marketing în care adesea consumul este identificat cu estimarea consumului, cheltuieli cu estimarea cheltuielilor. Întrebări de genul “cît cheltui i lunar pe preparate din peşte?” pot cu greu fi interpretate ca reprezentînd un indicator cît de cît fidel al consumului. in minte primul sondaj pe care le-am condus în România. Printre altele am întrebat atunci locuitori ai Timişorii cu ce partid au votat la alegerile precedente, de la care trecuse mai bine de un an. Am regăsit un rezultat care e descris şi în literatura de statistică politică. Anume că oamenii uită ce au ales şi sînt mul i care identifică partidul cîştigător al alegerilor cu op iunea lor, deşi în realitate au votat la vremea respectivă cu un alt partid. Sondajul meu avea rezultate bune de test, adică eşantionarea avea caracteristicile unei eşantionări aleatoare. Totuşi propor iile voturilor pe partide nu corespundeau de fel rezultatelor reale de la alegerile precedente. Variabila culeasă de mine cu era deci “op iunea politică de la precedentele alegeri”, ceea ce de fapt îmi doream să măsor, ci “impresia de la momentul chestionării asupra opiniei politice 156

de la precedentele alegeri”. Diferen a e mare, pentru că ne împiedică să avem un indicator al schimbărilor de op iune. Raportarea selectivă a rezultatelor O altă eroare tipică pentru mass media, dar şi pentru politicieni şi universitari sau cercetători care se transformă în politicieni prin partizanat, este raportarea selectivă a rezultatelor. Desigur un context restrictiv cum ar fi cel al unui articol de ziar sau al unei declara ii de presă nu poate acomoda toate rezultatele unei cercetări, cu toate acestea uneori nu avem cum să nu suspectăm inten ie în asemenea situa ii. Pe la începutul anilor 1990 am auzit de la un cunoscut sociolog român, nu spui cine, persoană importantă, o declara ie televizată care m-a minunat pu intel. Încerc să o reproduc cît de exact pot: “în Statele Unite, în anii 50 sectorul universitar privat includea jumătate dintre institu ii, dar s-a ajuns ca în 1990 numai 20% dintre studen i să studieze la universită i private”. Negreşit ambele valori sînt corecte, ceea ce se omite este că şi în 1990 ponderea universită ilor private era tot de vreo 50% din ansamblul universită ilor americane. Declara ia pune fa ă în fa ă două valori care nu sînt direct comparabile, o pondere de institu ii din 1950 şi o pondere a studen ilor din 1990 creind astfel senza ia unui trend. Adevărul este că un astfel de trend există şi ponderea studen ilor din sistemul privat a scăzut cu adevărat, deoarece sistemul universitar american public a expandat mult mai mult decît cel privat. Cu toate acestea, felul cum a fost făcută declara ia a fost evident manipulator. Şi aceasta şi prin faptul că a prezumat o scădere a sistemului privat ceea ce nu a avut de fapt loc. Ceea ce s-a întîmplat a fost o creştere mai accentuată a sistemului public. Prezentarea numai a acelor rezultate care convin din punctul de vedere al cercetării, fie ea ştiin ifică sau mai pu in, este o boală care nu prea are leac. În multe cercetări de natură politică se pun, pe lîngă întrebările “pe bune” şi anumite întrebări special pentru a ob ine rezultate publicabile sau care să sus ină decizii gata luate. Se poate raporta selectiv şi altfel, poate ceva mai pu in manipulativ, dar totuşi. Iată un fragment din ziarul Cotidianul, din 3 August 2007:

157

“(...) 44% dintre romani considera ca premierul Tăriceanu nu trebuia să demisioneze ca urmare a rezultatului referendumul pentru demiterea preşedintelui Băsescu.” Nu ni se spune ce consideră ceilal i 56% dintre români. Că premierul trebuia să demisioneze? Probabil că nu, sigur există şi foarte mul i care nu au o opinie pe această temă. Şi totuşi cî i cred că trebuia să demisioneze? Felul cum e formulată propozi ia ne face să presupunem că procentul celor care consideră că premierul trebuia să demisioneze a fost mai mic decît 44%. Şi totuşi contează cu cît a fost mai mic. A fost 10% sau 40%? Sau poate nici nu a fost mai mic? Matematic este cît se poate de posibil. Uneori prezentarea selectivă a rezultatelor nu pare a avea nici un scop. Un text a fost scurtat şi a ieşit ce a ieşit. Iată un exemplu din Evenimentul Zilei, Nr. 4892, din 6 Iulie 2006. Restul articolului îl face să fie şi mai criptic. “36% dintre români şi-ar dori sa lucreze acasă, în timp ce doar 11% preferă să meargă la birou, deşi au posibilitatea de a lucra din incinta propriului cămin, potrivit unui sondaj realizat de portalul de recrutare on-line bestjobs.neogen.ro.” Senza ional, dar ce au spus de fapt? Cine sînt aştia, ce vor ei, şi ce au fost întreba i, şi ce au răspuns, şi cî i şi de ce scrie la ziar? Asta ca să nu spun că nu e clar dacă cei 36% şi cei 11% provin din aceiaşi întrebare sau nu, şi ce părere au restul de nici nu ştiu şi nici nu pot şti cî i. Eşantioane nealeatoare şi biasate O altă eroare frecventă este “înnobilarea” unei chestionări oarecare cu titlul de sondaj de opinie. Am discutat deja că regulile unei eşantionări au ca scop posibilitatea de generalizare de la eşantion la ansamblul popula iei. Deci, ca să putem spune, ca într-unul din exemplele de mai sus “românii consideră” trebuie ca popula ia studiului să fie “românii” şi eşantionarea să fie aleatoare sau o aproximare cît bună posibil a unei eşantionări aleatoare. Regula de bază pe care nu obosesc să o repet şi studen ilor mei e simplă: fiecare individ din popula ia de bază trebuie să aibă aceiaşi şansă să fie parte din eşantion. Sigur acesta e un ideal nici o dată atins. Există nomazi, şi există oameni bolnavi şi încarcera i şi alte diverse categorii care nu prea au aceleaşi şanse să fie parte din eşantion ca şi restul popula iei. Aceasta însă nu trebuie să ducă

158

a renun area la principiu ci la redefinirea popula iei. Adică nu to i “românii consideră”, ci numai românii cu domiciliul stabil, etc. Un caz interesant în care eşantionul este în principiu aleator dar totuşi din cauza unei greşeli de proeictare a cercetării sau a unei particularită i pe care cercetătorul nu a luat-o în seamă eşantionul diferă printr-o anumită caracteristică fa ă de popula ia dorită a fi studiată. Asemenea eşantioane se numesc biasate. Cuvîntul “bias” înseamnă în engleză ceva gen prejudecată, dar sensul lui statistic este de defazare, eroare sistematică. Dacă se foloseşte cuvîntul în sensul de prejudecată, s-ar zice că o opinie este biasată dacă ea este necondi ionat negativă sau pozitivă. În statistică un eşantion este biasat dacă valorile unei variabile sînt defazate către o valoare sau o parte a scalei de răspunsuri. Dacă, de exemplu, pentru un studiu de pia ă legat de consumul de detergen i se fac interogări la domiciliu înainte de masă, eşantionul va prinde o pondere anormal de mare de studen i, gospodine şi pensionari. Eşantionul va fi defazat către anumite categorii ocupa ionale. Vor fi subreprezentate tocmai persoanele angajate în muncă, eşantionul altfel produs va putea fi de fapt aleator. Totuşi nu va fi reprezentativ pentru ca va fi biasat. Am mai dat pe parcursul căr ii şi exemplul chestionării duminică înainte de masă. Acolo biasarea e şi mai clară pentru că cei ce nu vor fi interoga i sînt cei ce merg la biserică adică persoane care evident au o caracteristică particulară care le poate influen a opinia pe multe teme. În acest caz eşantionul chiar va avea un fel de prejudecată, adică va elimina din start anumite opinii. Institutele serioase de sondare a opiniei publice nu fac greşeli de acest tip. Eşantionări nealeatoare sau biasate se regăsesc însă la aşa-zise sondaje efectuate de organe de presă sau site-uri de internet, dar adesea şi în cercetări ştiin ifice din domenii în care o eşantionare este greu de întreprins. Să mai las pu in în pace presa, hai să dau un exemplu din dintr-o teză de doctorat în psihologie, tot de la Universitatea de Stat din Moldova. “... trebuie să men ionăm că 75% dintre copiii cerceta i proveneau din mediul rural, fa ă de 25% - care erau din mediul urban. Acest procentaj este cu atît mai semnificativ cu cît este peste nivelul mediu de urbanizare pe ară a popula iei Republicii Moldova: în mediul rural – circa 60%, iar în mediul urban – circa 40%. Aşa că repartizarea (...) denotă o tendin ă de răspîndire a (...), mai cu seamă la popula ia din mediul rural”

159

Evident procentajele pe eşantion nu sînt peste, ci sub nivelul mediu de urbanizare din Republica Moldova, dar aceasta e probabil o scăpare neesen ială, o eroare de exprimare. În text se generalizează apoi de la distribu ia pe eşantion la răspîndirea caractisticii investigate în ansamblul popula ional. Ceea ce se poate desigur face dacă este reprezentativ. De fapt este însă vorba despre 30 (treizeci!) de interviuri. Acum că aceşti 30 erau dintribui i între mediile rural şi urban 75% - 25% fa ă de ansamblul popula iei care se distribuie 60% - 40% este departe de a permite orice fel de concluzii. La urma urmei 25% din eşantion sînt 7-8 persoane, iar dacă ar fi fost 40% ar fi fost 12 persoane. În plus, eşantionul nefiind oricum reprezentativ, generalizarea la nivel popula ional nu e acceptabilă. Tipice pentru astfel de situa ii sînt cercetări din medicină, ştiin e ale educa iei sau psihologie. Şi aceasta deorece multe dintre aceste cercetări se ocupă de popula ii rare, popula ii la care o eşantionare aleatoare este fie imposibilă, fie foarte problematică. Bine atunci ce trebuie să facă sărmanii oameni? Ei bine, trebuie să nu pretindă că rezultatele lor sînt generalizabile statistic la nivel popula ional. Corela ii şi regresii prost interpretate Interpretarea corela iilor şi a regresiilor este problematică în special atunci cînd se caută rela ii cauzale. Cum am mai spus calculele statistice pot respinge anumite cauzalită i nu pot însă propune cauzalită i. Aceasta stă numai în puterea unor teorii. Totuşi cînd sîntem puşi în fa a faptului că există o rela ie între două variabile, sau că se poate respinge independen a a două variabile, sîntem şi tenta i şi nevoi i să propunem explica ii pentru acest fapt. Deci, nu numai teoria naşte testare statistică ci şi invers. Cercetarea statistică produce ipoteze teoretice prin interpretările rezultatelor. Deci trebuie să avem grijă cum interpretăm ceea ce găsim pentru ca paşii pe care îi intreprindem în continuarea cercetărilor noastre să nu o ia pe cîmp prea departe de potecă. Din păcate aici reguli nu prea există. Interpretările proaste nu sînt neapărat interpretări greşite. Prostiile rezultă cel mai adesea nu din citirea greşită a rezultatelor de test ci din incultură sau nerăbdare ştiin ifică. Nu este vorba despre neglijarea significan ei şi a valorii de test. Astfel de situa ii nu necesită prea multe comentarii. Se întîmplă însă ca citirea unei rela ii ca şi cauzalitate directă să fie suficient de absurdă ca cercetătorul să abandoneze o cale care ar putea fi fertilă. Am men ionat pe undeva ipoteza “berzele aduc bebeluşii”. Tot aşa 160

interpretarea corela iei şi regresiei ca şi cauzalitate directă poate duce la abandonarea căutării unor rela ii cauzale mai complexe dar posibil interesante de studiat, care ar putea fi ipoteze pentru cercetări viitoare. Uite o situa ie similară cu povestea berzelor şi a natalită ii. Este cunoscută şi testată de mai multe ori rela ia dintre înăl ime fizică şi venit individual. Persoanele înalte au venituri mai mari. Rela ia, care a fost observată prima oară în Statele Unite (), s-a dovedit valabilă aproape în orice popula ie. Dacă privim corela ia ca pe o cauzalitate directă ea nu prea are sens. La urma urmei condi iile salariale sînt negociabile liber pentru destul de pu ine locuri de muncă şi nu cred că la asemenea negocieri înăl imea fizică are vreo importan ă. Mai mult, uneori salariile se negociază telefonic. Totuşi corela ia există. Prima ipoteză de cercetare este includerea în lan ul cauzal al variabilei gen. Genul are efect asupra înăl imii şi asupra venitului mediu. Bărba ii sînt în medie mai înal i şi au în medie venituri mai mari. Aceste două determinări sînt bine cunoscute. Dintre ele cel pu in cea de a doua a fost mult cercetată. Determinările au ca efect o corela ie între înăl ime şi venit. Explica ia aceasta e deja acceptabilă. Deci, în primul rînd, corela ia dintre înăl ime fizică şi venit nu trebuie respinsă ca fiind o “falsă corela ie” (în engleză le zice spurious correlations), pentru că există o explica ie bună. Explica ia aceasta este însă insuficientă. Dacă refacem calculele pe genuri ob inem următoarea surpiză. La femei corela ia nu există, femeile mai înalte nu au venituri mai mare decît cele mai pu in înalte. La bărba i însă corela ia rămîne. Cu cît e un bărbat mai înalt, are un venit mai mare, statistic vorbind. Deci, trebuie săpat în continuare. După ce se poate uşor respinge ipoteza cum că bărba ii mai înal i au mai multă şcoală, rămîne să căutăm alte explica ii. O explica ie care func ionează este faptul că bărba ii înal i au o şansă mai mare să de ină func ii de conducere şi să beneficieze ca atare de sporuri la venit din acest motiv. Înăl imea e receptată ca prestan ă, sau chiar e prestan ă (poate v-a i prins, eu sînt mai de grabă mic!) şi duce la ob inerea mai uşoară a unor pozi ii de decizie. Această caracteristică se regăseşte la toate palierele de pregătire şi este chiar mai importantă la nivele de pregătire mai reduse. Controlînd, pe lîngă gen, şi influen a pozi iei decizionale asupra corela iei, aceasta se reduce şi mai mult şi devine foarte slabă. Asta a fost deci. Se pare, cel pu in. E de observat că cele două variabile pe care le-am introdus în schemă au pozi ii cauzale diferite. Genul se repercutează asupra înăl imii şi, printr-un lan cauzal mai complex şi controversat, determină şi venitul. Pozi ia decizională este însă interpusă între înăl ime şi venit. Pozi ia decizională determină direct venitul şi este determinată, iarăşi probabil printr-un lan cauzal mai complex şi printre multe alte caracteristici, de către înăl ime. 161

Am dat un exemplu de corela ie care putea fi respinsă uşor ca fiind o prostie. Hai să dau şi un exemplu în care interpretarea unei corela ii a fost într-adevăr o prostie. Într-un articol dintr-o revistă de altfel bună, un cercetător american (Kuh, 1999) construieşte următoarea corela ie: există o rela ie puternică negativă între beneficiile auto-declarate ob inute din învă ămîntul superior şi ponderea disciplinelor ocupa ionale în sistemul de învă ămînt superior. El extrage această concluzie dintr-o corela ie efectuată pe serii de timp între 1960 şi 1990. Adică, pe măsură ce ponderea disciplinelor care pregătesc studen i pentru meserii bine definite a crescut, a scăzut beneficiul auto-declarat ob inut de pe urma studiilor universitare. Şi corela ia aşa este. De aici autorul ajunge la concluzia că studiile cu caracter ocupa ional aduc de fapt mai pu ine beneficii absolven ilor. E vorba aici de discipline precum medicina, ingineria, arhitectura, etc. care sînt strict legate de meserii, fa ă de discipline precum filosofia, fizica sau matematica care sînt legate de domenii ale cunoaşterii, de ştiin e. Problema este că autorului îi scapă o variabilă esen ială, volumul total al absolven ilor, adică gradul de cuprindere al învă ămîntului superior. Acesta a crescut foarte mult în Statele Unite în anii studia i, deci între 1960 şi 1990. Crescînd numărul de absolven i de învă ămînt superior are loc un soi de “infla ie” de diplome. Pozi iile sociale înalte nu devin neapărat mai multe, dar absolven ii de învă ămînt superior se înmul esc foarte tare. Astfel o diplomă universitară nu mai garantează o pozi ie socială şi economică aşa bună cum garanta în anii 1960. Deci expansiunea învă ămîntului superior e principala cauză pentru reducerea beneficiilor ob inute de pe urma studiilor. Pe de altă parte creşterea ponderii disciplinelor cu caracter ocupa ional este, măcar par ial, influen ată tot de expansiune. Aici mecanismele sînt mai complexe şi includ schimbarea rolului învă ămîntului superior de la cel de legitimare a unei elite sociale la cel de pregătire profesională, precum şi intrarea în învă ămîntul superior a din ce în ce mai mul i studen i proveni i din medii sociale mai joase şi cu interese mai de grabă profesionale decît academice. În concluzie, interpretarea cum că disciplinele ocupa ionale dau beneficii mai mici e o prostie. Corela ie e determinată de efectele pe care lea avut expansiunea învă ămîntului superior asupra celor două variabile şi nu de o rela ie dintre ele. Ar fi trebuit studiată măcar o corela ie par ială controlînd efectul volumului total de studen i sau de absolven i, fiind însă vorba despre serii de timp metodele de cercetare ar fi trebuit să includă şi alte calcule pe care nici nu le mai pomenesc aici.

162

163

În loc de încheiere
“- Statistica ne spune că astfel de crime sînt comise de către rude. - Dar vă jur, nu am fost eu! - Statistica nu minte. Criminalii însă da.“ (The District, serial TV, 2000) Dialogul de mai sus este desigur memorabil de inept. Şi tot ce sper de la această carte este să vă fi făcut să în elege i de ce. Poli istul din fragmentul de dialog, a cărui încredere în statistică ne bucură desigur, nu pare să priceapă felul cum func ionează statistica. Pe parcursul acestei căr i am încercat să arăt că statistică poate să nu mintă şi în acelaşi timp să nu spună adevărul, sau în orice caz să nu spună un adevăr care să fie valabil în justi ie. Adevărul statisticii nu este unul simplu, nu este univoc şi exact. Dar cu toate acestea este un adevăr dacă ştim cum să-l citim. Am încercat în paginile de pînă acum să descriu cît mai bine am putut cum “gîndeşte” metoda statistică şi cum trebuie noi să interpretăm rezultatele ei. Bine, bine, dar dacă adevărul statistic nu e un adevăr simplu, univoc şi exact şi în plus pentru a îl în elege trebuie să ne şi batem capul sau, doamne fereşte, să şi calculăm cîte ceva, atunci de ce mai folosim statistica? Ei bine, pentru că statistică este o metodă de cunoaştere care îşi asumă imperfec iunea ei şi de obicei chiar ne permită să determinăm această imperfec iune, să o delimităm. Cu ajutorul statisticii nu putem spune exact care e adevărul. Putem să ne apropiem de el şi, ce e cel mai important, putem spune ceva de genul, “nu e ăsta adevărul dar există o probabilitate destul de mare astfel ca adevărul să fie pe undeva pe aproape”. Sună foarte slab? Poate, dar e mai mult decît ne pot oferi multe alte metode de cunoaştere. Statistica nu ne oferă certitudini, dar ne oferă garan ii suficiente pentru a lua decizii. Certitudinile sînt oricum supraevaluate. Pu inele propozi ii din ştiin ă despre care putem spune cu certitudine că sînt adevărate sunt truisme. Ele nu ne interesează în cercetarea ştiin ifică reală14. Statistica ne poate spune despre o propozi ie, care nu este o certitudine, cam care ar fi şansele să greşim dacă o declarăm falsă. Şi astfel statistica ne poate ajuta să decidem atît în ştiin ă cît şi în alte domenii ale activită ii umane, în economie, în politică, şi aşa mai departe.

14

Matematica s-ar putea să fie o excep ie, dar încă nu sînt sigur.

164

165

Anexe. Tabele pentru testele t, Z şi Chi2 (de adăugat pentru publicare)

166

Sign up to vote on this title
UsefulNot useful