PROBLEMATICA EŞANTIONĂRII Harta democraţiei se suprapune cu cea a cercetării sociologice, ca semn al consideraţiei reale acordate oamenilor care compun

societăţile democratice cât şi faptului că acolo deciziile se iau pe baza studiului realităţii socioumane şi nu “orbeşte” sau pe baza “revelaţiilor”. Într-o societate democratică, oamenii trebuie să fie informaţi sub toate aspectele. Înăbuşirea, trunchierea informaţiei lasă poartă deschisă zvonurilor, minciunilor, panicii, isteriei colective, manipulărilor. Cercetările sociologice caută să dea seama de comportamentul unei populaţii investigând un eşantion al acesteia şi apoi extrapolând rezultatele obţinute la acea populaţie (de ex., chestionăm 1500 de persoane şi tragem concluzii privind “comportamentul electoral” al românilor). Aşadar, populaţia este ansamblul oamenilor, grupurilor, unităţilor sociale în raport cu tema de cercetare sociologică (de ex., populaţia României, populatia studenţilor, populatia şomerilor etc.); eşantionul este o parte a acestei populaţii selecţionată prin anumite procedee de eşantionare; variabila discriminantă este criteriul ce permite împărţirea populaţiei în straturi, grupuri etc. Caracteristicile unei populaţii nu sunt toate de acelaşi nivel; anumite caracteristici, cum ar fi: vârsta, sexul, locul de rezidenţă, nivelul de instruire, categoria socioprofesională, statutul matrimonial, sunt considerate variabile independente. Altele: opiniile, atitudinile, comportamentele diferite, sunt considerate variabile dependente. Cercetătorul degajează un număr de caracteristici în relaţie cu tema pe care o are de cercetat şi construieşte eşantionul urmărind reprezentativitatea acestuia. Dacă populaţia este omogenă, eşantionul poate fi de talie mică. Dacă populaţia este eterogenă, se pleacă de la teorii mai nuanţate ale “stratificării” sociale şi se aleg eşantioane reprezentative pe straturi. Aşadar, se investighează un număr redus de persoane dintr-o populaţie şi concluziile rezultate în urma prelucrării datelor se extrapolează la acea populaţie.Este permis, se justifică acest fapt? Gnoseologia (“mereologia”, ştiinţa raporturilor, relaţiilor parte – întreg ) arată că partea reflectă într-o anumită măsură întregul. Şi praxiologia arată că este posibil şi necesar să maximizăm gradul în care partea reflectă întregul şi că procedând astfel economisim timp, bani, având aceleaşi avantaje pe planul cunoaşterii. Sunt rare cazurile când cercetăm întreaga populaţie (cu ocazia recensămintelor, de exemplu, iar atunci ne oprim la chestiuni de suprafaţă, pe baza unor formulare simple). Când vrem să cunoaştem comportamentul electoral al ieşenilor, de exemplu, populaţia va fi compusă din toate persoanele cu drept de vot (mai mari de 18 ani). În acest caz vom apela la listele electorale pentru a alege persoanele din eşantion (spunem că avem o bază de date, o bază de sondaj etc.) Sociologia apelează la listele diferitelor contabilităţi, ale direcţiilor de personal, la cărţile de telefon etc. (de

1

exemplu, la ora actuală se utilizează pe scară largă sistemul CATI - chestionarea prin telefon asistată de calculator). Construim eşantionul reprezentativ căutând să respectăm cerinţa de a da fiecărui membru component al populaţiei vizate aceleaşi şanse de a face parte din el. Deci, dintr-o populaţie putem extrage eşantioane diferite, de reprezentativitate diferită; media mediilor eşantioanelor se va apropia mai mult de media populaţiei. Reprezentativitatea unui eşantion creşte odată cu numărul oamenilor cuprinşi în el, dar sporul de reprezentativitate nu este direct proporţional cu creşterea volumului eşantionului; dependenţa aceasta nu este liniară, ci are forma unor curbe particulare: 100 Reprezentativitate

0

A

B

N Mărimea eşantionului

Dacă avem “un eşantion cu 0 indivizi” şi unul cu „toţi indivizii populaţiei”, curba care leagă punctele va creşte rapid la valorile mici ale lui n (volumul eşantionului) şi va ajunge rapid în apropierea plafonului reprezentativităţii care se atinge când n coincide cu N (volumul populaţiei). J. Stoetzel arăta că pe măsură ce se cumulează datele pe sute de indivizi, variaţiile de răspuns devin tot mai mici: reprezentativitatea atinge repede un nivel ridicat, iar o creştere suplimentară a numărului de indivizi în eşantioane nu mai aduce mare spor de reprezentativitate. Procente cumulate 68,0 61,5 61,6 62,8 63,0 62,7 64,3 65,0 66,0
2

Date succesive 1 2 3 4 5 6 7 8 9

Procente de “Da” 68 55 62 66 64 61 74 75 69

10 11 12 13 14

69 77 68 69 67

66,3 67,2 67,3 67,4 67,4

În discuţia referitoare la reprezentativitatea eşantionului nu intervine problema mărimii populaţiei; cu alte cuvinte, un eşantion format din n componente poate avea aceeaşi reprezentativitate, indiferent de mărimea populaţiei din care este extras; (un eşantion de 1000 persoane poate fi reprezentativ şi pentru o populaţie de un miliard şi pentru un oraş de câteva zeci sau sute de mii de persoane). În eşantioanele cercetate, trebuie asigurată reprezentativitatea pe straturi (un eşantion de un anumit volum poate fi reprezentativ la nivelul populaţiei, dar populaţia nefiind omogenă, straturile ei pot să nu fie reprezentate corespunzător). Aşadar, avem de realizat o cercetare pentru a estima o anumită valoare v din populaţie (o medie, o proporţie, o frecvenţă, un indicator de dispersie, un coeficient de corelaţie etc., de ex.: media de vârstă, proporţia celor care exprimă o anumită opţiune politică, frecvenţa cu care întâlnim o anumită practică religioasă, cum se corelează nivelul de pregătire şcolară cu vulnerabilitatea la şomaj etc.). Putem extrage din respectiva populaţie mai multe eşantioane reprezentative, sau un eşantion (de obicei); în el vom afla o valoare V*, diferită de V din populaţie. Cu cât eşantionul este mai reprezentativ, cu atât V* se apropie de V din populaţie. Dar noi nu-l ştim pe V; cu alte cuvinte, pentru un eşantion ales la întâmplare, vom putea afirma cu o anumită probabilitate că mărimea V* din eşantion se apropie de cea adevărată din populaţie, de care diferă cu o mărime calculabilă. Vom nota cu d eroarea maximă (care exprimă diferenţa acceptată între V* şi V), cu P nivelul de probabilitate sau nivelul de încredere (care exprimă şansele ca eroarea reală atunci când aproximăm pe V prin V* să nu depăşească d; cu alte cuvinte, determinând o valoare V* pe eşantion, cu ajutorul erorii maxime, d, vom construi un interval (v*- d,v*+d) în interiorul căruia se va situa valoarea căutată, V, din populaţie). Reprezentativitatea unui eşantion este dată de cuplul (d, P). Nu putem vorbi însă de reprezentativitatea unui eşantion în general, ci doar în raport cu o anumită caracteristică (de ex., un eşantion poate fi reprezentativ în raport cu vârsta, un alt cuplu (d, P) poate fi reprezentativ în raport cu nivelul de instruire etc .). Un eşantion este mai mult sau mai puţin reprezentativ, nu doar (ne)reprezentativ. Dacă avem construite două eşantioane şi dacă într-unul d este mai mic, acel eşantion este mai reprezentativ decât celălalt, ca şi în cazul în care P este mai ridicat în acel eşantion. În cercetarea sociologică se acceptă că o anumită eroare este “suficient de mică”, sau că o probabilitate este “suficient de mare” pentru ca un eşantion să fie reprezentativ. Pentru nivelul de probabilitate, P, valoarea minimă acceptată este de 0,95 (adică
3

şansele de a greşi estimarea nu trebuie să depăşească 0,5 adică 5%); probabilitatea de a greşi se notează cu p, complementar lui P: (p=1 – P). Spunem că un eşantion este reprezentativ dacă în raport cu caracteristicile cercetării, eroarea d este sub o limită acceptabilă, iar p se află sub 5%, adică P este de cel puţin 95%. La o anumită valoare a lui d şi P şi o valoare impusă lui e, rezultă o valoare a lui n. Daca luam d= 0,5, P=50% si e= 1%, rezulta un esantion de 9600 persoane. Ori, adesea populatia e mica. Esantionul va fi mai mic, daca acceptam pe e mai mare (2%, 3% etc.) mentinind celelalte constante (la 5%, esantionul va fi de 384 persoane, la 4% va fi de 600, la 3% 1060, la 2% - 2400). Daca modificam valorile lui P sau d, esantionul se va modifica de asemenea. Eşantionarea poate fi: probabilistică (aleatoare) şi neprobabilistică (nealeatoare). Fiind vorba de cercetări pe subiecţi umani, condiţiile de alegere a eşantionului nu sunt ideale (ca atunci când alegem un număr de becuri dintr-un lot pentru a le face controlul tehnic de calitate). În cazul cercetărilor sociologice, facem o selecţie aleatoare atunci când eliminăm orice intervenţie subiectivă, orice factor sau condiţie care ar favoriza pe unii şi ar defavoriza pe alţii la alegerea lor în eşantion (de ex., dacă vrem să aflăm opinia ieşenilor în raport cu o problemă de maxim interes pentru toţi locuitorii şi vom ieşi în faţa Universităţii la ora 10 şi 50 de minute pentru a lua “la întâmplare” un număr de membri în eşantion, se poate ca el să nu fie reprezentativ, fiindcă cele mai mari şanse de a fi cuprinşi le vor avea studenţii, profesorii, locuitorii din Copou , nu şi alte categorii, straturi ce alcătuiesc populaţia oraşului. Tipul de eşantioane aleatoare cere ca fiecare membru component al populaţiei să aibă şanse calculabile egale şi nonnule de a fi ales în eşantion. Cea mai simplă este eşantionarea aleatoare care se poate face prin procedeul loteriei, al tragerii la sorţi, ca şi prin procedeul “numerelor aleatoare”(există tabele cu numere formate din 4,5,6... cifre aranjate pe coloane, alcătuite prin diferite mijloace; la ora actuală există programe pe computer care fac astfel de numere şi extrag şi indivizii pentru eşantion în baza unei liste pe care am introdus-o; aşadar, avem o listă cu persoanele unei populaţii şi aceste tabele; dacă avem de ales sute de persoane, vom merge pe coloane şi vom lua din liste indivizii cu numerele aflate în aceste coloane; ex. 312, 011, 005... etc., din: 900312, 014011, 625005 etc.). Eşantionarea din straturi pleacă de la criteriul caracteristicilor care împart populaţia în mai multe straturi cu efective: N1, N2, N3, ……, Nn (care însumate vor da N, efectivul populaţiei). În acest caz, eşantionul n, îl vom construi în etape, selectând eşantioanele: n 1, n2, n3, ……., nn din fiecare strat, proporţionale cu mărimea straturilor respective (fiecare proporţie din eşantion reproduce proporţia corespunzătoare din populaţia stratului). De fapt, se pleacă de la un criteriu a cărui distribuţie este cunoscută, pentru a exprima distribuţia altei caracteristici pe care nu o cunoaştem dar care se corelează cu prima.
4

În practica cercetării sociologice se utilizează stratificarea multiplă (prin împărţirea populaţiei după: sex, vârstă, nivel de şcolarizare, loc de rezidenţă, statut matrimonial etc, adică variabilele factuale care surprind situaţia obiectivă a unui individ în viaţa socioumană cotidiană a unei societăţi şi care au influenţă semnificativă asupra opiniilor, atitudinilor, comportamentelor lor). Un eşantion obţinut prin eşantionarea aleatoare din straturi are o reprezentativitate mai mare decât unul obţinut prin eşantionarea aleatoare simplă. Dar, dacă vom avea de făcut comparaţii între caracteristicile diferitelor subpopulaţii, straturi etc., de exemplu, pentru a vedea cum votează cei cu patru clase şi cei cu douăzeci, cei de la sate în comparaţie cu cei de la oraşe etc., dacă ponderile acestor straturi în populaţie sunt diferite, unele fiind mai mici ca altele, atunci subeşantioanele aferente vor fi şi ele mai mici, ceea ce înseamnă că îşi pot pierde gradul de reprezentativitate rezonabilă; în aceste cazuri se poate încălca principiul egalităţii şanselor de a intra în eşantion şi vom lua un număr care să asigure şi reprezentativitatea acestor straturi, având grijă ca la calculele valorilor de ansamblu să ponderăm valorile parţiale la nivel de strat. Să spunem că avem de investigat opiniile electorale ale populaţiei judeţului; este uşor să ne imaginăm dispersia teritorială a eşantionului pe care îl vom alege; adică, în mod normal ar trebui să luăm din fiecare localitate un număr semnificativ de locuitori, un număr de persoane pentru eşantionul în volumul pe care ni l-am propus. Operatorii de teren ar avea de străbătut distanţe enorme, cu cheltuieli mari etc. Există posibilitatea de a ocoli aceste neajunsuri, cu mari avantaje pe planul costurilor, timpului, promptitudinii. Care este ideea de bază? Populaţia ţării este grupată în judeţe; deci, într-un prim stadiu am alege un eşantion reprezentativ de judeţe. Un judeţ are un număr de localităţi (un alt stadiu ar consta în alegerea unui eşation reprezentativ de localităţi). O localitate se compune din mai multe cartiere, străzi, uliţe etc.; vom alege eşantioane reprezentative. Ajungem la gospodării (case, apartamente la bloc etc.) - din care alegem eşantioane reprezentative - şi la membrii acestor gospodării, din care vom lua câte una sau mai multe persoane. Trebuie să fim atenţi la riscurile de a comite erori de eşantionare; dacă, de pildă, vrem să aflăm opţiunile electoratului român şi într-un prim stadiu vom alege 5 judeţe din 42, toate din Moldova, estimarea va putea fi sortită eşecului ( putem consulta mai întâi hărţi electorale anterioare pentru a vedea tradiţia opţiunilor politice şi apoi vom alege judeţele, localităţile cuprinse în aceste arii de opţiuni ). Uneori sociologii pot apela la eşantioane de voluntari (eşantioane de cazuri exemplare, pentru cercetarea unor teme delicate).

5

Cercetările pe eşantioane implică o anumită incertitudine. De aceea spunem că prin cercetare estimăm pe V din populaţie. “Vizibilitatea” variabilelor de cercetat nu este uniformă. Există întotdeauna o cifră neagră (dark number) care rămâne necunoscută, adică există o diferenţă între cifra reală de, să spunem, “copii victimizaţi”, “prostituate” etc. şi cea rezultată din cercetare. Diferenţa poate proveni chiar de la definirea dată, de exemplu, “copiilor victimizaţi”: sunt cei brutalizaţi fizic? Psihic? Cei neîngrijiţi de părinţi? Cei violaţi? Victime ale incestului? Ale pedofiliei? Pe parcursul dezvoltării cercetărilor sociologice s-au pus la punct tehnici statistico-matematice care permit să apreciem cât de nimerită, adecvată, bună etc. este o estimare. Fie x o caracteristică definită pe populaţia N. Urmărim să estimăm valoarea medie a acesteia pe un eşantion n. Să presupunem că o aşezare are 2000 de gospodării; avem de făcut o cercetare privind “pragul de sărăcie” şi la un moment dat vrem să analizăm consumul diferitelor produse; având în vedere, de exemplu, configuraţia celor două drumuri perpendiculare din aşezare şi a numărului de gospodării, putem alege un număr de 50; aplicăm metoda pasului (2000 : 50 = 40) pentru a le identifica şi investiga; luăm contact cu fiecare familie şi: înregistrăm consumurile pe o perioadă (de ex., o lună); facem media consumului (x); facem calculul abaterilor faţă de medie (xi - x); -facem calculul pătratului abaterilor de la medie Gospodăria Consumul pe lună Xi-X 1 3 0,5 2 1,2 -1,3 3 2,9 0,4 ………………………………………………………………………………… 50 2,5 (Xi-X)2 0,25 1,69 0,16

media este 2,5; acesta a fost un eşantion în care media a fost x’1, dar putem lua şi altele în care mediile vor fi: x’2, x’3, x’4, ……., x’n ; diferenţa x’-x va însemna eroarea pe care o comitem atunci când investigăm un eşantion n şi nu întreaga populaţie, N. Deci, în general, pentru estimarea valorilor medii este important să ne asigurăm că extragem mai multe eşantioane din populaţia investigată şi le supunem pe rând cercetării pe tema noastră; vom obţine un şir de valori medii ale caracteristicii urmărite (de fiecare dată când am alcătuit eşantionul, unii indivizi din populaţie pot apare în eşantioane diferite ): x1, x2, x3, ……….., xk. Aceste valori medii de eşantioanare vor forma o valoare medie x’, distribuţia de eşantionare; media caracteristicii din eşantion coincide, “se va suprapune” peste cea din populaţie (sau mai exact spus, media mediilor tuturor eşantioanelor pe care le putem extrage din populaţie, va “cădea” peste media din populaţie); abaterea standard a variabilei x’ este de n ori mai mică decât abaterea standard a
6

variabilei x din populaţia N; notăm cu e abaterea standard a variabilei x’ din eşantion şi o numim eroare standard: e = σ x n ; distribuţia valorilor variabilei x’ urmează o curbă normală (curba lui Gauss); de obicei spunem că abaterea standard a variabilei din populaţie este suficient de bine aproximată de abaterea standard a aceleiaşi variabile din eşantionul construit prin procedeul aleator, probabilistic (aproximarea suficientă nu înseamnă însă nici o şansă de a ne înşela; de fapt, rezultatele cercetării pe eşantioane pot fi comparate cu săgeţile trase în direcţia unei ţinte: unele o nimeresc “în centru”, altele “pe laturi” etc., problema fiind că pe baza dispunerii punctelor pe panou putem contura “centrul” ţintei, etc; ce înseamnă că indicatorul de dispersie este invers proporţional cu √n? Înseamnă că, mărind eşantionul, sau mărind numărul de eşantioane în care aflăm pe x’, mărim concentrarea valorilor x’, în jurul lui x. Facem apel la imaginea intuitivă a curbei lui Gauss pentru a putea reţine că valorile apar plasate simetric în jurul mediei, şi cu frecvenţă din ce în ce mai mică pe măsură ce ne îndepărtăm de valoarea centrală, dar şi pentru a reţine o proprietate a distribuţiei normale: dacă se consideră un interval simetric în jurul mediei, a cărui lungime se măsoară în abateri standard ale variabilei normale respective, atunci frecvenţa indivizilor care cad pe acest interval este aceeaşi pentru toate distribuţiile normale; adică, luând la întâmplare un individ dintr-o serie statistică normală, probabilitatea P ca acest individ să se afle pe un interval (u – t x σ, u + t x σ) depinde de t, lungimea intervalului, simetric faţă de media u, şi care este măsurată în abateri standard. Valorile funcţiei P(t) se află în toate manualele de statistică; sociologii se interesează de câteva care asigură o probabilitate ridicată. Aşa cum am mai spus, din experienţa cercetărilor sociologice, cel mai folosit nivel de încredere (“prag de încredere”, “nivel de probabilitate”) este de 0,95 (spunem: trebuie să existe cel puţin 95% şanse ca, alegând un eşantion oarecare, valoarea medie obţinută să cadă pe intervalul respectiv ); dacă vrem să fie mai mici, putem lua alte valori ale lui P, mai ridicate: P = 0,99 sau chiar P = 0,999. Ne uităm în tabelele statistice şi constatăm corespondenţele: P=0,95 P=0,99 P=0,999 p=0,05, iar t=2 p=0,01, iar t=2,6 p=0.001, iar t=3,3

(spunem: există 95% şanse ca o valoare medie determinată prin cercetarea unui eşantion, să se abată cu mai puţin de 2e de la valoarea medie existentă în populaţie .) Cum calculăm abaterea standard? În formula de mai sus) am pus abaterea din populaţie, dar nu o cunoaştem; folosim abaterea aflată în eşantionul investigat (σ’) şi vom avea: e = σ’ x n Vom calcula apoi pe d (eroarea maximă admisă ): d = t x e.
7

De exemplu: avem un eşantion de 900 persoane dintr-o populaţie oarecare; vrem să ştim vârsta medie şi abaterea în populaţie; calculăm vârsta medie în eşantion (de ex., 35 ani); calculăm abaterea medie (de ex., 12 ani); conform formulei e = 12 : 30 = 0,4; dacă luăm P = 0,95 şi t = 2, atunci vom putea spune, cu un risc de 5%, că valoarea adevărată a mediei de vârstă din populaţie se va situa între: (35-2 x 0,4) şi (35+2 x 0,4), adică între 34,2 şi 35,8 ani. Ce putem spune despre estimarea proporţiilor? Un eşantion are o anumită reprezentativitate pentru fiecare variabilă în parte. În sondaje se pune problema estimării unor proporţii în populaţie, adică procentul celor care au o anumită trăsătură. Problema se reduce, în mare, la cele discutate deja despre medii. De exemplu, am investigat, pentru a estima opţiunile politice, un eşantion de 1600 persoane; facem prelucrarea primară a rezultatelor şi aflăm o frecvenţă de 20% (q=0,2); (20% declară că votează cu un anumit partid, de ex). Cum apreciem reprezentativitatea eşantionului pentru a putea extrapola? Calculăm eroarea standard:
e= G n

G=

k1 ( 1 − q ) + k 2 q 2 N
2

k1 şi k2 sunt valorile variabilei (k1, exprimă pe cei care posedă trăsătura, în cazul nostru, opţiunea, k2 exprimă pe cei care nu o posedă); q = k1 / N; adică, proporţia complementară: 1 – q = k2 / N; (adică, variabila x, opţiunea, o putem exprima cu 2 valori: 1 şi 0; 1 pentu cei care au opţiunea, 0 pentru cei care nu au această opţiune):
G= k1 (1 − q) 2 + k 2 (0 − q) 2 = N k1 (1 − q) 2 + k 2 q 2 N
G= q (1 −q )

sau, ţinând seama de valorile lui q şi 1 – q:
G = q (1 − q ) 2 + (1 − q ) q 2 = q (1 − q )

Deci:

e=

q (1 − q ) n

În cazul nostru:

8

e=

0,2 × 0,8 1600

=

0.16 0,4 4 = = = 0,01 40 40 100

(sau 1%) Deci: dacă alegem P = 0,95 (căreia îi corespunde o eroare maximă de 2e), vom spune că: sunt 95% şanse ca partidul pentru care au optat 20% din eşantion să aibă - în populaţia din care am extras eşantionul - un procent de susţinători între (q-2e) şi (q+2e), adică: între 18 – 22%. Pentru a asigura reprezentativitatea eşantionului şi de aici posibilitatea inferenţei statistice, metoda de selecţie trebuie să fie aleatoare – fiecare individ din populaţie trebuie să aibă aceeaşi probabilitate nenulă de a fi ales în eşantion. Pe lângă selecţia aleatoare mai există şi alte tipuri de selecţie: dirijată (pe cote) şi mixtă (o combinaţie între selecţia aleatoare şi cea dirijată). În selecţia aleatoare se disting următoarele tipuri de sondaj: simplu aleator, tipic stratificat, de serii (cuiburi / cluster), în mai multe trepte, secvenţial. Sondajul simplu aleator. Are drept caracteristică faptul că fiecare unitate din populaţie are aceeaşi şansă egală, nenulă de a fi selectat în eşantion. Unităţile sunt alese independent una de alta. Sondajul simplu aleator este două feluri: repetat (cu revenire) – fiecare unitate este reintrodusă în populaţie şi nerepetat (fără revenire) – unităţile nu sunt reintroduse în populaţie. Extragerea întâmplătoare se poate face prin următoarele procedee de selecţie:  Procedeul urnei / loteriei – constă în numerotarea tuturor subiecţilor şi extragerea lor întâmplătoare. La fiecare extragere şansa de a fi ales este 1/ N eşantioanele posibile sunt Nn.  Procedeul tabelului cu numere aleatoare. Tabelul cu numere aleatoare este o listă cu numere generate aleator în care fiecare cifră de la 0 la 9 apare cu o probabilitate de 1/10. Rând 1 2 3 4 5 6 Coloane 1 2 8735 6744 2552 8717 0504 8116 5485 2967 8331 4035 0921 7888

3 5149 3599 2559 7295 9171 5791

..............................................

10 5492 1100 4431 6498 1091 7895

9

Se numerotează colectivitatea cu numere de la 1 la n, se selectează aleator un loc de unde începe citirea numerelor de la stânga la dreapta. Se vor alege grupuri de cifre comparabile cu volumul populaţiei. Dacă numărul găsit este egal cu 0 sau este > N va fi eliminat. Ex. Să se aleagă dintr-o populaţie de 90 de indivizi un eşantion de 30 de indivizi începând cu rândul 3 coloana 1. Va fi ales individul cu nr. 87 din listă, apoi cel cu nr.17, 83, 31 ... Procedeul mecanic. Se foloseşte pasul de numărare K =N/n. Numărătoarea începe de la un număr m∈(1,k) ales aleator. Ex. Dintr-o populaţie de 5000 de indivizi, să se aleagă un eşantion de 1000 de indivizi. În acest caz, K=5000/1000⇒ K=5. Aleg aleator m=3 respectând condiţia m∈(0,5). 1 2 3 4 5 6 7 8 . . . . 5000 Vor fi selectaţi indivizii care corespund numerelor: 3, 8, 13, 18 ... Sondaj simplu aleator repetat. Se cere estimarea unui interval în care se află media µ a unei populaţii pe care la început cercetătorul nu o cunoaşte. Valorile în populaţia respectivă pentru o variabilă anume au o abatere medie pătratică σ şi ea este necunoscută. Vom extrage din această populaţie un singur eşantion cu o abatere medie pătratică s, dispersie s2 şi media x. Toate aceste valori pot fi calculate după ce am numărat toate unităţile din eşantion. Se pune întrebarea: în ce măsură aceste valori sunt valabile pentru întreaga populaţie. În realitate, din populaţia mare se pot extrage foarte multe eşantioane, de ex. în acest caz Nn eşantioane. Aceste eşantioane, prin mediile lor, pot forma o nouă serie statistică numită şi „distribuţie de eşantioane”. Statisticienii au demonstrat că media acestei serii este µx = µ sau media mediilor tuturor eşantioanelor posibile este egală cu media populaţiei.
10

Ex. x=2,5,8; n=2. Eşantioanele posibile sunt: (2,2), (2,5), (2,8), (5,2), (5,5), (5,8), (8,2), (8,5), (8,8); Eşantion (2,2) (2,5) (2,8) (5,2) (5,5) (5,8) (8,2) (8,5) (8,8) x. 2 3,5 5 6,5 8 Total x=45/9=5 x=µx x =Σ(xi × fi)/ Σ fi Satisticienii au demonstrat şi că σ x = σ / √n Abaterea medie pătratică din mulţimea tuturor eşantioanelor posibile este de √n ori mai mică faţă de abaterea din populaţia mare. Vom avea dificultăţi în a calcula µ x şi σx deoarece σx depinde de σ care la rândul lui este necunoscut. Însă σx poate fi aproximat prin valoarea din eşantionul extras. Dacă în eşantion avem de exemplu valoarea s a abaterii medii pătratice, notăm cu s x estimatorul pentru σ
x

Media 2 3,5 5 3,5 5 6,5 5 6,5 8 fi 1 2 3 2 1 9 xi × fi 2 7 15 13 8 45

şi s = s/√n. Estimarea încearcă astfel să facă apropierea dintre valorile

eşantionului şi cele ale populaţiei mari. În general, media populaţiei mari se estimează că poate fi egală cu µ =x ± ∆x, adică poate diferi de media din eşantion cu cel mult o abatere maximă admisă în plus sau în minus. ∆x nu este decât produsul dintre abaterea medie din populaţia de eşantionare şi t (probabilitatea cu care este garantat rezultatul). ∆x = σx × t ⇔ t × (σ/√n).

11

Ex 1. Să se stabilească eroarea limită admisă şi intervalul de încredere pentru µ ştiind că media eşantionuluix = 80, n = 400, s = 0,85 la o probabilitate de 95%. Eroarea limită admisă ∆x = t × (σ/√n)⇒ ∆x = 1,96 × (0.85/ √400); ∆x = 0,083 Se calculează intervalul de încredere µ ∈ [x −∆x;x +∆x] ⇒ µ ∈ [7,917;8,083] Ex 2. Să se determine intervalul de încredere garantat cu o probabilitate de 99% pentru µ, dacă eşantionul are 36 de unităţi media de 800 iar abaterea medie pătratică de 60. t = 2,58 n = 36 x = 800 s = 60 Toate mărimile de până acum includ pe n – volumul eşantionului de unde rezultă că în anumite cazuri putem calcula mărimea acestuia. ∆x = t × (σ/√n) ∆x2 = t × σ2/n n =(t2 × σ2) /∆x2 Ex 3. Să se determine volumul eşantionului necesar pentru a estima media unei colectivităţi µ cu o eroare limită admisă de 0,2 şi o probabilitate de garantare a rezultatelor de 95%, ştiind că dintr-o cercetare anterioară s2 = 6,1. n = (1,962 × 6,1)/0,22 = 586. Sondaj simplu aleator nerepetat. Formule folosite:  Dispersia în cadrul populaţiei de eşantionare: σx2 = (σ2/n) × [(N−n)/(N−1)]  Abaterea medie pătratică: σx = (σ/√n) × √[(N−n)/(N−1)] este estimată cu abaterea medie pătratică din eşantionul extras sx = (s/√n) × √[(N−n)/(N−1)]. Termenul (N−n)/(N−1) este aproximativ egal cu (N−n) / N = N/N − n/N = 1− n/N. Acest termen se numeşte coeficient de corecţie finită iar n/N se numeşte fracţie de sondaj. Dacă n/N < 0,2 atunci √[(N−n)/(N−1)] nu se ia în considerare. Cu cât populaţia este mai mare cu atât raportul n/N este din ce în ce mai mic, creşterea eşantionului fiind nesemnificativă de la un anumit prag. lim (N−n)/(N−1) = [N(1− n/N)] / N(1− 1/N)] =1 Pentru N, estimatorul din eşantion este puţin diferit în cazul eşantionului cu revenire. Totuşi, (N−n)/(N−1) este întotdeauna subunitar. Deducem că eroarea este mai mică decât în primul caz.
12

∆x = t × (σ/√n) ∆x = 2.58 × (60/6) = 25,8 ⇒ µ ∈ [800−25,2; 800+25,2] µ ∈ [774,2; 825,8]

Dacă N = n, atunci eroarea este 0. În cercetările sociologice se folosesc sondajele nerepetate, fără revenire. Ex. 1. Un eşantion aleator de 80 de indivizi a fost selectat nerepetat dintr-o populaţie cu volum N = 800. În eşantion x = 14,1; n = 8; s = 2,6; N = 800. Să se determine intervalul de încredere cu o probabilitate de 95% pentru µ variabilă greutate. µ ∈ [x −∆x;x +∆x] ∆x = (1,96 × 2,6/√80) × √[(800−80)/(800−1)] = 0,54 µ ∈ [13,56; 14,64] Ex. 2. Pentru exemplul anterior să se determine volumul eşantionului necesar de a fi extras pentru o nouă estimaţie dacă dorim ca eroarea limită să fie 0,3. n = (t2 × s2 × N) / (t2 × s2 + N × ∆x2 ) = t2 × s2 / [∆x2 + ( t2 × s2 / N)] n = (1,962 × 2,62) / [0,32 + (1,962 × 2,62) / 900] = 216,4 ≈ 217 unităţi. Estimări în cazul variabilelor dihotomice Variabile Da Nu Total x =Σ (xi × fi) / N x = [1× m + 0 × (n − m)] / n = m / n = f Media este chiar ponderea răspunsurilor afirmative sau chiar probabilitatea de apariţie a acestui răspuns. Varianţa: s2 = [Σ (xi − x )2 × ni] / n = [ (1− f)2 × m + (0− f)2 ×(n−m) ] / n = f(1− f) Abaterea medie pătratică: s =√s2 = √f(1−f); sf = s / √n = √[ f(1−f) ]/n; s2f =[f(1−f)]/n Eroarea limită admisă: ∆f = t × σ × f = t ×√[ p(1−p)/n], unde p reprezintă proporţia răspunsurilor pozitive din eşantion. ∆x = (t2× σ2)/n2 ; σx2 = p(1−p) xi 1 0 fi m n−m n

Volumul eşantionului în cazul sondajului aleator repetat n = [t2 × p(1−p)] / ∆x2 Eroarea limită admisă variază de la întrebare la întrebare. Volumul eşantionului în cazul sondajului aleator nerepetat n = [t2 × p(1−p)] /[∆x2 +( t2 × p(1−p)) / N]; n = (t2×D2)/[∆x2+ (t2×D2/n)] Ex 3. Să se calculeze volumul eşantionului pentru o populaţie de 1550 studenţi, ştiind că la psihologie sunt 375, la sociologie 475, la pedagogie 360 iar la asistenţă socială 340, pentru o eroare limită admisă de 4%.
13

n = (t2×D2)/[∆x2+ (t2×D2/n)] n =(1,962×2500)/[42+ (1,962×2500/1550)] = 384 Asistenţă Populaţie Populaţie % Eşantion iniţial Eşantion % socială 340 21,93 84 21,88 Pedagogie 360 23,22 89 23,17 90 Sociologie 475 30,65 118 30,73 117 Psihologie 375 24,20 93 24,22 92 100 384 Total 1550 100

Eşantion real 85

Testul χ2 indică raportul dintre eşantionul stabilit iniţial şi cel real. χ2 = Σ(ft−f0)2 / ft , unde ft reprezintă frecvenţele teoretice iar f0 – frecvenţele observate. χ2 = (84 − 85)2 / 84 + (89 − 90)2 / 89 + (118 − 117)2 / 118 + (93 − 92)2 / 93 = 0,04 df = (n −1)( m −1), unde n reprezintă numărul de linii şi m – numărul de coloane df = 7,84 χ2 < χ2t ⇔ 0,04 < 7,84 ⇒ diferenţele dintre eşantionul iniţial şi cel real sunt minime. Clasificarea automată. Ansamblul metodelor de analiză a datelor ce permite construirea de

tipologii a obiectelor, indivizilor etc. Obiectivul comun al tuturor metodelor este acela de a construi grupuri omogene (tipuri), în aşa fel încât toate elementele aceluiaşi grup să fie cât mai asemănătoare posibil, să semene cât mai puţin posibil cu elementele altor grupuri de aceeaşi natură. În cele mai multe cazuri, tipologia căutată este o partiţie exhaustivă (toate elementele aparţin cel puţin unui tip) a căror tipuri sunt recipoc exclusive(toate elementele aparţin cel mult unui tip). Se disting două familii de metode tipologice: clasificările monofetice – în care tipurile obţinute se caracterizează prin posesia în comun a unui anumit număr de caracteristici, şi clasificările politice, al căror indivizi sunt regrupaţi plecând de la o distanţă compozită. Primele se din principiul aristotelician după care “speciile sunt formate din gen şi din diferenţe” (Metafizica, IX, 7); specia se defineşte deci prin genul proximşi diferenţele specifice. Clasificările monotetice împart ansamblul obiectelor de clasificat în subgrupuri din ce în ce mai mici, definite printr-un număr din ce în ce mai mare de caracteristici comune. Exemplul cel mai ilustrativ îl găsim în clasificarea plantelor şi animalelor propusă de Carl von Linne, căruia îi este asociată nomenclatura
14

binominală prezentată în a zecea ediţie a cărţii sale Szstema natural (1758). Metodele cele mai cunoscute de clasificare automată care se inspiră din aceasta sunt tehnicile de sagmentare şi metoda tipologică a lui L.L. McQuitty. Principiul clasificării politice a fost enunţat de Georges-Louis Leclerc ed Buffon la începutul cărţii sale Istoria naturală (1749); însă mai ales Michel Adanson este cel care a definit-o şi a aplicat-o. În Fmiliile plantelor (1763) el a propus 58 de familii de vegetale construite plecând de la toate asemănările şi deosebirile remarcate între acestea.

15

Taxinomia numerică foloseşte o măsură de asemănare (similaritate) sau de deosebire (distanţa) între elementele de clasificat. Acestea trebuie să fie descrise cu ajutorul unui număr finit de caracteristici. În capul cel mai simplu, se poate să fie vorba de trăsături ce pot fi prezente sau absente în fiecare element. De exemplu, pentru a descrie plantele, se va putea lua în considerare existenţa sau nu a unei rădăcini pivotante, a unei tije aeriene, a frunzelor izolate etc. Pentru două plante date, caracteristicile care le descriem pot fi clasificate în trei categorii: cele ce sunt prezente la cele două plante, cele absente la cele două plante şi cele care nu sunt prezente decât la una dintre plante.Plecând de la numărarea acestor trei categorii, este posibil să concepem un număr de indici de asemănare. Cel mai “natural” în exemplul ales ar putea fi numărul trăsăturilor ce sunt fie prezente, fie absente la cele două plante; întradevăr, absenţa unei trăsături (de exemplu, rădăcina pivotantă) corespunde aici prezenţei contrarei sale, rădăcina fasciculată. Un indice de deosebire echivalent ar fi numărul de trăsături ce nu sunt comune celor două plante. Evident, modul de calcul al indicelui de asemănare (sau deosebire) tebuie să ţină seama de numărul de stări posibile ale fiecărei variabile, de natura sa (în termenii teoriei de măsură?) şi de importanţa relativă pe care le-o atribuie ???. Se ajunge în acest fel la constituirea fie a unei matrici a similarităţii, fie la o matrice a distanţelor; acestă matrice este punctul de plecare al procesului de clasificare. Procedura cea mai des folosită este numită clasificarea ierarhică ascendentă. Ea constă în căutarea cuplului de elemente care au între ele distanţa cea mai slabă (deci sunt foarte asemănătoare), în agregarea acestuia într-un prim tip şi în calcularea distanţei între acest tip şi în calcularea distanţei între acest tip şi toate celelalte elemente. Se reiterează operaţia până ce toate elementele sunt progresiv agregate. Se obţine astfel un ansamblu de tipuri ???, ??? pe care-l putem reprezenta printr-o arborescenţă ale cărei vârfuri terminale sunt elementele de clasificat, iar nodurile tipurile obţinute. Cu cât se progresează în procesul de agregare, cu atât numărul tipurilor este mai mic şi cu atât elementele care le compun sunt eterogene. Utilizatorul trebuie atunci să opteze pentru nivelul de agregare care prezintă pentru el cel mai bun compromis între ??? tipurilor şi omogenitatea lor. Unul dintre inconvenientele acestei proceduri de agregare este ceea ce numim efect de lanţ. Se poate ca două elemente foarte diferite, a şi Z, să fie legate între ele printr-un lanţ de elemente între care există un grad ridicat de asemănare: a seamănă cu b, care seamănă cu c, care seamănă cu d etc. După algoritmul de agregare folosit, apare riscul fie de a grupa în acelaşi agregat pe a şi Z, fie de a separa în două agregate diferite pe a ţi b. Aceasta este o consecinţă a alterării măsurilor iniţiale a distanţei pe măsură ce procesul de agregare se desfăşoară. Se demonstrează într-adevăr că orice procedură de clasificare ierarhică transformă spaţiul metric al distanţelor în spaţiu ultrametric. Cu alte cuvinte, triunghiul oarecare constituit de distanţele calculate între orice triplet de elemente
16

este transformat intr-un triunghi isoscel cu baza mică sau într-un triunghi echilateral. Această deformare este consecinţa algoritmului de agregare care cere calculul distanţei dintre un agregat şi un element, sau între două agregate. Fie, de exemplu, trei plante a, b şi c, pentru care s-a obţinut indicii de distanţă următori: d(a,b)=20, d(a,c)=35 şi d(b,c)=25; începem prin a agrega pe a şi b. Trebuie apoi să calculăm distanţe între agregatul ab şi elementul c. Se poate opta pentru o înfinitate de soluţii, printre care alegerea valorii indicelui cel mai puternic: d(ab,c)=35, alegerea valorii celui mai slab d(ab,c)=20 şi calculul valorii medii d(ab,c)=25. După soluţia aleasă, se obţine fie ultrametrica superioară minimă, fie ultrametrica inferioară maximă, fie ultrametrica “medie”. Şi alte algoritmuri sunt posibile, de exemplu cel al separărilor succesive începând prin căutarea cuplului care prezintă distanţa maximă (clasificarea ierarhică descendentă), sau cel al alternanţei separare-regrupare (metoda Ifigenia). Oricare ar fi algoritmul ales, nu se poate evita deformarea spaţiului distanţelor iniţiale. Nouă dinamici (mulţimile dinamice) figurează printre metodele de clasificare politică cele mai rapid de pus în activitate. Principiul său este de a lua ca punce de plecare un număr mic de elemente alese arbitrar, acest număr fiind egal cu numărul maxim de tipuri pe care dorim să le obţinem. Fiecare dintre celelalte elemente vin apoi să se agrege elementului nod cel mai apropiat. Atunci când toate elementele sunt agregate, se determină centrul de gravitate al fiecărui agregat. Se reiterează procedura până se obţin agregate stabile: acestea constiuie tipurile căutate. Unul dintre incovenientele metodelor politice este cuasi-imposibilitatea de a descrie fiecare tip prin caracteristici precizate de către toate elementele care îl compun. De aceea clasificarea automată recurge şi la metode monolitice, cum ar fi cea a lui McQuittz. Această metodă de clasificare ierarhică ascendentă nu se bazează pe o distanţă compozită între elemente, ci pe numărul de caracteristici comune a două sau mai multe elemente; orice agregare de elemente presupune deci ca acestea să aibă în comun una sau mai multe caracteristici, ceea ce are drept consecinţă suprimarea efectului de lanţ. Pe de altă parte, metodele de segmentare destinate, în principiu să clasifice diferenţele variabile în funcţie de influenţa lor asupra variabilei “de explicat”, pot fi de anume utilizate ca subsitut pentru metodele de clasificare ierarhică descendentă, fiindcă algoritmii pe care se bazează pleacă de la obiectelor sau indivizilor studiaţi. succesive ale ansamblului

17

Sign up to vote on this title
UsefulNot useful