Curs Covarianta Si Corelatie

Lectia #2
2.1. Populatii si esantioane, caracteristici si variabile

2.2. Reprezentari grafice
2.3. Statistici descriptive. Centrarea unei variabile numerice
2.4. Statistici descriptive. Deviatia
2.5. Statistici descriptive pentru variabile calitative
2.6. Covarianta si corelatia
II-1
2.1. Populatii si esantioane, caracteristici si variabile
Statistica este o stiinta care se ocupa cu anumite atribute „importante” ale
tratamentul datelor obtinute din grupuri „mici” indivizilor; aceste atribute poarta numele de
de indivizi si extinderea rezultatelor la populatii caracteristici.
„mari”.
Principala caracteristica a proceselor De obicei studiile efectuate asupra
biologice este variabilitatea. Aceasta variabilite indivizilor unei populatii sunt costisitoare si
determina un anumit grad de incertitudine. de durata; câteodata ele au ca efect chiar
Statistica ne permite sa stabilim „legi” în care distrugerea indivizilor „studiati”. Este de
sa tinem seama de incertitudine. neconceput sa poata fi studiati chiar toti
Biostatistica este acel domeniu particular indivizii unei populatii „mari”. Ratiunea
al stiintelor în care metodele specifice esantionarii este limpede: prin efectuarea de
statisticii sunt aplicate problemelor studii asupra unei parti relativ „mici” din
biologice (inclusiv medicale), în particular populatie – parte care este numita esantion
diverselor fenomene si procese care – sa strângem suficienta informatie care sa
afecteaza calitatea fizica si mentala a ne permita sa inferam la nivelul întregii
oamenilor. populatii asupra caracteristicilor studiate.
Biostatistica, fiind o ramura a statisticii, ne Numarul indivizilor din esantionul ales
permite sa dam raspuns la întrebari cum sunt este numit volumul esantionului si este
urmatoarele: notat de obicei, atunci când ne referim la un
a. Care valori sunt normale pentru un
anumit proces biologic? esantion potential (esantionul nu a fost
b. Cât de mult riscam atunci când alegem precizat) prin litera n.
un anumit tratament? Unele caracteristici – cum ar fi greutatea
c. Este oare mai bun noul tratament decât unui pacient diagnosticat cu tuberculoza,
cel clasic? înaltimea sa, sau inteligenta unui student –
Cuvântul populatie are, în limbajul de zi sunt masurate si exprimate prin numere.
cu zi, un înteles evident. De obicei, atunci Alte caracteristici – cum ar fi sexul sau
când ne referim la o populatie, consideram categoria de vârsta – nu sunt masurate, ci
implicit ca numarul indivizilor ei este sunt identificate prin apartenenta la un grup.
mare; aceasta nu exclude însa multe situatii, Caracteristica „culoare” a obiectelor ar
cum este cea din exemplul formal putea fi masurata (exprimata prin lungimea
„populatia pacientilor dr. Ionescu ce sufera de unda), însa de obicei este identificata
de cardiopatie ischemica”, în care este clar prin apartenenta la grupurile „rosu”,
ca acest numar nu este prea mare. „portocaliu”, „galben” etc.
Se subîntelege ca o populatie are caracter
Atunci când încercam sa comparam sau
dinamic (adica numarul indivizilor ei
sa clasificam indivizi, sa stabilim legaturi
variaza în timp). Totusi, se presupune ca la
un moment particular de timp – sau într-un între caracteristicile lor, aceste caracteristici
interval de timp bine definit – populatia este sunt reprezentate prin variabile. Pentru a
bine definita. reprezenta o caracteristica printr -o singura
Fiecare individ al unei populatii îsi are variabila va trebui sa introducem o scara,
ceea ce înseamna:
identitatea sa proprie, iar indivizii prezinta o
anumita variabilitate. Atunci când studiem 1. Sa definim spatiul observabil, adica
o populatie se iau în considerare doar multimea tuturor valorilor posibile;
II-2
2. Sa definim o structura pe spatiul caracteristica). Mai precis, datele numerice
observabil, si sunt grupate într-un numar „mic” de clase.
3. Sa admitem ca putem asocia fiecarui De exemplu, se utilizeaza foarte adesea
individ câte o (singura) valoare din spatiul clase de vârsta sau clase de înaltime.
observabil. Numarul K de clase este ales în strânsa
dependenta de problema studiata si nu
Pentru a preciza ideile, sa consideram exista definit vreun „algoritm” de stabilire a
câteva exemple. Caracteristica „înaltime” a sa. Un numar prea mic de clase are
pacientilor este reprezintata evident printr-o dezavantajul ca „ascunde” particularitatile
variabila, deoarece consideram în mod claselor; din contra, un numar mare de clase
intuitiv ca valorile sunt numere reale (cu face dificila reprezentarea grafica a
alte cuvinte spatiul observabil este R iar rezultatelor. (Se recomanda reprezentarea
acest spatiu are o structura foarte bogata: grafica a rezultatelor datorita perceptiei mai
operatii aritmetice, ordonare totala etc.). rapide pe cale vizuala a informatiei.) Se
Este clar ca daca ne alegem o unitate de poate face recomandarea de a se forma între
masura (metrul, centimetrul, …) atunci 8 si 20 de clase.
pentru fiecare pacient vom putea sa obtinem Sa luam de exemplu clasele de vârsta ale
– e drept, cu o usoara cheltuiala de timp – o pacientilor, considerând ca studiem un esantion
unica valoare a înaltimii sale. Numerele de indivizi diagnosticati cu o anumita maladie.
obtinute sunt reale, prin urmare le putem Pare natural sa grupam vârstele lor în clase –
ordona între ele, de asemenea le putea delimitate subiectiv dupa cum urmeaza
aduna, scadea, etc. O asemenea variabila C1 = „0-4 ani”, C2 = „5-9 ani”, C3 = „10-14
este numita variabila numerica. ani” si asa mai departe.
Aceeasi caracteristica „înaltime” ar putea Observam ca toate clasele descrise anterior
fi reprezentata de o variabila de cu totul alt au aceeasi „lungime”, anume 5 ani. Aceasta nu
este obligatoriu!
tip. Spatiul observabil este acum format
În cazul în care fie indivizii sunt grupati
doar din etichetele „foarte scund”, „scund”,
natural în clase, fie datele colectate au fost
„mediu”, „înalt” si „foarte înalt”. Nu mai
este necesara o masurare precisa a grupate în clase, putem calcula frecvente.
Pentru o clasa de date, frecventa absoluta
pacientilor, le vom putea „aprecia vizual”
este numarul indivizilor pentru care datele
înaltimea. Asemenea etichete nu pot fi
apartin acelei clase. Frecventa relativa se
adunate sau scazute, este definita doar
calculeaza prin împartirea frecventei
ordonarea între ele. De data aceasta avem
absolute la numarul total al indivizilor din
un exemplu de variabila ordinala.
esantion. Uneori se folosesc si asa-numitele
Câteodata o caracteristica este exprimata frecvente cumulate.
printr-o variabila de decizie (sau variabila Frecventele variabilelor (nu numai cu
binara) ce ia doar doua valori valori numerice) se obtin cu usurinta în
„admis”/”respins” (respectiv „da”/”nu” Excel prin intermediul functiei
etc.). FREQUENCY(). Aceasta functie are doua
O alta situatie ce trebuie scoasa în argumente:
evidenta este cea a caracteristicii 1. Domeniul în care au fost plasate
„inteligenta” a unui student, care poate fi valorile variabilelor (data array);
exprimata printr-un ansamblu de variabile. 2. Domeniul – în general pe o coloana
Asadar, o caracteristica studiata ar putea – în care se trec valorile de separare, în
fi reprezentata, direct sau indirect, prin mai ordine crescatoare (bins array).
multe variabile . Rezultatele aplicarii acestei functii sunt
Atunci când avem de-a face cu un plasate într -un domeniu ce are o celula în
esantion „mare” (adica are un numar plus fata de domeniul valorilor de separare.
„mare"de indivizi), de obicei variabilele În aceasta celula suplimentara va fi afisat
numerice sunt înlocuite prin variabile numarul valorilor ce depasesc cea mai mare
calitative, ordinale (care reprezinta aceeasi valoare de separare.
II-3
2.2. Reprezentari grafice
Adeseori o reprezentare grafica, rezultate. Sa consideram, de exemplu,
interpretata vizual, poate fi extrem de cazurile de infarct înregistrate într-un oras
eficienta pentru prezentarea unor date sau mare, grupate dupa zilele saptamânii:
Ziua Frecventa absoluta a Ziua Frecventa absoluta a
saptamânii cazurilor de infarct saptamânii cazurilor de infarct
Luni 4 Vineri 6
Marti 4 Sâmbata 4
Miercuri 7 Duminica 8
Joi 3 TOTAL 36
O inspectare vizuala a numerelor din orice soft statistic sau de calcul tabelar. În
tabel nu este la fel de eficienta ca figurile de mai jos diagrama cu bare a fost
examinarea vizuala a unei diagrame cu bare obtinua cu Excel, diagrama de tip
sau a unei rozete. Iar reprezentarea datelor histograma a fost obtinuta cu Statistica, iar
într-o diagrama cu bare sau de tip rozeta diagramele de tip rozeta au fost obtinute cu
este o operatiune usoara, implementata în Excel si EpiInfo 2000 .
În tabel, în diagrama cu bare, în Se poate observa, în cele doua rozete, ca

histograma si în rozete este prezentata prezentarea rezultatelor depinde de softul
aceeasi informatie. Probabil ca suntem de folosit, existând unele diferente (datorate
acord cu totii ca informatia reprezentata rotunjirilor).
grafic este mai usor de „înteles”. (O mica Exista si deosebiri în modul în care
corectie: în diagrama de tip histograma este trebuie introduse datele. Doar în Excel
reprezentata o curba suplimentara, care însa putem pleca de la tabelul de mai sus. În
este inutila în cazul nostru. Vom aborda general se pleaca de la datele primare „caz
ulterior interpretarea acestei curbe.) dupa caz”.
II-4
Atât tabelele de frecvente, cât si este de 1.65 m) si am obtinut rezultate care
diagramele sunt adecvate pentru „afisarea” au fost grupate în 16 intervale (grupuri,
variabilelor care au un numar „mic” de clase), anume:
valori. Asemenea reprezentari – tabelare sau C1 = „41-45 kg” — 5 cazuri;
diagramatice – nu sunt deloc potrivite pentru
C2= „46-50 kg” — 10 cazuri;
variabilele care au un numar mare de valori
numerice (asa cum este cazul greutatii C3 = „51-55 kg” — 20 cazuri;
pacientilor exprimata în grame). Evident, în C4 = „56-60 kg” — 36 cazuri;
asemenea situatii se practica gruparea ...
valorilor în câteva intervale de valori, iar C15 = „111-115 kg” — 0 cazuri;
abia apoi rezultatele gruparii sunt prezentate
C16= „116-120 kg” — 1 caz.
în histograme.
Folosind Excel, Statistica si EpiInfo
De exemplu, sa presupunem ca am 2000, din aceste date se obtin histogramele
cântarit 240 de indivizi (a caror înaltime urmatoare:
Atunci când se construieste o diagrama

de tip histograma, pe axa orizontala se
marcheaza punctele de separare între clase
si, pentru fiecare clasa, se ridica pe
verticala un dreptunghi cu înaltimea
proportionala cu frecventa (fie absoluta, fie
relativa) clasei. Dreptunghiurile sunt de
„latimi” egale. Într-o histograma veritabila
aria tuturor dreptunghiurilor este 1.)
Sa încheiem aceasta sectiune subliniind
Sa remarcam ca într-o histograma clasele ca reprezentarile grafice sunt folosite
sunt intervale de numere reale, iar într-o pentru accelerarea transferului de
diagrama cu bare clasele sunt reprezentate informatie de la om la om. Acest transfer
prin etichete (labels). bazându-se însa pe perceptia vizuala, toate
„iluziile optice” pot fi folosite pentru a
Reprezentarea grafica a datelor ar putea fi
folositoare si pentru identificarea datelor induce o perceptie eronata asupra unor
date. Trebuie sa fim atenti la corectitudinea
eronate sau a valorilor aberante (outliers).
Aceste valori aberante, de orice fel ar fi, tipului de diagrama, la falsificarea datelor
distorsioneaza serios rezultatele analizelor prezentate, la modificarea nejustificata a
scarilor de masurare, si nu în ultimul rând
statistice.
la adecvarea textele titlurilor, etichetelor si
legendelor de pe diagrama.
II-5
2.3. Statistici descriptive. Centrarea unei
variabile numerice
Sa consideram ca, într-un studiu efectuat x1 + x2 + ... + x n
m=
asupra unei populatii mari, suntem n
interesati în a studia o anumita Sa profitam de ocazie pentru a introduce
caracteristica reprezentata printr-o variabila al doilea înteles al cuvântului „statistica”, si
numerica. Dupa ce am ales un esantion – sa anume urmatorul: un numar calcula t
zicem de n indivizi – si am facut folosind datele obtinute dintr-un esantion.
masuratorile necesare, vom dispune de Formula de mai sus ofera un prin exemplu
numerele reale x1 , x2 ,..., xn . Aceste numere de statistica.
sunt reprezentate prin puncte pe axa reala (a În formula de mai sus toate marimile
se vedea figura urmatoare) iar intuitia ne masurate sunt tratate în mod „echitabil”
spune ca acestea sunt distribuite „echilibrat” (niciuna nu este tratata altfel decât celelalte).
în jurul unui „centru”. Mai mult, rezultatul este exprimat în aceleasi
Pare evident cum putem obtine acest unitati de masura ca si valorile masurate.
centru m: vom calcula media aritmetica a Aparitia – nu neaparat din eroare! – unei
numerelor (adica însumam numerele, apoi valori aberante (outlier) influenteaza pozitia
împartim suma la numarul total n al mediei aritmetice, totusi nu prea mult – a se
indivizilor din esantion): vedea figura.
Functii care calculeaza „instantaneu” x1 ≤ x 2 ≤ ... ≤ x n

media aritmetica sunt implementate în
poate fi folosita si mediana pentru a indica
orice soft statistic sau de calcul tabelar. De
„centrul”. Mediana (Me) este „punctul” ce
exemplu, în Excel aceasta functie este
divide valorile în doua parti egale.
numita AVERAGE() si are un singur
argument, anume domeniul în care au fost În situatia în care toate valorile xi sunt
plasate datele numerice. Însa, în orice soft distincte, iar n = 2m + 1 (adica numarul
statistic media aritmetica este afisata datelor este impar), mediana Me coincide cu
împreuna cu alte statistici elementare, care valoarea xm +1 care este situata exact în
sunt considerate „strict necesare pentru „mijloc”; atunci când n = 2m (numarul
analiza”. De exemplu, Statistica, în datelor este par), mediana Me este media
modulul sau Basic Statistics/Tables aritmetica a celor doua valori, x m si x m+1 ,
contine o comanda Detailed Descriptive
situate în mijloc.
Statistics . Ca un alt exemplu, softul
În unele situatii, pentru a indica „centrul”
biostatistic EpiInfo 2004 are un modul
mediei aritmetice si medianei îi este preferat
numit Analysis; aici se întâlneste comanda
modul. Pentru date categoriale
Means , împreuna cu alte comenzi, grupate
(nenumerice), modul Mo este o statistica
în grupul Statistics .
definita ca acea valoare ce are frecventa
În practica media aritmetica nu este
maxima. Pentru date numerice, modul M o,
singura statistica utilizata pentru a indica
ca „centru” al datelor, este dat de formula:
„centrul” datelor. În cazul în care datele
sunt ordonate, ca de exemplu astfel: Mo = 3 × Me − 2 × m .
II-6
2.4. Statistici descriptive. Deviatia
Adeseori evaluarea împrastierii da telor pentru varianta. Daca dorim o statistica ale
în jurul centrului, eventual o masura a carei valori sa fie expr imate în aceeasi
acestei împrastieri, este la fel de importanta unitate de masura ca si valorile seriei, care
ca si aflarea „centrului”. Multe dintre sa depinda „echitabil” de toate valorile,
statisticile care exprima împrastierea sunt simultan sa aiba si proprietati matematice
definite plecând de la notiunea de bune, atunci formula urmatoare satisface
„deviatie”, ele diferind între ele doar prin toate aceste conditii. Formula ne da asa-
întelesul pe care-l acordam acestui termen. numita deviatie standard (abatere
O prima statistica, evidenta, este ampli- standard) a seriei de date:
∑ ( x k − m)
tudinea, notata cu A, si care este definita ca 2
diferenta între valorile maxima si minima s= .
n
ale seriei de date: Anumite ratiuni teoretice (care depasesc
A = xmax − xmin . nivelul acestei prezentari si nu pot fi
explicate acum) fac ca formula abaterii
Amplitudinea ne informeaza asupra standard sa fie usor modificata în
lungimii intervalului de variatie (în cazul urmatoarea:
unor date numerice); are dezavantajul ca
∑ ( x k − m)
2
depinde doar de doua dintre valorile seriei, s= .
si nu ne informeaza deloc asupra modului în n −1
care datele sunt împrastiate între extreme. (la numitor apare numarul valorilor din
seria de date, diminuat cu 1).
Din contra, deviatia medie (abaterea Ambele formule de mai sus pentru s
medie) depinde „echitabil” de toate valorile necesita foarte multe calcule; evident, ele
seriei de date. Aceasta statistica presupune sunt implementate în soft. Astfel aplicatia
ca a fost calculata anterior media m a seriei. Excel dispune de functia STDEV() al carui
Definitia precisa este urmatoarea: deviatia unic argument este, la fel ca în cazul
medie este media aritmetica a abaterilor functiei AVERAGE(), domeniul în care a
valorilor fata de media lor, abateri luate în fost plasata seria de date.
valoare absoluta: În Excel avem la dispozitie multe alte
∑ | xk − m | functii statistice, ca de exemplu
E= . MEDIAN(), cu folosire evidenta.
n
Statistica ne ofera, în modulul Basic
Din punct de vedere matematic aceasta Statistics/Tables, comanda Detailed
formula nu este potrivita (functia modul Descriptive Statistics. Ca rezultat al ei se
nefiind derivabila). Acesta este motivul afiseaza media Mean, deviatia standard
principal pentru înlocuirea sa cu urmatoarea Std.Dev., valorile minima si maxima (vezi
statistica, numita varianta seriei de date: figura urmatoare).
Comanda Means (împreuna cu altele,
∑ ( x k − m)
2
V= . grupate în grupul Statistics ) din modulul
n Analysis al aplicatiei EpiInfo 2000 ofera
Deviatia medie este exprimata în aceeasi multe rezultate, incluzând media aritmetica,
unitate de masura ca si valorile seriei de mediana, varianta, deviatia standard (a se
date, însa acest lucru nu mai este valabil vedea figura de mai jos).
II-7
Sa rezumam cele de mai sus: daca
dispunem de o serie de date numerice,
pentru a le evalua centrul si împrastierea în
jurul centrului putem folosi urmatoarele
statistici:
— Media aritmetica m;
— Mediana Me;
— Modul Mo ;
— Amplitudinea A;
— Abaterea medie (deviatia medie) E;
— Varianta V;
— Abaterea standard (deviatia standard)
s.
(Terminologia dubla în limba româna
este cauzata de adoptarea recenta a
termenilor din engleza.)
Lista anterioara nu este deloc exhaustiva;
în practica sunt des utilizate si alte statistici:
— Cuartilele q1 (prima, de 25%) si q 3

(a treia, de 75%). Acestea sunt numerele
care, împreuna cu mediana Me = q2
(considerata ca a doua cuartila) divid datele
seriei în patru parti egale;
— Asimetria (skewness), care exprima
evident lipsa de simetrie a seriei de date în
jurul „centrului”.
Sa încheiem aceasta trecere în revista
prin prezentarea unui tip special de b) fie contine datele seriei aflate între
diagrama, cunoscuta ca box-and-whisker m − 2s si m + 2s .
plot, des folosita în reprezentarea grafica a — linii (whiskers) extind dreptunghiul în
datelor medicale. Întro astfel de diagrama: ambele directii; aceste linii indica domeniul
— o linie transversala sau un asterisc de variatie (excluzându-se eventualele
indica „centrul”; valori aberante, care sunt marcate special).
— un dreptunghi indica variabilitatea în Un exemplu de trei box-and-whisker

jurul centrului; acest dreptunghi (box) plots realiza te cu Statistica este prezentat în
figura de mai sus. Ele arata distributii destul
a) fie contine 50% din datele seriei, de dezechilibrate pentru valorile tuturor
anume cele aflate între cuartilele celor trei variabile GLIC_08, GLIC_14,
q1 si q3 ; GLIC_20.
II-8
2.5. Statistici descriptive pentru variabile
calitative
În cazul variabilelor cantitative datele Pentru valoarea aleasa, acest raport joaca
sunt numerice, prin urmare putem calcula acelasi rol pe care-l joaca media aritmetica
media lor – prin operatii aritmetice de în cazul variabilelor cantitative. (De fapt,
adunare si împartire – sau abaterea standard este media unor valori ce pot fi doar 1 sau
(pentru care calculele sunt ceva mai 0.) Prin urmare este o statistica de
complexe). În cazul variabilelor calitative „centrare”.
însa, valorile sunt etichete, iar operatiile
aritmetice nu sunt definite!
Am putea înlocui etichetele prin numere
– de exemplu am putea recodifica eticheta
„admis” prin 1 iar eticheta „respins” prin 0 Împrastierea este evaluata, în aceasta
– si apoi sa facem calculele cu aceste situatie, prin asa -numita varianta a valorii
numere; dar, evident, nu avem nicio alese, definita prin:
justificare în a face asa ceva. V = f (1 − f )
Data o variabila calitativa, am putea fixa sau prin deviatia standard a valorii:
o valoare particulara a ei si apoi, pentru
s= f (1 − f ) .
fiecare individ din esantion, am putea nota
prezenta respectiv absenta acestei valori. (Este vorba de fapt de formulele obisnuite,
Prezenta este notata de obicei prin 1, iar prezentate în paragraful anterior, adaptate
absenta prin 0. Daca prezenta valorii este pentru valorile x k = 0 sau 1.)
constatata la a indivizi ai esantionului, prin Adevarata statistica „de centrare” pentru
raportare vom obtine imediat frecventa întreaga serie de date (asadar pentru
relativa a acestei valori: ansamblul valorilor etichete) este, în acest
a caz, modul, care nu este altceva decât
f = .
n eticheta/etichetele având frecventa maxima.
II-9
2.6. Covarianta si corelatia
Rare sunt studiile efectuate asupra unei
populatii în care suntem interesati în a
studia doar o anumita caracteristica
(reprezentata printr-o variabila).
Sa consideram, printr-un exemplu, cazul
cel mai simplu, cel în care studiem doua
caracteristici: se înregistreaza, pentru
fiecare nou nascut, vârsta mamei (în ani) si
greutatea noului nascut (în grame). Oare
exista vreo legatura între aceste doua
variabile? Si daca da, oare putem exprima Sa notam cu m X respectiv mY mediile
aceasta legatura printr-o formula liniara? La celor doua serii de date. Covarianta între
prima vedere se pare ca raspunsurile la cele doua serii de date se calculeaza cu
aceste întrebari sunt fie „da”, fie „nu”. Însa formula
modul binar de a raspunde la întrebari nu
∑ (x
este specific statisticii! În cadrul statisticii 1
C= k − m X )( y k − mY ) .
se dau raspunsuri diversificate, de exemplu n
exprimate printr-un numar ce exprima
(Se observa ca atunci când seria de date
intensitatea legaturii între cele doua
Y coincide cu seria de date X, expresia
variabile (?). Iar fiecare persoana ar putea
covariantei C devine expresia variantei V.)
sa-l interpreteze, dupa cum doreste, ca un
„da” sau un „nu”! Corelatia (liniara) între cele doua serii de
Una dintre posibilitatile de a da date este definita prin asa-numitul
asemenea raspunsuri consta în folosirea coeficient de corelatie Pearson:
coeficientului de corelatie (Pearson), al
∑ ( xi − m X )( yi − mY )
carui calcul se bazeaza pe calculul rX ,Y = .
∑ ( xi − m X ) ⋅ ∑ ( yi − mY )
2 2
covariantei.
În practica, atunci când studiem legatura
între doua variabile numerice, începem prin Acest numar este între –1 si 1. În
a alege un esantion, apoi înregistram datele cazurile extreme (adica atunci când numarul
provenite din masuratorile efectuate asupra rX ,Y este apropiat fie de –1, fie de 1) avem
indivizilor; datele rezultate sunt prezentate de-a face cu o puternica legatura liniara
fie într-un tabel: între seriile de date, pe care o putem
extrapola (asumându-ne riscuri!) la o
Indivi- Valorile Valorile
legatura liniara:
dul variabilei X variabilei Y
1 x1 y1 Y = αX + β
2 x2 y2 între variabile.
... ... ... Sa facem observatia ca formula de calcul
k xk yk a coeficientului de corelatie Pearson poate fi
... ... rescrisa în felul urmator:
...
C
n xn yn rX ,Y =
s X sY
fie ca un „nor” de n puncte în plan (a se
vedea figura de mai sus). În cazul în care unde s X respectiv sY sunt abaterile
(avem impresia ca) punctele sunt aliniate, standard ale celor doua serii de date.
ne exprimam spunând ca exista o corelatie Calculul destul de dificil al numarului rX ,Y
liniara între variabilele X si Y. este efectuat în Excel prin intermediul
II-10
functiei CORREL(). Aceasta functie are Prin calcul (cu functia CORREL() din
doua argumente care sunt, evident, Excel) obtinem (vezi figura de mai jos):
domeniile în care am depus cele doua serii
de date. rX ,Y = 0.911885 ≈ 0.912
Ca un caz concret, sa pre supunem ca care ne indica o legatura liniara puternica
pentru 10 indivizi – alesi în esantion – au între puls si temperatura axilara.
fost masurate temperatura axilara (în °C) si
Coeficientul de corelatie Pearson poate fi
pulsul (în numar de oscilatii/minut), calculat doar daca dispunem de date
obtinându-se rezultatele din tabelul
numerice. Sa consideram acum ca valorile
urmator:
variabilelor X si Y nu pot fi obtinute prin
i Temperatura masuratori; dimpotriva, ele sunt numere de
Pulsul x k
axilara y k ordine, asa cum ar fi, de exemplu, rangurile
1 75 38.2 acordate concurentilor de catre doi arbitri.
Coeficientul de corelatie Pearson, chiar
2 80 37.5
daca este calculabil, nu ofera o interpretare
3 70 36.5 adecvata a „concordantei” între evaluarile
4 90 38.3 arbitrilor. În situatii de acest fel se va
5 75 37.1 calcula, cu formula
6 85 38.0 2
∑ dk
7 80 37.6 ro = 1 −
N ( N 2 − 1)
8 90 38.5
în care d k este diferenta rangurilor obtinute
9 100 39.4
de concurentul k , asa-numitul coeficient de
10 95 38.9 corelatie Spearman.
II-11

Curs Covarianta Si Corelatie

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Curs Covarianta Si Corelatie

Uploaded by

Copyright:

Available Formats

Lectia #2

2.1. Populatii si esantioane, caracteristici si variabile

În tabel, în diagrama cu bare, în Se poate observa, în cele doua rozete, ca

Atunci când se construieste o diagrama

Functii care calculeaza „instantaneu” x1 ≤ x 2 ≤ ... ≤ x n

— Cuartilele q1 (prima, de 25%) si q 3

— un dreptunghi indica variabilitatea în Un exemplu de trei box-and-whisker

You might also like