Professional Documents
Culture Documents
Curs Metode Chemometrice
Curs Metode Chemometrice
ANALIZA IN CHIMIA
ALIMENTARA
Bibliografie
www.Sciencedirect.com
Chemometria
Metode
chemometrice
Autentificare
Statistica = ?
Date
experimentale
Doua tipuri de date
sunt implicate in
analiza statistica
Variabile
independente
Variabile
dependente
Date
experimentale
Matrice
Variabile
SB-Murf-2007-1
PG-Murf-2007-1
FN-Murf-2007-1
CH-Murf-2007-1
M-Murf-2007-1
MO-Murf-2007-1
Eticheta
(numele probei)
2,842
2,04
2,868
1,925
4,713
2,599
1,86
1,006
0,644
0,69
0,626
1,778
8,504
5,698
5,545
5,613
5,356
7,583
6X5
862,978
800,142
784,594
802,458
728,433
849,439
8,516
5,274
5,694
5,802
5,175
8,483
In caz general: n x p
Tipuri de date si
unitati de masura
Ex:
Calitative (ce tip?):
reci - calde, aromatice nonaromatice etc.
Cantitative
Variabilele
Calitative
(categorice)
Variabile cantitative
Masurate
Tipuri de date si
unitati de masura
Ex. Variabile continue
Varsta ani
Inaltimea in cm
Numarate
Variabile calitative
Nominale
(neordonate)
Ordinale (ordonate)
Tipuri de date si
unitati de masura
Variabile nominale cu doar 2
nivele s.n. si variabile
binare
Ex: barbat/femeie, bun/rau,
crud/copt
Variabile nominale cu mai
mult de 2 categorii in care
ordinea nu conteaza
Ex. Grupele de sange
Tipuri de date si
unitati de masura
Pentru
autentificarea
unei
probe nu este necesar sa stim
exact cantitatea de acid acetic
din proba, ci doar daca aceasta
se incadreaza intre valorile
normale.
Desi cu variabilele categorice se
lucreaza mai usor, reducerea
variabilelor continue la cele
categorice duce la reducerea
informatiei
disponibile,
iar
testele statistice vor fi mai
putin
precisescade
sensibilitatea metodei
Datele categorice sunt utile
pentru a rezuma rezultatele,
dar nu si pentru analiza
statistica.
Tipuri de date si
unitati de masura
Modalitati se prezentare
a datelor
6
4
2
0
6148
1325799
602
2
Tulpina Frunza
0
1
2
3
1468
1235799
026
2
Se observa
Daca exista salturi prea
mari, sau lipsuri in
progresie
Se determina intervalul ca valoare numerica (cel
mai mare cel mai mic)
Median
(8+9)/2 = 8,5
Grafic cu puncte
Lamai
Lime
1
2
3
4
5
6
7
8
9
10
11
x[i]
102
104
105
107
108
109
110
112
115
116
118
Quartile
IQR
IQR = masura variatiei
-
Q1
Q2 (median)
Q3
Box - whisker
Arata distributia datelor.
Pentru seturi de date mai mici
de 20 se recomanda folosirea
graficelor cu puncte
Histograme
Histograma arata distributia
unei variabile continue
Rezultate bune pentru 15
grupuri
Grafic cu bare
Productia de lamai si lime
Date cantitative
Media
Media foloseste valorile
tuturor datelor experimentale
din sirul de valori analizat.
Este influentata puternic si de
datele eronate (care au
abatere mare)
Deviatia standard
(SD)
Deviatia standard
(SD)
n-1= grade de libertate
Deviatia standard
(SD)
Variabilitatea unui
set de numere nu
este afectata daca
reducem sau
crestem valoarea
fiecarui membru cu
o constanta.
Deviatia standard
Pentru orice tip de experiment
sunt indicate efectuarea mai
multor masuratori succesive
CV% = coeficient de variatie
Distributie normala
media
Distributie non-normala
- median
SD se utilizeaza ca
masura a variatiei in
cazul in care avem
distributie aproximativ
simetrica
Pentru variabile care
nu au o distributie
normala se utilizeaza
IQR
?
Cand se utilizeaza deviatia
standard pentru a descrie
variabilitatea?
A nu se incurca cu eroarea
standard!
Populatii si probe
Populatie in termeni
statistici se refera la
un grup de obiecte,
evenimente,
fenomene, etc
Statisticianul trebuie
sa defineasca clar care
este populatia
relevanta pentru
studiul efectuat
Populatii
Ex. Continutul de nitrati din
salata verde romanesca
Cantitatea de colesterol din
galbenusul de ou de gasca
Media si SD =
parametrii populatiei
atunci cand sunt
calculate pe o anumita
populatie
Media
SD
Populatii
Probe
Alegere probelor relevante
este problema cea mai dificila;
mai dificila chiar decat
interprezarea rezultatelor
Alegerea
probelor
Alegerea probelor aleatoriu
EX: Dintr-o populatie de 150
dorim sa alegem 5 probe
relevante
Luam in calcul primele 3 cifre
din coloana 1 si oprim doar
numerele cuprinse intre 1 si
150.
Alegerea
probelor
Ex: Tratamentele de fertilizare
ale vitei de vie / productie
integrata
Alegerea la intamplare
(aleatorie) ne asigura ca pe
termen lung diferentele de
comportament ale celor 2
grupuri de probe expuse la
tratamente diferite se
datoreaza strict practicilor
agrotehnice.
Probele prezinta o
variatie intamplatoare
una fata de alta:
- variatie mica
- variatie mare
Diferentele dintre
probe variaza in
functie cu varianta
populatiei din care
sunt extrase.
Diferentele dintre
probe
Ex: Diferenta de culoare
dintre rosiile soiul timpuriu
Arges 400
Diferenta de culoare dintre
rosiile cultivate in Romania.
Probele trebuie foarte bine
descrise (definite) in orice
studiu.
Extragem aleatoriu o
serie de probe
Calculam media
experimentelor
Distributie Normala a
mediilor *
Eroarea standard
a mediei (SEM)
*Chiar daca experimentul din
care au fost extrase probele
nu prezinta o distributie
normala
Eroarea standard
a mediei (SEM)
Pentru prima coloana din tabel
calculati media celor 5 cifre.
Cum arata histograma?
Calculati media si SD.
Eroarea standard
a mediei (SEM)
Eroarea standard
a mediei (SEM)
SD
SEM =
n
Nr probe
SEM200 = 0.53
SEM400= 0.61
72
48
n=numarul de experimente
(probe)
88
79
SD
4,5
4,2
p= 60.8%
100-p = 39.2%
SEprocentaj
p (100 p)
n
Eroarea standard
asociata unei
proportii (sau
procent)
Ex: SEprocentaj = 4.46
SD este un parametru al
populatiei care masoare
variabilitatea
experimentelor
(masuratorilor)
Cu cat numarul de
experimente este mai
mare cu atat SD este
mai precisa
Eroarea standard este o
masura a preciziei unui
parametru al populatiei
Intervale de referinta si
intervale de certitudine
Interval de
referinta
Limitele de 95% reprezinta
ntervalul de referinta
Acesta s.n. si intervalul
normal (tipic)
Se mai poate obtine si
intervalul normal empiric,
prin inlaturarea primelor si
ultimelor 2,5% din valori
?
Diferentiere intre soiuri de vin
asemanatoare compozitional
GLICERINA
VIN ROSU
CABERNET SAUVIGNON
ETANOL
ETANOL
ACID SUCCINIC
ALANINA
VALINA
ARGININA
PROLINA
IZOLEUCINA
PROLINA
VALINA
IZOLEUCINA
ACID ACETIC
ACID LACTIC
METANOL
Ls
Li
max 0
Ls max CS max
max 0
Li min CS min
Se calculeaz apoi
pentru valorile
pozitive i respectiv
negative ale lui
max, o valoare Ls,
i respectiv Li
70
apartenenta la FN
33; 67
60
40; 60
50
50; 50
57; 43
60; 40
64; 36
40
69; 31
30
20
82; 18
10
90; 10
0
0
10
20
30
40
50
60
70
80
apartenenta la CS
17.01.2012
Aplicaii pe vinuri comerciale
90
100; 0
100
Se calculeaz parametrii:
Integrala medie pentru componentul x
Deviaia standard
DS
Coeficientul de ncredere
I
X
Relevana
Relevana corectat
Varianta 1 :
Varianta 2 :
Relevana totala X
2DS
1
I
X
( I m ) CS ( I m ) FN
X
2
X
Pi
X
i
X
i
R (c )CS (c ) FN
X
X
m
R (c )CS
x
R (c ) FN
x
Rc
Testul t
Se utilizeaza pentru
rezolvarea urmatoarelor probleme:
Calcularea intervalului de
certitudine pentru media unui set
mic de probe
Pentru a stabili cat de mult difera
media probei fata de media
presupusa a populatiei
Se calculeaza media si deviatia
standard pentru 2 probe; sunt
luate ambele probe din aceeasi
populatie?
Sunt inregistrate perechi de
observatii asupra a 2 probe (sau in
succesiune asupra aceleasi probe).
Care este semnificatia diferentei
intre mediile celor 2 seturi de
observatii?
Test t
Student t test
Pentru probe mai mici cu un
numar de maxim 60
observatii. (in mod obisnuit de
pana la 30)
Numarul de observatii 18
SD / n 12 / 18 2,83mmol / L
Test t
Calcularea intervalului de
certitudine pentru media unui
set mic de probe
Test t
t
marime set probe
106,83-123,2 mmoli/L
Test t
Test t
Diferenta dintre mediile a 2
probe
Test t
- cele 2 probe provin din
distributii care difera ca
valoare medie, dar nu si ca
deviatie standard
- observatiile sunt
independente intre ele
- datele sunt cantitative si se
presupune ca au o distributie
normala
Test t
Corelarea si regresia
Corelarea si
regresia
Coeficientul de
corelare
r
variabila 1 variabila 2
+
+
+
-
r
1
-1
Scatter plot
Variabila dependenta
Variabila independenta
Calculul
coeficientului
de corelare
x x y y
x x y y
2
Calculul
coeficientului
de corelare
-Se aranjeaza valorile in
ordine crescatoare (a lui x)
-Se
xy n xy
n 1SDx SD y
noteaza cu x variabila
independenta si cu y variabila
dependenta
-Limitele
arbitrarea lui r
-0-0.19 corelare f slaba
--0.2-0.39 corelare slaba
-0.4-0.59 corelare moderata
--0.6-0.79 corelare puternica
--0.8-1 corelare f puternica
-Se
poate calcula si r2
n2
tr
2
1 r
t= 5,72
15-2=13
Din tabel => P<0.001
Adica coeficientul de corelare
obtinut este foarte semnificativ
Testul de
semnificatie
Se cauta raspuns la intrebarea :
asocierea este intamplatoare?
Se utilizeaza o forma a testului t
Acest teste ne arata semnificatie lui
r , adica masoara cat de puternica
este corelatia intre cele 2 variabile
masurate.
Corelatia
Spearman
Unele punte se pot situa
foarte departe fata de
majoritatea valorilordintr-un
sir si ele il pot influenta pe r.
Procedura Spearman nu tine
cont de parametrii, ea
presupune inlocuirea
observatiilor cu gradul lor
(nivelul) din calculatia lui r
rs 1
6 d
Corelatia
Spearman
n n 1
2
y=a+bx
Cu ajutorul aceste ecuatii se traseaza linia de
regresie
a= distanta fata de linia de baza la care linia de
regresie intersecteaza axa y
b= panta coeficientul de regresie
Ecuatia de
regresie
Corelatia arata legatura asocierii
intre 2 variabile si este complet
simetrica: corelatia A si B este
aceeasi cu coprelatia B si A
y=a+bx
Ecuatia de
regresie
Ajuta la calcularea (prezicerea)
valorii lui y
S 2 ( yi ycal ) 2
( x x)( y y)
b
( x x)
2
a y bx
b
xy n xy
(n 1) SD( x) 2
xy 150605
SD( x) 19,37
y 66,9
x 144,6
b 1,033
a 82,4
y 82,4 1,033 x
ei yi ycal