You are on page 1of 73

METODE CHEMOETRICE DE

ANALIZA IN CHIMIA
ALIMENTARA

Peter Meier, Richard Zund, Statistical Methods


in Analytical Chemistry, Second Edition, Ed.
Wiley-Interscience, USA, 2000.

TDV Swinscow, MJ Campbell, Statistics at


Square One, Tenth Edition, Ed. BMJ Books,
London, UK, 2002.

Howard Mark, Jerry Workman, Jr., Statistics in


Spectroscopy Second Edition, Ed. Elsevier
Academic Press, 2003

Richard Brereton, Chemometrics: Data Analysis


for the Laboratory and Chemical Plant, Ed. John
Wiley & Sons, Ltd., England, 2003.

Peter Griffiths, James de Haseth, Fourier


Transform Infrared Spectrometry, Second
Edition, Ed. Wiley-Interscience, USA, 2007.

Howard Mark, Jerry Workman, Jr.,


Chemometrics in Spectroscopy, Ed. Elsevier
Academic Press, 2007.

David Livingstone, A Practical Guide To


Scientific Data Analysis, Ed. Wiley, UK, 2009.

Bibliografie

www.Sciencedirect.com

15,402 articles found for:


chemometrics

5,257 articles found for:


chemometrics & food

Chemometria

Metode
chemometrice

Autentificare

Statistica = ?

Eviden numeric, situaie cifric


referitoare la diverse fenomene
(izolate
sau
generale);
numrtoare.

Culegere, prelucrare i valorificare


a unor date legate de fenomene
generale.

tiin care culege, sintetizeaz,


descrie i interpreteaz date
referitoare la fenomene generale

Date
experimentale
Doua tipuri de date
sunt implicate in
analiza statistica

Ex. Variabilele dependente


sunt determinate prin
masuratori experimentale
Variabilele independente pot fi
masurate experimental, pot fi
calculate sau observate ele
insele, pot fi controlate de
cercetator. (temperatura,
presiune, etc)

Variabile
independente

Variabile
dependente

Date
experimentale
Matrice

Variabile
SB-Murf-2007-1
PG-Murf-2007-1
FN-Murf-2007-1
CH-Murf-2007-1
M-Murf-2007-1
MO-Murf-2007-1

Eticheta
(numele probei)

2,842
2,04
2,868
1,925
4,713
2,599

1,86
1,006
0,644
0,69
0,626
1,778

8,504
5,698
5,545
5,613
5,356
7,583

6X5
862,978
800,142
784,594
802,458
728,433
849,439

8,516
5,274
5,694
5,802
5,175
8,483

In caz general: n x p

Tipuri de date si
unitati de masura
Ex:
Calitative (ce tip?):
reci - calde, aromatice nonaromatice etc.

Cantitative

Variabilele

Calitative
(categorice)

Cantitative (cat de mult?):


- numerice
- valori discrete sau continue
(timp, temp, etc)

Valabil atat pentru variabilele


dependente cat si pentru cele
independente

Variabile cantitative

Masurate

Tipuri de date si
unitati de masura
Ex. Variabile continue
Varsta ani
Inaltimea in cm

Pot fi continue, dar cu un


grad de acuratete
(sensibilitate)

Numarate

Ex. Variabile numarate


Nr. de copii dintr-o familie
Nr. de pastai pe un vrej de
mazare

Variabile calitative

Nominale
(neordonate)
Ordinale (ordonate)

Tipuri de date si
unitati de masura
Variabile nominale cu doar 2
nivele s.n. si variabile
binare
Ex: barbat/femeie, bun/rau,
crud/copt
Variabile nominale cu mai
mult de 2 categorii in care
ordinea nu conteaza
Ex. Grupele de sange

Tipuri de date si
unitati de masura

Pentru
autentificarea
unei
probe nu este necesar sa stim
exact cantitatea de acid acetic
din proba, ci doar daca aceasta
se incadreaza intre valorile
normale.
Desi cu variabilele categorice se
lucreaza mai usor, reducerea
variabilelor continue la cele
categorice duce la reducerea
informatiei
disponibile,
iar
testele statistice vor fi mai
putin
precisescade
sensibilitatea metodei
Datele categorice sunt utile
pentru a rezuma rezultatele,
dar nu si pentru analiza
statistica.

Tipuri de date si
unitati de masura

Modalitati se prezentare
a datelor
6
4
2
0

Cantitatea de fier din lamai (mg): 0.6,


2.6, 0.1, 1.1, 0.4, 2.0, 0.8, 1.3, 1.2, 1.5,
3.2,1.7, 1.9, 1.9, 2.2
Tulpina Frunza
0
1
2
3

6148
1325799
602
2

Tulpina Frunza
0
1
2
3

1468
1235799
026
2

Steam and leaf


plots
Stem and leaf plots = grafic
de tip tulpina si frunza

un tip de grafic similar cu o


histograma, dar care
contine mai multe
informatii

Se observa
Daca exista salturi prea
mari, sau lipsuri in
progresie
Se determina intervalul ca valoare numerica (cel
mai mare cel mai mic)

Pentru siruri de valori


impare
Ex: 15 , medianul este 8

Median

7 valori < 8 > 7 valori

Este o masura a localizarii


datelor; nu foloseste valorile
datelor

Pentru siruri de valori


pare
Ex: 16, medianul este

Proprietatea valoarii medii:


facand diferenta absoluta
dintre median si toate valorile
din sir si apoi insumand
aceste numere se obtine cea
mai mica suma

(8+9)/2 = 8,5

Grafic cu puncte

Lamai

Lime

Interquartile range (IQR) = Q3-Q1

1
2
3
4
5
6
7
8
9
10
11

x[i]
102
104
105
107
108
109
110
112
115
116
118

Quartile

IQR
IQR = masura variatiei
-

Valorile cu abatere mare


sunt identificate

Este o masura a dispersiei


statistice

Q1
Q2 (median)
Q3

IQR = 115 105 = 10

Box - whisker
Arata distributia datelor.
Pentru seturi de date mai mici
de 20 se recomanda folosirea
graficelor cu puncte

Histograme
Histograma arata distributia
unei variabile continue
Rezultate bune pentru 15
grupuri

Grafic cu bare
Productia de lamai si lime

Arata distributia unei variabile


discrete sau categorice
(calitativa)
Alternativa grafic tip
placinta

Date cantitative

Media
Media foloseste valorile
tuturor datelor experimentale
din sirul de valori analizat.
Este influentata puternic si de
datele eronate (care au
abatere mare)

Deviatia standard
(SD)

Deviatia standard
(SD)
n-1= grade de libertate

Deviatia standard
(SD)
Variabilitatea unui
set de numere nu
este afectata daca
reducem sau
crestem valoarea
fiecarui membru cu
o constanta.

Deviatia standard
Pentru orice tip de experiment
sunt indicate efectuarea mai
multor masuratori succesive
CV% = coeficient de variatie

Distributie normala
media
Distributie non-normala
- median

Cand se utilizeaza media si


cand se utilizeaza medianul
pentru a interpreta datele
experimentale?

SD se utilizeaza ca
masura a variatiei in
cazul in care avem
distributie aproximativ
simetrica
Pentru variabile care
nu au o distributie
normala se utilizeaza
IQR

?
Cand se utilizeaza deviatia
standard pentru a descrie
variabilitatea?
A nu se incurca cu eroarea
standard!

Populatii si probe

Populatie in termeni
statistici se refera la
un grup de obiecte,
evenimente,
fenomene, etc
Statisticianul trebuie
sa defineasca clar care
este populatia
relevanta pentru
studiul efectuat

Populatii
Ex. Continutul de nitrati din
salata verde romanesca
Cantitatea de colesterol din
galbenusul de ou de gasca

Media si SD =
parametrii populatiei
atunci cand sunt
calculate pe o anumita
populatie

Media
SD

Populatii

O populatie contine prea


multi indivizi pentru a
putea
fi
studiata
conventional, de aceea se
aleg x probe.
Alegerea aleatoare stratificata
probelor - se creaza un cadru

Alegerea aleatoare sistematica a


probelor compromisul
listelor
lungi

Probe
Alegere probelor relevante
este problema cea mai dificila;
mai dificila chiar decat
interprezarea rezultatelor

Alegerea
probelor
Alegerea probelor aleatoriu
EX: Dintr-o populatie de 150
dorim sa alegem 5 probe
relevante
Luam in calcul primele 3 cifre
din coloana 1 si oprim doar
numerele cuprinse intre 1 si
150.

Acest tip de alegere


aleatoare este de
preferat celui cu plan
regulat (ex: fiecare a
5-a proba, probele
pare, etc), astfel se
evita coincidenta cu
unele regularitati
neprevazute ale
materialului studiat.

Alegerea
probelor
Ex: Tratamentele de fertilizare
ale vitei de vie / productie
integrata
Alegerea la intamplare
(aleatorie) ne asigura ca pe
termen lung diferentele de
comportament ale celor 2
grupuri de probe expuse la
tratamente diferite se
datoreaza strict practicilor
agrotehnice.

Probele prezinta o
variatie intamplatoare
una fata de alta:
- variatie mica
- variatie mare

Diferentele dintre
probe variaza in
functie cu varianta
populatiei din care
sunt extrase.

Diferentele dintre
probe
Ex: Diferenta de culoare
dintre rosiile soiul timpuriu
Arges 400
Diferenta de culoare dintre
rosiile cultivate in Romania.
Probele trebuie foarte bine
descrise (definite) in orice
studiu.

Extragem aleatoriu o
serie de probe
Calculam media
experimentelor
Distributie Normala a
mediilor *

Teorema limitei centrale

Eroarea standard
a mediei (SEM)
*Chiar daca experimentul din
care au fost extrase probele
nu prezinta o distributie
normala

Eroarea standard
a mediei (SEM)
Pentru prima coloana din tabel
calculati media celor 5 cifre.
Cum arata histograma?
Calculati media si SD.

Eroarea standard a mediei unei singure


probe este o estimare SD care s-ar
obtine pentru mediile unui numar mare
de probe extrase din populatia
respectiva.

Daca se scot probele aleatoriu dintr-o


populatie, media experimentelor va fi
diferita de la o proba la alta; variatia
depinzand de variatia populatiei
respective si de mariamea probei.

Variatia unie populatii nu este


cunoscuta, dar poate fi estimata prin
variatia unei probe =SD

Eroarea standard
a mediei (SEM)

Eroarea standard
a mediei (SEM)

SD
SEM =
n
Nr probe

Rosii Arges 200


Rosii Arges 400

SEM200 = 0.53
SEM400= 0.61

72
48

n=numarul de experimente
(probe)

Media conc de licopina

88
79

SD

4,5
4,2

120 probe de lapte - continut ridicat de


caroten
73 vaci albe (60.8%)
47 vaci negre (39.2%)

p= 60.8%
100-p = 39.2%

SEprocentaj

p (100 p)
n

Eroarea standard
asociata unei
proportii (sau
procent)
Ex: SEprocentaj = 4.46

SD este un parametru al
populatiei care masoare
variabilitatea
experimentelor
(masuratorilor)
Cu cat numarul de
experimente este mai
mare cu atat SD este
mai precisa
Eroarea standard este o
masura a preciziei unui
parametru al populatiei

Care este diferenta dintre SD


si eroarea standard pentru o
anumita masuratoare?

Intervale de referinta si
intervale de certitudine

Interval de
referinta
Limitele de 95% reprezinta
ntervalul de referinta
Acesta s.n. si intervalul
normal (tipic)
Se mai poate obtine si
intervalul normal empiric,
prin inlaturarea primelor si
ultimelor 2,5% din valori

Aplicatie practica pentru


autentificarea soiurilor de vin

?
Diferentiere intre soiuri de vin
asemanatoare compozitional

GLICERINA

VIN ROSU
CABERNET SAUVIGNON

ETANOL

ETANOL

ACID SUCCINIC
ALANINA

VALINA

ARGININA

PROLINA

IZOLEUCINA

PROLINA

VALINA

IZOLEUCINA

ACID ACETIC

ACID LACTIC

ACID MALIC + CITRIC

METANOL

M. C. Buzas, N. Chira, C. Deleanu, S. Rosca, Rev. Chim., 2003, 54, 831-833.

Un soi de vin este considerat c face parte din unul dintre


soiuri cu o certitudine mai mare cu ct numrul de valori n
afara limitelor Li i Ls este mai mare pentru ct mai multe
din componentele sale constitutive.

max max CS max FN

Ls

min min CS min FN

Li

max 0

Ls max CS max

max 0

Ls max FN max Li min FN min

Li min CS min

Se calculeaz apoi
pentru valorile
pozitive i respectiv
negative ale lui
max, o valoare Ls,
i respectiv Li

Metoda I intervalelor de nesuprapunere

Metoda intervalelor de nesuprapunere aplicat pe 12 vinuri


comerciale100
90
14; 86
80

70

apartenenta la FN

33; 67
60

40; 60

50

50; 50
57; 43
60; 40
64; 36

40

69; 31

30

20

82; 18

10

90; 10

0
0

10

20

30

40

50

60

70

80

apartenenta la CS

17.01.2012
Aplicaii pe vinuri comerciale

90

100; 0
100

Se calculeaz parametrii:
Integrala medie pentru componentul x
Deviaia standard
DS
Coeficientul de ncredere
I
X

Punctul de incertitudine maxim


I m 2 DS
X

Relevana

Relevana corectat
Varianta 1 :
Varianta 2 :
Relevana totala X

2DS
1
I
X

( I m ) CS ( I m ) FN
X

2
X
Pi

X
i

X
i

R (c )CS (c ) FN
X

X
m

R (c )CS
x

R (c ) FN
x

Rc

Metoda II zonelor de certitudine

Testul t

Se utilizeaza pentru
rezolvarea urmatoarelor probleme:
Calcularea intervalului de
certitudine pentru media unui set
mic de probe
Pentru a stabili cat de mult difera
media probei fata de media
presupusa a populatiei
Se calculeaza media si deviatia
standard pentru 2 probe; sunt
luate ambele probe din aceeasi
populatie?
Sunt inregistrate perechi de
observatii asupra a 2 probe (sau in
succesiune asupra aceleasi probe).
Care este semnificatia diferentei
intre mediile celor 2 seturi de
observatii?

Test t
Student t test
Pentru probe mai mici cu un
numar de maxim 60
observatii. (in mod obisnuit de
pana la 30)

Numarul de observatii 18

Media concentratiei de sodiu


115 mmol/L

Deviatia standard 12 mmol/L

Eroarea standard a mediei

SD / n 12 / 18 2,83mmol / L

Test t
Calcularea intervalului de
certitudine pentru media unui
set mic de probe

Pentru a stabili 95% CI trebuie


sa stabilim multiplul erorii
standard

Test t
t
marime set probe

Ex: la 17 (grade de libertate)


probabilitate 0.05 => 2,110

Deci 95%CI se calculeaza :


[media-2,110 *SE la
media + 2,110 *SE]

106,83-123,2 mmoli/L

Ex: Estimarea concentratiei de Fe din Test t


laptele de bivolita
Diferenta dintre media probei
18 animale
si media populatiei (testul t al
Media concentratiei 3,2 mmol/L
unei probe)
Deviatia standard 1,1
Rezultate anterioare de literatura
stabilesc media 2,5 mmol/L
Este media obtinuta in acest caz
anormal de mare?
Facem urmatoarele presupuneri:
- datele sunt reprezentative
- datele sunt cantitative si distribuite
normal
- datele sunt independente intre ele

Media generala a populatiei


=2,5 mmol/L
Media probei = 3,2 mmol/L
SD a probei 1,1 mmol/L
SE a mediei probei = 0.26
mmol/L
Diferenta intre medii:
-= 2,5-3,2=-0.7 mmol/L
t= diferenta dintre media
impartita la SE a mediei probei:
t= -0,7/0,26=-2,69
din tabel se obtine P=0.015
Este foarte putin probabil ca
proba cu media 3,2 sa provina
din populatia cu media 2,5

Test t

Proba 1 -15 persoane


care primesc
alimentatie A
Proba 2 - 12 persoane
care primesc
alimentatie B
Durata digestiei este
masurata in ambele
cazuri

Test t
Diferenta dintre mediile a 2
probe

Test t
- cele 2 probe provin din
distributii care difera ca
valoare medie, dar nu si ca
deviatie standard
- observatiile sunt
independente intre ele
- datele sunt cantitative si se
presupune ca au o distributie
normala

Test t

Corelarea si regresia

Corelarea = arata asocierea intre 2


variabile cantitative

Presupune ca asocierea este liniara

Regresia = implica estimarea celei


mai bune linii drepte care sa
insumeze asocierea

Corelarea si
regresia

Coeficientul de
corelare
r

(Coeficientul lui Person)


este o masura a asocierii
liniare
Variaya intre +1 0 -1
Daca linia de asociere este o
curba se utilizeaza ecuatii mai
complicate (mai multe)

variabila 1 variabila 2
+
+
+
-

r
1
-1

Scatter plot
Variabila dependenta

Este un tip de diagrama


matematica care foloseste
coordonate carteziene pentru
a reprezenta valorile a doua
variabile dintr-un set de date.
Variabila dependenta = experimentala
Variabila independenta = timp

Variabila independenta

Calculul
coeficientului
de corelare

x x y y
x x y y
2

Calculul
coeficientului
de corelare
-Se aranjeaza valorile in
ordine crescatoare (a lui x)
-Se

xy n xy

n 1SDx SD y

noteaza cu x variabila
independenta si cu y variabila
dependenta
-Limitele

arbitrarea lui r
-0-0.19 corelare f slaba
--0.2-0.39 corelare slaba
-0.4-0.59 corelare moderata
--0.6-0.79 corelare puternica
--0.8-1 corelare f puternica
-Se

poate calcula si r2

n2
tr
2
1 r
t= 5,72
15-2=13
Din tabel => P<0.001
Adica coeficientul de corelare
obtinut este foarte semnificativ

Testul de
semnificatie
Se cauta raspuns la intrebarea :
asocierea este intamplatoare?
Se utilizeaza o forma a testului t
Acest teste ne arata semnificatie lui
r , adica masoara cat de puternica
este corelatia intre cele 2 variabile
masurate.

Corelatia
Spearman
Unele punte se pot situa
foarte departe fata de
majoritatea valorilordintr-un
sir si ele il pot influenta pe r.
Procedura Spearman nu tine
cont de parametrii, ea
presupune inlocuirea
observatiilor cu gradul lor
(nivelul) din calculatia lui r

rs 1

6 d

Corelatia
Spearman

n n 1
2

d= diferenta dintre gradele


(nivelele) a 2 variabile pentru
un individ (o observatie)
Pentru n>10 se poate testa
prin test t si acest coeficient
de corelatie

y=a+bx
Cu ajutorul aceste ecuatii se traseaza linia de
regresie
a= distanta fata de linia de baza la care linia de
regresie intersecteaza axa y
b= panta coeficientul de regresie

Din ecuatie se obtine ycal

Ecuatia de
regresie
Corelatia arata legatura asocierii
intre 2 variabile si este complet
simetrica: corelatia A si B este
aceeasi cu coprelatia B si A

Regersia este in fapt valoarea


medie a lui y in functe de x

y=a+bx

Ecuatia de
regresie
Ajuta la calcularea (prezicerea)
valorii lui y

Eroarea calculului lui y = ( yi ycal )


Abaterea patratica medie

S 2 ( yi ycal ) 2

( x x)( y y)
b
( x x)
2

a y bx
b

xy n xy

(n 1) SD( x) 2

xy 150605
SD( x) 19,37
y 66,9
x 144,6
b 1,033
a 82,4
y 82,4 1,033 x

Se calculeaza pentru 3 valori


ale lui x, ycal

Pentru mai mult de 2 variabile se utilizeaza regresia


multipla

Daca 2 variabile sunt corelate sunt ele legate


cauzal?
Este o eroare obisnuita
Tot ce arata corelatia este ca 2 variabile sunt asociate,
ambele pot fi legate de o a treia variabila.

Cum imi dau seama ca este vorba despre o regresie


liniara?
Pe baza ecuatiei de regresie se calculeaza

ei yi ycal

Histograma lui e va arata departarea de tendinta


normala si daca e creste o data cu ycal

Cand se utilizeaza regresia si cand corelatia?


Cand se observa o aliniere clara se foloseste regresia,
dar se calculeaza si corelatia ca masaura a legaturii
intre variabile

You might also like