Professional Documents
Culture Documents
Kemometria Alapfogalmai
Kemometria Alapfogalmai
1. Alap fogalmak:
• Véletlen jelenség: ha egy jelenség minden okát ismernénk, figyelembe tudnánk venni
annak jóslásakor egyértelműen levezethető lenne. Ez azonban lehetetlen, a jóslás és a
valóság közti különbség ingadozását véletlenszerűnek nevezzük.
• Sokaság és minta: a dolgok vizsgálatánál a tulajdonságok sokaságot alkotnak. A mérés
célja e sokaság megismerése. Mivel az alapsokaság összes elemének vizsgálata
lehetetlen ezért egy kiragadott részét, a mintát tudjuk elemezni. A minta adatai alapján
a matematikai statisztika segítségével vonhatunk le következtetést az alapsokaságra.
• Valószínűségi változó: azon mennyiségek melyek értéke nem állandó hanem esetről
esetre más és más lehet, azonban meghatározható hogy mekkora valószínűséggel
esnek adott határok közé valószínűségi változónak nevezzük. Lehet diszkrét vagy
folytonos.
• Diszkrét valószínűségi változó: Diszkrén a változó és annak eloszlása ha egy véges vagy
megszámlálhatóan végtelen elemű halmaz értékeit veheti fel.
• Folytonos valószínűségi változó: ha folytonos sokaság értékeit veheti fel a változó, pl
polimer sűrűsége.
• Valószínűségi változók sűrűség és eloszlásfüggvénye:
A diszkrét valószínűségi változó sűrűség függvénye azt mutatja, hogy x=k értékeknél
pl. egy érme 10 feldobásának eredménye éppen k-szor fej. Az eloszlás függvénye pedig
azt mutatja x=k helyen, hogy a fej eredményű dobások száma milyen valószínűséggel
lesz 10 dobásból legföljebb k.
A folytonos változó esetében a változókat osztályokba soroljuk, a téglalapok
magasságát úgy választjuk meg hogy a téglalap területe az intervallumokon belüli
előfordulások relatív gyakoriságával legyen arányos. Annak a valószínűsége, hogy az x
változó a egy „a” és „b” intervallum belüli értéket vegyen fel az f(x) a-tól b-ig történő
integrálása adja. Az folytonos változó eloszlás függvénye a sűrűség függvény
integráltja.
• Várható érték:
∞
Folytonos esetben: 𝐸(𝑥) = ∫−∞ 𝑥𝑓(𝑥)𝑑𝑥 = 𝜇
Diszkrét esetben: 𝐸(𝑥) = ∑𝑖 𝑥𝑖 𝑝(𝑥𝑖 )
Mintákra a várható értékkel analóg statisztikai számátlag: összeadod elosztod a
darabszámmal...
• Medián: az az érték amelynél nagyobbat a valószínűségi változó ugyanolyan
valószínűséggel vesz fel mint kisebbet. Nagyság szerint rendezett mintaelemek közül a
középső.
• Módusz: a valószínűségi változó legnagyobb valószínűségű értéke (sűrűségfüggvény
maximuma)
• Variancia: a várható értéktől való eltérésnégyzetének várható értéke, a
sűrűségfüggvény szélességét jellemzi.
∞
Folytonos változó: 𝑉𝑎𝑟(𝑥) = ∫−∞[𝑥 − 𝐸]2 𝑓(𝑥)𝑑𝑥 = 𝐸[(𝑥 − 𝜇)]2 = 𝜎 2
Mintabeli analógja a szórásnégyzet (korrigált tapasztalati szóráynégyzet):
𝑛
2
1
𝑠 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1
2. Fontos diszkrét eloszlások:
• Binomiális: diszkrét eloszlás, akkor használható, ha a vett minta értéke kétféle lehet.
Sűrűségfüggvény: 𝑝(𝑥) = (𝑛𝑥)𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
Várható értéke: 𝐸(𝑥) = 𝑛𝑝
Varianciája: 𝑉𝑎𝑟(𝑥) = 𝑛𝑝(1 − 𝑝)
• Poisson: ritka események modellezésére használható. Feltételei: valamely idő-
intervallumbeli, vagy adott egységbeli előfordulásainak száma akkor követi az
eloszlást, ha:
o bármely egységben bekövetkező esemény független a többi egységbelitől
o az esemény bekövetkezésének valószínűsége bármely egységben azonos és arányos
az egység méretével
o annak valószínűsége, hogy két vagy több előfordulás következik be egy egységben az
egység méretének csökkenésével a nullához tart.
𝑒 −𝜆 𝜆𝑥
Sűrűségfüggvény: 𝑝(𝑥) = 𝑥!
Várható értéke és varianciája: 𝐸(𝑥) = 𝑉𝑎𝑟(𝑥) = 𝜆
3. Normális eloszlás:
• Akkor találkozunk vele, ha sok egymástól független egyenként kis hatású tényező
hatása összeadódik. Emiatt a közvetlenül mért véletlenszerű ingadozásokat mutató
adatok (pl. tömeg, hőmérséklet) jó közelítéssel normális eloszlású sokaságból vett
mintának tekinthetők.
• Sűrűségfüggvény:
1 (𝑥−𝜇)2
−
𝑓(𝑥) = 𝑒 2𝜎2
𝜎√2𝜋
• Várható érték: 𝐸(𝑥) = 𝜇
• Variancia: 𝑉𝑎𝑟(𝑥) = 𝜎 2
• Jele: 𝑁(𝜇, 𝜎 2 )
• Annak valószínűsége, hogy a 𝑁(𝜇, 𝜎 2 ) eloszlású x valószínűségi változó nem haladja
meg az „a” értéket, a sűrűség függvény negatív végtelentől „a”-ig történő integrálása
adja.
4. Centrális határeloszlási tétel:
Bármilyen eloszlású sokaságból vett minták számtani középértéke közelítőleg normális
eloszlást követ az eredeti eloszlás várható értéke körül. Varianciájuk pedig 𝜎 2 /𝑛. Tehát 𝑥̅
𝜎2
𝑁 (𝜇, 𝑛 ) eloszlású valószínűségi változó. Ha az eredeti eloszlás szimmetrikus, már négyelemű
mintára is jó a közelítés és általánosan egyre javul a mintaszám növekedésével.
5. A t-eloszlás:
Akkor alkalmazható, ha a minta elemszáma kicsi és nincs bőséges előzetes adatunk a 𝜎 2
variancia becslésére. Egy x normális eloszlású változóból így kapunk t-eloszlásút:
𝑥 − 𝐸(𝑥)
𝑡= , 𝑎ℎ𝑜𝑙 𝑠 𝑎𝑧 𝑥 𝑠𝑧ó𝑟á𝑠𝑎!
𝑠/√𝑛
6. Hipotézis vizsgálat:
Úgy járunk el, hogy valamilyen felvetéssel élünk és ezt statisztikai próbával ellenőrizzük. Azt
ellenőrizzük, hogy a vizsgált dolog olyan eloszlású-e illetve olyan paraméterekkel jellemezhető
mint amit feltételezünk.
Ha ellenőrizni akarunk egy várható értékre vonatkozó hipotézist, azaz azt, hogy 𝜇 egyenlő-e
egy meghatározott 𝜇0 -al. Ezt a feltevést nevezzük nullhipotézisnek (H0). Valamint
megfogalmazunk lehetséges ellenhipotéziseket.
9. A t-próba:
Alkalmazható, ha a sokaság 𝜎 2 varianciáját nem ismerjük.
• Egymintás t-próba: annak vizsgálatára alkalmas, hogy a várható érték különbözik-e egy
adott értéktől. A nullhipotézis: 𝐻0 : 𝜇 = 𝜇0 . A próba statisztika:
𝑥̅ − 𝜇0
𝑡0 =
𝑠/√𝑛
• Kétmintás t-próba: két egymástól független minta mögött álló sokaság várható értékének
különbözőségére vonatkozik a nullhipotézis (𝐻0 : 𝜇1 − 𝜇2 = 0). A statisztikai próba
elvégzéséhez ismert a két minta elemszáma valamint a szórásnégyzetük. A próba előtt
ellenőrizni kell F-próbával, hogy a két sokaság varianciája egyezik.
A statisztikai próba:
𝜇1 −𝜇2 𝑠1 2 (𝑛1 −1)+𝑠2 2 (𝑛2 −1)
𝑡0 = , 𝑎ℎ𝑜𝑙 𝑠 = √ , 𝑣 = 𝑛1 + 𝑛2 − 2 szabadsági fokkal.
𝑠√
1
+
1 𝑣
𝑛1 𝑛2
• Páros t-próba:
Tegyük fel, hogy x és y két normális eloszlású valószínűségi változó (pl egy oldat
koncentrációjának mérései két különböző módszerrel). Tehát a két minta nem független
egymástól, viszont a méréskor elkövetett véletlen hibák egymástól függetlenek.
A nullhipotézis: 𝐻0 : 𝐸(𝑥𝑖 ) = 𝐸(𝑦𝑖 )
𝑑̅ ∑𝑖(𝑑𝑖 −𝑑̅)2
A próbastatisztika: 𝑡0 = 𝑠 , 𝑠2 = , 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
𝑑 /√ 𝑛 𝑑 𝑛−1
Ha a nullhipotézis igaz, 𝐸(𝑑̅) = 0 igaz.
10. Varianciaanalízis (ANOVA):
Ha több mint két csoportot kell összehasonlítani, ANOVA-ra van szükségünk. A módszer
feltételei közé tartozik, hogy a csoportok mögött álló sokaságok variancája azonos, ezt
Bartlett, Cochran és Levene próbákkal ellenőrizhetjük. A varianciának nem szabad
függenie az átlagtól. A módszernél három féle varianciát kell számolnunk. A csoporton
belüli ingadozásokból fakadót.
Ha az egyes csoportokon belüli ingadozás varianciája azonos, ezeket egyesíthetjük:
∑𝑟𝑖 𝑠𝑖2
𝑠𝑅2 = , 𝑎ℎ𝑜𝑙 𝑟 𝑎 𝑐𝑠𝑜𝑝𝑜𝑟𝑡𝑜𝑘 𝑠𝑧á𝑚𝑎
𝑟
Azt a maradék szórásnégyzetnek nevezik, vagy a csoportokon belüli (within group)
szórásnégyzetnek.
Ha a csoportok között csakugyan nincs különbség az átlagok eltérését ugyan az a véletlen
ingadozás okozza, minta csoportokon belüli ismétlések különbőzéségét, ez az átlagok
eltéréséből becsülhető. Ha a csoportokban azonos számú ismétlés van:
2
∑𝑟𝑖=1(𝑦𝑖. − 𝑦.. )2
𝑠𝑦̅ = , 𝑎ℎ𝑜𝑙 𝑦𝑖. 𝑎𝑧 𝑦𝑖𝑗 é𝑟𝑡é𝑘𝑒𝑘 𝑐𝑠𝑜𝑝𝑜𝑟𝑡𝑜𝑛 𝑏𝑒𝑙ü𝑙𝑖 á𝑡𝑙𝑎𝑔𝑎,
𝑟−1
𝑦.. 𝑝𝑒𝑑𝑖𝑔 𝑎𝑧 ö𝑠𝑠𝑧𝑒𝑠 𝑚é𝑟é𝑠𝑖 𝑒𝑟𝑒𝑑𝑚é𝑛𝑦 á𝑡𝑙𝑎𝑔𝑜𝑙á𝑠𝑎
Az y valószínűségi változó ingadozásának varianciáját kiszámíthatjuk az átlagok
varianciájából is. Ez a variancia az átlagok képlettel számított szórásnégyzetéből
becsülhető:
𝑠𝐴2 = 𝑠𝑦2̅ 𝑝
Ezt nevezik az A faktor szórásnégyzetének, vagy csoportok közötti szórásnégyzetnek.
A model szerint: 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 Ahol 𝜇 várható érték közös része, 𝛼𝑖 a csoporthoz
rendelhető hatás és 𝜀𝑖𝑗 a kísérleti hiba. A nullhipotézis: 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 … = 𝜇𝑟
A számolt szórás értékeket ANOVA táblázatban szokás összefoglalni:
Az eltérés Eltérés-
Szabadsági fok Szórásnégyzet F0
forrása négyzetösszeg
A hatása
𝑆 = ∑ 𝑝 (𝑦 − 𝑦 ) 2
2
𝑆𝐴 𝑠𝐴2
(between 𝐴 𝑖 𝑖. .. 𝑟−1 𝑠𝐴 =
group)
𝑖
𝑟−1 𝑠𝑅2
Ismétlések 2 𝑆𝑅
hatása (within 𝑆𝑅 = ∑ ∑(𝑦𝑖𝑗 − 𝑦𝑖. ) ∑ 𝑝𝑖 − 𝑟 𝑠 2
=
𝑅
𝑖 𝑗
𝑖 ∑𝑖 𝑝𝑖 − 𝑟
group)
2
Teljes 𝑆0 = ∑ ∑(𝑦𝑖𝑗 − 𝑦.. ) ∑ 𝑝𝑖 − 1
𝑖 𝑗
𝑖
14. Paraméterbecslés:
A sokaság tulajdonságára következtetünk a minta adatai alapján, ez a becslés művelete. A
becslés a mintából kiszámított statisztika. A becslés is valószínűségi változó, eloszlása van. A
becsült érték egy számérték amely nem valószínűségi változó. Ha a paraméter Θ, akkor a
becslés Θ ̂. Θ
̂ 𝑛 az n elemű mintából meghatározható becslés. Torzítatlan a becslés, ha
̂ 𝑛 valószínűségi változó Θ körül ingadozik. Kívánatos, hogy a becslés ingadozásai ne legyenek
Θ
túlságosan nagyok, azaz a varianciája kicsi legyen.
15. Regresszióanalízis:
Feladatai:
• A függvénykapcsolat (Y(x) elméleti regressziós függvény) paramétereinek becslése
• Ha lehetséges a függvény alkalmasságára vonatkozó hipotézis vizsgálata
• Paraméterekre vonatkozó hipotézisek vizsgálata
• A konfidenciaintervallum ill. Konfidenciasáv számítása a függvény paramétereire és az
𝑌̂(𝑥) tapasztalati vagy empirikus regressziós görbére (ez a becsült függvény)
Az illesztés célja kétféle lehet: interpolációs formulát kívánunk illeszteni, vagy a változók
oksági összefüggést leíró modellt illesztünk, amely extrapolációra is alkalmas.
16. Legkisebb négyzet módszer:
• Lineáris eset
Az egyenes egyenletét y=mx+b úgy írjuk fel hogy 𝑦̂ = 𝑏 + 𝑚𝑥𝑖 . A regressziót az eltérés
négyzet minimálásával hajtjuk végre: 𝑆𝑆(𝑏, 𝑚) = ∑𝑖(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑𝑖(𝑦𝑖 − (𝑏 +
𝑚𝑥𝑖 ))2 = 𝑚𝑖𝑛. Ezt parciális deriválással tehetjük meg, egyenlővel tesszük őket 0-val
és kifejezzük a paramétereket:
∑(𝑥𝑖 − 𝑥̅ )(𝑦 − 𝑦̅)
𝑚= , 𝑏 = 𝑦̅ − 𝑚𝑥̅
∑(𝑥𝑖 − 𝑥̅ )2
Az illesztést ellenőrizhetjük a rezidumok (a mért és a becsült értékek különbsége)
grafikus vizsgálatával. A rezidumoknak 0-körül kell szóródniuk, trendnek nem szabad
lenni a mozgásukban.
A regresszió szignifikanciáját ANOVA-val ellenőrizhetjük, a paramétereknek
megadhatjuk a szórását.
∑(𝑦𝑖 − 𝑦̂)2
Determiníciós együttható: „egyenes jósága”: 𝑅 2 = 1 − ∑(𝑦𝑖 −𝑦̅)2
Az egyenes jóságát továbbá jellemezhetjük a konfidencia intervallummal is, vagy a
paraméterek kovarianciájával.
• Nem lineáris eset:
17. Screening:
A screening célja olyan kísérletek végzése melyek választ adnak arra a kérdésre, hogy mely
változóknak van valódi hatása az eredményre. Screeningre lehet szükség pl. ha egy új reakciót
vizsgálunk és nincs még sok adat róla. Vagy ha egy ismert eljárást szeretnénk tovább fejleszteni
pl. egy szintézis kitermelését. De akkor is szükséges a screening, ha laborméretről tesztüzemi
méretekre skálázunk egy reakciót.
A kísérletek megkezdése előtt tisztában kell legyünk vele hogy milyen paramétereket akarunk
vizsgálni, milyen információkra akarunk szert tenni, és ezek tükrében kell megválasztani a
kísérleteket. A kísérletek elvégzése után minden változó kívánt jelentőségét meg kell tudnunk
állapítani.
A screening lépései:
• Elemezzük a folyamatot és határozzuk meg a kritikus lépéseket
• Döntsük el milyen módon mérjük őket.
• Elemezzük a kíséreti procedúrát és határozzuk meg a kísérleti változókat
• Soroljuk a változókat prioritás kategóriákba: befolyásol, lehet hogy nem befolyásol,
valószínű nem befolyásol, nem befolyásol.
• Az első két kategóriával folytassuk.
• Nézzük meg hogy bizonyos változók elhagyhatók-e a kísérleti körülmények szabdta
határok miatt
• Definiáljuk a változókat a leggazdaságosabb módon.
• Derítsük fel az esetleges összefüggéseket a változók közt.
• Ismételgessük a fenti lépéseket.
• Azonosítsuk azokat a változókat melyeket nehéz változtatni, fontoljuk meg állandóra
tenni őket.
• Javasoljunk modellt.
• Válasszunk kísérleti tervet
• Végezzük el a kísérleteket és értékeljük az eredményt.
18. Faktoros kísérleti tervek (optimálás):
• Két szintes 2p típusú teljes faktoros tervek: p számú faktort tartalmaznak, mindegyiket
két szinten vizsgálják. Ha minden beállításnál egy kísérletet végzünk a kísérleti terv
𝑧 𝑚𝑎𝑥 +𝑧 𝑚𝑖𝑛
N=2p pontot tartalmaz. Jelölje zj a j-edik faktort 𝑧𝑗0 a faktor alapszintjét: 𝑧𝑗0 = 𝑗 2 𝑗
a 𝑧𝑗0 értékkel jellemzet pontot a terv centrumának nevezzük. A Δ𝑧𝑗 az úgynevezett
𝑧𝑗𝑚𝑎𝑥 −𝑧𝑗𝑚𝑖𝑛
variációs intervallum: Δ𝑧𝑗 = . A faktorokat a következőképp érdemes
2
𝑧𝑗 −𝑧𝑗0
transzformálni: 𝑥𝑗 = , az így kapott faktor értéke +1 a legmagasabb szinten és -1
Δ𝑧𝑗
a legalacsonyabbon. A feltételezett modell: 𝑌 = 𝑐0 + 𝑐1 𝑐1 + 𝑐2 𝑥2 + ⋯ + 𝑐𝑝 𝑥𝑝 Az így
∑ 𝑦𝑥
készített kísérleti terv ortogonális, a paraméterek becsülhetők: 𝑐𝑗 = 𝑖 𝑁𝑖 𝑖𝑗
A modellt kiegészíthetjük a faktorok egymásra gyakorolt hatásával, szorzatukkal. Két
faktor esetén pl. x1x2 taggal, amely nem jelent új faktort, ennek a tagnap az
együtthatója azt fejezi ki hogy az x1 faktor hatása milyen mértékben függ a másik
faktor szintjétől. Az együttható értéke pozitív ha x1 növelése nagyobb mértékben
növeli az y válaszértékét az x2=+1 beállításnál mint az x2=-1 beállításnál.
Minőségi faktorok esetén mindegyik csak -1 vagy +1 szinten értelmezhető.
Mennyiségi faktorok esetén célszerű a terv centrumában is végezni méréseket, mert
ez lehetőséget ad a variancia becslésére valamint az illesztett modell ellenőrzésére.
A főhatások és mellékhatások szabadsági foka 1, a hatások szignifikanciájának vizsgálatára t-
próbát használunk.
19. Kalibráció:
• Sima kalibráció: a koncentráció függvényében rögzítjük a jelet, és függvényt illesztünk rá,
majd interpolálással meghatározzuk az ismeretlen minta jelének megfelelő koncentrációt
• Standard addíció: abban az esetben alkalmazzuk ha jelentős mátrix hatással kell
számolnunk. A mintákhoz ismert mennyiségű c1, c2, c3... koncentrációjú standardot adunk.
Az ismeretlen koncentrációt az illesztett egyenes x-tengely metszetéből kapjuk meg.
• Belső standard módszer: a mintákhoz, standardokhoz, vakokhoz egy olyan komponenst
adunk melyet a rendszer előzőleg nem tartalmazott, és az analittól függetlenül tudjuk
rögzíteni az analitikai jelét. A kalibráció során nem az intenzitásokat ábrázoljuk a
koncentráció függvényében, hanem az intenzitás és a belsőstandard intenzitásának
hányadát ábrázoljuk az analit koncentráció és a hozzáadott belsőstandard koncentráció
függvényében.
• Kísérő standard: követjük a mennyiségét...???
20. Többváltozós kalibráció:
Koncentráció meghatározása gyorsan és megbízhatóan végezhető több különböző mérési
változó kombinálásával például több hullámhosszon történő méréssel. A szisztematikus
hibákat kiküszöbölhetjük, így nemspecifikus mérési adatok is használhatóak lehetnek
kvantitatív meghatározáshoz. Ezen túl a többváltozós kalibráció új információt nyújthat arról
hogy viselkedik a minta kémiai összetétele in situ.
Egy módszer a többváltozós illesztésre a PLS:
PLS-nél az adatmátrixot változó szerint blokkokra osztjuk, erre acélra használt módnál ezek a
blokkok főkomponens szerű modellek. Többváltozós kalibrációhoz két blokkos módban
használjuk a módszert.