Professional Documents
Culture Documents
Machine Learning Basics
Machine Learning Basics
Tartalom
• Gépi tanulás – definíció; divat, helye, feltételei
• Korreláció, kauzalitás, vizualizáció, magyarázat
• Példák és ellenpéldák
• Predikció
• Feltételei, fajtái, ellenpéldák
• Becslések fajtái. Becslők osztályozási szempontjai
• Accuracy (egy mérés és a valóság-bias), precision (mérések szórása – véletlen hiba,
variability), trueness (ISO 5725: mérések átlaga és a valóság – szisztematikus hiba)
• Gépi tanulás kategorizálása
• Felügyelet szerint
• Feladattípus szerint
• Általánosságok:
• A folyamat: tanítás-teszt-validálás
• adatok néha fontosabbak, mint a módszer (variance vs bias. High Variance, komplex modell esetén segít.
High bias esetén, egyszerű modellnél nem. Ekkor további feature-ök bevezetésével növelni kell a
dimenziószámot)
GTSz
E: adatok
P: “jó találat”, elfogadható
T: megmondja a tutit
GTSz
ADATAINK
ISMÉRVEK
MINŐSÉGI
MENNYISÉGI
(kategóriák;
(számok; mérhető)
csoportosítható)
KAPCSOLAT, FÜGGÉS
• FÜGGETLENSÉG
• IDŐJÁRÁS ÉS TESTMAGASSÁG
• FÜGGVÉNYSZERŰ KAPCSOLAT
• ÚT-IDŐ-SEBESSÉG
• SZTOCHASZTIKUS KAPCSOLAT
• TANULÁSRA FORDÍTOTT IDŐ, PIHENÉS ÉS ÉRDEMJEGY
GTSz
KORRELÁCIÓ, KAUZALITÁS
• EGYÜTTJÁRÁS
• KORRELÁCIÓ (MENNYISÉGI: -1.0…1.0 )
• ALAPTERÜLET – INGATLAN ÁRA
• ASSZOCIÁCIÓ (MINŐSÉGI), VEGYES KAPCSOLAT
• VÉGZETTSÉG – NEM – VÁRHATÓ ÉLETKOR
• KAUZALITÁS
• CUM HOC ERGO PROPTER HOC – FALLACY
• Minél gyorsabban forog a szélmalom, annál erősebben fúj a szél. Azok a gyerekek, akik többet néznek
tévét, erőszakosabbak. (Együttjárás nem ok-okozat)
• IDŐBELI SORRENDISÉG IS KELL OK-OKOZATHOZ
• POST HOC ERGO PROPTER HOC – FALLACY
• A büntetés javítja, a jutalmazás rontja a teljesítményt (Valós ok: statisztikai átlaghoz visszatérés)
• MAGYARÁZHATÓSÁG, ÁTLÁTHATÓSÁG
• Születésszám-gólya, távvezeték-zöld fű, a cipőben alvás fejfájással jár
• Rejtett háttértényező
GTSz
PREDIKCIÓ
• ELŐRE MEGMONDANI
• JÖVŐ (egyik ftl változó az idő) / ISMERETLEN JELEN
• A TUDOMÁNY TÖREKVÉSE
• Annyira megérteni, hogy tudjak előrejelzést adni
• HA ÉRTEM, BEJÓSLOM. HA BEJÓSLOM, ÉRTEM?
• Fekete doboz, megérzés, stb. – bejóslás megy, de nem látom át.
• INSIGHT a célja a DS-nek, működő előrejelző eszköz a ML-nek
GTSz
Vizualizáció
• Kapcsolatok felderítése, exploráció, próbálkozás, inspirálódunk. Gyakran ez az első lépés, ismereteket közöl a lehetséges
modell osztályokról
GTSz
A tanítás FOLYAMATA
Tanítás
Tanítási
adatok Modell
Adatok
Frissítés Teszt
Teszt adatok
ML módszerek osztályozása
TARTALOM KIVONAT FELADATTÍPUS SZERINT
TANÍTÁS SZERINT
SPAMSZŰRŐ
FELÜGYELT REGRESSZIÓ
(SUPERVISED) RÉSZVÉNYÁRFOLYAM-
ELŐREJELZÉS
FELÜGYELET NÉLKÜLI OSZTÁLYOZÁS
(UNSUPERVISED) ALPHAGO
MEGERŐSÍTÉSES KÉPFELISMERÉS
CSOPORTOSÍTÁS
(REINFORCEMENT) (MACSKA?)
FACEBOOK: DIMENZIÓ-
RÉSZBEN FELÜGYELT
HASONLÓK CSÖKKENTÉS
(SEMI-SUPERVISED)
CSOPORTJA
GTSz
ML módszerek osztályozása
FELADATTÍPUS SZERINT
TANÍTÁS SZERINT
RÉSZVÉNYÁRFOLYAM-
FELÜGYELT ELŐREJELZÉS
REGRESSZIÓ
(SUPERVISED)
SPAMSZŰRŐ
FELÜGYELET NÉLKÜLI KÉPFELISMERÉS OSZTÁLYOZÁS
(UNSUPERVISED) (MACSKA?)
FACEBOOK:
MEGERŐSÍTÉSES CSOPORTOSÍTÁS
HASONLÓK
(REINFORCEMENT)
CSOPORTJA
Regresszió
• Folytonos eredmény (függő) változó Y, folytonos vagy kategorikus ftl (magyarázó) változók X1, X2,...
• Simple, Simple nonlinear X->Y / Multiple, multipe nonlinear X1, X2, ... -> Y egyváltozós, többváltozós
• Rengeteg regressziós módszer van:
• Ordinális, poisson, fast forest kvantilis, lineáris, polinomiális, lasso, stepwise, ridge, bayesian lineáris, neurális háló, decision
forest, boosted decision tree, KNN
• Egyszerű v. egyváltozós lin.: keressük a coefficient / intercept (meredekség és tengelymetszet) paramétereket
• QTX, ahol X: feature set, QT az együttható vektor (paramétervektor, súlyvektor) transzponáltja. A szorzat
eredménye egy hipersíkot ír le. Optimalizációs célunk olyan paraméterek megtalálása, amelyekkel egy
hibafüggvény (pl. a MSE) minimális.
• Módszerek a kiszámításra:
• 1. hagyományos mátrixalgebrával (normálegyenlet) – 10k sornál nagyobb adatoknál nagyon lassú, a mátrixinvertálás ~ O(n3),
és ha nem invertálható, fals értékek születnek
• 2. Optimalizációs módszerek bevetése, iteráció, pl. gradiens módszer (GD) optimumkeresésre
• Modell értelmezése: az egyes feature-ök relatív súlyát mutatja a súlyvektor
• Kérdések:
• hány X változót használjunk, és melyeket? Túl sok -> lassú + overfitting, nem általánosít jól.
• Kategorikus áltozók – „dummy” numerikus értékekkel bevihető a módszerbe (vigyázni kell arra, hogy minden kategóriában, pl.
város, végzettség, a kódolás ne legyen lineárisan összefüggő; pl, kategóriánként egy ismérvértéket nem kódolunk, az a „bázis”
0)
• Lineáris-e az összefüggés minden Xi-Y viszonylatban? Legalábbis vizuálisan ellenőrizni kell lineáris módszer használata előtt.
GTSz
Regresszió 2
• Modell kiértékelés
• Train/test ugyanazon adatokon?
• Tanítás után megnézzük a modell pontosságát a tanító adatok egy részhalmazával, kiszámítunk valami metrikát
(pl.átlagos abszolút hiba)
• Magas tanítási pontosság, de lehetséges alacsony „új adat” (out of sample) pontosság
• Train/test split
• Különválasztott, diszjunkt training / testing halmaz.
• Pontosabban látjuk az out-of-sample accuracyből hogy milyen jó a modell. Cserébe viszont erősen függ attól, hogyan
osztottuk ketté az adathalmazt; célszerű véletlen felosztást választani.
• K-fold cross validation
• K iterációt végzünk. Felszeleteljük az adathalmazt k részre. Mindig az adathalmaz 1/k-ad részével tesztelünk, a többivel
tanítunk, s kiértékeljük az out-of-sample accuracyt, majd az eredményeket átlagoljuk.
• Regresszió kiértékelés
• Training accuracy – magas=jó százalékban belövi a tanult adatokat. Overfittinghez vezethet, megtanulja a zajt, de nem jól
általánosít pont emiatt.
• Out-of-sample accuracy – mekkora részét lövi be jól a korábban nem látott adatoknak.
• MSE,MAE,RMSE. Error, hiba: milyen messze van a valódi adat a becsült értéktől. MAE: átlagos abszolút hiba. MSE:
átlagos négyzetes hiba. RMSE az MSE gyöke. RAE (relatív abszolút hiba) az átlagtól való eltéréshez viszonyítja a hibákat.
RSE az MSE és az átlagtól való négyzetes eltérések átlagának a hányadosa. R2 = 1- RSE (
• A választott metrika sok mindentől függ, pl. szokástól, szakértelemtől, a probléma természetétől, illetve ízléstől.
GTSz
Módszerek
GTSz
GTSz
Felügyelt tanítás
Regresszió, osztályozás
GTSz
Lekéstünk?
ESZKÖZÖK
PLATFORMOK ALKALMAZÁS
KERETRENDSZEREK
ALAPKUTATÁS
ALGORITMUSOK
MÓDSZEREK
2019-
2020
https://medium.com/inside-inovo/your-ai-skills-are-worth-less-than-you-think-e4b5640adb4f
GTSz
GYAKORLATI LÉPÉSEK
GTSz
Meglepetések a statisztikából
• Minél több komponens van egy rendszerben, annál valószínűbb, hogy van
benne hibás alkatrész
• 21 embernél több egy társaságban – 50% fölötti az esélye, hogy van két egy
napon született
GTSz
ML Pipeline
• Data preprocessing
• Feature selection – Feature Extraction
• Train/test split
• Algorithm Setup
• Model Fitting
• Parameter Tuning
• Prediction
• Test – Evaluation
• Model Export
GTSz
FORRÁSOK
• 1. COURSERA: ML, Stanford, Andrew Ng
• 2. Elements of Statistical Learning
• 3. Machine Learning A-Z
• https://developers.google.com/machine-learning/crash-course
• An Introduction to Statistical Learning with R