You are on page 1of 4

Možnosti kategorizace

 Vytvoření intervalu
 Kvantily (intervaly stejné četnosti)
 Supervizovaná kategorizace (učení s učitelem, existence cílové proměnné)
o Model se učí kategorizovat neznámá data na základě označených dat
o Klasifikace spamu
 Rozhodovací stromy

Regresní stromy
 Predikce hodnoty cílové proměnné
 Koeficient – jak moc se změní hodnota cílové (závislé) proměnné při změně
nezávislých proměnných
 Významnost – zda jsou odhady koeficientu statisticky významné

Multikolinearita
 Dvě nebo více nezávislých proměnných jsou silně vzájemně korelované
o Je mezi nimi vysoká lineární závislost (roste jedna, poroste i druhá)
 Problémy:
o Vysoká variabilita
o Nejisté odhady koeficientu
o Snížená interpretovatelnost
 Řešení:
o Přehodnocení proměnných a jejich případné vyřazení
o Transformace – tak aby se jejich vzájemná korelace snížila
o Sloučení proměnných

Regresní model
 Popisuje vztah mezi jednou čí více nezávislých proměnných a cílovou proměnnou
 Výstupy
o Koeficient regrese
o Kvalita modelu R2
o RMSE
o Rezidua – rozdíl mezi skutečnými hodnotami cílové proměnné a hodnotami
které predikuje, ideální je normální distribuce kolem 0

Evaluace
 Regresní model
o RMSE (root mean square error)
o MAE
o RAE
o Koeficient determinace R2
 Klasifikační model
o Matice záměn
o Gain a Lift charts
o K-S chart
o ROC chart

Evaluace 2
1. Metriky Hodnotící Klasifikační Modely:
o Přesnost (Accuracy): Měří celkovou úspěšnost modelu v klasifikaci.
o Senzitivita (Recall): Měří schopnost modelu identifikovat pozitivní příklady.
o Specificita: Měří schopnost modelu identifikovat negativní příklady.
o F1 Skóre: Kombinace přesnosti a senzitivity, která je užitečná v případech, kdy
jsou třídy nevyvážené.
2. ROC Křivky a Plocha pod Nimi (AUC-ROC):
o ROC křivky: Grafické znázornění vztahu mezi senzitivitou a falešnou pozitivní
mírou při různých prahových hodnotách klasifikačního modelu.
o Plocha pod ROC křivkou (AUC-ROC): Měří celkovou schopnost modelu rozlišit
mezi pozitivními a negativními třídami.
3. Cross-Validace:
o K-fold Cross-Validace: Metoda, která rozděluje dataset do k menších částí
(foldů) a opakovaně trénuje a testuje model na různých kombinacích těchto
foldů.
o Leave-One-Out Cross-Validace (LOOCV): Speciální případ cross-validace, kde
je každý příklad použit jako testovací data právě jednou.
4. Matice Záměn (Confusion Matrix):
o Poskytuje detailní přehled o výkonnosti modelu, zejména v kontextu
klasifikace.
o Zahrnuje TP, TN, FP a FN, které umožňují výpočet různých metrik.
5. Metriky Hodnotící Regresní Modely:
o Mean Absolute Error (MAE): Průměrná hodnota absolutních rozdílů mezi
skutečnými a predikovanými hodnotami.
o Mean Squared Error (MSE): Průměrná hodnota čtverců rozdílů mezi
skutečnými a predikovanými hodnotami.
o Root Mean Squared Error (RMSE): Odmocnina z MSE, což umožňuje měření
ve stejných jednotkách jako cílová proměnná.
6. Vyhodnocení Problémů Nekvalitních Dat:
o Manipulace s Nerovnováhou Tříd: Strategie pro řešení problémů s
nerovnováhou tříd v klasifikačních modelech.
o Vyhodnocení Chybějících Hodnot: Jak modely zpracovávají nebo odhadují
chybějící hodnoty.
7. Interpretace Výsledků:
o Vysvětlování a interpretace výsledků modelu.
o Identifikace případů s vysokým rizikem nebo chyb.
8. Optimalizace Hyperparametrů:
o Nástroje a metody pro ladění hyperparametrů modelu za účelem zlepšení
jeho výkonnosti.
9. Vyhodnocení Modelů v Big Data prostředí:
o Zvláštnosti vyhodnocování modelů v prostředí s velkými daty.
o Distribuované a paralelní vyhodnocení.

Matice záměn
 Vyhodnocení míry kvality klasifikační úlohy
 Pro regresní úlohu nelze použít, dá se použít pouze pro kategorické proměnné
 Senzitivita – kolik % ze skutečně pozitivních případů byl model schopen odhalit
 Specificita – kolik % ze skutečně negativních případů model označil správně

Supervizované učení:
1. Klasifikace:
o Popis: Klasifikace je úloha, kde model má za úkol přiřadit vstupnímu vzorku do
jedné ze stanovených tříd.
o Příklad: Rozpoznávání spamových a ne-spamových e-mailů. Model se učí na
trénovací sadě e-mailů s označeným typem (spam/ne-spam) a poté se používá
ke klasifikaci nových e-mailů.
2. Regrese:
o Popis: Regrese se zabývá předpovídáním kontinuální proměnné na základě
hodnot nezávislých proměnných.
o Příklad: Předpověď ceny domu na základě různých faktorů, jako jsou velikost,
umístění, počet pokojů apod. Model se učí na trénovací sadě s označenými
cenami domů.
3. Detekce Anomálií:
o Popis: Cílem je identifikovat neobvyklé nebo anomální vzory v datech, které
se liší od normálního chování.
o Příklad: Detekce podvodných transakcí na základě vzorců, které se liší od
normálních transakcí v bankovních datech.
Nesupervizované učení:
1. Shlukování (Clustering):
o Popis: Shlukování má za úkol seskupit podobné vzorky do stejného shluku bez
znalosti předem definovaných tříd.
o Příklad: Seskupování zákazníků do skupin na základě jejich nákupních
preferencí bez předchozí informace o segmentaci trhu.
2. Asociativní pravidla:
o Popis: Identifikace zajímavých spojení nebo vzorů ve značných databázích dat.
o Příklad: V detailních informacích o nákupu zákazníků identifikovat spojení
mezi nákupy, například "Pokud zákazník koupí chléb, pravděpodobně koupí i
máslo."
3. Redukce Dimenzionality:
o Popis: Cílem je snížit počet dimenzí dat, zatímco zachovává relevantní
informace.
o Příklad: Snížení dimenzionality fotografií na základě hlavních komponent pro
zjednodušení analýzy obrazu.
4. Generativní Modely:
o Popis: Modely, které se učí generovat nová data podobná těm v trénovací
sadě.
o Příklad: Generování realistických obličejů pomocí modelů, které se naučily
distribuci obličejových rysů z trénovacích dat.
5. Asociativní Shlukování:
o Popis: Kombinuje vlastnosti shlukování a asociačních pravidel, kde jsou
seskupeny vzorky a současně jsou odhalována pravidla mezi shluky.
o Příklad: Seskupování a identifikace pravidel ve zdravotních datech
kategorizujících pacienty do skupin na základě jejich zdravotních stavů.

https://medium.com/@divyacyclitics15/what-is-predictive-model-performance-evaluation-
8ef117ae0e40

https://acrea.cz/jak-poznat-ze-nas-data-miningovy-model-je-dobry/

You might also like