Data Mining Poznámky

Možnosti kategorizace
 Vytvoření intervalu
 Kvantily (intervaly stejné četnosti)
 Supervizovaná kategorizace (učení s učitelem, existence cílové proměnné)
o Model se učí kategorizovat neznámá data na základě označených dat
o Klasifikace spamu
 Rozhodovací stromy
Regresní stromy
 Predikce hodnoty cílové proměnné
 Koeficient – jak moc se změní hodnota cílové (závislé) proměnné při změně
nezávislých proměnných
 Významnost – zda jsou odhady koeficientu statisticky významné
Multikolinearita
 Dvě nebo více nezávislých proměnných jsou silně vzájemně korelované
o Je mezi nimi vysoká lineární závislost (roste jedna, poroste i druhá)
 Problémy:
o Vysoká variabilita
o Nejisté odhady koeficientu
o Snížená interpretovatelnost
 Řešení:
o Přehodnocení proměnných a jejich případné vyřazení
o Transformace – tak aby se jejich vzájemná korelace snížila
o Sloučení proměnných
Regresní model
 Popisuje vztah mezi jednou čí více nezávislých proměnných a cílovou proměnnou
 Výstupy
o Koeficient regrese
o Kvalita modelu R2
o RMSE
o Rezidua – rozdíl mezi skutečnými hodnotami cílové proměnné a hodnotami
které predikuje, ideální je normální distribuce kolem 0
Evaluace
 Regresní model
o RMSE (root mean square error)
o MAE
o RAE
o Koeficient determinace R2
 Klasifikační model
o Matice záměn
o Gain a Lift charts
o K-S chart
o ROC chart
Evaluace 2
1. Metriky Hodnotící Klasifikační Modely:
o Přesnost (Accuracy): Měří celkovou úspěšnost modelu v klasifikaci.
o Senzitivita (Recall): Měří schopnost modelu identifikovat pozitivní příklady.
o Specificita: Měří schopnost modelu identifikovat negativní příklady.
o F1 Skóre: Kombinace přesnosti a senzitivity, která je užitečná v případech, kdy
jsou třídy nevyvážené.
2. ROC Křivky a Plocha pod Nimi (AUC-ROC):
o ROC křivky: Grafické znázornění vztahu mezi senzitivitou a falešnou pozitivní
mírou při různých prahových hodnotách klasifikačního modelu.
o Plocha pod ROC křivkou (AUC-ROC): Měří celkovou schopnost modelu rozlišit
mezi pozitivními a negativními třídami.
3. Cross-Validace:
o K-fold Cross-Validace: Metoda, která rozděluje dataset do k menších částí
(foldů) a opakovaně trénuje a testuje model na různých kombinacích těchto
foldů.
o Leave-One-Out Cross-Validace (LOOCV): Speciální případ cross-validace, kde
je každý příklad použit jako testovací data právě jednou.
4. Matice Záměn (Confusion Matrix):
o Poskytuje detailní přehled o výkonnosti modelu, zejména v kontextu
klasifikace.
o Zahrnuje TP, TN, FP a FN, které umožňují výpočet různých metrik.
5. Metriky Hodnotící Regresní Modely:
o Mean Absolute Error (MAE): Průměrná hodnota absolutních rozdílů mezi
skutečnými a predikovanými hodnotami.
o Mean Squared Error (MSE): Průměrná hodnota čtverců rozdílů mezi
skutečnými a predikovanými hodnotami.
o Root Mean Squared Error (RMSE): Odmocnina z MSE, což umožňuje měření
ve stejných jednotkách jako cílová proměnná.
6. Vyhodnocení Problémů Nekvalitních Dat:
o Manipulace s Nerovnováhou Tříd: Strategie pro řešení problémů s
nerovnováhou tříd v klasifikačních modelech.
o Vyhodnocení Chybějících Hodnot: Jak modely zpracovávají nebo odhadují
chybějící hodnoty.
7. Interpretace Výsledků:
o Vysvětlování a interpretace výsledků modelu.
o Identifikace případů s vysokým rizikem nebo chyb.
8. Optimalizace Hyperparametrů:
o Nástroje a metody pro ladění hyperparametrů modelu za účelem zlepšení
jeho výkonnosti.
9. Vyhodnocení Modelů v Big Data prostředí:
o Zvláštnosti vyhodnocování modelů v prostředí s velkými daty.
o Distribuované a paralelní vyhodnocení.
Matice záměn
 Vyhodnocení míry kvality klasifikační úlohy
 Pro regresní úlohu nelze použít, dá se použít pouze pro kategorické proměnné
 Senzitivita – kolik % ze skutečně pozitivních případů byl model schopen odhalit
 Specificita – kolik % ze skutečně negativních případů model označil správně
Supervizované učení:
1. Klasifikace:
o Popis: Klasifikace je úloha, kde model má za úkol přiřadit vstupnímu vzorku do
jedné ze stanovených tříd.
o Příklad: Rozpoznávání spamových a ne-spamových e-mailů. Model se učí na
trénovací sadě e-mailů s označeným typem (spam/ne-spam) a poté se používá
ke klasifikaci nových e-mailů.
2. Regrese:
o Popis: Regrese se zabývá předpovídáním kontinuální proměnné na základě
hodnot nezávislých proměnných.
o Příklad: Předpověď ceny domu na základě různých faktorů, jako jsou velikost,
umístění, počet pokojů apod. Model se učí na trénovací sadě s označenými
cenami domů.
3. Detekce Anomálií:
o Popis: Cílem je identifikovat neobvyklé nebo anomální vzory v datech, které
se liší od normálního chování.
o Příklad: Detekce podvodných transakcí na základě vzorců, které se liší od
normálních transakcí v bankovních datech.
Nesupervizované učení:
1. Shlukování (Clustering):
o Popis: Shlukování má za úkol seskupit podobné vzorky do stejného shluku bez
znalosti předem definovaných tříd.
o Příklad: Seskupování zákazníků do skupin na základě jejich nákupních
preferencí bez předchozí informace o segmentaci trhu.
2. Asociativní pravidla:
o Popis: Identifikace zajímavých spojení nebo vzorů ve značných databázích dat.
o Příklad: V detailních informacích o nákupu zákazníků identifikovat spojení
mezi nákupy, například "Pokud zákazník koupí chléb, pravděpodobně koupí i
máslo."
3. Redukce Dimenzionality:
o Popis: Cílem je snížit počet dimenzí dat, zatímco zachovává relevantní
informace.
o Příklad: Snížení dimenzionality fotografií na základě hlavních komponent pro
zjednodušení analýzy obrazu.
4. Generativní Modely:
o Popis: Modely, které se učí generovat nová data podobná těm v trénovací
sadě.
o Příklad: Generování realistických obličejů pomocí modelů, které se naučily
distribuci obličejových rysů z trénovacích dat.
5. Asociativní Shlukování:
o Popis: Kombinuje vlastnosti shlukování a asociačních pravidel, kde jsou
seskupeny vzorky a současně jsou odhalována pravidla mezi shluky.
o Příklad: Seskupování a identifikace pravidel ve zdravotních datech
kategorizujících pacienty do skupin na základě jejich zdravotních stavů.
https://medium.com/@divyacyclitics15/what-is-predictive-model-performance-evaluation-
8ef117ae0e40
https://acrea.cz/jak-poznat-ze-nas-data-miningovy-model-je-dobry/

Data Mining Poznámky

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining Poznámky

Uploaded by

Copyright:

Available Formats

Možnosti kategorizace

You might also like