Professional Documents
Culture Documents
Ważność atrybutów:
Ważność atrybutów określa jak dobrze poszczególne atrybuty nadają się do przewidywania
wartości jednego wybranego atrybutu
Miary podobieństwa:
- wsparcie (support): informuje jak często dane towary znajdują się razem w jednym koszyku
- zaufanie/ufność/dokładność (confidence): prawdopodobieństwo warunkowe zdarzenia B
pod warunkiem zajścia zdarzenia A,
- pewność (conviction)
- postęp (lift)
- interest (korzyść)
Przed selekcją należy odpowiednio przygotować dane. Należy dane poddać tzw.
"Czyszczeniu danych" tzn. usunąć należy wszelkie niespójności/ anomalie/ piki,
które nie pasują do trendu. Usunąć niespójności w danych.
Selekcja - wybieranie tych danych z bazy danych, które są istotne dla zadań analizy.
Transformacja - przekształcenie danych do postaci przydatnej dla eksploracji, np
ich sumowanie czy agregacja. Przykładowe przekształcenia -> normalizacja,
logarytmowanie, rankingi, podział na przedziały, zmiana typów danych.
Eksploracja - stosowanie "inteligentnych" metod w celu znalezienia istotnych
zależności
Interpretacja - wnioskowanie na podstawie danych zaprezentowanych dla
użytkownika za pomocą technik wizualizacji i reprezentacji wiedzy. (wykresy, tabele,
gafy).
System C4.5
Możliwość tworzenia drzew niekoniecznie binarnych
Dla zmiennych jakościowych algorytm z definicji tworzy osobne gałęzie dla każdej wartości
atrybutu jakościowego
Do oceny jakości klasyfikacji stosuje się zysk informacji lub redukcje entropii
W algorytmie C4.5 możliwe jest użycie przy niepełnych danych poprzez np.:
● Usuwanie wierszy niepełnych
● Usuwanie kolumn z niepełnymi danymi
● Ustawić specjalną wartość np. nieznana
● Podstawienie najczęściej występującej zmiennej
● Podstawienie wszystkich możliwych wartości – (powstanie dużej ilości kopii)
● Próba znalezienia podobnego przypadku, który jest zbliżony do tego z
brakującymi wartościami
DMAIC (Define, Measure, Analyze, Improve, Control), oparty na strategii Six Sigma.
Stworzony przez inżynierów z Instytutu Motoroli. Model skupia się na eliminacji strat i
defektów, problemów z jakością w rożnych dziedzinach biznesu. Składa się z pięciu
etapów:
Pomiar asocjacji
1. Zmienne ilościowe - mierzalne np. wzrost, waga, ciągłe
• Odległość między punktami
• Kąt miedzy wektorami
pomiarów stopnia nakładania rekordów.