You are on page 1of 16

2.

Metody analizy baz danych:


Klasyfikacja ​- polega na odnajdywaniu zależności między klasyfikacją danych obiektów i ich
charakterystyką.
Grupowanie - ma na celu znalezienie skończonych zbiorów klas obiektów o podobnych
cechach.
Odkrywanie asocjacji ​- polega na odnajdywaniu interesujących zależności między danymi
w dużych bazach danych lub hurtowniach danych.
Wykrywanie zmian i odchyleń - ma na celu odnajdywanie różnic między aktualnymi, a
oczekiwanymi wartościami danych.
Odkrywanie punktów osobliwych - to metoda, której celem jest wykrywanie obiektów
niepasujących do ogólnego schematu danych - ta metoda może łączyć się m. in. z metodą
grupowania.
Analiza przebiegów czasowych - polega na odnajdywaniu podobieństw w przebiegach
czasowych.

4. Co to są punkty odległe (outliers) w analizie danych.


Punktami odległymi są:
● Punkty blisko granic zakresu danych.
● Sprzeczne z trendem danych.
Oznacza to, że położenie punktów w znacznym stopniu różni się od położenia
większości punktów. Dobrze przedstawia to wykres rozrzutu. Tego typu punkty łatwo
zauważalne są na histogramie.
Inną metodą poza badaniem histogramu i wykresu rozrzutu jest jedna z metod
numerycznych - rozstęp międzykwartylowy.
Obserwacje odstające mogą odzwierciedlać rzeczywisty rozkład lub być rezultatem
przypadku, ale mogą świadczyć też o błędnym pomiarze czy pomyłkach we wprowadzaniu
informacji do bazy danych, itp. Duża liczba elementów odstających może też być sygnałem
dobrania złego modelu.
5. Sposoby przedstawiania danych do analizy​:
Szereg szczegółowy​ – gdy wiadomo jaka wartość zmiennej wystąpiła dla danego obiektu;
Szereg rozdzielczy – gdy wiadomo jedynie dla ilu obiektów zmienna przyjęła pewną
wartość (stosuje się gdy liczba obiektów jest bardzo duża);
Wielowymiarowa tablica kontyngencji ​- zawiera liczbę obiektów, dla których
poszczególne zmienne przyjęły dane wartości;
Graficzne przedstawianie zależności pomiędzy dwoma zmiennymi: ​wykresy rozrzutu,
wykresy warstwicowe, wykresy warunkowe, wykresy gwiaździste;
Histogram​ - jeden z graficznych sposobów przedstawiania rozkładu empirycznego cechy;
Metoda współrzędnych równoległych​ - służąca do wizualizacji wielowymiarowych danych;
Rysunki symboliczne:
● centryczne (gwiazdy, promienie, wielokąty),
● sekwencyjne (kolumny, profile, linie),
● metoda krzywych
● kołowe,
● twarze Chernoffa;
Transformacja obserwacji wielowymiarowych w przestrzeń dwuwymiarową​;
Metoda Biplot - obserwacje i zmienne przedstawiane są na tym samym wykresie, w
sposób, który opisuje ich wzajemne zależności;
Skalowanie wielowymiarowe - metoda prezentacji obserwacji wielowymiarowej w
przestrzeni dwuwymiarowej wykorzystująca zachowanie zadanych odległości między
punktami w niskowymiarowej przestrzeni euklidesowej;
Metoda głównych współrzędnych - prowadzi do przybliżenia kwadratów odległości
pomiędzy obserwacjami m-wymiarowymi;
6. Ważność atrybutów i miary podobieństwa, typy reguł asocjacyjnych

Ważność atrybutów:
Ważność atrybutów określa jak dobrze poszczególne atrybuty nadają się do przewidywania
wartości jednego wybranego atrybutu

Miary podobieństwa:
- ​wsparcie (support)​: informuje jak często dane towary znajdują się razem w jednym koszyku
- ​zaufanie/ufność/dokładność (confidence)​: prawdopodobieństwo warunkowe zdarzenia B
pod warunkiem zajścia zdarzenia A,
- ​pewność (conviction)
- postęp (lift)
- interest (korzyść)

Typy reguł asocjacyjnych:


- typ przetwarzanych danych
- wymiarowość przetwarzanych danych
- stopień abstrakcji przetwarzanych danych

Podział ze względu na typ danych:


- ​binarna reguła asocjacyjna ​- dane występujące w regule są danymi binarnymi,
np. pieluszki = 1 -> piwo = 1
- ​ilościowa reguła asocjacyjna​ - dane występujące w regule są danymi ciągłymi i/lub
kategorycznymi
np wiek = '30..40' ^ wykształcenie = 'wyższe' -> opcja_polityczna='demokrata'

Podział ze względu na wymiarowość danych:


- ​jednowymiarowa reguła asocjacyjna​ - dane występujące w regule reprezentują tę samą
dziedzinę wartości.
np pieluszki=1 -> piwo=1
- ​wielowymiarowa reguła asocjacyjna​ - dane występujące w regule reprezentują różne
dziedziny wartości
np wiek='30...40' ^ wykształcenie = 'Wyższe' -> opcja_polityczna = 'demokrata'

Podział ze względu na stopień abstrakcji przetwarzanych danych:


- ​jednopoziomowa reguła asocjacyjna​ - dane występujące w regule reprezentują ten sam
poziom abstrakcji
np pieluszki_Pampers = 1 -> piwo_Żywiec =1
- ​wielopoziomowa reguła asocjacyjna​ - dane występujące w regule reprezentują różne
poziomy abstrakcji
np pieluszki_Pampers ^ piwo_Żywiec = 1 -> napoje
7. Etapy odkrywania wiedzy:

Przed selekcją należy odpowiednio przygotować dane. Należy dane poddać tzw.
"Czyszczeniu danych" tzn. usunąć należy wszelkie niespójności/ anomalie/ piki,
które nie pasują do trendu. Usunąć niespójności w danych.
Selekcja ​- wybieranie tych danych z bazy danych, które są istotne dla zadań analizy.
Transformacja ​- przekształcenie danych do postaci przydatnej dla eksploracji, np
ich sumowanie czy agregacja. Przykładowe przekształcenia -> normalizacja,
logarytmowanie, rankingi, podział na przedziały, zmiana typów danych.
Eksploracja ​- stosowanie "inteligentnych" metod w celu znalezienia istotnych
zależności
Interpretacja ​- wnioskowanie na podstawie danych zaprezentowanych dla
użytkownika za pomocą technik wizualizacji i reprezentacji wiedzy. (wykresy, tabele,
gafy).

8. Techniki eksploracji danych


● EDA(Eksploracyjna analiza danych)​ ​– używana do opisu
● Metody statystyczne szacowania i prognozowania​ – używane do szacowania
● Metody statystyczne szacowania i prognozowania, regresja, sieci neuronowe​ –
używane do predykcji
● Drzewa decyzyjne, sieci neuronowe, algorytm k-najbliższych sąsiadów​ –
używane do klasyfikacji
● Grupowanie hierarchiczne (aglomeracja, podział), metoda k-średnich, sieci
Kohonena​ - używane do grupowania
● Reguły asocjacyjne​ – używane do odkrywania reguł
● Text-mining i Web-mining​ - używane do wyszukiwania według zawartości

9. Jakie techniki eksploracyjne stosuje się w przypadku


niepewnych lub niepełnych danych?

System C4.5
Możliwość tworzenia drzew niekoniecznie binarnych
Dla zmiennych jakościowych algorytm z definicji tworzy osobne gałęzie dla każdej wartości
atrybutu jakościowego
Do oceny jakości klasyfikacji stosuje się zysk informacji lub redukcje entropii

W algorytmie C4.5 możliwe jest użycie przy niepełnych danych poprzez np.:
● Usuwanie wierszy niepełnych
● Usuwanie kolumn z niepełnymi danymi
● Ustawić specjalną wartość np. nieznana
● Podstawienie najczęściej występującej zmiennej
● Podstawienie wszystkich możliwych wartości – (powstanie dużej ilości kopii)
● Próba znalezienia podobnego przypadku, który jest zbliżony do tego z
brakującymi wartościami

Quest (Quick, Unbiased, Efficient, Statistical Tree)

● Tworzone jest drzewo binarne


● Wybór zmiennej I wybór punktu podziału odbywa się w oddzielnych procedurach
● Możliwość analizy jednej lub wielu zmiennych diagnostycznych; zmienne ciągłe,
porządkowe lub nominalne
● Jedna zmienna objaśniana – nominalna;
● Stosowana dla dużych zbiorów danych
● Dla brakujących wartości stosowane są rozgałęzienia zastępcze
10. Modele data mining
Model jest to s​ cenariusz, w jaki sposób należy zorganizować proces zbierania i
analizy danych.

CRISP-DM (​Cross-Industry Standard Process for Data Mining)​ . Twórcami tego


modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd.,
Daimler-Chrysler oraz OHRA Verzekeringen ​Bank Group B.V. ​zaproponowany w
połowie lat dziewięćdziesiątych przez europejskie konsorcjum przedsiębiorstw, jako
powszechnie dostępny standard dla procesu data mining. Model ten postuluje
następujący ciąg etapów projektu data mining Ich zdaniem ​model eksploracji danych
składa się z sześciu etapów:

● Zrozumienie uwarunkowań biznesowych.


● Zrozumienie danych.
● Przygotowanie danych.
● Modelowanie - czyli wybór technik, które będą użyte do utworzenia
modelu eksploracji danych.
● Ewaluacja - ​ocena modelu, jego testowanie i ponowne przejrzenie jego
konstrukcji.
● Wdrożenie​.

SEMMA (​Sample, Explore, Modify, Model, Assess)​ , zaprojektowany przez SAS


Institute. ​Skupia się ona bardziej na technicznych aspektach projektów data mining.
W jego skład wchodzi pięć etapów:

● Próbkowanie - wykorzystanie tylko części danych, zanim całość


zostanie wprowadzona.
● Eksplorowanie - w celu głębszego poznania danych.
● Manipulacja - po etapie eksplorowanie, często potrzebna jest
modyfikacja danych
● Modelowanie - czyli wybór techniki modelowania.
● Ocena.

DMAIC (​Define, Measure, Analyze, Improve, Control​), oparty na strategii ​Six Sigma​.
Stworzony przez inżynierów z Instytutu Motoroli. Model skupia się na eliminacji strat i
defektów, problemów z jakością w rożnych dziedzinach biznesu. Składa się z pięciu
etapów:

● Definiowanie - określenie celów i identyfikacja problemów


biznesowych.
● Pomiar​ - zbierane są ​informacje​ o aktualnym stanie procesu.
● Analiza - zdefiniowanie krytycznych przyczyn problemów, uzasadnienie
ich wpływu na proces.
● Usprawnienie - wprowadzanie odpowiednich rozwiązań.
● Kontrola​.

Six Sigma to ​metoda opierającą się na pozyskiwaniu danych w celu osiągnięcia


niemal perfekcyjnej jakości. Zakłada identyfikację błędów jeszcze przed ich
wystąpieniem.

Six Sigma to koncepcja nieustannego doskonalenia organizacji, polegająca na


monitorowaniu i ciągłej kontroli w celu eliminowania oraz zapobiegania różnych
niezgodności w procesach i powstającym w ich wyniku produktom.

VcofDM (​Virtuos Cycle of Data Mining)​ zaprojektowany przez M. J. A. Berrego i G.


Linoffa, wybitych specjalistów dziedziny eksploracji danych. Składa się z czterech
etapów:

○ Zidentyfikowanie problemów biznesowych.


○ Przekształcenie danych w informacje.


○ Podjęcie działań.
○ Mierzenie i ocena wyników
11. Analiza skupień - założenia, idea ogólnego algorytmu
12. Czym są i jak można wykorzystać sztuczne sieci neuronowe do
eksploracji danych?

• ​Sieć neuronowa​ (sztuczna sieć neuronowa) to ogólna nazwa struktur matematycznych i


ich programowych lub sprzętowych modeli, realizujących obliczenia lub przetwarzanie
sygnałów poprzez rzędy elementów wykonujących pewną podstawową operację na swoim
wejściu, zwanych neuronami.
• Sieć neuronowa funkcjonuje jak ludzki mózg: każdy neuron przeprowadza własne proste
obliczenia, a sieć, którą tworzą wszystkie neurony, zwielokrotnia potencjał tych obliczeń.
• Składają się z trzech typów warstw: wejściowej (zbiera dane i przekazuje je dalej), ukrytej
(tu szukane są powiązania między neuronami i ich wagi, czyli zachodzi proces uczenia się) i
wyjściowej (gromadzi wnioski, wyniki analizy).
• Sieć neuronowa może składać się z dowolnej liczby warstw (często wiele).
• Do pierwszej warstwy – (analogicznie jak w przypadku obrazów rejestrowanych np. przez
nerwy wzrokowe u człowieka) – trafiają nieprzetworzone dane wejściowe.
• Każda kolejna warstwa otrzymuje dane będące wynikiem przetworzenia danych w
warstwie poprzedniej. To, co wytwarza ostatnia warstwa, to tzw. dane wyjściowe systemu

Sieci neuronowe w eksploracji danych ():


● Czasami sieć neuronowa do eksploracji danych jest do określania wartości na
podstawie częściowo ustrukturyzowanych i nieustrukturyzowanych danych.
(uzupełnianie clustering GRUPOWANIE, classification klasyfikacje and association
rules REGUŁY ASOCJACYJNE)
● Aby uzyskać lepszą wydajność data miningu można skorzystać z Neural-Network
Associative Classification (Klasyfikacja asocjacyjna sieci neuronowej (sieć
neuronowa + metoda klasyfikacji asocjacyjnej)) jako jedno z podejść do budowania
dokładnych i wydajnych klasyfikatorów.
● W celu zwiększenia dokładności Struktura sieci odzwierciedla wiedzę odkrytą w
poprzedniej fazie odkrywania. Wyszkolona sieć jest następnie wykorzystywana do
klasyfikowania niewidocznych danych. Wskaźniki dokładności uzyskane z zestawów
danych pokazują obiecujące wyniki. Słowa kluczowe: klasyfikacja asocjacyjna, reguła
asocjacji, eksploracja danych, sieci neuronowe propagacji wstecznej.
● Chociaż sieć neuronowa może być potężnym narzędziem w eksploracji danych,
organizacje powinny zachować ostrożność podczas jej używania: niektóre z tych
modeli sieci neuronowych są niezwykle złożone, co utrudnia zrozumienie, w jaki
sposób sieć neuronowa określa wynik.
● Innym minusem jest zapominanie katastrofalne.

Jak można wykorzystać sieci neuronowe w data mining przykłady:


• Prognozowanie w ekonomii. Ekonomiści mogą czerpać korzyści z kompetentnego
wykorzystania eksploracji danych jako narzędzia eksploracyjnego w celu uzyskania modeli
przychodów i rozchodów, które generują prognozy inwestycyjne, pozwalając na wybór
dobrych inwestycji.
• Diagnostyka medyczna – Sztuczne sieci neuronowe zostały również wykorzystane
do zdiagnozowania kilku nowotworów. Hybrydowy system wykrywania raka płuc oparty na
(SZTUCZNEJ SIECI NEURONOWEJ), o nazwie HLND, poprawia dokładność diagnozy i
szybkość radiologii raka płuc, diagnozy raka prostaty lub raka jelita grubego.
Inne systemy pozwalają na diagnozę innych chorób na podstawie objawów. Ich
sprawdzalność to ponad 90%. Diagnozy można wykorzystać do stworzenia konkretnych
modeli pobranych od dużej grupy pacjentów w porównaniu do informacji o jednym danym
pacjencie. Modele nie zależą od założeń dotyczących
korelacji różnych zmiennych.
• Social media – Przykładem może być LinkedIn, który na podstawie data mining i
ANN może odróżnić spam od faktycznej oferty pracy. Ponadto portal ten oferuje możliwość
wyszukiwania odp. Pracownika do pracodawcy.
• Marketing – na podstawie informacji co dana osoba poszukuje lub kupiła można
stworzyć odpowiednią reklamę dla tej osoby korzystając z technik data miningu i ANN.
• Motoryzacja – przykładem może być system wspomagający kontrolę pojazdu
pozwalający na automatyczną jazdę na podstawie kamer i czujników.
• Przemysł spożywczy – firma PreciBake oferuje system pozwalający na
rozpoznawanie pieczywa oraz ustawiania odpowiedniej temperatury pieczenia za pomocą
czujników i kamer.
13. Miary i oceny podobieństwa/niepodobieństwa zmiennych
jakościowych/ilościowych. Ocena podobieństwa sekwencji
obiektów, dokumentów.
Miary oceny stopnia podobieństwa
● Odległości taksonomiczne,
● Współczynniki podobieństwa,
Miary taksonomiczne.​ Każda miara może być odległością taksonomiczna gdy spełnia
następujące warunki:
● aksjomat minimalnej odległości dik>=dii =0
● aksjomat symetrii dik=dki
● aksjomat nierówności trójkąta dij+djk>=dik
Maksymalne podobieństwo występuje gdy dik=0

Współczynnik podobieństwa.​ Wzrost współczynnika podobieństwa oznacza wzrost


podobieństwa cech. Współczynniki podobieństwa powinny spełniać następujące warunki:
● aksjomat maksymalnego podobieństwa sik<=smax=sii
● aksjomat symetrii sik=ski
● Gdy dodatkowo spełniony jest warunek |sij+sjk|sik<=sijsik
„przestrzeń”, w której dokonuje się określenia podobieństwa ma cechy przestrzeni
metrycznej.
Określanie podobieństwa rekordów bazy danych.​ Przekształcenie wszystkich wartości
zmiennych w zmienne numeryczne. Gdy dwa punkty są bliskie w sensie geometrycznym
odpowiadają podobnym rekordom w bazie danych. Zmiennych nominalnych i zmiennych
porządkowych nie można traktować jako składowe wektora położenia, Zmienne mogą mieć
różny wkład w położenie punktu.

Pomiar asocjacji
1. Zmienne ilościowe - mierzalne np. wzrost, waga, ciągłe
• Odległość między punktami
• Kąt miedzy wektorami
pomiarów stopnia nakładania rekordów.

2. Zmienne jakościowe - niemierzalne np. kolor, działa/nie działa


• Liczba wspólnych cech - grupowanie

W przypadku ​zmiennych ilościowych​ dokonuje się pomiarów stopnia nakładania rekordów.


Stosuje się:
● Skalowanie,
● Wagi.

Metody skalowania zmiennych


● Dzielenie każdej zmiennej przez średnią
● Normalizacja ​- Dzielenie każdej zmiennej przez zakres, po odjęciu najmniejszej
wartości
● Standaryzacja​ - Odjęcie średniej od każdej zmiennej i podzielnie zmiennej przez
odchylenie standardowe
Zmienne jakościowe.​ Gdy obiekty nie poddają sie transformacji do przestrzeni
euklidesowej, proces grupowania wymaga zdefiniowania innych miar odległości
(podobieństwa):

Inne miary odległości


Dokumenty:​ punkty w przestrzeni wielowymiarowej, w której pojedynczy wymiar odpowiada
jednemu słowu z określonego słownika.
Podobieństwo (odległość) D(x, y) stron x i y - miarę kosinusową.
Współrzędne dokumentu w przestrzeni są zdefiniowane jako względna częstość
występowania słów ze słownika.

Sekwencje DNA,​ ​sekwencje dostępu do stron WWW:​ definicja odległości


(podobieństwa) sekwencji symboli, powinna uwzględniać fakt, że sekwencje mogą mieć
różną długość oraz różne symbole na tych samych pozycjach, np.: x= abcde y= bcdxye
• Miara odległości D(x,y)=|x|+|y|-2*|LCS(x,y)|
gdzie LCS oznacza najdłuższa wspólna podsekwencja (ang. longest common subsequence)
(LCS(x,y) = bcde). |x|=5, |y|=6, LCS(x,y) =4 Stąd, D(x, y) = 3

Obiekty ​W jaki sposób obliczyć podobieństwo (lub niepodobieństwo) pomiędzy dwoma


obiektami opisanymi zmiennymi binarnymi:
• konstruujemy macierz niepodobieństwa

Zmienne binarne symetryczne​ Zmienna binarna nazywamy symetryczna jeśli obie


wartości tej zmiennej posiadają ta sama wagę (np. płeć). Niepodobieństwo pomiędzy
obiektami i oraz j jest zdefiniowane następująco: d (i, j)=(r+s)/(q+r+s+t)

Zmienne binarne asymetryczne​ zmienna binarna nazywamy asymetryczna jeżeli obie


wartości tej zmiennej posiadają różne wagi (np. wynik badania EKG) Niepodobieństwo
pomiędzy obiektami i oraz j jest zdefiniowane następująco: d (i, j)=(r+s)/(q+r+s)
Zmienna kategoryczna​ jest generalizacja zmiennej binarnej: może przyjmować więcej niż
dwie wartości (np. dochód: wysoki, średni, niski)
• Niepodobieństwo (podobieństwo) pomiędzy obiektami i, j, opisanymi zmiennymi
kategorycznymi, można zdefiniować następująco:

14. Czym powinny charakteryzować się narzędzia do eksploracji


danych?
● powinny umożliwiać analizę danych,
● powinny umożliwiać przygotowanie danych,
● powinny umożliwiać sprawdzanie, czy między danymi występują zależności,
● powinny umożliwiać użycie różnych sposobów eksploracji danych:
○ drzewa decyzyjne,
○ grupowanie,
○ sieci neuronowe,
○ algorytmy genetyczne,
○ zbiory rozmyte,
○ reguły asocjacyjne,
● powinny umożliwiać szacowanie, predykcję, klasyfikację, grupowanie.
15. Miary oceny podobieństwa dokumentów, metody wyszukiwania i
eksploracji w przypadku złożonych typów danych, w przypadku bardzo
dużych tekstowych baz danych.

You might also like