Zagadnienia AiED

2.
Metody analizy baz danych:

Klasyfikacja - polega na odnajdywaniu zależności między klasyfikacją danych obiektów i ich
charakterystyką.
Grupowanie - ma na celu znalezienie skończonych zbiorów klas obiektów o podobnych
cechach.
Odkrywanie asocjacji - polega na odnajdywaniu interesujących zależności między danymi
w dużych bazach danych lub hurtowniach danych.
Wykrywanie zmian i odchyleń - ma na celu odnajdywanie różnic między aktualnymi, a
oczekiwanymi wartościami danych.
Odkrywanie punktów osobliwych - to metoda, której celem jest wykrywanie obiektów
niepasujących do ogólnego schematu danych - ta metoda może łączyć się m. in. z metodą
grupowania.
Analiza przebiegów czasowych - polega na odnajdywaniu podobieństw w przebiegach
czasowych.
4. Co to są punkty odległe (outliers) w analizie danych.

Punktami odległymi są:
● Punkty blisko granic zakresu danych.
● Sprzeczne z trendem danych.
Oznacza to, że położenie punktów w znacznym stopniu różni się od położenia
większości punktów. Dobrze przedstawia to wykres rozrzutu. Tego typu punkty łatwo
zauważalne są na histogramie.
Inną metodą poza badaniem histogramu i wykresu rozrzutu jest jedna z metod
numerycznych - rozstęp międzykwartylowy.
Obserwacje odstające mogą odzwierciedlać rzeczywisty rozkład lub być rezultatem
przypadku, ale mogą świadczyć też o błędnym pomiarze czy pomyłkach we wprowadzaniu
informacji do bazy danych, itp. Duża liczba elementów odstających może też być sygnałem
dobrania złego modelu.
5. Sposoby przedstawiania danych do analizy:
Szereg szczegółowy – gdy wiadomo jaka wartość zmiennej wystąpiła dla danego obiektu;
Szereg rozdzielczy – gdy wiadomo jedynie dla ilu obiektów zmienna przyjęła pewną
wartość (stosuje się gdy liczba obiektów jest bardzo duża);
Wielowymiarowa tablica kontyngencji - zawiera liczbę obiektów, dla których
poszczególne zmienne przyjęły dane wartości;
Graficzne przedstawianie zależności pomiędzy dwoma zmiennymi: wykresy rozrzutu,
wykresy warstwicowe, wykresy warunkowe, wykresy gwiaździste;
Histogram - jeden z graficznych sposobów przedstawiania rozkładu empirycznego cechy;
Metoda współrzędnych równoległych - służąca do wizualizacji wielowymiarowych danych;
Rysunki symboliczne:
● centryczne (gwiazdy, promienie, wielokąty),
● sekwencyjne (kolumny, profile, linie),
● metoda krzywych
● kołowe,
● twarze Chernoffa;
Transformacja obserwacji wielowymiarowych w przestrzeń dwuwymiarową;
Metoda Biplot - obserwacje i zmienne przedstawiane są na tym samym wykresie, w
sposób, który opisuje ich wzajemne zależności;
Skalowanie wielowymiarowe - metoda prezentacji obserwacji wielowymiarowej w
przestrzeni dwuwymiarowej wykorzystująca zachowanie zadanych odległości między
punktami w niskowymiarowej przestrzeni euklidesowej;
Metoda głównych współrzędnych - prowadzi do przybliżenia kwadratów odległości
pomiędzy obserwacjami m-wymiarowymi;
6. Ważność atrybutów i miary podobieństwa, typy reguł asocjacyjnych
Ważność atrybutów:
Ważność atrybutów określa jak dobrze poszczególne atrybuty nadają się do przewidywania
wartości jednego wybranego atrybutu
Miary podobieństwa:
- wsparcie (support): informuje jak często dane towary znajdują się razem w jednym koszyku
- zaufanie/ufność/dokładność (confidence): prawdopodobieństwo warunkowe zdarzenia B
pod warunkiem zajścia zdarzenia A,
- pewność (conviction)
- postęp (lift)
- interest (korzyść)
Typy reguł asocjacyjnych:

- typ przetwarzanych danych
- wymiarowość przetwarzanych danych
- stopień abstrakcji przetwarzanych danych
Podział ze względu na typ danych:

- binarna reguła asocjacyjna - dane występujące w regule są danymi binarnymi,
np. pieluszki = 1 -> piwo = 1
- ilościowa reguła asocjacyjna - dane występujące w regule są danymi ciągłymi i/lub
kategorycznymi
np wiek = '30..40' ^ wykształcenie = 'wyższe' -> opcja_polityczna='demokrata'
Podział ze względu na wymiarowość danych:

- jednowymiarowa reguła asocjacyjna - dane występujące w regule reprezentują tę samą
dziedzinę wartości.
np pieluszki=1 -> piwo=1
- wielowymiarowa reguła asocjacyjna - dane występujące w regule reprezentują różne
dziedziny wartości
np wiek='30...40' ^ wykształcenie = 'Wyższe' -> opcja_polityczna = 'demokrata'
Podział ze względu na stopień abstrakcji przetwarzanych danych:

- jednopoziomowa reguła asocjacyjna - dane występujące w regule reprezentują ten sam
poziom abstrakcji
np pieluszki_Pampers = 1 -> piwo_Żywiec =1
- wielopoziomowa reguła asocjacyjna - dane występujące w regule reprezentują różne
poziomy abstrakcji
np pieluszki_Pampers ^ piwo_Żywiec = 1 -> napoje
7. Etapy odkrywania wiedzy:
Przed selekcją należy odpowiednio przygotować dane. Należy dane poddać tzw.
"Czyszczeniu danych" tzn. usunąć należy wszelkie niespójności/ anomalie/ piki,
które nie pasują do trendu. Usunąć niespójności w danych.
Selekcja - wybieranie tych danych z bazy danych, które są istotne dla zadań analizy.
Transformacja - przekształcenie danych do postaci przydatnej dla eksploracji, np
ich sumowanie czy agregacja. Przykładowe przekształcenia -> normalizacja,
logarytmowanie, rankingi, podział na przedziały, zmiana typów danych.
Eksploracja - stosowanie "inteligentnych" metod w celu znalezienia istotnych
zależności
Interpretacja - wnioskowanie na podstawie danych zaprezentowanych dla
użytkownika za pomocą technik wizualizacji i reprezentacji wiedzy. (wykresy, tabele,
gafy).
8. Techniki eksploracji danych

● EDA(Eksploracyjna analiza danych) – używana do opisu
● Metody statystyczne szacowania i prognozowania – używane do szacowania
● Metody statystyczne szacowania i prognozowania, regresja, sieci neuronowe –
używane do predykcji
● Drzewa decyzyjne, sieci neuronowe, algorytm k-najbliższych sąsiadów –
używane do klasyfikacji
● Grupowanie hierarchiczne (aglomeracja, podział), metoda k-średnich, sieci
Kohonena - używane do grupowania
● Reguły asocjacyjne – używane do odkrywania reguł
● Text-mining i Web-mining - używane do wyszukiwania według zawartości
9. Jakie techniki eksploracyjne stosuje się w przypadku

niepewnych lub niepełnych danych?
System C4.5
Możliwość tworzenia drzew niekoniecznie binarnych
Dla zmiennych jakościowych algorytm z definicji tworzy osobne gałęzie dla każdej wartości
atrybutu jakościowego
Do oceny jakości klasyfikacji stosuje się zysk informacji lub redukcje entropii
W algorytmie C4.5 możliwe jest użycie przy niepełnych danych poprzez np.:
● Usuwanie wierszy niepełnych
● Usuwanie kolumn z niepełnymi danymi
● Ustawić specjalną wartość np. nieznana
● Podstawienie najczęściej występującej zmiennej
● Podstawienie wszystkich możliwych wartości – (powstanie dużej ilości kopii)
● Próba znalezienia podobnego przypadku, który jest zbliżony do tego z
brakującymi wartościami
Quest (Quick, Unbiased, Efficient, Statistical Tree)
● Tworzone jest drzewo binarne

● Wybór zmiennej I wybór punktu podziału odbywa się w oddzielnych procedurach
● Możliwość analizy jednej lub wielu zmiennych diagnostycznych; zmienne ciągłe,
porządkowe lub nominalne
● Jedna zmienna objaśniana – nominalna;
● Stosowana dla dużych zbiorów danych
● Dla brakujących wartości stosowane są rozgałęzienia zastępcze
10. Modele data mining
Model jest to s cenariusz, w jaki sposób należy zorganizować proces zbierania i
analizy danych.
CRISP-DM (Cross-Industry Standard Process for Data Mining) . Twórcami tego

modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd.,
Daimler-Chrysler oraz OHRA Verzekeringen Bank Group B.V. zaproponowany w
połowie lat dziewięćdziesiątych przez europejskie konsorcjum przedsiębiorstw, jako
powszechnie dostępny standard dla procesu data mining. Model ten postuluje
następujący ciąg etapów projektu data mining Ich zdaniem model eksploracji danych
składa się z sześciu etapów:
● Zrozumienie uwarunkowań biznesowych.

● Zrozumienie danych.
● Przygotowanie danych.
● Modelowanie - czyli wybór technik, które będą użyte do utworzenia
modelu eksploracji danych.
● Ewaluacja - ocena modelu, jego testowanie i ponowne przejrzenie jego
konstrukcji.
● Wdrożenie.
SEMMA (Sample, Explore, Modify, Model, Assess) , zaprojektowany przez SAS

Institute. Skupia się ona bardziej na technicznych aspektach projektów data mining.
W jego skład wchodzi pięć etapów:
● Próbkowanie - wykorzystanie tylko części danych, zanim całość

zostanie wprowadzona.
● Eksplorowanie - w celu głębszego poznania danych.
● Manipulacja - po etapie eksplorowanie, często potrzebna jest
modyfikacja danych
● Modelowanie - czyli wybór techniki modelowania.
● Ocena.
DMAIC (Define, Measure, Analyze, Improve, Control), oparty na strategii Six Sigma.
Stworzony przez inżynierów z Instytutu Motoroli. Model skupia się na eliminacji strat i
defektów, problemów z jakością w rożnych dziedzinach biznesu. Składa się z pięciu
etapów:
● Definiowanie - określenie celów i identyfikacja problemów

biznesowych.
● Pomiar - zbierane są informacje o aktualnym stanie procesu.
● Analiza - zdefiniowanie krytycznych przyczyn problemów, uzasadnienie
ich wpływu na proces.
● Usprawnienie - wprowadzanie odpowiednich rozwiązań.
● Kontrola.
Six Sigma to metoda opierającą się na pozyskiwaniu danych w celu osiągnięcia

niemal perfekcyjnej jakości. Zakłada identyfikację błędów jeszcze przed ich
wystąpieniem.
Six Sigma to koncepcja nieustannego doskonalenia organizacji, polegająca na

monitorowaniu i ciągłej kontroli w celu eliminowania oraz zapobiegania różnych
niezgodności w procesach i powstającym w ich wyniku produktom.
VcofDM (Virtuos Cycle of Data Mining) zaprojektowany przez M. J. A. Berrego i G.

Linoffa, wybitych specjalistów dziedziny eksploracji danych. Składa się z czterech
etapów:
○ Zidentyfikowanie problemów biznesowych.

○ Przekształcenie danych w informacje.

○ Podjęcie działań.
○ Mierzenie i ocena wyników
11. Analiza skupień - założenia, idea ogólnego algorytmu
12. Czym są i jak można wykorzystać sztuczne sieci neuronowe do
eksploracji danych?
• Sieć neuronowa (sztuczna sieć neuronowa) to ogólna nazwa struktur matematycznych i

ich programowych lub sprzętowych modeli, realizujących obliczenia lub przetwarzanie
sygnałów poprzez rzędy elementów wykonujących pewną podstawową operację na swoim
wejściu, zwanych neuronami.
• Sieć neuronowa funkcjonuje jak ludzki mózg: każdy neuron przeprowadza własne proste
obliczenia, a sieć, którą tworzą wszystkie neurony, zwielokrotnia potencjał tych obliczeń.
• Składają się z trzech typów warstw: wejściowej (zbiera dane i przekazuje je dalej), ukrytej
(tu szukane są powiązania między neuronami i ich wagi, czyli zachodzi proces uczenia się) i
wyjściowej (gromadzi wnioski, wyniki analizy).
• Sieć neuronowa może składać się z dowolnej liczby warstw (często wiele).
• Do pierwszej warstwy – (analogicznie jak w przypadku obrazów rejestrowanych np. przez
nerwy wzrokowe u człowieka) – trafiają nieprzetworzone dane wejściowe.
• Każda kolejna warstwa otrzymuje dane będące wynikiem przetworzenia danych w
warstwie poprzedniej. To, co wytwarza ostatnia warstwa, to tzw. dane wyjściowe systemu
Sieci neuronowe w eksploracji danych ():

● Czasami sieć neuronowa do eksploracji danych jest do określania wartości na
podstawie częściowo ustrukturyzowanych i nieustrukturyzowanych danych.
(uzupełnianie clustering GRUPOWANIE, classification klasyfikacje and association
rules REGUŁY ASOCJACYJNE)
● Aby uzyskać lepszą wydajność data miningu można skorzystać z Neural-Network
Associative Classification (Klasyfikacja asocjacyjna sieci neuronowej (sieć
neuronowa + metoda klasyfikacji asocjacyjnej)) jako jedno z podejść do budowania
dokładnych i wydajnych klasyfikatorów.
● W celu zwiększenia dokładności Struktura sieci odzwierciedla wiedzę odkrytą w
poprzedniej fazie odkrywania. Wyszkolona sieć jest następnie wykorzystywana do
klasyfikowania niewidocznych danych. Wskaźniki dokładności uzyskane z zestawów
danych pokazują obiecujące wyniki. Słowa kluczowe: klasyfikacja asocjacyjna, reguła
asocjacji, eksploracja danych, sieci neuronowe propagacji wstecznej.
● Chociaż sieć neuronowa może być potężnym narzędziem w eksploracji danych,
organizacje powinny zachować ostrożność podczas jej używania: niektóre z tych
modeli sieci neuronowych są niezwykle złożone, co utrudnia zrozumienie, w jaki
sposób sieć neuronowa określa wynik.
● Innym minusem jest zapominanie katastrofalne.
Jak można wykorzystać sieci neuronowe w data mining przykłady:

• Prognozowanie w ekonomii. Ekonomiści mogą czerpać korzyści z kompetentnego
wykorzystania eksploracji danych jako narzędzia eksploracyjnego w celu uzyskania modeli
przychodów i rozchodów, które generują prognozy inwestycyjne, pozwalając na wybór
dobrych inwestycji.
• Diagnostyka medyczna – Sztuczne sieci neuronowe zostały również wykorzystane
do zdiagnozowania kilku nowotworów. Hybrydowy system wykrywania raka płuc oparty na
(SZTUCZNEJ SIECI NEURONOWEJ), o nazwie HLND, poprawia dokładność diagnozy i
szybkość radiologii raka płuc, diagnozy raka prostaty lub raka jelita grubego.
Inne systemy pozwalają na diagnozę innych chorób na podstawie objawów. Ich
sprawdzalność to ponad 90%. Diagnozy można wykorzystać do stworzenia konkretnych
modeli pobranych od dużej grupy pacjentów w porównaniu do informacji o jednym danym
pacjencie. Modele nie zależą od założeń dotyczących
korelacji różnych zmiennych.
• Social media – Przykładem może być LinkedIn, który na podstawie data mining i
ANN może odróżnić spam od faktycznej oferty pracy. Ponadto portal ten oferuje możliwość
wyszukiwania odp. Pracownika do pracodawcy.
• Marketing – na podstawie informacji co dana osoba poszukuje lub kupiła można
stworzyć odpowiednią reklamę dla tej osoby korzystając z technik data miningu i ANN.
• Motoryzacja – przykładem może być system wspomagający kontrolę pojazdu
pozwalający na automatyczną jazdę na podstawie kamer i czujników.
• Przemysł spożywczy – firma PreciBake oferuje system pozwalający na
rozpoznawanie pieczywa oraz ustawiania odpowiedniej temperatury pieczenia za pomocą
czujników i kamer.
13. Miary i oceny podobieństwa/niepodobieństwa zmiennych
jakościowych/ilościowych. Ocena podobieństwa sekwencji
obiektów, dokumentów.
Miary oceny stopnia podobieństwa
● Odległości taksonomiczne,
● Współczynniki podobieństwa,
Miary taksonomiczne. Każda miara może być odległością taksonomiczna gdy spełnia
następujące warunki:
● aksjomat minimalnej odległości dik>=dii =0
● aksjomat symetrii dik=dki
● aksjomat nierówności trójkąta dij+djk>=dik
Maksymalne podobieństwo występuje gdy dik=0
Współczynnik podobieństwa. Wzrost współczynnika podobieństwa oznacza wzrost

podobieństwa cech. Współczynniki podobieństwa powinny spełniać następujące warunki:
● aksjomat maksymalnego podobieństwa sik<=smax=sii
● aksjomat symetrii sik=ski
● Gdy dodatkowo spełniony jest warunek |sij+sjk|sik<=sijsik
„przestrzeń”, w której dokonuje się określenia podobieństwa ma cechy przestrzeni
metrycznej.
Określanie podobieństwa rekordów bazy danych. Przekształcenie wszystkich wartości
zmiennych w zmienne numeryczne. Gdy dwa punkty są bliskie w sensie geometrycznym
odpowiadają podobnym rekordom w bazie danych. Zmiennych nominalnych i zmiennych
porządkowych nie można traktować jako składowe wektora położenia, Zmienne mogą mieć
różny wkład w położenie punktu.
Pomiar asocjacji
1. Zmienne ilościowe - mierzalne np. wzrost, waga, ciągłe
• Odległość między punktami
• Kąt miedzy wektorami
pomiarów stopnia nakładania rekordów.
2. Zmienne jakościowe - niemierzalne np. kolor, działa/nie działa

• Liczba wspólnych cech - grupowanie
W przypadku zmiennych ilościowych dokonuje się pomiarów stopnia nakładania rekordów.

Stosuje się:
● Skalowanie,
● Wagi.
Metody skalowania zmiennych

● Dzielenie każdej zmiennej przez średnią
● Normalizacja - Dzielenie każdej zmiennej przez zakres, po odjęciu najmniejszej
wartości
● Standaryzacja - Odjęcie średniej od każdej zmiennej i podzielnie zmiennej przez
odchylenie standardowe
Zmienne jakościowe. Gdy obiekty nie poddają sie transformacji do przestrzeni
euklidesowej, proces grupowania wymaga zdefiniowania innych miar odległości
(podobieństwa):
Inne miary odległości

Dokumenty: punkty w przestrzeni wielowymiarowej, w której pojedynczy wymiar odpowiada
jednemu słowu z określonego słownika.
Podobieństwo (odległość) D(x, y) stron x i y - miarę kosinusową.
Współrzędne dokumentu w przestrzeni są zdefiniowane jako względna częstość
występowania słów ze słownika.
Sekwencje DNA, sekwencje dostępu do stron WWW: definicja odległości

(podobieństwa) sekwencji symboli, powinna uwzględniać fakt, że sekwencje mogą mieć
różną długość oraz różne symbole na tych samych pozycjach, np.: x= abcde y= bcdxye
• Miara odległości D(x,y)=|x|+|y|-2*|LCS(x,y)|
gdzie LCS oznacza najdłuższa wspólna podsekwencja (ang. longest common subsequence)
(LCS(x,y) = bcde). |x|=5, |y|=6, LCS(x,y) =4 Stąd, D(x, y) = 3
Obiekty W jaki sposób obliczyć podobieństwo (lub niepodobieństwo) pomiędzy dwoma

obiektami opisanymi zmiennymi binarnymi:
• konstruujemy macierz niepodobieństwa
Zmienne binarne symetryczne Zmienna binarna nazywamy symetryczna jeśli obie

wartości tej zmiennej posiadają ta sama wagę (np. płeć). Niepodobieństwo pomiędzy
obiektami i oraz j jest zdefiniowane następująco: d (i, j)=(r+s)/(q+r+s+t)
Zmienne binarne asymetryczne zmienna binarna nazywamy asymetryczna jeżeli obie

wartości tej zmiennej posiadają różne wagi (np. wynik badania EKG) Niepodobieństwo
pomiędzy obiektami i oraz j jest zdefiniowane następująco: d (i, j)=(r+s)/(q+r+s)
Zmienna kategoryczna jest generalizacja zmiennej binarnej: może przyjmować więcej niż
dwie wartości (np. dochód: wysoki, średni, niski)
• Niepodobieństwo (podobieństwo) pomiędzy obiektami i, j, opisanymi zmiennymi
kategorycznymi, można zdefiniować następująco:
14. Czym powinny charakteryzować się narzędzia do eksploracji

danych?
● powinny umożliwiać analizę danych,
● powinny umożliwiać przygotowanie danych,
● powinny umożliwiać sprawdzanie, czy między danymi występują zależności,
● powinny umożliwiać użycie różnych sposobów eksploracji danych:
○ drzewa decyzyjne,
○ grupowanie,
○ sieci neuronowe,
○ algorytmy genetyczne,
○ zbiory rozmyte,
○ reguły asocjacyjne,
● powinny umożliwiać szacowanie, predykcję, klasyfikację, grupowanie.
15. Miary oceny podobieństwa dokumentów, metody wyszukiwania i
eksploracji w przypadku złożonych typów danych, w przypadku bardzo
dużych tekstowych baz danych.

Zagadnienia AiED

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Zagadnienia AiED

Uploaded by

Copyright:

Available Formats

2.

Metody analizy baz danych:

4. Co to są punkty odległe (outliers) w analizie danych.

Typy reguł asocjacyjnych:

Podział ze względu na typ danych:

Podział ze względu na wymiarowość danych:

Podział ze względu na stopień abstrakcji przetwarzanych danych:

8. Techniki eksploracji danych

9. Jakie techniki eksploracyjne stosuje się w przypadku

Quest (Quick, Unbiased, Efficient, Statistical Tree)

● Tworzone jest drzewo binarne

CRISP-DM (​Cross-Industry Standard Process for Data Mining)​ . Twórcami tego

● Zrozumienie uwarunkowań biznesowych.

SEMMA (​Sample, Explore, Modify, Model, Assess)​ , zaprojektowany przez SAS

● Próbkowanie - wykorzystanie tylko części danych, zanim całość

● Definiowanie - określenie celów i identyfikacja problemów

Six Sigma to ​metoda opierającą się na pozyskiwaniu danych w celu osiągnięcia

Six Sigma to koncepcja nieustannego doskonalenia organizacji, polegająca na

VcofDM (​Virtuos Cycle of Data Mining)​ zaprojektowany przez M. J. A. Berrego i G.

○ Zidentyfikowanie problemów biznesowych.

○ Przekształcenie danych w informacje.

• ​Sieć neuronowa​ (sztuczna sieć neuronowa) to ogólna nazwa struktur matematycznych i

Sieci neuronowe w eksploracji danych ():

Jak można wykorzystać sieci neuronowe w data mining przykłady:

Współczynnik podobieństwa.​ Wzrost współczynnika podobieństwa oznacza wzrost

2. Zmienne jakościowe - niemierzalne np. kolor, działa/nie działa

W przypadku ​zmiennych ilościowych​ dokonuje się pomiarów stopnia nakładania rekordów.

Metody skalowania zmiennych

Inne miary odległości

Sekwencje DNA,​ ​sekwencje dostępu do stron WWW:​ definicja odległości

Obiekty ​W jaki sposób obliczyć podobieństwo (lub niepodobieństwo) pomiędzy dwoma

Zmienne binarne symetryczne​ Zmienna binarna nazywamy symetryczna jeśli obie

Zmienne binarne asymetryczne​ zmienna binarna nazywamy asymetryczna jeżeli obie

14. Czym powinny charakteryzować się narzędzia do eksploracji

You might also like

CRISP-DM (Cross-Industry Standard Process for Data Mining) . Twórcami tego

SEMMA (Sample, Explore, Modify, Model, Assess) , zaprojektowany przez SAS

Six Sigma to metoda opierającą się na pozyskiwaniu danych w celu osiągnięcia

VcofDM (Virtuos Cycle of Data Mining) zaprojektowany przez M. J. A. Berrego i G.

• Sieć neuronowa (sztuczna sieć neuronowa) to ogólna nazwa struktur matematycznych i

Współczynnik podobieństwa. Wzrost współczynnika podobieństwa oznacza wzrost

W przypadku zmiennych ilościowych dokonuje się pomiarów stopnia nakładania rekordów.

Sekwencje DNA, sekwencje dostępu do stron WWW: definicja odległości

Obiekty W jaki sposób obliczyć podobieństwo (lub niepodobieństwo) pomiędzy dwoma

Zmienne binarne symetryczne Zmienna binarna nazywamy symetryczna jeśli obie

Zmienne binarne asymetryczne zmienna binarna nazywamy asymetryczna jeżeli obie