You are on page 1of 33

Data = 1 2 3 4 5 6 Data Dissimilarity dengan Euc

1 10 3 10 4 4 2 1 0
2 10 9 8 8 8 1 2 0
3 1 8 4 6 5 10 3 9
4 1 9 6 2 5 7 4 9
5 8 7 6 5 6 10 5 2
6 8 1 9 10 1 8 6 2

Euclidean Distance Data Dissimilarity dengan Man


Manhattan Distance 1 0
2 0
Isikan nilai pada cell '?', gunakan rumus yang sudah diberikan 3 9
4 9
5 2
6 2
Data Dissimilarity dengan Euclidean Distance=

0
5 0
6 4 0
4 4 1 0
2 1 6 3 0

Data Dissimilarity dengan Manhattan=

0
1 0
0 2 0
2 2 3 0
8 5 8 5 0
Contingency Table
1 0
1 q r
0 s t

1 0
1 7 2
0 5 10

Distance measure for symmetric binary variables d(i,j) = r+s =


q+r+s+t

Distance measure for asymmetric binary variables: d(i,j) = r+s =


q+r+s

Jaccard coefficient (similarity measure for asymmetric binary variables): q =


q+r+s

Coherence q =
(q+r) + (q+s) - q
7 = 0.291667
24

7 = 0.5
14

7 = 0.5
14

7 = 0.5
14
Name Gender Test - 1 Test - 2 Test - 3 Test - 4 Test - 5 Test - 6
Adi M F F P F F P
Heri M F P P F P F
Hilman M F F P F F P

Name Gender Test - 1 Test - 2 Test - 3 Test - 4 Test - 5 Test - 6


Adi M 0 0 1 0 0 1 Adi
Heri M 0 1 1 0 1 0
Hilman M 0 0 1 0 0 1

Adi
d(Adi, Heri) 1+2 = 3 = 1
1+1+2 4
Heri
d(Adi, Hilman) 0+0 = 0 = 0
2+0+0 2

d(Heri, Hilman) 2+1 = 3 = 0.75


1+2+1 4

Jika F diganti dengan 0 dan P diganti 1. Isikan setiap nilai cell '?'
Heri
1 0
1 1 1
0 2 2
Hilman
1 0
1 2 0
0 0 4
Hilman
1 0
1 1 2
0 1 2
X Standar Deviasi Z-Score Mean 60.33333
83 22.6666666667 1.0515464 Sf (standar deviasi) 21.55556
58 2.33333333333 -0.108247
37 23.3333333333 -1.082474
41 19.3333333333 -0.896907 Mean merupakan rata-rata dari nilai sample
64 3.66666666667 0.1701031 Sf merupakan standar deviasi
53 7.33333333333 -0.340206 Isikan nilai pada cell "?"
72 11.6666666667 0.5412371
89 28.6666666667 1.3298969
91 30.6666666667 1.4226804
20 40.3333333333 -1.871134
38 22.3333333333 -1.036082
92 31.6666666667 1.4690722
86 25.6666666667 1.1907216
62 1.66666666667 0.0773196
91 30.6666666667 1.4226804
98 37.6666666667 1.7474227
15 45.3333333333 -2.103093
64 3.66666666667 0.1701031
85 24.6666666667 1.1443299
47 13.3333333333 -0.618557
76 15.6666666667 0.7268041
5 55.3333333333 -2.56701
56 4.33333333333 -0.201031
63 2.66666666667 0.1237113
54 6.33333333333 -0.293814
72 11.6666666667 0.5412371
14 46.3333333333 -2.149485
64 3.66666666667 0.1701031
97 36.6666666667 1.7010309
23 37.3333333333 -1.731959
nilai sample
euclidean Distance

Point Attr - 1 Attr - 2 x1 x2 x3 x4 x5


x1 5 1 x1 0.00
x2 7 4 x2 3.61 0.00
x3 2 2 x3 3.16 5.39 0.00
x4 3 7 x4 6.32 5.00 5.10 0.00
x5 6 3 x5 2.24 1.41 4.12 5.00 0.00
x6 1 5 x6 5.66 6.08 3.16 2.83 5.39

Isikan nilai cell "?" dengan menggunakan perhitungan Eulidean Distance


x6

0.00
Dok - 1 Semakin tua semakin menjadi
Dok - 2 Kelapa tua sangat cocok
Dok - 3 Adi bersemangadalam mengerjak
Dok - 4 Kelapa banyak tumbuh di

Semakin tua menjadi


Dok - 1 2 1 1
Dok - 2 0 1 1
Dok - 3 1 0 1
Dok - 4 0 0 0

d1 o d2 0 1 1
||d1|| 4 1 1
||d2|| 0 1 1

d1 o d2 = 2 =
||d1|| * ||d2|| 6.928203

d1 o d3 2 0 1
||d1|| 4 1 1
||d3|| 1 0 1

d1 o d3 = 4 =
||d1|| * ||d3|| 8.944272

d1 o d4 0 0 0
||d1|| 4 1 1
||d4|| 0 0 0

d1 o d4 = 0 =
||d1|| * ||d4|| 6.928203

d2 o d3 0 0 1
||d2|| 0 1 1
||d3|| 1 0 1

d2 o d3 = 1 =
||d2|| * ||d3|| 7.745967

d2 o d4 0 0 0
||d2|| 0 1 1
||d4|| 0 0 0
d2 o d4 = 1 =
||d2|| * ||d4|| 6

d3 o d4 0 0 0
||d3|| 1 0 1
||d4|| 0 0 0

d3 o d4 = 0 =
||d3|| * ||d4|| 7.745967
dan bersemangat
menjadi santan
soal sehingga semakin menjadi nomor satu
daerah pesisir

dan bersemangat Kelapa sangat cocok santan Adi dalam mengerjakan


1 1 0 0 0 0 0 0 0
0 0 1 1 1 1 0 0 0
0 1 0 0 0 0 1 1 1
0 0 1 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0 0
0 0 1 1 1 1 0 0 0

0.288675

0 1 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0 0
0 1 0 0 0 0 1 1 1

0.447214

0 0 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0
0 0 1 1 1 1 0 0 0
0 1 0 0 0 0 1 1 1

0.129099

0 0 1 0 0 0 0 0 0
0 0 1 1 1 1 0 0 0
0 0 1 0 0 0 0 0 0
0.166667

0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 1 1 1
0 0 1 0 0 0 0 0 0

0
soal sehingga nomor satu banyak tumbuh di daerah pesisir
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0
0 0 0 0 1 1 1 1 1

0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0

0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 1

0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0

0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 1
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0
0 0 0 0 1 1 1 1 1
Cosine Similarity
d1 d2 d3 d4
d1 0 0.288675 0.447214 0
d2 0.288675 0 0.129099 0.166667
d3 0.447214 0.129099 0 0
d1 o d2 d4 0 0.166667 0 0
2
8 2.828427
6 2.44949
Buatlah proses data transformasi untuk kasus dokumen di atas dengan algoritma seba
1. Buatlah dokumen menjadi fitur-fitur kata
2. Hitunglah frekuensi kemunculan dari tiap fitur kata pada dokumen terkait
3. Hitunglah cosine similarity dari tiap-tiap dokumen

d1 o d3
4
8 2.828427
10 3.162278

d1 o d4
0
8 2.828427
6 2.44949

d1 o d4
1
6 2.44949
10 3.162278

d1 o d4
1
6 2.44949
6 2.44949
d1 o d4
0
10 3.162278
6 2.44949
n di atas dengan algoritma sebagai berikut:

pada dokumen terkait


Dok - 1 Semakin tua semakin menjadi dan bersemangat Semakin
Dok - 2 Kelapa tua sangat cocok menjadi santan Kelapa
Dok - 3 Adi bersemangat dalam mengerjakan soal sehingga semakin menjadi nomor satu Adi
Dok - 4 Kelapa banyak tumbuh di daerah pesisir Kelapa

Semakin
Dok - 1 2
Dok - 2 0
Dok - 3 1
Dok - 4 0
Frequent 3
Support 0.75

Confidence 1
MinSupport 50%

K=1
Semakin 75%
tua 50%
menjadi 75%
bersemangat 50%
Kelapa 0.5

Freq
semakin -> bersemangat, menjadi 2
bersemangat -> semakin, menjadi 2
menjadi -> semakin, bersemangat 2

P(A U B) / P(A)*P(B)
P(A U B) = probabilitas yang mengandung {semakin, bersemangat, menjadi}
P(semakin)
P(bersemangat)
P(menjadi)
tua semakin menjadi dan bersemangat
tua sangat cocok menjadi santan
bersemangat dalam mengerjakan soal sehingga
banyak tumbuh di daerah pesisir

tua menjadi dan bersemangat Kelapa


1 1 1 1 0
1 1 0 0 1
0 1 0 1 0
0 0 0 0 1
2 3 1 2 2
0.5 0.75 0.25 0.5 0.5

1 1 1 1 1

K=2 Freq Supp


{semakin, tua} 1 0.25
{semakin, menjadi} 1 0.25
{semakin, bersemangat} 2 0.5
{semakin, kelapa} 0 0
{tua, menjadi} 2 0.5
{tua, bersemangat} 1 0.25
{tua, kelapa} 1 0.25
{menjadi, bersemangat} 2 0.5
{menjadi, kelapa} 1 0.25
{bersemangat, kelapa} 0 0

conf (75%) Lift/Correlation/dependent


1 2.667
1
0.6666666667

0.5
0.5
0.5
0.75
semakin menjadi nomor satu

sangat cocok santan Adi dalam mengerjakan soal


0 0 0 0 0 0 0
1 1 1 0 0 0 0
0 0 0 1 1 1 1
0 0 0 0 0 0 0
1 1 1 1 1 1 1
0.25 0.25 0.25 0.25 0.25 0.25 0.25

1 1 1 1 1 1 1

K=3 Freq Supp


{semakin, bersemangat, tua} 1 0.25
{semakin, bersemangat, menjadi} 2 0.5
{semakin, tua, menjadi} 1 0.25
{bersemangat, tua, menjadi} 1 0.25

d1 o d2
sehingga nomor satu banyak tumbuh di daerah pesisir
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
1 1 1 0 0 0 0 0
0 0 0 1 1 1 1 1
1 1 1 1 1 1 1 1
0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25

1 1 1 1 1 1 1 1
Dok - 1 Semakin tua semakin menjadi dan bersemangat Semakin
Dok - 2 Kelapa tua sangat cocok menjadi santan Kelapa
Dok - 3 Adi bersemangat dalam mengerjakan soal sehingga semakin menjadi nomor satu Adi
Dok - 4 Kelapa banyak tumbuh di daerah pesisir Kelapa

Semakin
Dok - 1 0.333
Dok - 2 0.000
Dok - 3 0.100
Dok - 4 0.000
2
IDF
Ln(Jumlah Dok / Jumlah Dok yang mengandung Kata tersebut) 0.69
TFIDF - A 0.23
TFIDF - B 0.00
TFIDF - C 0.07
TFIDF - D 0.00

https://towardsdatascience.com/text-vectorization-term-frequency-inverse-document-frequency-tfidf-5a3f9
tua semakin menjadi dan bersemangat
tua sangat cocok menjadi santan
bersemangat dalam mengerjak soal sehingga semakin menjadi nomor
banyak tumbuh di daerah pesisir

tua menjadi dan bersemangat Kelapa sangat cocok santan


0.167 0.167 0.167 0.167 0.000 0.000 0.000 0.000
0.167 0.167 0.000 0.000 0.167 0.167 0.167 0.167
0.000 0.100 0.000 0.100 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.167 0.000 0.000 0.000
2 3 1 2 2 1 1 1

0.69 0.29 1.39 0.69 0.69 1.39 1.39 1.39


0.12 0.12 0.12 0.12 0.00 0.00 0.00 0.00
0.12 0.12 0.00 0.00 0.12 0.12 0.12 0.12
0.00 0.07 0.00 0.07 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.12 0.00 0.00 0.00

ent-frequency-tfidf-5a3f9604da6d
satu

Adi dalam mengerjakan soal sehingga nomor satu banyak tumbuh


0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.100 0.100 0.100 0.100 0.100 0.100 0.100 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.167 0.167
1 1 1 1 1 1 1 1 1

1.39 1.39 1.39 1.39 1.39 1.39 1.39 1.39 1.39


0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.00 0.00
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.12 0.12
di daerah pesisir
0.000 0.000 0.000
0.000 0.000 0.000
0.000 0.000 0.000
0.167 0.167 0.167
1 1 1

1.39 1.39 1.39


0.00 0.00 0.00
0.00 0.00 0.00
0.00 0.00 0.00
0.12 0.12 0.12
Dok - 1 heri bermain di lapangan sambil makan apel heri
Dok - 2 budi bermain bola di lapangan budi
Dok - 3 heri dan budi bermain di lapangan sambil makan apel heri
Dok - 4 budi makan apel di lapangan setiap senin budi

heri
Dok - 1 1
Dok - 2 0
Dok - 3 1
Dok - 4 0
Frequent 2
Support 0.5
Confidence 1
MinSupport 0.75

K=1
bermain 0.75
apel 0.75
budi 0.75

K=3 Freq
{bermain, apel, budi} 2
bermain -> apel, budi 2
apel -> bermain,budi 2
budi -> apel, bermain 2

P(A U B) / P(A)*P(B)
P(A U B) = probabilitas yang mengandung {bermain, apel, budi}
P(bermain)
P(apel)
P(budi)
bermain di lapangan sambil makan apel
bermain bola di lapangan
dan budi bermain di lapangan sambil makan
apel di lapangan setiap senin

bermain di lapangan sambil makan apel budi


1 1 1 1 1 1 0
1 1 1 0 0 0 1
1 1 1 1 1 1 1
0 1 1 0 0 1 1
3 4 4 2 2 3 3
0.75 1 1 0.5 0.5 0.75 0.75
1 1 1 1 1 1 1

K=2 Freq Supp Conf


{bermain, apel} 2 0.5 0.666667
{bermain,budi} 2 0.5 0.666667
{apel, budi} 2 0.5 0.666667

conf (75%)
Lift/Correlation/dependent
1 0.59259259259259
0.66667
0.66667
0.66667

0.25
0.75
0.75
0.75
apel

bola dan setiap senin


0 0 0 0
1 0 0 0
0 1 0 0
0 0 1 1
1 1 1 1
0.25 0.25 0.25 0.25
1 1 1 1
Dok - 1 heri bermain di lapangan sambil makan apel heri
Dok - 2 budi bermain bola di lapangan budi
Dok - 3 heri dan budi bermain di lapangan sambil makan apel heri
Dok - 4 budi makan apel di lapangan setiap senin budi

heri
Dok - 1 0.143
Dok - 2 0.000
Dok - 3 0.111
Dok - 4 0.000
2
IDF
Ln(Jumlah Dok / Jumlah Dok yang mengandung Kata tersebut) 0.69
TFIDF - A 0.10
TFIDF - B 0.00
TFIDF - C 0.08
TFIDF - D 0.00

https://towardsdatascience.com/text-vectorization-term-frequency-inverse-document-frequency-tfidf-5a3f9
bermain di lapangan sambil makan apel
bermain bola di lapangan
dan budi bermain di lapangan sambil makan apel
apel di lapangan setiap senin

bermain di lapangan sambil makan apel budi bola


0.143 0.143 0.143 0.143 0.143 0.143 0.000 0.000
0.200 0.200 0.200 0.000 0.000 0.000 0.200 0.200
0.111 0.111 0.111 0.111 0.111 0.111 0.111 0.000
0.000 0.167 0.167 0.000 0.000 0.167 0.167 0.000
3 3 4 2 3 3 3 1

0.29 0.29 0.00 0.69 0.29 0.29 0.29 1.39


0.10 0.10 0.10 0.10 0.10 0.10 0.00 0.00
0.14 0.14 0.14 0.00 0.00 0.00 0.14 0.14
0.08 0.08 0.08 0.08 0.08 0.08 0.08 0.00
0.00 0.12 0.12 0.00 0.00 0.12 0.12 0.00

ent-frequency-tfidf-5a3f9604da6d
satu

dan setiap senin


0.000 0.000 0.000
0.000 0.000 0.000
0.111 0.000 0.000
0.000 0.167 0.167
1 1 1

1.39 1.39 1.39


0.00 0.00 0.00
0.00 0.00 0.00
0.08 0.00 0.00
0.00 0.12 0.12

You might also like