Professional Documents
Culture Documents
1 10 3 10 4 4 2 1 0
2 10 9 8 8 8 1 2 0
3 1 8 4 6 5 10 3 9
4 1 9 6 2 5 7 4 9
5 8 7 6 5 6 10 5 2
6 8 1 9 10 1 8 6 2
0
5 0
6 4 0
4 4 1 0
2 1 6 3 0
0
1 0
0 2 0
2 2 3 0
8 5 8 5 0
Contingency Table
1 0
1 q r
0 s t
1 0
1 7 2
0 5 10
Coherence q =
(q+r) + (q+s) - q
7 = 0.291667
24
7 = 0.5
14
7 = 0.5
14
7 = 0.5
14
Name Gender Test - 1 Test - 2 Test - 3 Test - 4 Test - 5 Test - 6
Adi M F F P F F P
Heri M F P P F P F
Hilman M F F P F F P
Adi
d(Adi, Heri) 1+2 = 3 = 1
1+1+2 4
Heri
d(Adi, Hilman) 0+0 = 0 = 0
2+0+0 2
Jika F diganti dengan 0 dan P diganti 1. Isikan setiap nilai cell '?'
Heri
1 0
1 1 1
0 2 2
Hilman
1 0
1 2 0
0 0 4
Hilman
1 0
1 1 2
0 1 2
X Standar Deviasi Z-Score Mean 60.33333
83 22.6666666667 1.0515464 Sf (standar deviasi) 21.55556
58 2.33333333333 -0.108247
37 23.3333333333 -1.082474
41 19.3333333333 -0.896907 Mean merupakan rata-rata dari nilai sample
64 3.66666666667 0.1701031 Sf merupakan standar deviasi
53 7.33333333333 -0.340206 Isikan nilai pada cell "?"
72 11.6666666667 0.5412371
89 28.6666666667 1.3298969
91 30.6666666667 1.4226804
20 40.3333333333 -1.871134
38 22.3333333333 -1.036082
92 31.6666666667 1.4690722
86 25.6666666667 1.1907216
62 1.66666666667 0.0773196
91 30.6666666667 1.4226804
98 37.6666666667 1.7474227
15 45.3333333333 -2.103093
64 3.66666666667 0.1701031
85 24.6666666667 1.1443299
47 13.3333333333 -0.618557
76 15.6666666667 0.7268041
5 55.3333333333 -2.56701
56 4.33333333333 -0.201031
63 2.66666666667 0.1237113
54 6.33333333333 -0.293814
72 11.6666666667 0.5412371
14 46.3333333333 -2.149485
64 3.66666666667 0.1701031
97 36.6666666667 1.7010309
23 37.3333333333 -1.731959
nilai sample
euclidean Distance
0.00
Dok - 1 Semakin tua semakin menjadi
Dok - 2 Kelapa tua sangat cocok
Dok - 3 Adi bersemangadalam mengerjak
Dok - 4 Kelapa banyak tumbuh di
d1 o d2 0 1 1
||d1|| 4 1 1
||d2|| 0 1 1
d1 o d2 = 2 =
||d1|| * ||d2|| 6.928203
d1 o d3 2 0 1
||d1|| 4 1 1
||d3|| 1 0 1
d1 o d3 = 4 =
||d1|| * ||d3|| 8.944272
d1 o d4 0 0 0
||d1|| 4 1 1
||d4|| 0 0 0
d1 o d4 = 0 =
||d1|| * ||d4|| 6.928203
d2 o d3 0 0 1
||d2|| 0 1 1
||d3|| 1 0 1
d2 o d3 = 1 =
||d2|| * ||d3|| 7.745967
d2 o d4 0 0 0
||d2|| 0 1 1
||d4|| 0 0 0
d2 o d4 = 1 =
||d2|| * ||d4|| 6
d3 o d4 0 0 0
||d3|| 1 0 1
||d4|| 0 0 0
d3 o d4 = 0 =
||d3|| * ||d4|| 7.745967
dan bersemangat
menjadi santan
soal sehingga semakin menjadi nomor satu
daerah pesisir
0 0 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0 0
0 0 1 1 1 1 0 0 0
0.288675
0 1 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0 0
0 1 0 0 0 0 1 1 1
0.447214
0 0 0 0 0 0 0 0 0
1 1 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 1 1 1 1 0 0 0
0 1 0 0 0 0 1 1 1
0.129099
0 0 1 0 0 0 0 0 0
0 0 1 1 1 1 0 0 0
0 0 1 0 0 0 0 0 0
0.166667
0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 1 1 1
0 0 1 0 0 0 0 0 0
0
soal sehingga nomor satu banyak tumbuh di daerah pesisir
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0
0 0 0 0 1 1 1 1 1
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 1
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 1
0 0 0 0 0 0 0 0 0
1 1 1 1 0 0 0 0 0
0 0 0 0 1 1 1 1 1
Cosine Similarity
d1 d2 d3 d4
d1 0 0.288675 0.447214 0
d2 0.288675 0 0.129099 0.166667
d3 0.447214 0.129099 0 0
d1 o d2 d4 0 0.166667 0 0
2
8 2.828427
6 2.44949
Buatlah proses data transformasi untuk kasus dokumen di atas dengan algoritma seba
1. Buatlah dokumen menjadi fitur-fitur kata
2. Hitunglah frekuensi kemunculan dari tiap fitur kata pada dokumen terkait
3. Hitunglah cosine similarity dari tiap-tiap dokumen
d1 o d3
4
8 2.828427
10 3.162278
d1 o d4
0
8 2.828427
6 2.44949
d1 o d4
1
6 2.44949
10 3.162278
d1 o d4
1
6 2.44949
6 2.44949
d1 o d4
0
10 3.162278
6 2.44949
n di atas dengan algoritma sebagai berikut:
Semakin
Dok - 1 2
Dok - 2 0
Dok - 3 1
Dok - 4 0
Frequent 3
Support 0.75
Confidence 1
MinSupport 50%
K=1
Semakin 75%
tua 50%
menjadi 75%
bersemangat 50%
Kelapa 0.5
Freq
semakin -> bersemangat, menjadi 2
bersemangat -> semakin, menjadi 2
menjadi -> semakin, bersemangat 2
P(A U B) / P(A)*P(B)
P(A U B) = probabilitas yang mengandung {semakin, bersemangat, menjadi}
P(semakin)
P(bersemangat)
P(menjadi)
tua semakin menjadi dan bersemangat
tua sangat cocok menjadi santan
bersemangat dalam mengerjakan soal sehingga
banyak tumbuh di daerah pesisir
1 1 1 1 1
0.5
0.5
0.5
0.75
semakin menjadi nomor satu
1 1 1 1 1 1 1
d1 o d2
sehingga nomor satu banyak tumbuh di daerah pesisir
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
1 1 1 0 0 0 0 0
0 0 0 1 1 1 1 1
1 1 1 1 1 1 1 1
0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25
1 1 1 1 1 1 1 1
Dok - 1 Semakin tua semakin menjadi dan bersemangat Semakin
Dok - 2 Kelapa tua sangat cocok menjadi santan Kelapa
Dok - 3 Adi bersemangat dalam mengerjakan soal sehingga semakin menjadi nomor satu Adi
Dok - 4 Kelapa banyak tumbuh di daerah pesisir Kelapa
Semakin
Dok - 1 0.333
Dok - 2 0.000
Dok - 3 0.100
Dok - 4 0.000
2
IDF
Ln(Jumlah Dok / Jumlah Dok yang mengandung Kata tersebut) 0.69
TFIDF - A 0.23
TFIDF - B 0.00
TFIDF - C 0.07
TFIDF - D 0.00
https://towardsdatascience.com/text-vectorization-term-frequency-inverse-document-frequency-tfidf-5a3f9
tua semakin menjadi dan bersemangat
tua sangat cocok menjadi santan
bersemangat dalam mengerjak soal sehingga semakin menjadi nomor
banyak tumbuh di daerah pesisir
ent-frequency-tfidf-5a3f9604da6d
satu
heri
Dok - 1 1
Dok - 2 0
Dok - 3 1
Dok - 4 0
Frequent 2
Support 0.5
Confidence 1
MinSupport 0.75
K=1
bermain 0.75
apel 0.75
budi 0.75
K=3 Freq
{bermain, apel, budi} 2
bermain -> apel, budi 2
apel -> bermain,budi 2
budi -> apel, bermain 2
P(A U B) / P(A)*P(B)
P(A U B) = probabilitas yang mengandung {bermain, apel, budi}
P(bermain)
P(apel)
P(budi)
bermain di lapangan sambil makan apel
bermain bola di lapangan
dan budi bermain di lapangan sambil makan
apel di lapangan setiap senin
conf (75%)
Lift/Correlation/dependent
1 0.59259259259259
0.66667
0.66667
0.66667
0.25
0.75
0.75
0.75
apel
heri
Dok - 1 0.143
Dok - 2 0.000
Dok - 3 0.111
Dok - 4 0.000
2
IDF
Ln(Jumlah Dok / Jumlah Dok yang mengandung Kata tersebut) 0.69
TFIDF - A 0.10
TFIDF - B 0.00
TFIDF - C 0.08
TFIDF - D 0.00
https://towardsdatascience.com/text-vectorization-term-frequency-inverse-document-frequency-tfidf-5a3f9
bermain di lapangan sambil makan apel
bermain bola di lapangan
dan budi bermain di lapangan sambil makan apel
apel di lapangan setiap senin
ent-frequency-tfidf-5a3f9604da6d
satu