You are on page 1of 3

VECTOR SPACE MODEL AND TERM WEIGHTING

PROSES CLUSETRING 1. Koleksi dokumen 2. Preprocessing 3. Term Weighting TFIDF Berbentuk matrik nama dokumennya adalah term document (dikenal dengan istilah TDM) Untuk barisnya disebut term, sedangkan kolomnya disebut dokumen 4. Clustering df => jumlah dokumen yang mengandung kata n N 806.791 = 1,65 IDF = log ( ) log df 18.165 Ket : IDF = Invers Document Frequency N = Sum of Document df = Document Frequency Untuk mencari TFIDF = TF x IDF Ket : TFIDF = TF = Total Frequency IDF = Invers Document Frequency Doc1 27*1,65 Doc2 4*1,65 Doc3 24*1,65

Car

Hasil / bentuk TFIDF adalah bentuk matrik TDM = Term Document Matrix Term = baris Document = kolom Referensi (mohon dibuka gan..) http://sujitpal.blogspot.com/2008/09/ir-math-with-java-tf-idf-and-lsi.html

PLAGIARISM Distance Metric / Similarity Metric Distance: semakin kecil objek smakin mirip Similary : semakin mendekati 1 objek semakin mirip 1. Distance Metric Contoh distance metric: a. Manhattan distance disebut juga cityblock distance b. Euclidean distance d= c. d. e.

x
i =0

yi

sqEuclidean Pearson Correlation Hamming digunakan untuk data binar (0,1)

2. Similarity Metric a. Cosines similarity xi * y i Cos ( dx, dy ) = ( xi ) 2 * ( xi ) 2 b. d

PROPOSAL PENELITIAN 1. Topik : IR, Image Retrieval 2. jml halaman : 2 lbr 3. Format : IEEE format 2 kolom a. Pendahuluan Permasalahan Solusi b. Tinjauan pustaka c. Metode penelitian Proposed model Data experiment d. Kesimpulan Harapan

You might also like