You are on page 1of 22

PEMROSESAN TEKS

Tugas
“Review Information Retrieval, POS Tagging,
Information Extraction dan Peringkasan Teks”

Dosen Pengampu :

Indriati, S.T, M.Kom

oleh :
Rifwan Hamidi

(135150200111149)

PROGRAM STUDI INFORMATIKA
FAKULTAS ILMU KOMPUTER
UNIVERSITAS BRAWIJAYA
MALANG
2016

Information Retrieval
Definisi information retrieval (IR) adalah bagaimana menemukan suatu dokumen dari
dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari koleksi
dokumen yang sangat besar yang tersimpan dalam komputer. Tujuan dari sistem IR adalah
untuk memenuhi kebutuhan informasi pengguna dengan meretrieve semua dokumen yang
mungkin relevan, pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tidak
relevan. Sistem IR yang baik memungkinkan pengguna menentukan secara cepat dan akurat
apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Tujuan yang harus dipenuhi
adalah bagaimana menyusun dokumen yang telah didapatkan tersebut ditampilkan terurut dari
dukumen yang memiliki tingkat relevansi tinggi ke tingkat relevansi yang lebih rendah.
Penyusunan dokumen tersebut disebut sebagai perangkingan dokumen.
Metode yang paling sering digunakan adalah Vector Space Model untuk representasi
fiturnya dan Cosine Similarity untuk menghitung kemiripan antara dokumen dan query.
Algoritma yang digunakan adalah sbb :
1  log10 tf t,d ,
wtft ,d  
0,

1. Hitung tf weight (Term Frequensy) :

if tf t,d  0
otherwise

2. Hitung dft (jumlah dokumen yang memiliki term)
3. Hitung nilai idft (Inverse Document Frequency) :

idf t  log10 N/dft

dimana

N=jumlah semua dokumen
4. Hitung Wt,d :

w t,d  w tf t,d  idf t
w t ,d 

5. Hitung Normalization Wt,d :

w t ,d
n

w
t 1

2
t ,d

 
dj q   (wij  wiq)
t

6. Hitung Cosine Similarity : CosSim(dj, q) =

i 1

7. Bandingkan setiap hasil, dimana hasil cos sim tertinggi (mendekati 1) merupakan
informasi yang memiliki kemiripan dengan query.

RIFWAN HAMIDI - 135150200111149

2

Contoh Persoalan : Lirik lagu MERAH PUTIH oleh Artis Musica
Sumber : http://lirik.kapanlagi.com/artis/artis_musica/merah_putih

Penyelesaian :
A.

Terlebih dahulu kita buat dokumennya sebanyak enam dokumen yang terdapat
dua kalimat didalamnya. Tiap dokumen ditandai dengan huruf D.

DOKUMEN =
D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku
D2 : tunjukkanlah pada dunia. Semangatmu yang panas membara
D3 : Daku ingin jiwa raga ini. Selaraskan keagungan
D4 : Daku ingin jemariku ini. Menuliskan kharismamu
D5 : Berkibarlah di luas nuansaku. Tunjukkanlah pada dunia
D6 : Daku ingin kepal tangan ini.menunaikan kewajiban

B. Selanjutnya menentukan token dari Dokumen-dokumen diatas
kibar

laras

bendera

agung

negeri

jemari

engkau

tulis

dada

kharisma

tunjuk

luas

RIFWAN HAMIDI - 135150200111149

3

pada

nuansa

dunia

kepal

semangat

tangan

panas

tunai

bara

wajib

daku
ingin
jiwa
raga
ini

C. Untuk langkah ke 3 yaitu menentukan Query dari D1 sampai D6, misalkan : Berkibar
Bendera

D. Selanjutnya yaitu melakukan Incedence index :
Term
D1

D2

D3

D4

D5

D6

JUMLAH

kibar

1

0

0

0

1

0

2

bendera

1

0

0

0

1

0

2

negeri

1

0

0

0

0

0

1

engkau

1

0

0

0

0

0

1

dada

1

0

0

0

0

0

1

tunjuk

0

1

0

0

1

0

2

pada

0

1

0

0

1

0

2

dunia

0

1

0

0

1

0

2

semangat

0

1

0

0

0

0

1

panas

0

1

0

0

0

0

1

bara

0

1

0

0

0

0

1

daku

0

0

1

1

0

1

3

ingin

0

0

1

1

1

0

3

jiwa

0

0

1

0

0

0

1

laras

0

0

1

0

0

0

1

agung

0

0

1

0

0

0

1

jemari

0

0

0

1

0

0

1

RIFWAN HAMIDI - 135150200111149

4

tulis

0

0

0

1

0

0

1

kharisma

0

0

0

1

0

0

1

luas

0

0

0

0

1

0

1

nuansa

0

0

0

0

1

0

1

kepal

0

0

0

0

0

1

1

tangan

0

0

0

0

0

1

1

tunai

0

0

0

0

0

1

1

wajib

0

0

0

0

0

1

1

E. Melakukan overlap yang berarti tumpang tindihnya fungsi yang digunakan, maksudnya
antar dokumen 1 sampai dokumen 6.
F.

Hitung tf weight (Term Frequens) , dft dan idft
df(jumlah

Term
D1

D2

D3

D4

D5

D6

idf

dok )

kibar

0,5

0

0

0

0.5

0

2

0.4771

bendera

0,5

0

0

0

0,5

0

2

0.4771

negeri

0,5

0

0

0

0

0

1

0.7781

engkau

0,5

0

0

0

0

0

1

0.7781

dada

0,5

0

0

0

0

0

1

0.7781

tunjuk

0

0,5

0

0

0,5

0

2

0.4771

pada

0

0,5

0

0

0,5

0

2

0.4771

dunia

0

0,5

0

0

0,5

0

2

0.4771

semangat

0

0,5

0

0

0

0

1

0.7781

panas

0

0,5

0

0

0

0

1

0.7781

bara

0

0,5

0

0

0

0

1

0.7781

daku

0

0

0,5

0,5

0

0,5

3

0.3010

ingin

0

0

0,5

0,5

0,5

0

3

0.3010

jiwa

0

0

0,5

0

0

0

1

0.7781

laras

0

0

0,5

0

0

0

1

0.7781

agung

0

0

0,5

0

0

0

1

0.7781

jemari

0

0

0

0,5

0

0

1

0.7781

tulis

0

0

0

0,5

0

0

1

0.7781

kharisma

0

0

0

0,5

0

0

1

0.7781

luas

0

0

0

0

0,5

0

1

0.7781

RIFWAN HAMIDI - 135150200111149

5

nuansa

0

0

0

0

0,5

0

1

0.7781

kepal

0

0

0

0

0

0,5

1

0.7781

tangan

0

0

0

0

0

0,5

1

0.7781

tunai

0

0

0

0

0

0,5

1

0.7781

wajib

0

0

0

0

0

0,5

1

0.7781

G. Menghitung Wt,d, Normalization Wt,d dan Cosine Similarity

Term

tf(1) x idf

tf(d2) x
idf

tf(d3) x
idf

tf(4)x idf

tf(5)x idf

tf(6)x idf

kibar

0.4771

0

0

0

0.2385

0

bendera

0.2385

0

0

0

0.2385

0

negeri

0.3890

0

0

0

0

0

engkau

0.3890

0

0

0

0

0

dada

0.3890

0

0

0

0

0

tunjuk

0

0.2385

0

0

0.2385

0

pada

0

0.2385

0

0

0.2385

0

dunia

0

0.2385

0

0

0.2385

0

semangat

0

0.3890

0

0

0

0

panas

0

0.38907

0

0

0

0

bara

0

0.38907

0

0

0

0

daku

0

0

0.1505

0.1505

0

0.1505

ingin

0

0

0.1505

0.1505

0.1505

0

jiwa

0

0

0.3890

0

0

0

laras

0

0

0.3890

0

0

0

agung

0

0

0.3890

0

0

0

jemari

0

0

0

0.3890

0

0

tulis

0

0

0

0.38907

0

0

kharisma

0

0

0

0.3890

0

0

luas

0

0

0

0

0.3890

0

nuansa

0

0

0

0

0.3890

0

kepal

0

0

0

0

0

0.3890

tangan

0

0

0

0

0

0.3890

tunai

0

0

0

0

0

0.3890

wajib

0

0

0

0

0

0.3890

0.7156

0

0

0

0.4771

d1

RIFWAN HAMIDI - 135150200111149

d2

d3

d4

d5

6

H. Langkah ini adalah langkah terakhir yaitu Kesimpulan, bahwasanya nilai tertinggi dari
keseluruhan
Ada di D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku
Dokumen 1 inilah data yang paling Relevan
D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku
Dengan Jumlah Nilai : 0.71568

RIFWAN HAMIDI - 135150200111149

7

Part of Speech Tagging (POS-Tagging)
Part of Speech Tagging (POS-Tagging) adalah suatu proses yang memberikan label
kelas kata secara otgmatis pada suatu kata dalam kalimat. Hasil dari Part
of Speech Tagging (POS) ini sangat berpengaruh terhadap keluaran dari proses Parsing.
Masalah yang muncul adalah bagaimana cara mendapatkan pelabelan
kelas kata yang tepat dalam konteks kalimat.
Metode yang paling sering digunakan adalah Hidden Markov Model (HMM) dimana
HMM adalah sebuah model statistik dari sebuah sistem yang melakukan perhitungan
probabilitas dari suatu kejadian yang tidak dapat diamati berdasarkan kejadian yang dapat
diamati. Perhitungan probabilitas dilakukan dengan melihat kejadian-kejadian lain yang dapat
diamati secara langsung.

Garis besar Langkah yang dilakukan Algoritma HMM adalah sbb :

RIFWAN HAMIDI - 135150200111149

8

Proses dimulai dengan memberikan input terhadap sistem. Teks input akan dipecah
kedalam suatu kalimat dengan parameter titik, koma, tanda Ianya dan tanda seru. Kemudian
setiap kata dalam kalimat akan dicari nilai probabilitas kelas katanya terhadap kelas kata kata
sebelumnya didalam corpus. Perhitungan probabilitas diawali dengan menghitung probabilitas
kata pertama tanpa melihat kelas kata sebelumnya. Probabilitas kata kedua sampai terakhir
akan dihitung dengan melihat kelas kata sebelumnya. Hasil keluaran yang dapat pada prose
sini adalah kata dan kelas kataya yang akan digunakan untuk proses berikutnya yaitu proses
Rule Based.

RIFWAN HAMIDI - 135150200111149

9

Information Extraction
Untuk mendapatkan informasi terstruktur dari teks yang tidak terstruktur, hal pertama
yang perlu didefinisikan adalah informasi target sebagai informasi terstruktur yang akan
diekstrak. Informasi ini dapat berupa entitas ataupun relasi antar entitas. Secara umum, entitas
dapat berupa orang, perusahaan, organisasi, atau lokasi. Oleh karena itu, kegiatan utama dalam
ekstraksi informasi adalah pengenalan entitas (named-entity recognition) dan ekstraksi
relasinya.
Information extraction (IE) systems bertujuan untuk
1. Membuat informasi menjadi lebih terorganisir dengan baik sehingga berguna untuk
manusia
2. Informasi ditampilkan dalam sebuah format yang tepat secara semantic sehingga
memungkinkan dilakukan inferensi pada tahap selanjutnya oleh algoritma
komputer
IE systems mengekstrak informasi yang terstruktur, jelas dan factual dari teks yang tidk
terstruktur. Singkatnya : Siapa melakukan apa ke siapa, kapan dan di mana?
Metode yang paling sering digunakan adalah Named Entity Recognition (NER),
dimana NER adalah salah satu Subtask yang sangat penting dalam IE untuk Menemukan dan
Mengklasifikasi nama-nama Entitas dalam teks. NER memiliki manfaat sbb :

Melakukan Indeksi Entitas dsb.

Sentiment bisa disematkan pada perusahaan atau produk

Banyak relasi IE relations yang menjadi asosiasi antar entitas

Untuk question answering, jawaban kebanyakan adalah entitas

Terdapat tiga pendekatan Standart untuk NER :
1. Hand-written regular expressions
2. Using classifiers
i. Generative: Naïve Bayes
ii. Discriminative: Maxent models
3. Sequence models
i. HMMs
ii. CMMs/MEMMs
iii. CRFs
RIFWAN HAMIDI - 135150200111149

10

Algortima Naive Bayes Based NER dengan langkah sbb :

Menentukan Peluang kategori

P c | w 

P w | c  * P c 
P w 

dimana W adalah kata, C adalah kategori
P(c|w) : Peluang kategori c dengan syarat muncul kata w
P(c) : Peluang munculnya kategori c
P(w) : Peluang munculnya kata w

Menetukan Peluang munculnya kata

Dimana P(w|c) : Peluang munculnya kata w dengan syarat muncul kategori c
P(c) : Peluang kemunculan kategori c
Count(w,c) : jumlah kata w pada kategori c
Count (c) : jumlah seluruh kata pada kategori c
|V| : jumlah kata-kata yang unik dalam seluruh dokumen

RIFWAN HAMIDI - 135150200111149

11

Peringkasan Teks
Peringkas dokumen teks otomatis adalah ringkasan dari sumber teks oleh mesin untuk
menampilkan informasi paling penting dalam bentuk pendek dari teks aslinya dengan tetap
menjaga intisari dari dokumen tersebut dan membantu pengguna dengan cepat memahami
informasi dalam jumlah besar. Ringkasan adalah teks yang dihasilkan dari sebuah teks atau
banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari
setengah panjang teks aslinya.
Penelitian peringkasan teks otomatis dipelopori oleh Luhn sejak tahun 1958. Teknikteknik yang digunakan dalam peringkasan:
(1) teknik pendekatan statistika: teknik word frequency (Luhn, 1958), position in text
(Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan
Hoovy, 1997),
(2) teknik pendekatan dengan natural language analysis: inverse term frequency and
NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal marginal relevance
(Cabonell dan Goldstein, 1998).
Algoritma untuk melakukan peringkasan teks adalah sbb :

RIFWAN HAMIDI - 135150200111149

12

Text preprocessing adalah tahapan untuk mempersiapkan teks menjadi data yang akan
diolah di tahapan berikutnya.Inputan awal pada proses ini adalah berupa dokumen. Text
preprocessing pada penelitian ini terdiri dari beberapa tahapan, yaitu: proses pemecahan
kalimat, proses case folding, proses tokenizing kata, proses filtering, dan proses
stemming.
Pembobotan dapat diperoleh berdasarkan jumlah kemunculan suatu term dalam
sebuah dokumen term frequency (tf) dan jumlah kemunculan term dalam koleksi dokumen
inverse document frequency (idf). Bobot suatu istilah semakin besar jika istilah tersebut sering
muncul dalam suatu dokumen dan semakin keciljika istilah tersebut muncul dalam banyak
dokumen. Nilai idf sebuah term (kata) dapat dihitung menggunakan persamaan sebagai
berikut:

Dimana D adalah jumlah dokumen yang berisi term (t) dan dfi
adalah jumlah kemunculan (frekuensi) term terhadap D.
Adapun algoritma yang digunakan untuk menghitung bobot (W) masing-masing dokumen
terhadap kata kunci (query), yaitu:

Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses pengurutan
(sorting) dimana semakin besar nilai W, semakin besar tingkat kesamaan (similarity) dokumen
tersebut terhadap kata yang dicari, demikian pula sebaliknya.
Cosine similarity digunakan untuk menghitung pendekatan relevansi query terhadap
dokumen. Penentuan relevansi sebuah query terhadap suatu dokumen dipandang sebagai
pengukuran kesamaan antara vektor query dengan vektor dokumen. Semakin besar nilai kesamaan

RIFWAN HAMIDI - 135150200111149

13

vektor query dengan vektor dokumen maka query tersebut dipandang semakin relevan dengan
dokumen.
Algoritma maximum marginal relevance (MMR) merupakan salah satu metode ekstraksi
ringkasan (extractive summary) yang digunakan untuk meringkas dokumen tunggal atau multi
dokumen.MMR meringkas dokumen dengan menghitung kesamaan (simlarity) antara bagian teks.
Pada peringkasan dokumen dengan metode MMR dilakukan proses segmentasi dokumen menjadi
kalimat dan dilakukan pengelompokan sesuai dengan gender kalimat tersebut. MMR digunakan
dengan mengkombinasikan matrik cosine similarity untuk merangking kalimat-kalimat sebagai
tanggapan pada query yang diberikan oleh user.

Contoh Persoalan :
Data didapat dari artikel berita Tribun news dengan judul “Susi Pudjiastuti Langsung
Lengser Dari Jabatan Dirut Susi Air” berikut alamat websitenya :
http://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-darijabatan-dirut-susi-air
Artikel Berita
Menteri Kelautan dan Perikanan, Susi Pudjiastuti akan melepas semua posisinya di perusahaan
penerbangan Susi air.
Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini
dipegangnya di sejumlah perusahaan. Yakni, akan melepas jabatan President Direktur PT ASI
Pudjiastuti yang bergerak di bidang perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator
penerbangan Susi Air.
Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup. “Itu harus dilepaskan, biar bisa kerja
maksimal tanpa konflik kepentingan apapun," tuturnya, usai presiden Joko Widodo (Jokowi)
mengumumkan kabinet di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014).
Yang pasti kerjanya sangat besar. “Tujuh puluh persen wilayah kita lautan," tutur Susi usai
diperkenalkan Jokowi di halaman belakang istana merdeka, jakarta, Minggu (26/19/2014).
Susi akan pegang teguh pesan Jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu.
"Pesannya Pak Jokowi ke saya, Kerja, kerja dan kerja itu saja pegangan saya bekerja," tegasnya.
Terkait Program, Susi akan menjawabnya usai pelantikan dan rapat perdana kabinet, Senin (27/10/2014)
besok.
"Belum tahu programnya, tunggu besok saja selesai pelantikan dan rapat kabinet besok," ujarnya.

Penyelesaian :
Pemecahan Kalimat
No
D1
D2
D3
D4

Kalimat
Menteri Kelautan dan Perikanan, Susi Pudjiastuti akan melepas semua posisinya di perusahaan
penerbangan Susi air
Bahkan agar mencegah conflict of interest, Susi bersedia melepas semua jabatan yang selama ini
dipegangnya di sejumlah perusahaan
Yakni, akan melepas jabatan President Direktur PT ASI Pudjiastuti yang bergerak di bidang
perikanan dan PT ASI Pudjiastuti Aviation yang jadi operator penerbangan Susi Air
Susi akan melepas semua jabatan CEO Susi air, dan PT ASI grup

RIFWAN HAMIDI - 135150200111149

14

D5

D6
D7
D8
D9
D10
D11

“Itu harus dilepaskan, biar bisa kerja maksimal tanpa konflik kepentingan apapun," tuturnya,
usai presiden Joko Widodo (Jokowi) mengumumkan kabinet di halaman belakang istana
merdeka, jakarta, Minggu (26/19/2014)
Yang pasti kerjanya sangat besar
“Tujuh puluh persen wilayah kita lautan," tutur Susi usai diperkenalkan Jokowi di halaman
belakang istana merdeka, jakarta, Minggu (26/19/2014)
Susi akan pegang teguh pesan Jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu
"Pesannya Pak Jokowi ke saya, Kerja, kerja dan kerja itu saja pegangan saya bekerja," tegasnya
Terkait Program, Susi akan menjawabnya usai pelantikan dan rapat perdana kabinet, Senin
(27/10/2014) besok
"Belum tahu programnya, tunggu besok saja selesai pelantikan dan rapat kabinet besok," ujarnya

Case Folding
No
Kalimat
D1
menteri kelautan dan perikanan susi pudjiastuti akan melepas semua posisinya di perusahaan
penerbangan susi air
D2
bahkan agar mencegah conflict of interest susi bersedia melepas semua jabatan yang selama ini
dipegangnya di sejumlah perusahaan
D3
yakni akan melepas jabatan president direktur pt asi pudjiastuti yang bergerak di bidang
perikanan dan pt asi pudjiastuti aviation yang jadi operator penerbangan susi air
D4
susi akan melepas semua jabatan ceo susi air dan pt asi grup
D5
itu harus dilepaskan biar bisa kerja maksimal tanpa konflik kepentingan apapun tuturnya usai
presiden joko widodo jokowi mengumumkan kabinet di halaman belakang istana merdeka
jakarta minggu
D6
yang pasti kerjanya sangat besar
D7
tujuh puluh persen wilayah kita lautan tutur susi usai diperkenalkan jokowi di halaman belakang
istana merdeka jakarta minggu
D8
susi akan pegang teguh pesan jokowi kepadanya saat dipanggil ke istana merdeka pekan lalu
D9
pesannya pak jokowi ke saya kerja kerja dan kerja itu saja pegangan saya bekerja tegasnya
D10 terkait program susi akan menjawabnya usai pelantikan dan rapat perdana kabinet senin besok
D11 belum tahu programnya tunggu besok saja selesai pelantikan dan rapat kabinet besok ujarnya

RIFWAN HAMIDI - 135150200111149

15

Tokenizing

Stop Word Removal

RIFWAN HAMIDI - 135150200111149

16

Stemming

Kalimat Hasil Stemming
No
Kalimat
D1
menteri laut ikan susi pudjiastuti lepas posisi usaha terbang susi air
D2
cegah conflict of interest susi sedia lepas jabat pegang jumlah usaha
D3
lepas jabatan president direktur pt asi pudjiastuti gerak bidang ikan pt asi pudjiastuti aviation
operator terbang susi air
D4
susi lepas jabat ceo susi air dan pt asi grup
D5
lepas kerja maksimal konflik penting apa tutur usai presiden joko widodo jokowi umumk
kabinet halaman belakang istana merdeka jakarta minggu
D6
kerja besar
D7
tujuh puluh persen wilayah laut tutur susi usai kenal jokowi halaman belakang istana merdeka
jakarta minggu
D8
susi pegang teguh pesan jokowi kepada panggil istana merdeka pekan lalu
D9
pesan jokowi kerja kerja kerja pegang kerja tegas
D10 terkait program susi jawab usai lantik rapat dana kabinet senin besok
D11 program tunggu selesai lantik rapat kabinet ujarn

RIFWAN HAMIDI - 135150200111149

17

Perhitungan Nilai TF-IDF

Perhitungan Bobot Nilai (W)

Perhitungan Vector Space Model dari Hasil TF-IDF

RIFWAN HAMIDI - 135150200111149

18

Rasio kompresi (Compression Rate) pada suatu ringkasan berfungsi untuk menentukan
persentasi batas panjang ringkasan yang akan ditampilkan. Compression rate pada proses peringkasan
akan menentukan panjang ringkasan yang dihasilkan. Hasil ringkasan dengan memilih compression /
batas panjang ringkasan 35%.
Untuk

1. Untuk kalimat 1 (D1)
Cosine (D1) = sum (kk . D1) / (sqrt(kk) * sqrt(D1)
= 0.268 / (0.619 * 2.047)
= 0.211
2. Untuk kalimat 2 (D2)
Cosine (D2) = sum (kk . D2) / (sqrt(kk) * sqrt(D2)
= 0.268/ (0.619 * 1.215)
= 0.356 (ringkasan)
3. Untuk kalimat 3 (D3)
Cosine (D3) = sum (kk . D3) / (sqrt(kk) * sqrt(D3)
= 0.268/ (0.619 * 0.964)
= 0.449 (ringkasan)
4. Untuk kalimat 4 (D4)
Cosine (D4) = sum (kk . D4) / (sqrt(kk) * sqrt(D4)
= 0.268/ (0.619 * 0.619)
= 0.699 (ringkasan)

RIFWAN HAMIDI - 135150200111149

19

5. Untuk kalimat 5 (D5)
Cosine (D5) = sum (kk . D5) / (sqrt(kk) * sqrt(D5)
= 0.268/ (0.619 * 1.040)
= 0.416 (ringkasan)
6. Untuk kalimat 6 (D6)
Cosine (D6) = sum (kk . D6) / (sqrt(kk) * sqrt(D6)
= 0 / (0.619 * 1.040 )
=0
7. Untuk kalimat 7 (D7)
Cosine (D7) = sum (kk . D7) / (sqrt(kk) * sqrt(D7)
= 0 / (0.619 * 0 )
=0
8. Untuk kalimat 8 (D8)
Cosine (D8) = sum (kk . D8) / (sqrt(kk) * sqrt(D8)
= 0 / (0.619 * 0 )
=0
9. Untuk kalimat 9 (D9)
Cosine (D9) = sum (kk . D9) / (sqrt(kk) * sqrt(D9)
= 0 / (0.619 * 0 )
=0
10. Untuk kalimat10 (D10)
Cosine (D10) = sum (kk . D10) / (sqrt(kk) * sqrt(D10)
= 0 / (0.619 * 0 )
=0
11. Untuk kalimat 11 (D11)
Cosine (D11) = sum (kk . D11) / (sqrt(kk) * sqrt(D11)
= 0 / (0.619 *0) =0
Berikut adalah urutan dokumen hasil ringkasan dengan nilai kompresi 35%. Maka 35% dari 11
Dokumen yaitu : 11 x 35% = 3.85 ≈ 4 Dokumen.

Sesuai perhitungan diatas maka nilai cosinus setiap dokumen telah didapat dari hasil akhir
perhitungan vector space model diketahui bahwa kalimat yang diambil untuk dijadikan sebuah
ringkasan terdapat pada kalimat ke 2, 3, 4, dan 5 dengan compression rate 35%.

RIFWAN HAMIDI - 135150200111149

20

Hasil Ringkasan Teks Artikel Compression 35%

RIFWAN HAMIDI - 135150200111149

21

Daftar Pustaka
Das and Martins. 2007. A Survey on Automatic Text Summarization. Language Technologies
Institute Carnegie Mellon University
Wicaksono, A( 2010). HMM Based Part-of-Speech Tagger for Bahasa Indonesia. Proceeding of
the Fourth Internationul MALINDO Workshop (MALINDO2010).Iakatta,Indonesia.
http://anissaja222.blogspot.co.id/2012/10/tugas-information-retrieval.html diakses pada 27 April
2016
http://download.portalgaruda.org/article.php?article=59760&val=4485 diakses pada 2 Mei 2016
http://download.portalgaruda.org/article.php?article=116153&val=5271 diakses pada 27 Mei 2016
http://lirik.kapanlagi.com/artis/artis_musica/merah_putih diakses pada 29 April 2016
http://lib.itenas.ac.id/kti/wp-content/uploads/2013/10/Jurnal-No1Vol4-6.pdf diakses pada 28 April
2016
http://www.tribunnews.com/nasional/2014/10/26/susi-pudjiastuti-langsung-lengser-dari-jabatandirut-susi-air diakses pada 29 April 2016
https://yudiwbs.wordpress.com/2012/02/07/named-entity-recognition/ diakses pada 28 April 2016

RIFWAN HAMIDI - 135150200111149

22