You are on page 1of 4

Wianadhira Nur Hasna

Content Mining
WEEK 9
What is data mining?
Process of automatically searching large volumes of data for patterns
Also known as knowledge-discovery (bagaimana cara mencari sebuah keilmuan dari data yang
sangat banyak)
Some people prefer to use the term “content mining”
Contoh: prediction

Framework:
CRISP-DM (Cross standard process for data mining): it
is a data mining process model that describes commonly
used approaches that data mining expperts use to tackle
problem
Contohnya seperti kalo di bank ada yang nunggak nanti
di pelajari si nasabah ini gajihnya dimana cewe apa
cowo terus minjemnya brp nanti di klasifikasikan

Different types of data mining


1. Relational data mining (kaya association analysis, jadi kalo dia beli roti biasanya beli
mentega atau meses juga)
2. Document/text mining (berupa teks biasanya tidak terstruktur, kaya parsehub, crawling,
scrapping lalu diolah)
3. Web mining (macem-macem, biasanya jd konsen org skrg)

Relational data mining:


Bagaimana hubungan dengan satu barang ke barang yang lain sehingga ditemukan polanya.
(biasanya datanya jarang ngambil dr internet, mirip kaya klasifikasi) (kalo klasifikasi kolom,
association baris)
- Data mining technique for relational databases
- Relational data mining algorithms look patterns among multiple tables
- Not necessarily……..(to be continued)

Classification : memprediksi kelas, pilihan sudah jelas (ya atau tidak) tinggal nanti
memprediksi apakah masuk Ya atau Tidak.
Example of decision tree:

Association rules: market bases analysis


- Support
- Confidence

Text mining
Is the process of
- Extracting interesting
- Nin-trivial information
- Knowledge from unstructured text
Also known as:
- Intelligent text analysis
- Text data mining
- Document mining
- Unstructrured data management
- Or knowledge-discovery in text

Application of text mining


- Information extraction à mencari kata kata kunci (ini
- Topic tracking à ini topik ke arah mana
- Summarization à bagaimana menyimpulkan sebuah dokumen
- Categorization à mengkategorikan dokumen
- Clustering à mengelompokan dokumen yang belum diketahui
- Concept linking à liat dr sitasi mana yang mirip mana yang ngga
- Question answering à ini biasa di text mining

Text mining in the field of study world (gambar coming soon)

Sentiment analysis application


- Brand/reputation management
- Competitive intelligence
- Customer experience management (bias jadi masukan buat manajer)
- Enterprise feedback management (nanti disini bisa tau mana yang harus di improve)
- Quality improvement
- Trend spotting
Text mining juga bisa dipake untuk mendeteksi spam

Who wrote which federalist papers?


Ada 12 essay: jay, Madison, Hamilton (penulisnya diantara ini)
Akhirnya diteliti pake baysen method jadi ketahuan essay 1 tulisannya siapa essay 2 tulisan
siapa dst.

Positive or negative review?


- Unbelievably disappointing (negative)
- His is the greatest screwball comedy ever filmed (positive)
- Dst

Web mining:
- Is the extraction of interesting potentially useful patterns (mengekstraksi pola yang
menarik tapi dari internet)
- ….
- ….
Three knowledge discovery domains that pertain to web mining

- web content mining (text, image, record, etc)


- web structure mining (mirip2 kaya crawling, masuk satu page, link apa didalem tar
diambil) (hyperlink, tags, etc)
- web usage mining (log http, log app server) (kita akses website ini berapa kali, orang
luar berapa kali akses web ini, orang bandung berapa, dst)
Web Mining Architecture

corpus: data text yang sudah teratur, sehingga kalo diolah jauh lebih valid

catatan untuk orange pake Bahasa inggris, soalnya orange reprocessingnya belum mantep kalo
pake Bahasa Indonesia.

You might also like