You are on page 1of 2

and (4) novel.

A pattern is also interesting if it validates a hypothesis that the user sought


to confirm. An interesting pattern represents knowledge. Several objective measures of pattern
interestingness exist. These are based on the structure of discovered patterns and the statistics
underlying them. An objective measure for association rules of the form X Y is rule support,
representing the percentage of transactions from a transaction database that the given rule
satisfies. This is taken to be the probability P(X Y), where X Y indicates that a transaction
contains both X and Y, that is, the union of itemsets X and Y. Another objective measure for
association rules is confidence, which assesses the degree of certainty of the detected
association. This is taken to be the conditional probability P(Y|X), that is, the probability that a
transaction containing X also contains Y. More formally, support and confidence are defined as
support(X Y) = P(X Y)
confidence(X Y) = P(Y|X).
In general, each interestingness measure is associated with a threshold, which may be
controlled by the user. For example, rules that do not satisfy a confidence threshold of, say,
50% can be considered uninteresting. Rules below the threshold likely reflect noise, exceptions,
or minority cases and are probably of less value. Although objective measures help identify
interesting patterns, they are insufficient unless combined with subjective measures that reflect
the needs and interests of a particular user. For example, patterns describing the characteristics
of customers who shop frequently at AllElectronics should interest the marketing manager, but
may be of little interest to analysts studying the same database for patterns on employee
performance. Furthermore, many patterns that are interesting by objective standards may
represent common knowledge and, therefore, are actually uninteresting. Subjective
interestingness measures are based on user beliefs in the data. These measures find patterns
interesting if they are unexpected (contradicting a users belief) or offer strategic information
on which the user can act. In the latter case, such patterns are referred to as actionable. Patterns
that are expected can be interesting if they confirm a hypothesis that the user wished to validate,
or resemble a users hunch.
The second questionCan a data mining system generate all of the interesting patterns?
refers to the completeness of a data mining algorithm. It is often unrealistic and inefficient for
data mining systems to generate all of the possible patterns. Instead, user-provided constraints
and interestingness measures should be used to focus the search. For some mining tasks, such
as association, this is often sufficient to ensure the completeness of the algorithm. Association
rule mining is an example where the use of constraints and interestingness measures can ensure
the completeness of mining. The methods involved are examined in detail in Chapter 5. Finally,
the third questionCan a data mining system generate only interesting patterns? is an
optimization problem in data mining. It is highly desirable for data mining systems to generate
only interesting patterns. This would be much more efficient for users and data mining systems,
because neither would have to search through the patterns generated in order to identify the
truly interesting ones. Progress has been made in this direction; however, such optimization
remains a challenging issue in data mining.
dan (4) novel. Pola juga menarik jika memvalidasi hipotesis yang dicari pengguna untuk
mengkonfirmasi. Pola yang menarik mewakili pengetahuan. Ada ketertarikan dari beberapa
ukuran objektif pada pola . Ini didasarkan pada struktur pola yang ditemukan dan statistik yang
mendasarinya. Ukuran objektif untuk aturan asosiasi dari bentuk X Y adalah dukungan
aturan, yang mewakili persentase transaksi dari database transaksi yang memenuhi aturan yang
diberikan. Ini diambil sebagai probabilitas P (X Y), di mana X Y menunjukkan bahwa
sebuah transaksi berisi X dan Y, yaitu gabungan dari itemset X dan Y. Ukuran tujuan lain untuk
aturan asosiasi adalah kepercayaan, yang menilai tingkat kepastian asosiasi yang terdeteksi.
Hal ini dianggap sebagai probabilitas bersyarat P (Y | X), yaitu probabilitas bahwa transaksi
yang mengandung X juga mengandung Y. Secara lebih formal, dukungan dan kepercayaan
didefinisikan sebagai:
support(X Y) = P(X Y)
confidence(X Y) = P(Y|X).
Secara umum, setiap ukuran menarik dikaitkan dengan ambang batas, yang mungkin
dikendalikan oleh pengguna. Misalnya, peraturan yang tidak memenuhi ambang batas
kepercayaan, katakanlah, 50% bisa dianggap tidak menarik. Aturan di bawah ambang batas
mungkin mencerminkan kebisingan, pengecualian, atau kasus minoritas dan mungkin nilainya
kurang. Meskipun ukuran yang objektif membantu mengidentifikasi pola yang menarik, namun
tidak memadai kecuali dikombinasikan dengan tindakan subjektif yang mencerminkan
kebutuhan dan kepentingan pengguna tertentu. Misalnya, pola yang menggambarkan
karakteristik pelanggan yang sering berbelanja di AllElectronics harus menarik minat manajer
pemasaran, namun mungkin sedikit diminati oleh analis yang mempelajari database yang sama
untuk pola kinerja karyawan. Selanjutnya, banyak pola yang menarik menurut standar objektif
dapat mewakili pengetahuan umum dan oleh karena itu, sebenarnya tidak menarik. Tindakan
penarikan subyektif didasarkan pada kepercayaan pengguna terhadap data. Langkah-langkah
ini menemukan pola yang menarik jika tidak terduga (bertentangan dengan kepercayaan
pengguna) atau menawarkan informasi strategis dimana pengguna dapat bertindak. Dalam
kasus terakhir, pola semacam itu disebut sebagai tindakan yang dapat ditindaklanjuti. Pola yang
diharapkan bisa menarik jika mereka mengkonfirmasi hipotesis bahwa pengguna ingin
memvalidasi, atau menyerupai firasat pengguna.
Pertanyaan kedua"Bisakah sebuah sistem data mining menghasilkan semua pola yang
menarik?" mengacu pada kelengkapan algoritma data mining. Hal ini sering tidak realistis
dan tidak efisien untuk sistem data mining untuk menghasilkan semua kemungkinan pola.
Sebagai gantinya, batasan yang diberikan pengguna dan tindakan menarik harus digunakan
untuk memfokuskan pencarian. Untuk beberapa tugas penambangan, seperti asosiasi, hal ini
seringkali cukup untuk memastikan kelengkapan algoritma. Aturan asosiasi pertambangan
adalah contoh dimana penggunaan batasan dan tindakan menarik dapat memastikan
kelengkapan pertambangan. Metode yang digunakan diperiksa secara rinci pada Bab 5.
Akhirnya, pertanyaan ketiga"Bisakah sistem data mining menghasilkan hanya pola
menarik?" Adalah masalah optimasi dalam data mining. Hal ini sangat diinginkan agar sistem
data mining hanya menghasilkan pola yang menarik. Ini akan jauh lebih efisien bagi pengguna
dan sistem data mining, karena keduanya tidak harus mencari melalui pola yang dihasilkan
untuk mengidentifikasi yang benar-benar menarik. Kemajuan telah dibuat dalam arah ini;
Namun, pengoptimalan semacam itu tetap menjadi isu yang menantang dalam data mining.

You might also like