This document discusses interestingness measures for patterns discovered during data mining. It describes two objective measures - support and confidence - which assess the percentage of transactions that satisfy an association rule and the conditional probability of a rule. Subjective measures consider patterns that are unexpected or offer strategic information to users. While data mining systems aim to generate only interesting patterns, it is challenging to optimize for interestingness alone given different users may find different patterns interesting.
This document discusses interestingness measures for patterns discovered during data mining. It describes two objective measures - support and confidence - which assess the percentage of transactions that satisfy an association rule and the conditional probability of a rule. Subjective measures consider patterns that are unexpected or offer strategic information to users. While data mining systems aim to generate only interesting patterns, it is challenging to optimize for interestingness alone given different users may find different patterns interesting.
This document discusses interestingness measures for patterns discovered during data mining. It describes two objective measures - support and confidence - which assess the percentage of transactions that satisfy an association rule and the conditional probability of a rule. Subjective measures consider patterns that are unexpected or offer strategic information to users. While data mining systems aim to generate only interesting patterns, it is challenging to optimize for interestingness alone given different users may find different patterns interesting.
A pattern is also interesting if it validates a hypothesis that the user sought
to confirm. An interesting pattern represents knowledge. Several objective measures of pattern interestingness exist. These are based on the structure of discovered patterns and the statistics underlying them. An objective measure for association rules of the form X Y is rule support, representing the percentage of transactions from a transaction database that the given rule satisfies. This is taken to be the probability P(X Y), where X Y indicates that a transaction contains both X and Y, that is, the union of itemsets X and Y. Another objective measure for association rules is confidence, which assesses the degree of certainty of the detected association. This is taken to be the conditional probability P(Y|X), that is, the probability that a transaction containing X also contains Y. More formally, support and confidence are defined as support(X Y) = P(X Y) confidence(X Y) = P(Y|X). In general, each interestingness measure is associated with a threshold, which may be controlled by the user. For example, rules that do not satisfy a confidence threshold of, say, 50% can be considered uninteresting. Rules below the threshold likely reflect noise, exceptions, or minority cases and are probably of less value. Although objective measures help identify interesting patterns, they are insufficient unless combined with subjective measures that reflect the needs and interests of a particular user. For example, patterns describing the characteristics of customers who shop frequently at AllElectronics should interest the marketing manager, but may be of little interest to analysts studying the same database for patterns on employee performance. Furthermore, many patterns that are interesting by objective standards may represent common knowledge and, therefore, are actually uninteresting. Subjective interestingness measures are based on user beliefs in the data. These measures find patterns interesting if they are unexpected (contradicting a users belief) or offer strategic information on which the user can act. In the latter case, such patterns are referred to as actionable. Patterns that are expected can be interesting if they confirm a hypothesis that the user wished to validate, or resemble a users hunch. The second questionCan a data mining system generate all of the interesting patterns? refers to the completeness of a data mining algorithm. It is often unrealistic and inefficient for data mining systems to generate all of the possible patterns. Instead, user-provided constraints and interestingness measures should be used to focus the search. For some mining tasks, such as association, this is often sufficient to ensure the completeness of the algorithm. Association rule mining is an example where the use of constraints and interestingness measures can ensure the completeness of mining. The methods involved are examined in detail in Chapter 5. Finally, the third questionCan a data mining system generate only interesting patterns? is an optimization problem in data mining. It is highly desirable for data mining systems to generate only interesting patterns. This would be much more efficient for users and data mining systems, because neither would have to search through the patterns generated in order to identify the truly interesting ones. Progress has been made in this direction; however, such optimization remains a challenging issue in data mining. dan (4) novel. Pola juga menarik jika memvalidasi hipotesis yang dicari pengguna untuk mengkonfirmasi. Pola yang menarik mewakili pengetahuan. Ada ketertarikan dari beberapa ukuran objektif pada pola . Ini didasarkan pada struktur pola yang ditemukan dan statistik yang mendasarinya. Ukuran objektif untuk aturan asosiasi dari bentuk X Y adalah dukungan aturan, yang mewakili persentase transaksi dari database transaksi yang memenuhi aturan yang diberikan. Ini diambil sebagai probabilitas P (X Y), di mana X Y menunjukkan bahwa sebuah transaksi berisi X dan Y, yaitu gabungan dari itemset X dan Y. Ukuran tujuan lain untuk aturan asosiasi adalah kepercayaan, yang menilai tingkat kepastian asosiasi yang terdeteksi. Hal ini dianggap sebagai probabilitas bersyarat P (Y | X), yaitu probabilitas bahwa transaksi yang mengandung X juga mengandung Y. Secara lebih formal, dukungan dan kepercayaan didefinisikan sebagai: support(X Y) = P(X Y) confidence(X Y) = P(Y|X). Secara umum, setiap ukuran menarik dikaitkan dengan ambang batas, yang mungkin dikendalikan oleh pengguna. Misalnya, peraturan yang tidak memenuhi ambang batas kepercayaan, katakanlah, 50% bisa dianggap tidak menarik. Aturan di bawah ambang batas mungkin mencerminkan kebisingan, pengecualian, atau kasus minoritas dan mungkin nilainya kurang. Meskipun ukuran yang objektif membantu mengidentifikasi pola yang menarik, namun tidak memadai kecuali dikombinasikan dengan tindakan subjektif yang mencerminkan kebutuhan dan kepentingan pengguna tertentu. Misalnya, pola yang menggambarkan karakteristik pelanggan yang sering berbelanja di AllElectronics harus menarik minat manajer pemasaran, namun mungkin sedikit diminati oleh analis yang mempelajari database yang sama untuk pola kinerja karyawan. Selanjutnya, banyak pola yang menarik menurut standar objektif dapat mewakili pengetahuan umum dan oleh karena itu, sebenarnya tidak menarik. Tindakan penarikan subyektif didasarkan pada kepercayaan pengguna terhadap data. Langkah-langkah ini menemukan pola yang menarik jika tidak terduga (bertentangan dengan kepercayaan pengguna) atau menawarkan informasi strategis dimana pengguna dapat bertindak. Dalam kasus terakhir, pola semacam itu disebut sebagai tindakan yang dapat ditindaklanjuti. Pola yang diharapkan bisa menarik jika mereka mengkonfirmasi hipotesis bahwa pengguna ingin memvalidasi, atau menyerupai firasat pengguna. Pertanyaan kedua"Bisakah sebuah sistem data mining menghasilkan semua pola yang menarik?" mengacu pada kelengkapan algoritma data mining. Hal ini sering tidak realistis dan tidak efisien untuk sistem data mining untuk menghasilkan semua kemungkinan pola. Sebagai gantinya, batasan yang diberikan pengguna dan tindakan menarik harus digunakan untuk memfokuskan pencarian. Untuk beberapa tugas penambangan, seperti asosiasi, hal ini seringkali cukup untuk memastikan kelengkapan algoritma. Aturan asosiasi pertambangan adalah contoh dimana penggunaan batasan dan tindakan menarik dapat memastikan kelengkapan pertambangan. Metode yang digunakan diperiksa secara rinci pada Bab 5. Akhirnya, pertanyaan ketiga"Bisakah sistem data mining menghasilkan hanya pola menarik?" Adalah masalah optimasi dalam data mining. Hal ini sangat diinginkan agar sistem data mining hanya menghasilkan pola yang menarik. Ini akan jauh lebih efisien bagi pengguna dan sistem data mining, karena keduanya tidak harus mencari melalui pola yang dihasilkan untuk mengidentifikasi yang benar-benar menarik. Kemajuan telah dibuat dalam arah ini; Namun, pengoptimalan semacam itu tetap menjadi isu yang menantang dalam data mining.