You are on page 1of 12

International Journal of Engineering Research & Technology (IJERT

)
ISSN: 2278-0181
Vol. 1 Issue 6, August - 2012

Classification and Feature Selection Techniques in Data Mining
Sunita Beniwal*, Jitender Arora
Department of Information Technology, Maharishi Markandeshwar University, Mullana,
Ambala-133203, India

Abstract
Data mining is a form of knowledge discovery
essential for solving problems in a specific domain.
Classification is a technique used for discovering
classes of unknown data. Various methods for
classification exists like bayesian, decision trees, rule
based, neural networks etc. Before applying any
mining technique, irrelevant attributes needs to be
filtered. Filtering is done using different feature
selection techniques like wrapper, filter, embedded
technique. This paper is an introductory paper on
different techniques used for classification and
feature selection.

deeply buried in the data to help in the process of
decision making.
The data mining tasks can be broadly classified in two
categories: descriptive and predictive. Descriptive
mining tasks characterize the general properties of the
data in the database. Predictive mining tasks perform
inference on the current data in order to make
predictions. According to different goals, the mining
task can be mainly divided into four types:
class/concept description, association analysis,
classification or prediction and clustering analysis
[4].
This paper provides a survey of various feature
selection techniques and classification techniques
used for mining.

Keywords: KDD, Preprocessing, Neural Networks,
Decision trees

2. Data Preprocessing

1. Introduction
As the world grows in complexity, overwhelming us
with the data it generates, data mining becomes the
only hope for elucidating the patterns that underlie it
[1]. The manual process of data analysis becomes
tedious as size of data grows and the number of
dimensions increases, so the process of data analysis
needs to be computerised.
The term Knowledge Discovery from data (KDD)
refers to the automated process of knowledge
discovery from databases. The process of KDD is
comprised of many steps namely data cleaning, data
integration, data selection, data transformation, data
mining, pattern evaluation
and knowledge
representation.
Data mining is a step in the whole process of
knowledge discovery which can be explained as a
process of extracting or mining knowledge from large
amounts of data [2]. Data mining is a form of
knowledge discovery essential for solving problems
in a specific domain. Data mining can also be
explained as the non trivial process that automatically
collects the useful hidden information from the data
and is taken on as forms of rule, concept, pattern and
so on [3]. The knowledge extracted from data mining,
allows the user to find interesting patterns and
regularities

Data available for mining is raw data. Data may be in
different formats as it comes from different sources,
it may consist of noisy data, irrelevant attributes,
missing data etc. Data needs to be pre processed
before applying any kind of data mining algorithm
which is done using following steps [5]:
Data Integration – If the data to be mined comes from
several different sources data needs to be integrated
which involves removing inconsistencies in names of
attributes or attribute value names between data sets
of different sources.
Data Cleaning –This step may involve detecting and
correcting errors in the data, filling in missing values,
etc. Some data cleaning methods are discussed in
[6,7].
Discretization –When the data mining algorithm
cannot cope with continuous attributes, discretization
needs to be applied. This step consists of
transforming a continuous attribute into a categorical
attribute, taking only a few discrete values.
Discretization often improves the comprehensibility
of the discovered knowledge [8, 9].
Attribute Selection – not all attributes are relevant so
for selecting a subset of attributes relevant for mining,
among all original attributes, attribute selection is
required.

www.ijert.org

1

The major characteristic of the wrapper approach is that the quality of an attribute subset is directly measured by the performance of the data mining algorithm applied to that attribute subset. or semi-supervised. aiming at the incorporation of feature dependencies to some degree. semi-supervised learning is usually used when a small subset of labeled examples is available. embedded approaches are thus specific to a given learning algorithm. www. In unsupervised learning.scoring features are removed. unsupervised. 1 Issue 6. and as the filter approach is independent of the mining algorithm so feature selection needs to be performed only once. Attribute selection methods can be broadly divided into filter and wrapper approaches. Therefore feature selection techniques needs to be applied before any kind of mining algorithm is applied. Advantages of wrapper approaches include the interaction between feature subset search and model selection. and can be seen as a search in the combined space of feature subsets and hypotheses. Embedded methods have the advantage that they include the interaction with the classification model. a number of multivariate filter techniques were introduced.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. The subset of features left after feature removal is presented as input to the classification algorithm. and various subsets of features are generated and evaluated. The goal attribute can take on categorical values. Another category of feature selection technique was also introduced. the wrapper approach becomes even more computationally expensive [11]. the labels of the examples in the dataset are unknown. In order to overcome the problem of ignoring feature dependencies.ijert. as the data mining algorithm is applied to each attribute subset considered by the search. while at the same time being far less computationally intensive than wrapper methods [12]. August . Wrapper methods embed the model hypothesis search within the feature subset search. In addition. a search procedure in the space of possible feature subsets is defined. and the algorithm typically aims at grouping examples according to the similarity of their attribute values. The labels can be nominal values in the case of the classification task. termed embedded technique in which search for an optimal subset of features is built into the classifier construction. The wrapper approach tends to be much slower than the filter approach. the algorithm works with a set of examples whose labels are known. Disadvantages of filter methods are that they ignore the interaction with the classifier and that most proposed techniques are univariate which means that each feature is considered separately. The classification task can be seen as a supervised technique where each instance belongs to a class. 4. In this setup. first optimal feature subset is to be found and the model parameters are to be optimised [10]. So they need to be removed. thereby ignoring feature dependencies. which is indicated by the value of a special goal attribute or simply the class attribute.org 2 . and low. A common drawback of these techniques is that they have a higher risk of overfitting than filter techniques and are very computationally intensive. Also many mining algorithms don’t perform well with large amounts of features or attributes. if several different data mining algorithms are to be applied to the data. together with a large number of unlabeled examples. or numerical values in the case of the regression task. In the filter approach the attribute selection method is independent of the data mining algorithm to be applied to the selected attributes and assess the relevance of features by looking only at the intrinsic properties of the data. Finally. The main objectives of feature selection are to avoid overfitting and improve model performance and to provide faster and more cost-effective models. In supervised learning. Just like wrapper approaches. In most cases a feature relevance score is calculated. and the ability to take into account feature dependencies. and then different classifiers can be evaluated. which may lead to worse classification performance when compared to other types of feature selection techniques. Classification Data mining algorithms can follow three different learning approaches: supervised. The selection of optimal features adds an extra layer of complexity in the modelling as instead of just finding optimal parameters for full set of features. in contrast. Feature Selection Many irrelevant attributes may be present in data to be mined. Advantages of filter techniques are that they easily scale to highdimensional datasets are computationally simple and fast. In the wrapper approach the attribute selection method uses the result of the data mining algorithm to determine how good a given attribute subset is. characterizing a clustering task.2012 3.

The outcome of the test determines the branch traversed. Various techniques used for classification are explained in the following section. the directed acyclic graph G consisting of nodes and arcs and the conditional probability tables. and it uses that information to build a classification model. August .5 Artificial Neural Network An artificial neural network.2012 each of them corresponding to a class.org 3 . This model represents classification knowledge – essentially. During learning. greater weights are given to closer points [17]. and the rule consequent. specifies the class predicted by the rule for any example that satisfies the conditions in the rule antecedent. The rules are composed of two parts mainly rule antecedent and rule consequent. At the root node and at each internal node.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. is the if part. 5. The class for the instance is the class of the final leaf node [16]. BNs provide a flexible method for probabilistic modeling [15]. In the classification task the set of examples being mined is divided into two mutually exclusive and exhaustive sets. The former are used to predict the value of the latter. the most well known being the decision tree induction algorithms and sequential covering rule induction algorithms [13]. Sparse BNs can represent simple probabilistic models (e. and the next node visited. 5.2 Bayesian Networks A Bayesian network (BN) consists of a directed. b) the leaf nodes. acyclic graph and a probability distribution for each node in that graph given its immediate predecessors [14]. The knowledge discovered by a classification algorithm can be expressed in many different ways like rules. the k.1 Rule Based Classifiers 5. A Nearest Neighbor Classifier assumes all instances correspond to points in the n-dimensional space. when a classification model is built from the training set. when the model is evaluated on the test set. and testing. Bayesian network etc. specifies a set of conditions referring to predictor attribute values. The classification process is correspondingly divided into two phases: training. For the sake of increasing accuracy. Basically. When a new point is classified. successive internal nodes are visited until a leaf node is reached. To determine the class for a new instance using a decision tree. Each example consists of two parts. all instances are remembered.g. The predictor attributes should be relevant for predicting the class of an instance.4 Nearest Neighbour Rule based classifiers deals with the the discovery of high-level. 5. 1 Issue 6. decision trees.nearest points to the new point are found and are used with a weight for determining the class value of the new point.ijert. The rule antecedent. In the training phase the algorithm has access to the values of both predictor attributes and the goal attribute for all examples of the training set. a test is applied. a relationship between predictor attribute values and classes – that allows the prediction of the class of an example given its predictor attribute values. These rules can be generated using different classification algorithms. whereas dense BNs can capture highly complex models. beginning with the root. A Bayes Network Classifier is based on a bayesian network which represents a joint probability distribution over a set of categorical attributes. The density of the arcs in a BN is one measure of its complexity. called the training set and the test set. often just called a neural network is a mathematical model or www. It consists of two parts. The decision tree has two types of nodes: a) the root and the internal nodes. In the testing phase. namely a set of predictor attribute values and a goal attribute value. 5. only after a prediction is made is the algorithm allowed to see the actual class of the justclassified example. each non-leaf node has an outgoing branch for each possible value of the attribute associated with the node. One of the major goals of a classification algorithm is to maximize the predictive accuracy obtained by the classification model when classifying examples in the test set unseen during training. the test set the class values of the examples is not shown. naive Bayes models and hidden Markov models). Classification Techniques 5. Thus. For testing..3 Decision Tree A Decision Tree Classifier consists of a decision tree generated on the basis of instances. The nodes represent attributes whereas the arcs indicate direct dependencies. leaf nodes are associated with classes. the then part. easy-to-interpret classification rules of the form if-then. The root and the internal nodes are associated with attributes.

Any union of some elementary sets is referred to as a crisp or precise set . evaluates significance of data. The output of SVM classification is the decision values of each pixel for each class. The SVM separates the classes with a decision surface that maximizes the margin between the classes. From a simplified perspective. i. allows both qualitative and quantitative data. a neuron takes positive and negative stimuli (numerical values) from other neurons and when the weighted sum of the stimuli is greater than a given threshold value. Fuzzy Logic consists of Type 1 and Type 2 fuzzy logic. Obviously rough sets.6 Support vector machines Support Vector Machines [19] are basically binary classification algorithms.. 5. and the sum of these values for each pixel equals 1. Rough set approach to data analysis has many important advantages like provides efficient algorithms for finding hidden patterns in data. With any rough set a pair of precise sets . in contrast to precise sets. image classification. SVM can function as a multiclass classifier by combining several binary SVM classifiers. August . where binary sets have two valued logic. it activates itself. cannot be characterized in terms of information about their elements. The mechanism that defines the mapping process is called the kernel function. A Type-2 membership grade can be any subset in the primary membership. identifies relationships that would not be found using statistical methods. by employing the available knowledge. Fuzzy logic is a superset of conventional Boolean logic that has been extended to handle the concept of partial truth. hand-written character recognition. the non-linear transformation is adapted by some continuous functions. It creates a soft margin that permits some misclassifications. Each rough set has boundary-line cases. and the data points closest to the hyperplane are called support vectors. objects which cannot be with certainty classified. A Neural Network Classifier is based on neural networks consisting of interconnected neurons. biosequences analysis. The surface is often called the optimal hyperplane. Fuzzy logic variables have truth value in the range between 0 and 1.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol.called the lower and the upper approximation of the rough set is associated. Increasing the value of the penalty parameter increases the cost of misclassifying points and forces the creation of a more accurate model that may not generalize well [20]. Type 1 fuzzy contains the constant values. which are used for probability estimates. 1 Issue 6. A Type-2 Fuzzy Logic is an extension of Type 1 Fuzzy Logic in which the fuzzy sets comes from Existing Type 1 Fuzzy. A type-2 fuzzy set contains the grades of membership that are themselves fuzzy. in other words. such as it allows some training points on the wrong side of the hyperplane. The difference between the upper and the lower approximation constitutes the boundary region of the rough set. In more advanced models. The output value of the neuron is usually a non-linear transformation of the sum of stimuli. The penalty parameter controls the trade-off between allowing training errors and forcing rigid margins.otherwise the set is rough (imprecise. 5. The lower approximation consists of all objects which surely belong to the set and the upper approximation contains all objects which possible belong to the set.2012 computational model based on biological neural networks. It has been applied successfully in fields such as text categorisation. The probability values represent "true" probability in the sense that each probability falls in the range of 0 to 1.e. vague). finds minimal sets of data (data reduction). etc.7 Rough Sets Any set of all indiscernible (similar) objects is called an elementary set. SVM includes a penalty parameter that allows a certain degree of misclassification. For each primary membership there exists a secondary membership that defines the www. The support vectors are the critical elements of the training set. easy to understand [21]. as members of the set or its complement. which is particularly important for nonseparable training sets. 5. A membership function (MF) is a curve that defines how each point in the input space is mapped to a membership value (or degree of membership) between 0 and 1. In most cases an ANN is an adaptive system that changes its structure based on external or internal information that flows through the network during the learning phase [18]. The SVM can be adapted to become a nonlinear classifier through the use of nonlinear kernels. Support Vector Machines (SVM) is a classification system derived from statistical learning theory.8 Fuzzy Logic Fuzzy logic is a multivalued logic different from "crisp logic". Classification is then performed by selecting the highest probability. is an emulation of biological neural system.ijert.org 4 .

e. Han and M. Smyth P and Uthurusamy R. The input of the fitness function is the chromosome and the output is the fitness value of this chromosome. N.9 Genetic algorithms Genetic Algorithms (GA) are search algorithms based on natural genetics that provide robust search capabilities in complex spaces.A.L. Goodman. “An Efficient Bayesian Method for Predicting Clinical Outcomes from Genome-Wide Data”. “Integrating inductive and deductive reasoning for data mining”.1991. Data mining concepts and techniques. Chauhan. to be used as parents for the next generation.A. Larranaga. where a temporary population is created in which the fittest individuals are likely to have a higher number of chances than less fit individuals. 2007. Livezey B and R. L. i. 2. 1999 [6] I. Catlett. “Neural Networks in Data Mining”. Type-2 Fuzzy is computationally intensive because type reduction is very intensive. Wei and Q. 353373 [8] B. 353. “Application of genetic algorithm in data mining”. Mitchell. Darwiche. In: Fayyad UM. A chromosome is evaluated by a fitness function to determine the quality of the solution. IEEE Transactions On Evolutionary Computation. Springer-Verlag. The reproductive operators like crossover and mutation are applied to the individuals in this population yielding a new population [26]. Yan. H. Springer-Verlag. Singh Y.. Saeys. August . 84-95 [11] M. vol. which enables us to represent the solution as a chromosome and vice versa. Visweswaran and M. Type-2 Fuzzy Logic can handle rule uncertainties effectively and efficiently [22]. Burlington 2011 [2] J. pp. 2507–17. IEEE 2. A. “Dimensionality Reduction Using Genetic Algorithms”. AMIA 2010 Symposium Proceedings. Machine Learning. 1st Int Work Educ Technol Comput Sci. 1996. San Francisco.. pp 164-178 [10] W. Kuhn and A. In each cycle. 1st Vol. Modeling and Reasoning with Bayesian Networks. E. the population is randomly generated. 7. a fitness value that reflects its quality with respect to solving the particular problem.ijert.356 [4] Z.L. Jain. Springer. The next stage is selection. Punch. The type-2 fuzzy sets are called as “fuzzy fuzzy” sets where the fuzzy degree of membership is fuzzy itself that results from Type 1 Fuzzy [24]. thereby offering a valid approach to problems requiring efficient and effective search processes [25]. Lecture Notes in Computer Science 2837. Smyth P and Uthurusamy R. Conf. E. “A review of feature selection techniques in bioinformatics”. Beijing. Machine Learning. (Eds.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. 2010. 1997 [18] Y. Kamber. Meulder and B. Hennings-Yeomans. 5. 2005. [9] J. Kerber R . 37-42 www..203 [7] E. Naudts. Hoste. how effective it is in solving the problem. An Evolutionary Computation Approach. pp.F. Witten. “On changing continuous attributes into ordered discrete attributes”. New York. B. Croatia. USA. 2003. [13] G. Morgan Kaufmann publisher. pp. Proc. 187 – 214 [17] T. 12th Int. Automating the Design of Data Mining Algorithms. Kodratoff (ed). 1996. Type 2 Fuzzy sets are again characterized by IF–THEN rules [23].S. Rastogi and K.D. Natural Computing Series. “Building Decision Trees with Constraints”.org 5 . Cambridge University Press. pp. by means of a fitness function. Pyle. References: [1] I. Hyun. Data mining practical machine learning tools and techniques.M. Pappa and A. AAAI/MIT Press. Data preparation for data mining.Z. 127-131 [16] M.H. Every individual in the population is assigned. San Francisco 2006 [3] T. Tsinghua University Press. 2009.F. pp. Shim. 456-463.2012 possibilities for the primary membership. 4. AAAI/MIT Press. 2000 [12] Y. Raymer. 2. Barmada. 2009 [15] G. “Discovering informative patterns and data cleaning”. no. i. pp. Vapnik. Proceedings of the 14th European Conference on Machine Learning (ECML-2003). D. V. “Supervised and unsupervised discretization of continuous features”. Piatetsky-Shapiro G. Shan. Data Mining and Knowledge Discovery. a set of candidate solutions. W. Freitas. Matic and V.e.) Advances in knowledge discovery and data mining. Bioinformatics-19.D. GA is an iterative process that operates on a population. CavtatDubrovnik. Simoudis. Guyon. 2003. California. Inza and P. fitness of each candidate solution is determined. S. Daelemans. Initially. pp. “Combined Optimization of Feature Selection and Algorithm Parameter Interaction in Machine Learning of Language”.J. Each solution is obtained by means of an encoding/decoding mechanism. Type-2 fuzzy is used for modeling uncertainty and imprecision in a better way. 181. Hall. Garofalakis. In Y. 2010 [14] A. pp. Piatetsky-Shapiro G. Morgan Kaufmann publisher. Vol. 1995. California. Frank and M. Knowledge discovery. pp. Cooper. F. (ed) Advances in knowledge discovery and data mining. Morgan Kaufmann. Machine Learning—EWSL-91. 1 Issue 6.K. Shi. I. In: Fayyad UM. R. Type-1 Fuzzy Logic is unable to handle rule uncertainties. No. Journal of Theoretical and Applied Information Technology.A. 2001 [5] D. Pfahringer. McGraw-Hill Companies. P.

74-81 [23] N. MI. Chang and C. O. pp. 643-658 [24] J. J. Ann Arbor. pp. University of Michigan Press.. Kim. Goldberg. “A practical guide to support vector classification”. “Type-2 Fuzzy Logic Systems”. Tari.G. 7. Mendel and Q. “Rough sets”.C. 341. 1999.org 42(1). August . Statistical Learning Theory. Martínez. “Fuzzy c-means clustering with prior biological knowledge”.356 [22] L.csie. 1982. Addison. 6.R.Wesley. Genetic algorithms in search.N. No. Vapnik.2012 [19] V. Castillo and L. Journal of Biomedical Informatics. 2009.J.edu. Engineering Letters 15(1).pdf. 2003 [21] Z.1975 [26] D. Vol.W. C. 2007. Liang. Karnik.E. Hsu. 1 Issue 6. N. optimization and machine learning. http://www. NewYork. www. International Journal of Computer and Information Sciences. IEEE Transactions on Fuzzy Systems. pp.ijert. 1998 [20] C. Castro. Pawlak. Wiley New York.H.M. Baral and S. 89-98 [25] J.tw/~cjlin/papers/guide/guide . C. “Interval Type-2 Fuzzy Logic Toolbox”. 1989 6 .International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. Holland. Lin. Adaptation in Natural and Artificial Systems.ntu.

Klasifikasi adalah teknik yang digunakan untuk menemukan kelas data yang tidak diketahui. tugas mining dapat terutama dibagi menjadi empat jenis: kelas / deskripsi konsep. Data mining juga dapat dijelaskan sebagai proses non sepele yang secara otomatis mengumpulkan informasi tersembunyi yang berguna dari data dan diambil sebagai bentuk pemerintahan. 9]. Maharishi Markandeshwar University. Proses manual analisis data menjadi membosankan seperti ukuran data tumbuh dan jumlah dimensi meningkat.Jika data yang akan ditambang berasal dari beberapa sumber data yang berbeda perlu diintegrasikan yang melibatkan menghapus inkonsistensi dalam nama atribut atau nama nilai atribut antara set data sumber yang berbeda. dll Beberapa metode pembersihan data yang dibahas dalam [6. Jitender Arora Departemen Teknologi Informasi. Networks. Discretization sering meningkatkan comprehensibility pengetahuan ditemukan [8. Makalah ini memberikan sebuah survei dari berbagai teknik seleksi fitur dan teknik klasifikasi yang digunakan untuk mining. Preprocessing. atribut yang tidak relevan. embedded technique. Ambala-133203. diskritisasi perlu diterapkan. integrasi data. seleksi data. mengisi nilai-nilai yang hilang. klasifikasi atau prediksi dan analisis pengelompokan [4]. Mullana. 2. analisis asosiasi. Menurut tujuan yang berbeda. mungkin terdiri dari data yang bising. data yang hilang dll data perlu pra diproses sebelum menerapkan jenis algoritma data mining yang dilakukan dengan menggunakan langkah-langkah berikut [5] : Integrasi Data . Pengantar Sebagai kompleksitas yang tumbuh di dunia. 1 Edisi 6 Agustus . konsep. pemilihan atribut diperlukan. Tugas data mining dapat secara luas diklasifikasikan dalam dua kategori: deskriptif dan prediktif. India Abstrak Data mining adalah bentuk penemuan pengetahuan penting untuk memecahkan masalah dalam domain tertentu. Sebelum menerapkan teknik mining apapun. Proses KDD terdiri dari banyak langkah yaitu data yang membersihkan. Data mining adalah bentuk penemuan pengetahuan penting untuk memecahkan masalah dalam domain tertentu. data mining. di antara semua atribut asli. Langkah ini terdiri dari mengubah atribut kontinyu menjadi atribut kategorikal. jaringan saraf dll. Data Preprocessing Data tersedia untuk mining data mentah. transformasi data. Data mungkin dalam format yang berbeda karena berasal dari sumber yang berbeda. pohon keputusan Neural 1. Berbagai metode untuk klasifikasi ada seperti bayesian. Tugas mining prediksi melakukan inferensi pada data saat ini untuk membuat prediksi.2012 Klasifikasi dan Teknik Seleksi Fitur di Data Mining Sunita Beniwal*.7]. evaluasi pola dan representasi pengetahuan. sehingga proses analisis data perlu terkomputerisasi. Istilah Knowledge Discovery from Data (KDD) mengacu pada proses otomatis penemuan pengetahuan dari database.ijert. Data Cleaning -Ini langkah mungkin melibatkan mendeteksi dan mengoreksi kesalahan dalam data. Tugas mining deskriptif mengkarakterisasi sifat umum dari data dalam database. data mining menjadi satu-satunya harapan untuk menjelaskan pola yang mendasari itu [1]. Kata kunci: KDD. Discretization -Ketika algoritma data mining tidak dapat mengatasi dengan atribut yang berkelanjutan.tidak semua atribut relevan sehingga untuk memilih subset dari atribut yang relevan untuk mining. Atribut Seleksi . berlebihan kita dengan data yang dihasilkannya. atribut yang tidak relevan perlu disaring. pohon keputusan. Tulisan ini merupakan makalah pengantar teknik yang berbeda digunakan untuk klasifikasi dan seleksi fitur. Data mining merupakan langkah dalam seluruh proses penemuan pengetahuan yang dapat dijelaskan sebagai proses penggalian atau pengetahuan mining dari data dalam jumlah besar [2]. mengambil hanya beberapa nilai-nilai diskrit.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. rule based. filter. Penyaringan dilakukan dengan menggunakan teknik seleksi fitur yang berbeda seperti wrapper. pola dan sebagainya [3].org . memungkinkan pengguna untuk menemukan pola yang menarik dan keteraturan terkubur dalam data untuk membantu dalam proses pengambilan keputusan. Pengetahuan diekstraksi dari data mining. 2 www.

belajar semi-supervised biasanya digunakan ketika bagian kecil dari contoh berlabel tersedia. disebut teknik tertanam di mana mencari subset optimal fitur dibangun ke dalam konstruksi classifier. Pendekatan wrapper cenderung jauh lebih lambat dibandingkan dengan pendekatan filter. pertama fitur bagian yang optimal dapat ditemukan dan parameter model yang akan dioptimalkan [10]. Dalam pembelajaran unsupervised. Karakteristik utama dari pendekatan wrapper adalah bahwa kualitas subset atribut langsung diukur dengan kinerja algoritma data mining diterapkan bahwa atribut bagian. Pemilihan fitur optimal menambahkan lapisan tambahan kompleksitas dalam pemodelan sebagai bukan hanya menemukan parameter optimal untuk set lengkap fitur. Atribut tujuan dapat mengambil nilai-nilai kategoris. Di bungkusnya pendekatan metode pemilihan atribut menggunakan hasil dari algoritma data mining untuk menentukan seberapa baik atribut bagian yang diberikan. bertujuan penggabungan fitur dependensi untuk beberapa derajat. Kategori lain dari teknik seleksi fitur juga diperkenalkan. dan algoritma biasanya bertujuan mengelompokkan contoh sesuai dengan kesamaan nilai atribut mereka. Dalam kebanyakan kasus skor relevansi fitur dihitung. Kekurangan metode filter adalah bahwa mereka mengabaikan interaksi dengan classifier dan bahwa teknik yang paling diusulkan adalah univariat yang berarti bahwa setiap fitur dianggap secara terpisah.ijert. Tujuan utama dari seleksi fitur yang menghindari overfitting dan meningkatkan kinerja model dan untuk menyediakan lebih cepat dan model yang lebih efektif biaya. Juga banyak algoritma mining tidak melakukan dengan baik dengan jumlah besar fitur atau atribut. kontras. 4. Metode seleksi atribut dapat dibagi menjadi filter dan wrapper pendekatan. Sama seperti pendekatan wrapper. Klasifikasi Algoritma Data mining dapat mengikuti tiga pendekatan belajar yang berbeda: supervised. sebagai algoritma data mining diterapkan untuk setiap bagian atribut dianggap oleh pencarian. sejumlah teknik penyaring multivariat diperkenalkan. dan sebagai pendekatan filter independen dari algoritma mining sehingga seleksi fitur perlu dilakukan hanya sekali. dan kemudian pengklasifikasi yang berbeda dapat dievaluasi. sementara pada saat yang sama menjadi jauh lebih sedikit komputasi intensif daripada metode wrapper [12]. Metode tertanam memiliki keuntungan bahwa mereka termasuk interaksi dengan model klasifikasi. atau nilai-nilai numerik dalam kasus tugas regresi. Kelemahan umum dari teknik ini adalah bahwa mereka memiliki risiko yang lebih tinggi dari overfitting daripada teknik filter dan sangat komputasi secara intensif. dan kemampuan untuk memperhitungkan fitur akun dependensi. algoritma bekerja dengan satu set contoh yang label dikenal. Keuntungan dari teknik penyaring adalah bahwa mereka mudah skala untuk tinggidataset dimensi yang komputasi sederhana dan cepat. Untuk mengatasi masalah mengabaikan fitur dependensi. bersama dengan sejumlah besar contoh berlabel. Metode wrapper menanamkan pencarian Model hipotesis dalam pencarian fitur bagian. Keuntungan dari pendekatan wrapper termasuk interaksi antara pencari fitur bagian dan pemilihan model. label contoh dalam dataset tidak diketahui. atau semi-supervised. Selain itu. Dalam konfigurasi ini. dan fitur scoring rendah dihapus. Oleh karena itu memiliki teknik seleksi perlu diterapkan sebelum setiap jenis algoritma mining diterapkan. 3 www. Subset fitur kiri setelah penghapusan fitur disajikan sebagai masukan untuk algoritma klasifikasi. unsupervised. dan berbagai himpunan bagian dari fitur dihasilkan dan dievaluasi. Dalam pembelajaran supervised. yang ditandai dengan nilai atribut tujuan khusus atau hanya atribut kelas. 1 Edisi 6 Agustus . Dalam filter mendekati metode seleksi atribut independen dari algoritma data mining yang akan diterapkan pada atribut yang dipilih dan menilai relevansi fitur dengan melihat hanya pada sifat intrinsik dari data. pendekatan wrapper menjadi lebih komputasi mahal [11]. karakteristik tugas clustering.org . jika algoritma beberapa data yang berbeda mining harus diterapkan pada data. Label dapat nilai nominal dalam kasus tugas klasifikasi. pendekatan tertanam demikian khusus untuk algoritma pembelajaran yang diberikan. dan dapat dilihat sebagai pencarian di ruang gabungan subset fitur dan hipotesis. yang dapat menyebabkan kinerja klasifikasi buruk bila dibandingkan dengan jenis lain dari teknik seleksi fitur . Tugas klasifikasi dapat dilihat sebagai teknik yang supervised di mana setiap contoh milik kelas. sehingga mengabaikan dependensi fitur. Akhirnya.2012 3. prosedur pencarian di ruang yang mungkin subset fitur didefinisikan.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. Seleksi Fitur Banyak atribut yang tidak relevan dapat hadir dalam data yang akan ditambang. Jadi mereka perlu dihapus.

5.2 Jaringan Bayesian Sebuah jaringan Bayesian (BN) terdiri dari directed. Node mewakili atribut sedangkan busur menunjukkan dependensi langsung. Kepadatan dari busur dalam BN merupakan salah satu ukuran dari kompleksitas. Proses klasifikasi Sejalan dibagi menjadi dua tahap: pelatihan. Pohon keputusan memiliki dua jenis node: a) akar dan node internal. dan menggunakan informasi tersebut untuk membangun model klasifikasi. Akar dan node internal terkait dengan atribut. dan node berikutnya mengunjungi.org . sedangkan BNS padat dapat menangkap model yang sangat kompleks. Demi meningkatkan akurasi. 5. menentukan kelas diprediksi oleh aturan untuk setiap contoh yang memenuhi kondisi di aturan yg. node internal berturut dikunjungi sampai simpul daun tercapai. Aturan yg. Sebuah Bayes Classifier Jaringan didasarkan pada jaringan Bayesian yang merupakan distribusi probabilitas gabungan lebih dari satu set atribut kategorikal.2012 masing-masing sesuai dengan kelas. Teknik Klasifikasi 5. Atribut prediktor harus relevan untuk memprediksi kelas dari sebuah contoh. Pengetahuan ditemukan oleh algoritma klasifikasi dapat dinyatakan dalam berbagai cara seperti aturan. yang paling terkenal sebagai algoritma induksi pohon keputusan dan aturan meliputi algoritma induksi berurutan [13]. model Bayes naif dan model Markov tersembunyi). 5. maka bagian. bobot lebih besar diberikan untuk poin lebih dekat [17]. Ketika sebuah titik yang baru diklasifikasikan. Model ini merupakan pengetahuan klasifikasi . BNS jarang dapat mewakili model probabilistik sederhana (misalnya. BNS menyediakan metode yang fleksibel untuk pemodelan probabilistik [15]. hubungan antara prediktor nilai atribut dan kelas . Salah satu tujuan utama dari algoritma klasifikasi adalah untuk memaksimalkan akurasi prediksi diperoleh model klasifikasi ketika mengklasifikasikan contoh di set tes tak terlihat selama pelatihan. sering hanya disebut neural network adalah model matematika atau 4 www. Ini terdiri dari dua bagian. Dalam tugas klasifikasi set contoh yang ditambang dibagi menjadi dua set saling eksklusif dan lengkap. Pada tahap pelatihan algoritma memiliki akses ke nilainilai dari kedua atribut prediktor dan atribut tujuan untuk semua contoh training set. semua contoh diingat. yang k poin terdekat dengan titik yang baru ditemukan dan digunakan dengan berat untuk menentukan nilai kelas titik baru. yang disebut training set dan test set. grafik asiklik dan distribusi probabilitas untuk setiap node di grafik yang diberikan pendahulunya terdekatnya [14]. jaringan Bayesian dll Berbagai teknik yang digunakan untuk klasifikasi dijelaskan di bagian berikut. tes mengatur nilai-nilai kelas satu contoh tidak ditampilkan. yang diarahkan grafik G asiklik yang terdiri dari node dan busur dan tabel probabilitas bersyarat. node daun berhubungan dengan kelas. Untuk menentukan kelas untuk contoh baru menggunakan pohon keputusan. Kelas misalnya adalah kelas dari simpul daun akhir [16].yang memungkinkan prediksi kelas dari contoh yang diberikan prediktor yang nilai atribut. mudahmenginterpretasikan aturan klasifikasi bentuk jikamaka.pada dasarnya. ketika model tersebut dievaluasi pada set tes. Dengan demikian.1 Berdasarkan Aturan Classifiers Berdasarkan aturan pengklasifikasi penawaran dengan penemuan tingkat tinggi. Aturan terdiri dari dua bagian terutama memerintah yg memerintah dan konsekuen. Selama belajar. yaitu seperangkat nilai atribut prediktor dan nilai atribut tujuan. 5. Mantan digunakan untuk memprediksi nilai yang terakhir. setiap node non-daun memiliki cabang keluar untuk setiap nilai yang mungkin dari atribut yang berhubungan dengan node. Pada tahap pengujian. Untuk pengujian.5 Artificial Neural Network Jaringan saraf tiruan. Pada dasarnya. 5. menetapkan satu set kondisi mengacu pada prediksi nilai atribut. adalah jika bagian. Aturan-aturan ini dapat dihasilkan dengan menggunakan algoritma klasifikasi yang berbeda. ketika model klasifikasi dibangun dari training set. Hasil tes menentukan cabang dilalui.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. Pada simpul akar dan pada setiap node internal tes diterapkan. Setiap contoh terdiri dari dua bagian.3 Pohon Keputusan Sebuah Pohon Keputusan Classifier terdiri dari pohon keputusan yang dihasilkan atas dasar kasus. setelah prediksi dibuat adalah algoritma diizinkan untuk melihat kelas yang sebenarnya dari contoh hanyabaris. dan pengujian. dimulai dengan akar. 1 Edisi 6 Agustus . b) node daun.ijert. pohon keputusan. dan konsekuen aturan.4 Tetangga Terdekat Sebuah Tetangga Classifier terdekat mengasumsikan semua contoh sesuai dengan poin di ruang n-dimensi.

Permukaan sering disebut hyperplane optimal. 5. Support vectors adalah elemen penting dari training set. Sebuah fungsi keanggotaan (MF) adalah kurva yang mendefinisikan bagaimana setiap titik dalam ruang input dipetakan ke nilai keanggotaan (atau derajat keanggotaan) antara 0 dan 1.jika tidak rough set (tidak tepat. Setiap rough set memiliki kasus batas-line. Variabel fuzzy logic memiliki nilai kebenaran dalam kisaran antara 0 dan 1. Klasifikasi selanjutnya dilakukan dengan memilih probabilitas tertinggi. dll SVM memisahkan kelas dengan permukaan keputusan yang memaksimalkan margin antara kelas. Logika fuzzy adalah superset dari logika Boolean konvensional yang telah diperpanjang untuk menangani konsep kebenaran parsial. Mekanisme yang mendefinisikan proses pemetaan disebut fungsi kernel. Dalam kebanyakan kasus sebuah JST adalah sistem adaptif yang mengubah struktur berdasarkan informasi eksternal maupun internal yang mengalir melalui jaringan selama fase pembelajaran [18]. sebagai anggota himpunan atau pelengkap nya.8 Fuzzy Logic Logika fuzzy adalah logika multivalued berbeda dari "crisp logic". Perbedaan antara atas dan pendekatan yang lebih rendah merupakan wilayah batas rough set. Tipe-2 himpunan fuzzy berisi nilai keanggotaan yang sendirinya fuzzy.6 Support Vector Machines Support Vector Machines [19] pada dasarnya algoritma klasifikasi biner. akan mengaktifkan sendiri. seperti memungkinkan beberapa poin pelatihan di sisi yang salah dari hyperplane tersebut. Nilai-nilai probabilitas mewakili "benar" probabilitas dalam arti bahwa setiap probabilitas jatuh dalam kisaran 0 sampai 1. Sebuah Neural Network Classifier didasarkan pada jaringan saraf yang terdiri dari neuron yang saling berhubungan. Meningkatkan nilai parameter penalti meningkatkan biaya poin misclassifying dan memaksa penciptaan model yang lebih akurat yang mungkin tidak menggeneralisasi baik [20]. Untuk setiap anggota utama terdapat keanggotaan sekunder yang mendefinisikan 5 www. jelas). Ini telah berhasil diterapkan di bidang-bidang seperti kategorisasi teks. Dengan rough set sepasang set yang tepat disebut rendah dan pendekatan atas rough set dikaitkan. Logika Fuzzy terdiri dari tipe 1 dan tipe 2 fuzzy logic. dan jumlah nilai-nilai ini untuk setiap pixel sama 1. 1 Edisi 6 Agustus . mengidentifikasi hubungan yang tidak akan ditemukan dengan menggunakan metode statistik. Nilai output dari neuron biasanya transformasi non-linear dari jumlah rangsangan. Tipe-2 keanggotaan kelas dapat setiap bagian dalam keanggotaan primer. neuron membutuhkan rangsangan positif dan negatif (nilai numerik) dari neuron lain dan ketika jumlah tertimbang dari rangsangan lebih besar dari nilai ambang batas tertentu. Set jelas kasar. SVM termasuk parameter penalti yang memungkinkan tingkat tertentu kesalahan klasifikasi. mudah dimengerti [21]. objek yang tidak dapat dengan pasti diklasifikasikan.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. dan titik data paling dekat dengan hyperplane yang disebut vektor dukungan. SVM dapat disesuaikan untuk menjadi classifier nonlinear melalui penggunaan kernel nonlinier. memungkinkan data kualitatif dan kuantitatif. 5. Dalam model yang lebih maju. SVM dapat berfungsi sebagai classifier multiclass dengan menggabungkan beberapa pengklasifikasi biner SVM.7 Rough Set Setiap set semua dapat dibedakan (mirip) obyek disebut set dasar. tidak dapat dicirikan dalam hal informasi tentang elemen mereka. klasifikasi citra. Setiap serikat beberapa set dasar disebut sebagai satu set renyah atau tepat . menemukan set minimal data (reduksi data). Ini menciptakan margin lunak yang memungkinkan beberapa misclassifications. Parameter penalti mengontrol trade-off antara membiarkan kesalahan pelatihan dan memaksa margin kaku. dengan kata lain. Dari perspektif disederhanakan.2012 Model komputasi berdasarkan jaringan saraf biologis. Support Vector Machines (SVM) adalah sistem klasifikasi yang berasal dari teori belajar statistik.ijert. merupakan emulasi dari sistem saraf biologis. di mana set biner telah dua dihargai logika. mengevaluasi signifikansi data. Pendekatan rough set untuk analisis data memiliki banyak keuntungan penting seperti memberikan algoritma yang efisien untuk menemukan pola-pola tersembunyi dalam data. Semakin rendah pendekatan terdiri dari semua benda yang pasti milik set dan pendekatan atas berisi semua objek yang mungkin milik set. berbeda dengan set yang tepat. Output klasifikasi SVM adalah nilai keputusan setiap pixel untuk setiap kelas.org . dengan menggunakan pengetahuan yang tersedia. yang digunakan untuk estimasi probabilitas. analisis biosequences. pengenalan karakter tulisan tangan. yang sangat penting untuk set pelatihan nonseparable. 5. yaitu. transformasi non-linear disesuaikan dengan beberapa fungsi kontinyu. Tipe 1 Fuzzy mengandung nilai-nilai konstan. Tipe-2 Fuzzy Logic merupakan perpanjangan dari Tipe 1 Fuzzy Logic dimana fuzzy set berasal dari yang ada Tipe 1 Fuzzy.

2003.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. Saeys. pp. D. W. Dalam setiap siklus. Conf. Kuhn and A. Tipe-2 fuzzy digunakan untuk pemodelan ketidakpastian dan ketidaktepatan dalam cara yang lebih baik. California. 1 Edisi 6 Agustus . satu set solusi calon. Shan. Tipe 2 set fuzzy lagi ditandai dengan IF-THEN aturan [23]. pp. AMIA 2010 Symposium Proceedings. Setiap solusi yang diperoleh dengan cara encoding / decoding mekanisme. 2009. 2507–17. 4. Jain. Livezey B and R. Yan. 2001 [5] D. pp. L. Sebuah kromosom dievaluasi oleh fungsi fitness untuk menentukan kualitas solusi.A. Croatia.. Piatetsky-Shapiro G. References: [1] I. Springer-Verlag. 5. [13] G. Barmada. Kodratoff (ed). N.D.9 Algoritma genetika Algoritma genetik (Genetic Algorithms) adalah algoritma pencarian berdasarkan genetika alami yang menyediakan kemampuan pencarian yang kuat di ruang kompleks. Mitchell. San Francisco. 12th Int.) Advances in knowledge discovery and data mining.A. 127-131 [16] M.H. 1995. Shi.ijert. -Type 1 Fuzzy Logic tidak dapat menangani aturan ketidakpastian. 2005.203 [7] E.L. “On changing continuous attributes into ordered discrete attributes”. dengan cara fungsi kebugaran. pp.L. 2000 [12] Y. Morgan Kaufmann. Machine Learning. Kamber. 1st Int Work Educ Technol Comput Sci. Wei and Q. 353373 [8] B. “Supervised and unsupervised discretization of continuous features”. 2010. Frank and M. vol. Pappa and A. Darwiche. [9] J. A. Setiap individu dalam populasi ditugaskan. Vapnik. Witten. Rastogi and K. Simoudis. 353. yaitu. Morgan Kaufmann publisher. Awalnya. 2. di mana populasi sementara dibuat di mana individu fittest cenderung memiliki jumlah yang lebih tinggi dari peluang daripada individu kurang fit. Pyle. B. Tahap berikutnya adalah seleksi. Bioinformatics-19. Cooper. F. Smyth P and Uthurusamy R. Data mining practical machine learning tools and techniques. pp. E. sehingga menawarkan pendekatan yang valid untuk masalah yang memerlukan proses pencarian yang efisien dan efektif [25]. New York. Chauhan. 2010 [14] A. Modeling and Reasoning with Bayesian Networks. V. Garofalakis. Machine Learning—EWSL-91.M.A. “Integrating inductive and deductive reasoning for data mining”. San Francisco 2006 [3] T. E. 2. “Discovering informative patterns and data cleaning”. Larranaga. GA merupakan proses berulang yang beroperasi pada populasi.356 [4] Z. 84-95 [11] M. Beijing. 2009 [15] G.S.J. R. In: Fayyad UM. 187 – 214 [17] T. Data mining concepts and techniques.F. Han and M. Hoste. Raymer. Journal of Theoretical and Applied Information Technology. P. 1999 [6] I. IEEE Transactions On Evolutionary Computation. Natural Computing Series. “Building Decision Trees with Constraints”. 2007. yaitu. Kerber R . In: Fayyad UM. untuk digunakan sebagai orang tua untuk generasi berikutnya. I. 7. Tipe-2 Fuzzy adalah komputasi intensif karena pengurangan jenis sangat intensif.K. Hall. Data preparation for data mining. yang memungkinkan kita untuk mewakili solusi sebagai kromosom dan sebaliknya. “Application of genetic algorithm in data mining”. 37-42 6 www. 181. no. Springer-Verlag. Tsinghua University Press. “Combined Optimization of Feature Selection and Algorithm Parameter Interaction in Machine Learning of Language”. (Eds. Jenis-2 fuzzy set disebut sebagai "kabur kabur" set di mana tingkat kabur keanggotaan kabur sendiri yang dihasilkan dari tipe 1 Fuzzy [24]. AAAI/MIT Press. Goodman. 1997 [18] Y. Smyth P and Uthurusamy R. Automating the Design of Data Mining Algorithms. Piatetsky-Shapiro G. pp. “A review of feature selection techniques in bioinformatics”. (ed) Advances in knowledge discovery and data mining. USA. Naudts. pp 164-178 [10] W. nilai fitness yang mencerminkan kualitas sehubungan dengan pemecahan masalah tertentu. Punch. pp. Data Mining and Knowledge Discovery.2012 kemungkinan keanggotaan primer. Meulder and B. Machine Learning. McGraw-Hill Companies. Visweswaran and M. 1996. An Evolutionary Computation Approach. Vol.1991. CavtatDubrovnik. pp.D. 456-463. Freitas. Morgan Kaufmann publisher. Proc. H. Input dari fungsi kebugaran kromosom dan output adalah nilai fitness kromosom ini. 2003. Shim. No. “An Efficient Bayesian Method for Predicting Clinical Outcomes from Genome-Wide Data”. Tipe-2 Fuzzy Logic dapat menangani aturan ketidakpastian secara efektif dan efisien [22]. Catlett.Z. kebugaran dari setiap solusi kandidat ditentukan. pp. Knowledge discovery. “Neural Networks in Data Mining”. S. Proceedings of the 14th European Conference on Machine Learning (ECML-2003). populasi secara acak. Inza and P. In Y.F. Hyun. Operator reproduksi seperti crossover dan mutasi yang diterapkan pada individu dalam populasi ini menghasilkan populasi baru [26]. Burlington 2011 [2] J. Hennings-Yeomans. Springer. 1996. “Dimensionality Reduction Using Genetic Algorithms”. IEEE 2. Matic and V. Daelemans. Lecture Notes in Computer Science 2837. AAAI/MIT Press. Cambridge University Press. seberapa efektif itu dalam memecahkan masalah. Guyon. California. Pfahringer. Singh Y. 1st Vol.org .

89-98 [25] J. Adaptation in Natural and Artificial Systems. 2003 [21] Z. Hsu.J. Addison. Holland. pp.edu.N. 2009.2012 [19] V. NewYork.W. C. Pawlak. Vol.. 1998 [20] C. http://www.C. Wiley New York.ntu.G. “Fuzzy c-means clustering with prior biological knowledge”. 2007. Castillo and L. Baral and S.csie. Kim. MI. N. Mendel and Q. Tari.pdf. University of Michigan Press.H.International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181 Vol. Goldberg. “A practical guide to support vector classification”. “Type-2 Fuzzy Logic Systems”.org . Journal of Biomedical Informatics. J.Wesley. 1999. C. pp. Genetic algorithms in search. IEEE Transactions on Fuzzy Systems. 1 Edisi 6 Agustus . 1989 7 www.R. Castro. O. Liang. 42(1).1975 [26] D. Vapnik. “Interval Type-2 Fuzzy Logic Toolbox”. 7. Chang and C.ijert. International Journal of Computer and Information Sciences.E. 6. 643-658 [24] J. 74-81 [23] N. Martínez. “Rough sets”. Lin.tw/~cjlin/papers/guide/guide . No. 341.M. Ann Arbor. Statistical Learning Theory. optimization and machine learning. pp. 1982. Karnik.356 [22] L. Engineering Letters 15(1).