CLUSTERING ALGORITHM FOR TEXT DATA MINING B.H.Chandrashekar.1,  Dr.G.

Shoba2
Lecturer, Department of Master of Computer Applications, R.V.College of Engineering, Bangalore 560059 Professor, Department of Computer Science and Engineering., R.V.College of Engineering, Bangalore 560059 chandrashekarbh@gmail.com1, shobatilak@rediffmail.com2

ABSTRACT Clustering is a technique where the data is  grouped   into   similar   objects.     Clustering  the   document   (text)   datasets   is   often  vulnerable   by   the   nuisance   of   high  dimensionality.   Most   of   the   clustering  algorithms loose some of the efficiency in  high   dimensional   datasets.     This   paper  presents   a   method   for   clustering   high  dimensional   data   sets.   The   key   idea  involves   reducing   high   dimensional   data  sets   into   lower   dimensional   data   sets   by  using   Principal   component   Analysis   and  then clustering is performed using k­means  algorithms.  K­means algorithms is slightly  modified which uses the median value as  centroids for clustering in order to obtain  high   performance.     The   performances   of  our new approach of attribute selection are  evaluated on several high dimensional data  sets.  Since the number of dimensions used  is low, it is possible to display the data sets  to view efficiently and also to interpret the  result easily.

databases is the not an easy task to identify  valid, relevant and understandable patterns  in   data.     Data   mining   is   one   step   of   the  Knowledge   Discovery   in   Databases  process   [1].     Data   mining   [2]   is   the  principle of sorting through large amounts  of   data   and   picking   out   relevant  information.  Clustering is useful in a wide  range of data analysis fields, including data  mining,   document   retrieval,   image  segmentation,   and   pattern   classification.  This   paper   focuses   on   clustering   high  dimensional data sets, which is one of the  most useful tasks in data mining.  The goal  of clustering is that the objects in a group  should   be   related   to   one   another   and  different  from the objects  in other group.  K­means   is   one   of   the   simplest  unsupervised learning algorithms that solve  well­known   clustering   problem   [3].  However,   the   clustering   of   high  dimensional data sets has been proven to be  very difficult.   A common approach is to  reduce   the   irrelevant   redundancy   behind  the   input   data   [4].     Principal   Component  Analysis  (PCA) is one of the methods  to  fulfill this demand.

Keywords:   attribute, k­means, clustering,  Basically   document   classification  data mining can be defined as content based assignment  of   one   or   more   predefined   categories   or  topics to documents ie., collection of words  1.  Introduction determine   the   best   fit   category   for   this            In the current scenario, browsing for  collection   of   words.     The   goal   of   all  exact information has become very tedious  document classifiers is to assign documents  job as the number of electronic documents  into one or more content categories such as  on the Internet has grown gargantuan and  technology, entertainment, sports, politics,  still   is   growing.   Knowledge   discovery   in  etc.,   Classification   of   any   type   of   text 

 etc. web pages.  The next process in this step is to reduce  the size of the list created by the parsing  process..   which   includes   document  parsing. zero  means the term has no significance in the  document or it simply doesn’t exist in the  document. Stemming process reduces  Document Preprocessing  all  these  forms  of words  to a  normalized  word   connect. Since each document is represented  as   a   set   of   terms.   The   stop  words removal accounts to 20% to 30% of  total   words   counts   while   the   stemming  process. reduce the number of terms in the  document.. including traditional  documents such as memos and reports as  well as e­mails.   connective. The first  process.   generally   using   methods   of   stop  words   removal   and   stemming.3 Document Representation 2.     The   collection   or  union of all set of terms is the set of terms  that   represents   the   entire   collection   and  defines   a   ‘space’   such   that   each   distinct  term   represents   one   dimension   in   that  space. since these stop words are insignificant for  search keywords. 2.document is possible. For example:  the word connects have various forms such  as   connect.     The   document   is   parsed  through to find out the list of all the words. stop word removal and  dimensionality   reduction. stemming and term weighting [5]. etc. stemming.   Section   3  describes the problem of existing k­means  algorithm   and   the   modified   k­means  algorithm. Stemming  is   process   of   linguistic   normalization   in  which   the   variant   forms   of   a   word   is  reduced to a common form.     Section   4   describes   data  clustering and PCA based data clustering.  An entry in the matrix corresponds to the  “weight” of a term in the document.  Section 5 describes the tests and results. Stop words can be pre­ specified list of words or they can depend  on the context of the corpus.1 Stop Words This   is   the   first   step   in  preprocessing which will generate a list of  terms   that   describes   the   document  satisfactorily. part of feature extraction is preprocessing  the   lexicon   and  involves  removal   of  stop  words.   2.  SECTION II connected.2 Stemming The next process in phase one after  stop word removal is stemming.    Stop words are removed from each of the  document by comparing the with the stop  word list. The whole document collection  can  therefore   be  seen as   a m  x  n­feature  matrix   A   (with   m   as   the   number   of  .   Porter’s   English   stemming  Data   preprocessing   is   a   very  algorithm   is   used   to   stem   the   words   for  important   and   essential   phase   in   an  each   of   the   document   in   our   stemming  effective document classification.   connection. we discuss document  preprocessing. This process reduces the number  of   words   in   the   document   significantly  Documents are represented by a set  of   keywords/   terms   extracted   from   the  document   themselves.   this   space   is   called  ‘document space” [6]. A term­document matrix can be encoded as  a collection of n documents and m terms.     Both   the   process   helps   in  improving the effectiveness and efficiency  of   text   processing   as   they   reduce   the  indexing file size.  In section 2.

 want  to weight the terms with respect to the local  context.   D1  ­     Data   mining   techniques:   for  marketing   sales   and  customer  relationship management D2   ­     Principles  of   data   mining  :  Adaptive   computation   &  machine  learning D3   –  Data  mining:   practical  machine  learning tools & techniques with Java D4 –Mastering Data Mining  – the arts  and  science   of   Customer   Relationship   Management D5  ­ Mastering Data Modeling: A user  driven approach D6     ­   Investigate  Data   mining  for  security and Criminal detection D7 – Science and criminal detection D8   ­    Crime  and   Human   nature:   the  definitive study of the causes and crime D9 – Statistics of crime and  criminals:  a handbook of primary data Term – Document Matrix Crime Customer Data Detection Learning Machine Managem ent Mastering Mining Relations hip Science Techniqu e D 1 0 1 1 0 0 0 1 0 1 1 0 1 D 2 0 0 1 0 1 1 0 0 1 0 0 0 D 3 0 0 1 0 1 1 0 0 1 0 0 1 D 4 0 1 1 0 0 0 1 0 0 1 1 0 D 5 0 0 1 0 0 0 0 1 0 0 0 0 D 6 1 0 1 1 0 0 0 0 1 0 0 0 D 7 1 0 0 1 0 0 0 0 0 0 1 0 D 8 2 0 0 0 0 0 0 0 0 0 0 0 D9 2 0 1 0 0 0 0 0 0 0 0 0 Fig.   Figure below  show the term document frequency for the  title of the books.     N   is   the   total  number of documents in the corpus. tfi.       However   the   terms  that   have   a   large   frequency   are   not  necessary   more important or have higher  discrimination power.  reside is typically thousands of dimensions  or   more. The ijth  element of  the   term­document   matrix   shows   the  number of times the ith word is repeated  in the jth document. 2.4 Dimensionality Reduction            The space in which the document.documents)   where   the   element  aij  represents  the frequency of occurrence of  feature  j  in   document  i.     Shows   a   small   corpus   of   8   book  titles.        This   was   of  representing the document  is called  term­ frequency   method. the document or the corpus.j  = number of occurrences  of   term   I   in   document   j.   There is an extension of this  designated   the   term   frequency   inverse  document   frequency   (tf­idf). each title is a document.   we   would   like   to   find   a  convenient   lower­dimensional   space   to  .   The  most popular term weighting is the Inverse  document   frequency.   So we might. The  encoding  scheme is  best  explained  in the  recent work by Berry [10].   The  formulation of tf­idf is given as follows:­ Wij = tfi.  The development and understanding of the  impact of terms  and weights on text data  mining   methodologies   is   another   area  where the statisticians can contribute. dfi = is  the   number   of   documents   containing   the  term i. we are using only italicized words  in the document list. To save  space.     Given   the   collection   of  documents   along   with   the   associated  distance   matrix.j  * log (N / dfi) Where   wij  is the weight of the term I in  document j.   where   the   term  frequency   is   weighed   with   respect   to   the  total number of times the term appears in  the corpus.

SECTION III Document Clustering K­means   is   one   of   the   simplest  unsupervised learning algorithms that solve  well­known   clustering   problem.   and   which  attributes can be discarded.     Such lower  order components often contain the “most  important”   aspect   of   the   data. This approach is commonly  referred   to   as   unsupervised   since   it  eliminates   the   need   for   tagged   training  documents   and   also   does   not   require   a  preexisting taxonomy or category structure. and  should   hence   be   reserved.   A general formula  is to solve the eigenvalue  problem of the  covariance matrix for the input data.   which   the  might exist between the documents.     It  identifies   groups   or   clusters.perform   subsequent   analysis.1 Principal Component Analysis leading principal component and thus is the  One of the decisive characteristics  of any  most informative.   of   related  documents   as   well   as   the   relationships  among them. one can remove noise from data  and better apply our statistical data mining  methods to discover subtle relationship that  The eigenvalues give an indication of the  amount   of   information.4.     Attribute   selection   determines  which   attributes   contribute   something  valuable for understanding of the data.   The   clustering   stage   consists   of   the  following 2 modules: • Similarity   measurement   module:  The   vector   space   model   obtained  from   the   preprocessing   stage   is  processed   based   on   the   similarity  measurement   method   specified   by  λv = Σv Where sigma is the covariance matrix of X .     This   will  certainly   facilitate   clustering   or  classification.  However. which uses eigenvectors  from   either   covariance   or   correlation  matrix to reduce the dimensionality.  There are several algorithms for calculating  principal components.   clustering   algorithms   are   not  always good at selecting categories that are  intuitive to human users.     By   dimensionality  reduction.  The first principal component is often the  2.   knowledge   discovery   practice   is   attribute  selection. by keeping  lower­order   principal   component   and  ignoring higher order ones.   The   main  objective  of Principal  component analysis  is   to   transform   number   of   correlated  variables   into   a   number   of   uncorrelated  variables   called   principal   component   [8]. The principal component analysis is  a popular method.  Then  the resulting eigenvectors can be stored in a  descending   order   according   to   their  corresponding eigenvalues. [9].  One of the most  popular heuristics for solving the k­means  problem   is   based   on   a   simple   iterative  scheme   for   finding   a   locally   minimal  solution. [7]  PCA  is used for dimensionality reduction  in   a   dataset   by   retrieving   those  characteristics   of   the   dataset   that  contributes most of its variance.   respective principal components represent.

 Dong. • Clustering module: The documents  with   the   maximum   degree   of  similarity   (obtained   from   the  previous   module)   are   clustered  using   the   clustering   specification  given by the user (i.Annual  Hawaii International Conference on  System Sciences. Cadez. Spain 7.Estivill­Castro and J.Bingham   and   H.   Universidad   30. 2004.Gaffney and P. 5. P.   Euclidian   or   Cosine  similarity   method)   to   obtain   the  different   degrees   of   similarity  existent   among   the   various  documents represented in the vector  space model.   Principal  Component   Analysis.  “The   global   k­means   clustering  algorithm. A. NJ. 2001 2. Jolliffe. pages 127­150.  Classification.Jain.J.  Approach   to   Managing   Online  Document   Categories.   M.e.  In Knowledge Discovery and Data  Mining.   Mannila. Madrid.  vol 36.  6.   (2003). Springer .  Universidad   Carlos   III   de   Madrid. Y.Dubes. Conclusion The   Web   has   become   the   largest   source  knowledge   repository.     Extracting  information and building knowledge from  extracted   information   efficiently   and  effectively   is   becoming   increasingly  important   for   various   reasons. Berry. 2003.2000. N.   J. “A  general probabilistic framework for  clustering   individuals”   in  Proceedings   of   Sixth   ACM  SIGKDD   International   Confernce. V.   v3.   L.   Prentice   Hall  Inc. References 1. 2000. X.   “Pattern   Recognition.   P.   I. K­means) to  obtain the final set of clusters.  Computer   Science   Department.   1999.  there   is   a   growing   need   to   develop   tools  and   techniques  that  will   help  improve  its  overall usefulness. J.   SOM­based   data  visualiation   methods.the   user   (i.   (1986). 1988.e. 4.   and   R. “Fast  and   Robust   General   Purpose  Clustering   Algorithms”.  vol 8. Wei.Yang.   and   Retrieval  (Hardcover).Verbeek.Symth.   Springer­ Verlag 8.   Martínez­Fernández   .Likas.  9. pages 245­250. Upper Saddle River.   Intelligent­ Data­Analysis.   Boston.Vlassis and J.  pages   140­149.   Martínez1. (2001): A  Mining­Based   Category   Evolution.  Vesanto and Alhoniemi.   Data  Mining and Knowledge Discovery. 3.   Algorithms  for   Clustering   data.   in:  Proceedings   of   the   34th   . 10.  García­Serrano..     As  popularity of the web continues to increase. pages 451­461.   28911  Leganés.   111­126.  Random   projection   in  dimensionality   reduction  applications to image and text data.  Avda.   Survey   of  Text   Mining:   Clustering. A. S.  Villena. no 2.   W.   United  States.   A.   “Automatic   Keyword  Extraction   for   News   Finder”. Vesanto. E. C.