You are on page 1of 7

JOURNAL OF COMPUTING, VOLUME 3, ISSUE 5, May 2011, ISSN 2151-9617

HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 81
Web Data Refining Using Feedback
Mechanism and k-mean Clustering

Prof. D. Jatin Das, S. Arun Kumar, B. Ramakantha Reddy, S. Shiva Prakash

Abstract-Now a day’s more web sites are developed by everyone. Among them user cannot get accurate data that user required by searching on
web. In basically web mining can be done by some page ranking algorithms are many more. In this paper , user going to refine the web pages by
giving feed back or any rating by manually or by automatically. K-mean clustering algorithm is basic algorithm used day to day life. We have
proposed genetic algorithm to improve cluster quality and also accurate clusters. By also apply the weblogs to our paper to more refine. Web
mining using feedback is eliminating the unwanted sites in web and also it help for improving the user data in developing sites.
Keywords - Web Mining, Clustering, k-mean, Web-logs.
——————————

——————————

1. INTRODUCTION

he  explosive  growth  of  information  sources 
available  on  the  World  Wide  Web,  it  has 
become  increasingly  necessary  for  users  to  utilize 
automated  tools  in  find  the  desired  information 
resources,  and  to  track  and  analyze  their  usage 
patterns.  These  factors  give  rise  to  the  necessity  of 
creating  server  side  and  client  side  intelligent 
systems  that  can  effectively  mine  for  knowledge. 
Web  mining  can  be  broadly  defined  as  the 
discovery  and  analysis  of  useful  information  from 
the World Wide Web. This describes the automatic 
search  of  information  resources  available  online, 
i.e. Web content mining, and the discovery of user 
access  patterns  from  Web  servers,  i.e.,  Web  usage 
mining. 
 
 
There  are  roughly  three  knowledge 
discovery  domains  that  pertain  to  web  mining: 
Web  Content  Mining,  Web  Structure  Mining,  and 
Web  Usage  Mining.  Web  content  mining  is  the 
process  of  extracting  knowledge  from  the  content 
of documents or their descriptions. Web document 
text  mining,  resource  discovery  based  on  concepts 
indexing  or  agent  based  technology  may  also  fall 
in  this  category.  Web  structure  mining  is  the 
process  of  inferring  knowledge  from  the 
Worldwide  Web  organization  and  links  between 
references  and  referents  in  the  Web.  Finally,  web 
usage  mining,  also  known  as  Web  Log  Mining,  is 
the  process  of  extracting  interesting  patterns  in 
web access logs [13, 14]. 
We  can  broadly  categorize  Web  data 
clustering  into  (i)  users’  sessions‐based  and  (ii) 
link‐based.  The  former  uses  the  Web  log  data  and 
tries  to  group  together  a  set  of  users’  navigation 
sessions  having  similar  characteristics.  In  this 
framework,  Web‐log  data  provide  information 
about  activities  performed  by  a  user  from  the 
moment  the  user  enters  a  Web  site  to  the  moment 
the  same  user  leaves  it  [8].  The  records  of  users’ 
actions  within  a  Web  site  are  stored  in  a  log  file. 
Each  record  in  the  log  file  contains  the  client’s  IP 
address,  the  date  and  time  the  request  is  received, 
the  requested  object  and  some  additional 
information ‐such as protocol of request, size of the 
object  etc.  Figure  1  presents  a  sample  of  a  Web 
access log file from a Web server. 
T
————————————————

- Prof. D. Jatin Das B.E, M.Sc(Tech.CS) Department of
Computer Science and Engineering Sri Vidyanikethan
Engineering College, Tirupati, Andhra Pradesh, India -517102

- . S. Arun Kumar, M.Tech., Department of Computer Science and
Engineering,Sri Vidyanikethan Engieering College, Tirupati,
Andhra Pradesh, India.

- B Ramakantha Reddy, M.Tech., Department of Computer
Science and Engineering,Sri Vidyanikethan Engineering College,
Tirupati,Andhra Pradesh, India.

- S. Shiva Prakash, M.Tech., Department of Computer Science
and Engineering,Sri Vidyanikethan Engineering College,
Tirupati,Andhra Pradesh, India.


JOURNAL OF COMPUTING, VOLUME 3, ISSUE 5, May 2011, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 82



Fig 1: Web Mining Architecture

 











Figure 2: A sample of Web Server Log File

The  standard  K‐Means  algorithm  was 
used  to  cluster  user’s  traversal  paths  in  [9]. 
However, it is not clear how the similarity measure 
was  devised  and  whether  the  clusters  are 
meaningful.  In  [12],  associations  and  sequential 
patterns  between  web  transactions  are  discovered 
based  on  Apriori  algorithm  [1].  A  good  survey  on 
clustering  algorithms  can  be  found  in  [16].  The  k‐
means algorithm [3] is one of the most widely used 
clustering algorithms. The algorithm partitions the 
data  points  (objects)  into  k  groups  (clusters),  so  as 
to minimize the sum of the squared) distances  
 
between  the  data  points  and  the  center  (mean)  of 
the clusters. 
 
To apply the k‐means algorithm: 
 
•  Choose  k  data  points  to  initialize  the 
clusters 
•  For  each  data  point,  find  the  nearest 
cluster center that is closest and   
   Assign  that  data  point  to  the 
corresponding cluster 
•  Update  the  cluster  centers  in  each 
cluster using the mean of the data points which are 
assigned to that cluster 
•  Repeat  steps  2  and  3  until  there  are  not 
more changes in the values of the Means. 
 
In  spite  of  its  simplicity,  the  k‐means 
algorithm  involves  a  very  large  number  of  nearest 
neighbor  queries.  The  high  time  complexity  of  the 
k‐means  algorithm  makes  it  impractical  for  use  in 
the  case  of  having  a  large  number  of  points  in  the 
data  set.  Reducing  the  large  number  of  nearest 
neighbor queries in the algorithm can accelerate it. 
In  addition,  the  number  of  distance  calculations 
141.243.1.172  [29:23:53:25]  "GET 
/Sofware.html HTTP/1.0" 200 1497 
query2.lycos.cs.cmu.edu  [29:23:53:36] 
"GET /Consumer.html HTTP/1.0" 200 1325 
tanuki.twics.com  [29:23:53:53]  "GET 
/News.html HTTP/1.0" 200 1014 
wpbfl2‐45.gate.net  [29:23:54:15]  "GET  / 
HTTP/1.0" 200 4889 
JOURNAL OF COMPUTING, VOLUME 3, ISSUE 5, May 2011, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 83
increases  exponentially  with  the  increase  of  the 
dimensionality of the data [2,7,4]. 
 
Many  algorithms  have  been  proposed  to 
accelerate the k‐means. In [6,5], the use of kd‐trees 
[2]  is  suggested  to  accelerate  the  k‐means. 
However, backtracking is required, a case in which 
the computation complexity is increased [10]. K d‐
trees  are  not  efficient  for  higher  dimensions. 
Furthermore,  it  is  not  guaranteed  that  an  exact 
match of the nearest neighbor can be found unless 
some  extra  search  is  done  as  discussed  in  [4].  The 
use of triangle inequality to accelerate the k‐means. 
In [10], it is suggested to use R‐Trees. Nevertheless, 
R‐Trees  may  not  be  appropriate  for  higher 
dimensional  problems.  In  [8,9,11],  the  Partial 
Distance  (PD)  algorithm  has  been  proposed.  The 
algorithm  allows  early  termination  of  the  distance 
calculation  by  introducing  a  premature  exit 
condition in the search process. 
 
As  seen  in  the  literature,  the  researchers 
contributed  only  to  accelerate  the  algorithm;  there 
is  no  contribution  in  cluster  refinement.  In  this 
study, we propose a new algorithm to improve the 
k‐means clustering in web usage data mining. The 
proposed  algorithm  consists  of  two  steps.  In  the 
first  step,  to  avoid  local  minima,  we  presented  a 
simple  and  efficient  method  to  select  initial 
centroids  based  on  mode  value  of  the  data  vector. 
And  the  k‐means  algorithm  is  applied  to  cluster 
the  data  vectors  [12].  Then  in  the  second  step, 
Genetic  Algorithm  (GA)  is  applied  to  refine  the 
cluster  to  improve  the  quality  of  the  clusters  of 
users’ sessions.     
 
The  paper  is  organized  as  follows:  the 
following  section  defines  the  web  access  logs. 
Section 3 presents the standard k‐means algorithm. 
Section  4  is  proposed  cluster  refinement  algorithm 
with Genetic Algorithm (GA) to improve the users’ 
session clusters. Section 5 presents the experiments 
and results and the work is concluded in section 6. 

2. Web Access Logs:

2.1 Basic access logs

In general the web server logs are consists 
of  these  records  :(i)  User’s  IP  address,  (ii)  Access 
time,  (iii)  Request  method  (“GET”,  “POST”,  …, 
etc),  (iv)  URL  of  the  page  accessed,  (v)  Protocol 
(typically HTTP/1.0), (vi) Number of bytes. 
This  field  can  automatically  fill  up  by 
system programming algorithms   
 
2.2 Modified access logs

The  modified  web  server  logs  are  consists 
of  these  records  :(i)  User’s  IP  address,  (ii)  Access 
time,  (iii)  Request  method  (“GET”,  “POST”,  …, 
etc),  (iv)  URL  of  the  page  accessed,  (v)  Protocol 
(typically  HTTP/1.0),  (vi)  Number  of  bytes  (vii) 
rating or feedback. 
 
  The  last  field  is  for  rating  to  that  site  this 
site  can  be  useful  for  user  requirements  are  not 
.this make help full for refinement of web data 
 
Rating  sites  typically  show  a  series  of 
images  (or  other  content)  in  random  fashion,  or 
chosen  by  computer  algorithm,  rather  than 
allowing users to choose. They then ask users for a 
rating  or  assessment,  which  is  generally  done 
quickly and without great deliberation. Users score 
items  on  a  scale  of  1  to  10,  yes  or  no.  Others,  such 
as  BabeVsBabe.com  Typically,  gives  instant 
feedback  in  terms  of  the  itemʹs  running  score,  or 
the  percentage  of  other  users  who  agree  with  the 
assessment.  They  sometimes  offer  aggregate 
statistics  or  ʺbestʺ  and  ʺworstʺ  lists.  Most  allow 
users  to  submit  their  own  image,  sample,  or  other 
relevant  content  for  others  to  rate.  Some  require 
the submission as a condition of membership. 
 
3. Standard K-means Algorithm

One  of  the  most  popular  clustering 
techniques  is  the  k‐means  clustering  algorithm. 
Starting from a random partitioning, the algorithm 
repeatedly  (i)  computes  the  current  cluster  centers 
(i.e.  the  average  vector  of  each  cluster  in  data 
space)  and  (ii)  reassigns  each  data  item  to  the 
cluster  whose  centre  is  closest  to  it.  It  terminates 
when  no  more  reassignments  take  place.  By  this 
means,  the  intra‐cluster  variance,  that  is,  the  sum 
of  squares  of  the  differences  between  data  items 
and  their  associated  cluster  centers  is  locally 
minimized.  k  ‐means’  strength  is  its  runtime, 
which is linear in the number of data elements, and 
JOURNAL OF COMPUTING, VOLUME 3, ISSUE 5, May 2011, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 84
its  ease  of  implementation.  However,  the 
algorithm  tends  to  get  stuck  in  suboptimal 
solutions (dependent on the initial partitioning and 
the  data  ordering)  and  it  works  well  only  for 
spherically shaped clusters. It requires the number 
of  clusters  to  be  provided  or  to  be  determined 
(semi‐)  automatically.  In  our  experiments,  we  run 
k‐means using the correct cluster number. 
 
1. Choose a number of clusters k 
2. Initialize cluster centers n1,… nk. 
a.  Could  pick  k  data  points  and 
set cluster centers to these    
   Points 
b.  Or  could  randomly  assign 
points to clusters and take  
   Means of clusters 
3. For each data point, compute the cluster 
center  it  is  closest  to  (using  some  distance 
measure) and assign the data point to this 
cluster. 
4.  Re‐compute  cluster  centers  (mean  of 
data points in cluster) 
5.  Stop  when  there  are  no  new  re‐
assignments. 

4. Genetic Algorithm

The  initial  cluster  centers  are  normally 
chosen either sequentially or randomly as given in 
the  standard  algorithm.  The  quality  of  the  final 
clusters based on these initial seeds. It may leads to 
local  minimum;  this  is  one  of  disadvantage  in  k‐
means clustering. To avoid this, in our method, we 
are selecting the modes of the data vector as initial 
cluster  centers.  Based  on  the  number  of  clusters, 
the  modes  are  selected  one  after  another.  Initially 
the first mode value is selected as the center for the 
first  cluster  and  the  next  highest  frequently 
occurred  value  is  (next  mode  value)  assigned  as 
the center for next cluster. 
 
  Genetic  algorithm  (GA)  is  randomized 
search and optimization techniques guided by the  
principles  of  evolution  and  natural  genetics, 
having  a  large  amount  of  implicit  parallelism.  GA 
perform  search  in  complex,  large  and  multimodal 
landscapes, and provide near‐optimal solutions for 
objective  or  fitness  function  of  an  optimization 
problem. 
   In  this  algorithm  search  space  are 
encoded  in  the  form  of  strings  (called 
chromosomes). The basic reason for our refinement 
is, in any clustering algorithm the obtained clusters 
will  never  gives  us  100%  quality.  There  will  be 
some errors known as misclustered. That is, a data 
item  can  be  wrongly  clustered.  These  kinds  of 
errors  can  be  avoided  by  using  our  refinement 
algorithm.  GA  have  applications  in  fields  as 
diverse  as  VLSI  design,  image  processing,  neural 
networks,  machine  learning,  job  shop  scheduling, 
etc. 
 
  The  cluster  obtained  from  improved  k‐
means  clustering  is  considered  as  input  to  our 
refinement  algorithm.  Initially  a  random  point  is 
selected from each cluster; with this a chromosome 
is  build.  Like  this  an  initial  population  with  10 
chromosomes  is  build.  For  each  chromosome  the 
entropy is calculated as fitness value and the global 
minimum is extracted. With this initial population, 
the  genetic  operators  such  as  reproduction, 
crossover  and  mutation  are  applied  to  produce  a 
new  population.  While  applying  crossover 
operator, the cluster points will get shuffled means 
that a point can move from one cluster to another. 
From  this  new  population,  the  local  minimum 
fitness  value  is  calculated  and  compared  with 
global minimum. If the local minimum is less than 
the  global  minimum  then  the  global  minimum  is 
assigned  with  the  local  minimum,  and  the  next 
iteration  is  continued  with  the  new  population. 
Otherwise, the next iteration is continued with the 
same  old  population.  This  process  is  repeated  for 
N number of iterations. 
 
From  the  following  section,  it  is  shown 
that our refinement algorithm improves the cluster 
quality. The algorithm is given as: 
 
1. Choose a number of clusters k 
2. Initialize cluster centers n1,… nk based on mode 
3. For each data point, compute the cluster center it 
is  closest  to  (using  some  distance  measure)  and 
assign the data point to this cluster. 
4. Re‐compute cluster centers (mean of data points 
in cluster) 
5.  Stop  when  there  are  no  new  re‐assignments.
JOURNAL OF COMPUTING, VOLUME 3, ISSUE 5, May 2011, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 85
Server Location
No. of Time
Requests
Time
From To
Saskatchewan

NASA

Calgary
Canada

Florida

Alberta, Canada
2,408,625

3,461,612

726,739
00:00:00 June 1, 1995

00:00:00 July 1, 1995

October 24, 1994

23:59:59 December 31, 1995

23:59:59 Agust 31, 1995

October 11, 1995
 
Table 1: Internet Traffic Archive (Web Usage Data)

 
6. GA based refinement 
a. Construct the initial population (p1) 
b. Calculate the global minimum (Gmin) 
c. For i = 1 to N do 
i. Perform reproduction 
ii.  Apply  the  crossover  operator 
between each parent. 
iii.  Perform  mutation  and  get  the 
new population. (p2) 
iv.  Calculate  the  local  minimum 
(Lmin). 
v. If Gmin < Lmin then 
a. Gmin = Lmin; 
b. p1 = p2; 
d. Repeat 
 
5. Experiments

We  have  generated  clusters  using  both  the 
algorithms for several different logs obtained from 
the  internet  traffic  archive  (http://ita.ee.lbl.gov/). 
The following six different web access log data sets 
used  to  test  our  proposed  method,  which  are 
collected from various web servers. 
 
•  EPA‐HTTP  ‐  a  day  of  HTTP  logs  from  a  busy 
WWW server. 
•  SDSC‐HTTP  ‐  a  day  of  HTTP  logs  from  a  busy 
WWW server. 
•  Calgary‐HTTP  ‐  a  year  of  HTTP  logs  from  a  CS 
departmental WWW server. 
•  ClarkNet‐HTTP  ‐  two  weeks  of  HTTP  logs  from 
a busy Internet service provider WWW server. 
• NASA‐HTTP ‐ two months of HTTP logs from a 
busy WWW server. 
•  Saskatchewan‐HTTP  ‐  seven  months  of  HTTP 
logs from a University WWW server. 
 
The following table gives a  brief description about 
each web access log sets. 

All  the  above  logs  are  taken  with  the 
timestamps  have  1  second  resolution.  The  logs 
fully  preserve  the  originating  host  and  HTTP 
request. And these traces can be freely distributed. 
The  logs  are  an  ASCII  file  with  one  line  per 
request, with the following columns: 
1.  host  making  the  request.  A  hostname  or  the 
Internet address. 
2.  timestamp  in  the  format  ʺDAY  MON  DD 
HH:MM:SS YYYYʺ. 
3. request given in quotes. 
4. HTTP reply code. 
5. bytes in the reply. 
 
Since  various  clustering  algorithms  result  in 
different  clusters  it  is  important  to  perform  an 
evaluation  of  the  results  to  assess  their  quality.  In 
clustering,  the  procedure  of  evaluating  the  results 
is known as cluster validation and can be based on 
various  measures  called  validity  measures.  The 
validity  measures  are  divided  in  two  categories 
depending  on  whether  they  have  any  reference  to 
external  knowledge.  By  external  knowledge  we 
refer to a pre‐specified structure which reflects our 
intuition  about  the  clustering  structure  of  a  data 
set.  The  measures  that  have  no  reference  to 
external  knowledge  are  called  internal  quality 
measures  and  they  are  estimated  in  terms  of 
quantities  that  involve  the  data  set.  Dunn’s  index 
[28]  and  DB  index  [29]  are  two  internal  quality 
measures that have a close relationship in that they 
both  try  to  minimize  the  within‐cluster  scatter 
while  maximizing  the  between‐cluster  separation 
in  order  to  find  compact  and  well  separated 
clusters. 
JOURNAL OF COMPUTING, VOLUME 3, ISSUE 5, May 2011, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 86

Table 2: Web log


5.1 The Dunn Index
The  index  is  defined  by  the  following 
equation for a specific number of clusters 
¦
)
¦
`
¹
¦
¹
¦
´
¦
¦
)
¦
`
¹
¦
¹
¦
´
¦
=
=
+ = =
) ( max
) , (
min min
,..., 1
,..., 1 ,..., 1
,
k
nc k
j i
nc i j nc i
c n
c diam
C C d
D  
where d(ci, cj) is the dissimilarity function between 
two clusters ci and cj defined as 
) , ( min ) , (
,
y x d c c d
j i
c y c x
j i
e e
=
 
and diam(c) is the diameter of a cluster, which may 
be  considered  as  a  measure  of  dispersion  of  the 
clusters. The diameter of a cluster C can be defined 
as follows: 
) , ( min ) (
,
y x d C diam
C y x e
=  
It  is  clear  that  if  the  dataset  contains  compact  and 
well‐separated  clusters,  the  distance  between  the 
clusters is expected to be large and the diameter of  
 
the clusters is expected to be small. Thus, based on 
the Dunn’s index definition, we may conclude that 
large  values  of  the  index  indicate  the  presence  of 
compact and well‐separated clusters. 

5.2. DB Index

Given  that  K  is  the  number  of  clusters,  Ci 
and Cj are the closest clusters according to average 
distance  d  and  diam  is  the  diameter  of  a  cluster, 
the DB index is defined as follows: 
 

+
=
¯
=
=
) , (
) ( ) (
max
1
1 j i
j i
K
i
i j
C C d
C diam C diam
K
DB
 
 
 
It  is  clear  for  the  above  definition  that  DB 
is  the  average  similarity  between  each  cluster  and 
its  most  similar  one.  It  is  desirable  for  the  clusters 
to  have  the  minimum  possible  similarity  to  each 
other;  therefore  we  seek  clustering  that  minimizes 
DB. 
Each access to a Web page is recorded in the access 
log of the Web server that hosts it. The entries of a 
Web  log  file  consist  of  fields  that  follow  a 
predefined  format.  The  fields  of  the  common  log 
format are: 
By apply the rating into log file format we 
will  find  out  the  worth  of  the  site.  Using  this  site 
developer  also  put  effort  in  developing. 
Periodically doing the web mining on the web data 
the  low  rated  site  kept  separately  it  is  also  type  of 
page ranking algorithm. 

6. Conclusion and Future work:

Web  usage  mining  applies  data  mining 
techniques  to  discover  usage  patterns  from  the 
Web  data,  In  this  paper  we  have  Proposed  a  new 
method  for  data  logs  by  adding  rating  field  it  will 
helpful  for  web  mining  and  also  for  users  In  the 
first  step,  the  initial  cluster  centers  are  selected 
based  on  statistical  mode  based  calculation  to 
allow  the  iterative  algorithm  to  converge  to  a 
“better”  local  minimum.  And  in  the  second  step, 
we  have  proposed  a  novel  method  to  improve  to 
cluster  quality  using  Genetic  Algorithm  (GA) 
based refinement algorithm. The proposed thing is 
to add the feedback field to log format. 
  
By  this  feedback  we  can  separate  the 
unwanted  sites  for  that  we  can  develop  the  an 
effective algorithm and also based on time user can 
S.
N
O
IP address
Access
time
Request
method
URL Protocol
No of
bytes
rating
1
115.242.159.123

Apr 08,
2002
08:46 PM
GET http://www.yaledailynews.com HTTP 800K 3
2
125.242.149.122

Apr 08,
2002
08:43 PM
POST http://www.waterski.com HTTP 750K 1
3
234.222.111.152

Apr 08,
2002
08:40 PM
GET http://www.sony.com HTTP 925K 5
JOURNAL OF COMPUTING, VOLUME 3, ISSUE 5, May 2011, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 87
search the data in single site for long period of time 
by  using  any  algorithms  automatically  generate 
rating for that blogs. Future work is to developing 
an efficient algorithm for this. 

References
[1]  R.  Agrawal  and  R.  Srikant,  “Fast  algorithms  for  mining 
association  rules,”  Proc.  of  the  20
th
  VLDB  Conference,  pp. 
487‐ 499, Santiago, Chile, 1994. 
 [2]  I.  V.  Cadez,  D.  Heckerman,  C.  Meek,  P.  Smyth,  and  S. 
White.  Model‐based  clustering  and  visualization  of 
navigation  patterns  on  a  Web  site.  Data  Mining  and 
Knowledge Discovery, 7(4):399‐424, 2003. 
[3]  S.  Chakrabarti.  Mining  the  Web.  Morgan  Kaufmann, 
2003. 
[4] Z. Chen, A.Wai‐Chee Fu, and F. Chi‐Hung Tong. Optimal 
algorithms  for  finding  user  access  sessions  from  very  large 
Web  logs.  World  Wide  Web:  Internet  and  Information 
Systems, 6:259‐279, 2003. 
[5]  D.  Cheng,  B.  Gersho,  Y.  Ramamurthi,  and  Y.  Shoham, 
Fast Search  Algorithms for Vector Quantization and  Pattern 
Recognition.  Proceeding  of  the  IEEE  International 
Conference on Acoustics, Speech and Signal Processing, 1:1‐
9, 1984. 
 [6]  N.  Eiron  and  K.  S.  McCurley.  Untangling  compound 
documents  on  theWeb.  In  Proceedings  of  ACM  Hypertext,, 
pages 85‐94, 2003. 
 [7] J.L.R. Filho, P.C. Treleaven, C. Alippi, Genetic algorithm 
programming environments, IEEE Comput. 27:28‐43,1994. 
 [8] Y. Fu, K. Sandhu, and M‐Y Shih. Clustering of Web users 
based on access patterns. In Proceedings of WEBKDD, 1999. 
 [9]  B.  Hay,  K  Vanhoof,  and  G.  Wetsr  Clustering  navigation 
patterns  on  a  Website  using  a  sequence  alignment  method. 
In  Proceedings  of  17th  International  Joint  Conference  on 
Artificial  Intelligence,  Seattle,Washington,  USA,  August, 
2001.  Refinement  of  Web  usage  Data  Clustering  from  K‐
means with Genetic Algorithm 489 
 [10]  T.  Kanungo,  D.M.  Mount,  N.  Netanyahu,  C.  Piatko,  R. 
Silverman,  and  A.Y.  Wu,  An  efficient  k‐means  clustering 
algorithm:  Analysis  and  implementation.  IEEE  Trans. 
Pattern  Analysis  and  Machine  Intelligence,  24  (7):  881‐892, 
2002. 
 [11]  Z.  Michalewicz,  “Genetic  Algorithms,  Data  Structuresʺ 
Evolution Programs, Springer, New York, 1992. 
 [12] O. Nasraoui, H. Frigui, A. Joshi, and R. Krishnapuram, 
“Mining  Web  Access  Logs  Using  Relational  Competitive 
Fuzzy Clustering”, to be presented at the Eight International 
Fuzzy  Systems  Association  World  Congress  ‐  IFSA  99, 
Taipei, August 99. 
 [13]  S.  Oyanagi,  K.  Kubota,  A.  Nakase,  Application  of 
matrix  clustering  to  web  log  analysis  and  access  prediction, 
in:  WEBKDD2001—MiningWeb  LogDataAcrossAll 
Customers  Touch  Points,  Third  InternationalWorkshop, 
2001. 
 [14]  C.  Shahabe,  A.  M.  Zarkesh,  J.  Abidi  and  V.  Shah, 
“Knowledge  discovery  from  user’s  web‐page  navigation,” 
Proc.  Seventh  IEEE  Intl.  Workshop  on  Research  Issues  in 
Data Engineering (RIDE), 20‐29, 1997. 
WEBKDD  2001—Mining  Web  Log  Data  Across  All 
Customers Touch Points, Third International Workshop, San 
Francisco,  CA,  USA,  August  26,  2001.  Revised  papers,  vol. 
2356 of Lecture Notes in Comp Sc, Springer, 113–144, 2002. 
 [15]  J.  Srivastava,  R.  Cooley,  M.  Deshpande,  and  P.  Tan, 
Web  Usage  Mining:  Discovery  and  Applications  of  Usage 
Patterns from Web Data, in SIGKDD Explorations, 1(2):1‐12, 
2000. 
 [16] Xu R., and Wunsch D., Survey of clustering algorithms. 
IEEE Trans. Neural Networks, 16 (3): 645‐678, 2005.