WEBOMETRICS : A NEW LIS RESEARCH DOMAIN

  1    INTRODUCTION  This article gives a contextual background and overview of Webometrics as 

a  new  LIS  research  domain,  especially  regarding  academic  web  spaces.  The  emergence of internet and World Wide Web, the number of electronic activities  has  increased  forcefully.  Bibliometrics  has  changed  out  of  all  recognition  since  1958;  becoming  established  as  a  field,  being  taught  widely  in  library  and  information  science  schools,  and  being  at  the  core  of  a  number  of  science  evaluation research groups around the world. The emergence of a new field that  applies  the  well‐  established  reaserch  techniques  from  another  field,  known  variously  as  Bibliometrics,  Scientometrics,  informetrics,  to  rapidly  developing  environment‐the world wide web is called as Webometrics or cybermetrics. The  science  of  webometrics  also  cybermetrics  tries  to  measure  the World  Wide  Web to  get  knowledge  about  the  number  and  types  of hyperlinks,  structure  of  the World and usage patterns.     According  to  Björneborn  and  Ingwersen  (2004)4,  the  definition  of 

webometrics is "the study of the quantitative aspects of the construction and use  of  information  resources,  structures  and  technologies  on  the  Web  drawing  on  Bibliometrics and informetrics approaches."  The  term  webometrics  was  first  coined by Almind and Ingwersen (1997)2. A second definition of Webometrics has  also  been  introduced,  "the  study  of  web‐based  content  with  primarily  quantitative methods for social science research goals using techniques that are  not  specific  to  one  field  of  study"  Thelwall,  (2008)3,  which  emphasizes  a  small 

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

subset  of  relatively  applied  methods  for  use  in  the  wider  social  sciences.  Bibliometrics  deals  with  the  quantitative  aspects  of  print  document.  Webometrics  deals  with  the  application  of  infometrics  and  other  quantitative  techniques for the analysis of Web documents.    Cybermetrics  thus  encompasses  statistical  studies  of  discussion  groups, 

mailing  list    and  other  computer  mediated  communication  on  the  internet  including the web. Besides covering all computer‐ mediated communication using  internet  applications.  Cybermetrics  also  covers  quantitative  measures  of  the  internet  backbone  technology  and  traffic.  The  breadth  of  coverage  of  cybermetrics  and  Webometrics  implies  large  overlaps  with  proliferating  computer science based approaches in analysis of web contents link structures,  web  usage  and  technologies.  The  relationship  between  Bibliometrics,  Scientometrics, informetrics, cybermetrics and Webometrics is given in figure 3.  Figure 1  The relationship between the LIS fields of Informetrics, Bibliometrics,  Scientometrics, cybermetrics and Webometrics 

 

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

 

The  figure  1  briefly  looks  at  the  relationship  between  the  LIS  fields  of 

Informetrics,  Bibliometrics,  Scientometrics,  cybermetrics  and  Webometrics.  The  sizes of the overlapping ellipse are made for the sake of clarity only4. It observes  that  Webometrics  associates  with  Bibliometrics  and  overlaps  Scientometrics  to  an  extent.  The  fields  of  Informetrics  embracing  the  overlapping  fields  of  Bibliometrics  and  Scientometrics.  The  fields  of  Webometrics  may  be  seen  as  entirely encompassed by Bibliometrics, because web documents, whether text or  multimedia, are recorded information stored on web servers.  2     Webometrics and its application   The main application of Webometrics studies are:  • Web page content analysis or Citation analysis.  • Web link structure analysis (e.g. hyperlinks, Self link and External links).  • Web  usage  analysis  (e.g.  exploiting  log  files  for  users  searching  and  browsing behavior)  • Web technology analysis (including search engine performance)                 Bjorneborn and Ingwersen (2001)5 explained all four main research areas 

which include longitudinal studies of changes on the dynamic web, for example,  of page contents, link structures and usage pattern. So called web archaeology  could  in  this  Webometrics  context  be  important  for  recovering  historical  web  development, for instance, by means of the internet archive an approach used in  Webometrics.     
SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

3    

Web page content Analysis or Citation analysis Many  of  the  webometric  research  have  focused  not  on  websites  but  on 

academic  publications;  using  the  web  to  count  how  often  journal  articles  are  cited.  Vaughan  and shaw (2003)6 discussed online citations are relatively trivial,  for  example  appearing  in  journal  content  lists  rather  than  in  the  reference  sections  of  academic  articles.  If  this  can  automated  then  it  would  give  an  interesting alternative to the ISI citation indexes.  i. The web page content analysis can be used to analyze content of the  websites.  ii. It  enables  the  users  to  reduce  their  time  in  the  choice  of  right  sources.  iii. It  provides  hits  on  the  systematic  organization  of  web  based  information sources.  iv. It  will  be  useful  for  student,  researcher,  scientists  who  seek  information through www.  v. It  compares  the  efficiency  of  search  engines  in  retrieving  the  required information sources.  vi. Simplistic  counts  and  contents  analysis  of  web  pages  are  like  traditional publication analysis.       

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

  4     Web Links Structure Analysis  Link  analysis  is  the  quantitative  study  of  hyperlinks  between  web  pages. 

The  use  of  links  in  Bibliometrics  was  proposed  by  Ingwersen.  Link  analysis  has  been  used  successfully  for  deciding  which  web  page  to  add  to  the  collection  of  documents  (i.e.  which  pages  to  crawl),  and  how  to  order  the  documents  matching  a  user  query  (i.e.  how  to  rank  pages).  It  has  also  been  used  to  categorize  web  pages,  to  find  pages  that  are  related  to  given  pages,  to  find  duplicated  web  sites,  and  various  other  problems  related  to  web  information  retrieval.   i. The  web  link  structure  analysis  provides  hyperlinks  or  selflinks  between  documents  and  records  of  user  behavior.  To  be  precise,  hypertexts  (i.e..,  collection of documents connected by hyperlinks).  ii. It  provides  counts  and  analysis  of  outgoing  links  from  web  pages,  here  named called outlinks or external links.  iii. It  provides  links  to  web  pages  or  links  coming  from  the  other  websites  called  inlinks  or  incoming  links.  The  concepts  cover  all  links  from  other  websites pointing to a certain WebPages or websites. An incoming link is  similar  to  receiving  a  citation  in  a  document.  These  links  also  known  as  backward links or ingoing links.  iv. If two web pages or two web sites both have a link pointing to each other,  it is called Reciprocal Link.     Bojorneborn  (2004)  and  Ingwersen4  explained  the  link  relations  between 

the  web  nodes.  Fig.  2  below  illustrates  the  terminology  used  in  the  thesis  to 
SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

describe  different  link  topologies,  i.e.  different  degrees  of  cohesiveness  and  connectedness of link structures on the Web. In this context, the figure presents  an attempt to create a consistent basic webometric terminology for link relations  between web nodes.        Figure 2  Basic Webometric Link Terminology   

    Figure 2 the letters may represent different web node levels such as web 

pages,  web  directories,  web  sites,  or  top‐level  domains  of  countries  or  generic  sectors.  The  arrows  represent  the  linking  pattern  of  these  nodes  among  one  another.   

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

• B has an inlink from A; B is inlinked; A is inlinking; A is an in‐neighbor of B  • B has an outlink to C; B is outlinking; C is outlinked; C is an out‐neighbor of  B  • B has a selflink; B is selflinking  • A has no inlinks; A is non‐linked  • C has no outlinks; C is non‐linking  • I has neither in‐ nor outlinks; I is isolated  • E and F have reciprocal links; E and F are reciprocally linked  • D, E and F have in‐ or outlinks connecting each other; they are triadically  interlinked  • A has a transversal outlink to G: functioning as a shortcut  • H is reachable from A by a directed link path  • C and D are co‐linked by B; C and D have co‐inlinks  • B and E are co‐linking to D; B and E have co‐outlinks  • Co‐inlinks and co‐outlinks are both cases of co‐links      The  terms  outlink  and  inlink  are  commonly  used  in  computer‐science‐

based  Web  Studies.  The  term  outlink  implies  that  a  directed  link  and  its  two  adjacent  nodes  are  viewed  from  the  source  node  providing  the  link,  analogous  with  the  use  of  the  term  reference  in  bibliometrics.  A  corresponding  analogy  exists  between  the  terms  inlink  and  citation,  with  the  target  node  as  the  spectator’s perspective.       On  the  Web,  selflinks  are  used  for  a  wider  range  of  purposes  than  self‐

citations  in  scientific  literature.  This  reflects  a  special  case  of  the  general  difference between outlinks /inlinks and references/citations. Page selflinks point  from one section to another within the same page. Site selflinks (also known as 
SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

internal links) are typically navigational pointers from one page to another within  the same web site. Reciprocal links as between nodes E and F in Fig. 4 is a wide  spread  existing  web  term  for  mutual  inlinks  and  outlinks  between  two  web  nodes. This reciprocity is not necessarily completely symmetrical as there may be  more links in one direction between two web nodes.      In  the  figure,  the  triadically  linked  nodes  D,  E,  and  F  correspond  to  the 

social  network  analytic  term  triadic  closure,  for  instance,  describing  the   probability that nodes E and F are connected   if there are already links between  D and E, and between D and F. In social networks, such simple triadic structures  or triads are the building blocks of larger social structures. However, some links in  a  web  node  neighborhood  may  break  such  topical  linkage  patterns.  Such  transversal  links  function  as  shortcuts  between  dissimilar  topical  domains.  Such  transversal  links  function  as  cross  to  shortcuts  and  may  affect  so‐called  small  world phenomena on the web.    5  
 

Web Usage Analysis  

 

It  is  a  new  type  of  statistical  analysis  of  the  science  and  technical 

information  (STI)  in  the  web  context  is  produced.  A  web  server  log  is  an  important source for performing web usage analysis and bibliometrics because it  explicitly  records  the  browsing  behavior  of  the  site  visitors.  A  set  of  server  sessions is the necessary input for any Web usage analysis. The data recorded in  server logs reflects the access of a Web site by multiple users. These log files can  be  stored  in  various  formats.  The  Web  server  stores  query  data.  Query  data  is  generated by online visitors while searching for records (web pages) relevant to  their  information  needs.  There  are  two  web  usage  factor  i.e.,  web  users’ 
SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

information  retrieval  and  Web  customers’  orders.  The  first  is  a  web  usability  factor,  and  the  other  is  a  web  customer  order  factor.  These  factors  can  be  considered  for  evaluating  online  information  sources  by  the  observation  of  the  information  displayed  by  users,  and  the  documents  ordered  by  user‐ customers[7]. A situation is the number of times an information source is used or  displayed by online users. This is a well known situation in information retrieval.  The other is the number of times an information source is ordered; in this case  we are in face of e‐commerce transactions. Web usage analysis covers;  • Log files for users searching  • Browsing behavior  • Log analysis for security applications  • Novel  techniques  for  discovery  and  analysis  of  web  usage  mining  and  analysis  • Reliability and consistency of web metrics  • Integration of click stream data with back end data related metrics    6      The  web  technology  analysis  is  intended  to  provide  a  coherent  basis  for   Web Technology Analysis‐search Engine Performance 

future webometric research and background to the studies reported. Measuring  information  retrieval  effectiveness  of  web  search  engine  can  be  expensive  if  human  relevance  judgments’  are  required  to  evaluate  search  results.  Using  implicit  user  feedback  for  search  engine  evaluation  provides  a  cost  and  time  effective manner of addressing this problem.       
SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

  7       The WIF is a form of measurement used to determine the relative standing  WEB IMPACT FACTOR

of web sites in particular fields, or a country; for instance, academic web sites in a  country. WIF introduced by Ingwersen (1998)8, the WIF measure may be defined  as the number of web pages in a web site receiving links from other web sites,  divided by the number of web pages published in the site that are accessible to  the  crawler.  However  the  use  of  WIF  has  been  disregarded  due  to  the  mathematical  artifacts  derived  from  power  law  distributions  of  these  variables.  The higher the impact factor, the higher the perceived reputation of the web site.  The  WIF  answers  the  question  “what  impact  has  this  web  site  had?.  A  WIF  is  a  measure of the frequency with which the "average web page" in a web site has  been linked at a given point in time. In general, a web site with a higher impact  factor may be considered to be more prestigious or of a higher quality than those  web sites with a lower impact factor.      There  are  three  types  of  link.  Outgoing  links  from  web  pages  are  here 

named outlinks, links coming into a site from other sites inlinks (backlinks), and  links within the same site (from one page to another page) self‐links. And there  are three types of WIF: overall WIF, inlink (revised) WIF, and self‐link WIF. For the  overall  WIF  of  a  web  site,  the  numerator  is  the  number  of  inlink  pages  from  outside the site and self‐link pages within the site for the inlink (revised) WIF, the  numerator  is  the  number  of  inlink  pages  counted  from  outside  the  site  and  for  the  self‐link  WIF,  the  numerator  is  the  number  of  self‐link  pages  counted  from  within the site. The denominators all remain the same, the number of web pages  within the web site in question9. 
SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

  • Calculation of Web Impact Factor    1. Simple WIF    [SWIF=A/N]              (A)          (N)    Number of Link Pages  Number of Web Pages   Indexed by the search engine    2. Self Link WIF           (B)     Number of Self Link Pages  Number of Web Pages   Indexed by the search engine    3. External Link WIF       (C)      Number of External Link Pages   Number of Web Pages    Indexed by the search engine    4. Revised WIF         (D)      Number of Inlink Pages  Number of Web Pages  Indexed by the search engine    8   ADVANTAGES OF WEB IMPACT FACTOR

[SLWIF=B/N]                               (N)   

[ELWIF=C/N]                             (N)   

[RWIF=D/N]                               (N)    

The major advantages and utilities of WIF given by Li (2003)10 are as follows:‐  • The WIF provides a quantitative indicator of the long – term influence of  the websites. In the final analysis, Impact simply reflects the ability to web  sites and webmaster to attract users and cybercitizens, and consequently  backlinks. 

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

• Total  WIFs  of  national  sector  and  larger  segments  or  top‐  level  domains  are  calculable.  The  variation  of  the  WIF  over  different  snapshot  taken  within short intervals exists.  • WIF  analysis  presents  a  methodology  for  evaluating  “international  visibility”  and  impact  of  institutional  and  academic  web  sites,  and  their  relations to other web sites. The WIF can be regarded as a useful tool to  measure  relative  visibility  of  a  company,  organization  or  country  on  the  web.  It  must  be  noted  that  the  WIF  is  not  the  only  indicator  of  the  use,  visibility and popularity of a web site.  • WIF  provides  a  way  to  evaluate  websites  relative  importance,  especially  when  it  is  compared  to  others  in  same  field.  Therefore,  to  compare  websites, we do not compare web sites in different research field. So, the  WIF measure the success and relative influence of similar web sites.  • The  WIF  may  in  turn  provide  novel  insights  into  the  retrieval  process  on  the  web.  For,  instance  cluster  of  web  sites  can  be  detected  by  means  of  link pages co‐occurrence. The WIF can be regarded as a tool for measuring  the  accuracy  of  web  search  engine  performance,  web  site  organization,  linking and structuring of pages.  9     CONCLUSION Webometrics research has been conducted by both Information Scientists 

and  Computer  Scientists.  Evaluation  of  web  sites  is  a  formidable  but  necessary  task considering the wide range of choices available. The WIF is a useful tool for  evaluation of web sites, but it must be used discreetly. Considerations include the  amount  of  web  pages  or  other  types  of  material  published  in  a  web  site,  contents,  and  variations  between  disciplines.  The  web  site's  status  in  regard  to 
SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

coverage in the search engines’ databases as well as the occurrence of a domain  name  change  is  also  very  important.  The  WIFs  are  always  approximate  and  not  absolute. The WIF of a site is not stable, because everyday some webmasters are  deleting the old outlinks to several web sites and others are linking to new ones.  The WIF would still be far from being a quality indicator: link impact is primarily a  measure  of  scientific  utility  rather  than  of  scientific  quality.  For  evaluation  of  scientific  quality,  there  seems  to  be  no  alternative  to  qualified  experts  reading  the web site resources. All WIF studies should be normalized to take into account  variables such as field, or discipline, country, language, and link practices. Social  network  analysis  and  web  impact  factor  in  order  to  gain  the  benefit  of  more  quantitative techniques.                       

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

REFERENCES 1.  Aguillo, J.F et.al., (2006)Scientific  research activity and communication  measured with cybermetrics indicators. Journal of the American society for  information sciences and technology,57(10),1296‐1302.  2.  Almind, T .C. & Ingwersen, P. (1997), Informetrics analysis of world wide  web: methodological approaches to “Webometrics” , Journal of  documentation,53(4),404‐425.  3.  Thelwall,  M  (2008).  Introduction  to  Webometrics:  Quantitative  Web  Research  for  the  Social  Sciences  Synthesis  Lectures  on  Information  Concepts, Retrieval, and Services,116.  4.  Björneborn,L  &  Ingwersen,  P.  (2004).  Toward  a  Basic  Framework  for  Webometrics,  Journal  of  the    American  society  for  information  sciences  and technology, 55(14),1216–1227.  5.   Bjorneborn &Ingwersen. (2001).Perspectives of Webometrics,  Scientometrics, 50(1),65‐82.  6.  Vaughan,L&Shaw, D. (2003). Bibligraphic and web citation:What is  difference?, Journal of the  American society for information sciences and  technology,,54(14),1313‐1322.  7.   Anonymous. (1999). Web usage analysis and user profiling: International  WEBKDD '99 Workshop, San Diego: USA  8.   Ingwersen, P. (1998).The calculation of web impact factors, Journal of  Documentation, 54(2),236‐243.  Noruzi, A. (2006). The Web Impact Factor: a critical review. The Electronic  Library, 24.   

9.  

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram

10.   Li, X. (2003). A review of the development and application of the web  impact factor, Online information review,27(6),407‐417.  11.   Jeyshankar, R., Ramesh & Gopalakrishnan, S. (2009). Conceptual frame  work of Webometrics:an analysis, Kelpro bulletin,13(1),41‐48.   

SAJU S RAJ (MLISc Student) Dept.of Library & Information Science University of Kerala Thiruvananthapuram