You are on page 1of 4

JOURNAL OF COMPUTING, VOLUME 2, ISSUE 11, NOVEMBER 2010, ISSN 2151-9617

HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 83

Phylogenetic Analysis of HA and NA genes of


swine influenza A virus H1N1
Vijay Tripathi, Shambhavi Shankrit, and Dwijendra Gupta

Abstract— Influenza A virus H1N1, a novel strain with high morbidity is the causative agent behind the recent outbreak of
swine influenza. Fifty one sequences of H1N1 influenza A viruses for the proteins-hemagglutinin and neuraminidase were taken
from GenBank. The sequences were aligned using ClustalW and BioEdit 7.0.2, both and the results were interpreted. The phy-
logenetic analysis was performed using MEGA 4. From the study conducted, the results suggested that the new influenza A vi-
rus strain H1N1 has a close phylogenetic relationship with the H1N1 viruses previously isolated from North America, Europe and
Asia.

Index Terms— Influenza A virus, Hemagglutinin, Neuraminidase, Phylogenetic analyses, MEGA4.

——————————  ——————————

1 INTRODUCTION
caused  substantial  morbidity  and  mortality  in  humans, 
Influenza  virus  belongs  to  the  viral  family  of  Orthomyx‐ from  the  time  of  its  first  outbreak  in  1918  to  the  present 
day. The genomic evolution of A/H1N1 has been demon‐
oviridae  having  segmented,  negative  single  stranded, 
strated  to  have  been  resulted  from  segmental  reassort‐
sense RNA stranded genome in an enveloped virion  and 
ment.  The  influenza  isolates  from  different  host  species 
can  be  either  spherical  or  filamentous  in  form.  It  can  be  on reassortment can generate viruses with pandemic po‐
classified into type A, B or C on the basis of the function  tential  [4]. The novel  H2N2 and H3N2  strains that caused 
of its genetic material. The viral envelope is studded with  global  human  pandemics  in  1957  and  1968  respectively 
two glycoproteins namely, hemagglutinin (HA) and neu‐ were generated from the reassortment between avian and 
raminidase  (NA)  which  are  essential  for  the  biological  human influenza A viruses [5].   
function  of  the  virus.  There  are  16  known  HA  proteins  Novel influenza A (H1N1) is a new flu virus of swine ori‐
and  9  known  NA  proteins  which  can  be  present  in  vari‐ gin  that  was  first  detected  in  Mexico  and  the  United 
ous combinations and creating several different subtypes  States  in  March  and  April,  2009.  This  strain  contains 
[1].   genes  from  four  different  flu  viruses:  North  American 
The  viruses  undergo  major  evolutionary  change  by  ac‐ swine influenza, North American avian influenza, human 
quiring  a  new  genome  segment  from  another  influenza  influenza,  and  two  swine  influenza  viruses  typically 
virus, effectively becoming a new subtype, by the process  found in Asia and Europe  [6].   Many of the genes in this 
known  as  antigenic  shift [2].  Animals  such  as  pigs  and  new  virus  were  very  similar  to  influenza  viruses  that 
birds serve as reservoirs of influenza viruses thus facilitat‐ usually  occur  in  pigs  in  North  America.  However,  this 
ing viral evolution. Genetic reassortment can occur when  new virus is very different from what normally circulates 
a pig is simultaneously infected with different influenza A  in North American pigs. The 2009 H1N1 swine influenza 
viruses,  such  as  human,  swine,  and  avian  strains.  This  strain appears to be a result of genetic reassortment. It has 
process gives rise to new strains of influenza A.  two genes from flu viruses that normally circulate in pigs 
The  first  case  of  swine  flu  outbreak  in  humans  dates  in  Europe  and  Asia  and  avian  genes  and  human  genes, 
back  to  the  1918  Spanish  influenza  pandemic  [3].  The  and is therefore known as quadruple reassortant virus.    
Spanish  flu  is  in  1918, Asian  flu  in  1957  and  Hong  Kong  Herein, we undertook an analysis of evolutionary pat‐
flu  in  1968–69.  The  influenza A  virus  H1N1  subtype  has  terns  in  A/H1N1  influenza  A  viruses,  using  52  protein 
sequences  of  Hemagglutinin  and  Neuraminidase  sam‐
———————————————— pled between 2004 and 2009 and representing 17 different 
 Vijay Tripathi is with the Center of Bioinformatics, University of Allaha- places.  As  our  focus  is  on  revealing  the  extent  of  intra‐
bad, Allahabad, India. subtype reassortment within A/H1N1, we inferred phylo‐
genetic  trees  for  HA  and  NA  gene  segment  and  deter‐
 Shambhavi Shankrit is with the Department of Biotechnology and Bioin-
formatics, Dr. D. Y. University,Pune, India mined the extent and pattern of topological incongruence 
among them.            
 Dwijendra Gupta is with the Center of Bioinformatics, University of Alla-  
habad, Allahabad, India  
 
 
JOURNAL OF COMPUTING, VOLUME 2, ISSUE 11, NOVEMBER 2010, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 84

                                                                                                                    a measure of the unpredictable nature of a set of possible 
elements.  The  higher  level  of  variation  within  the  set, 
2 MATERIALS AND METHODS higher the entropy.  

Recent sequences of influenza A virus from the year 2006  2.2 PHYLOGENETIC ANALYSIS OF HA AND NA


to  2009  were  taken  from  GenBank  Database  of  NCBI  for 
GENES
the  proteins,  hemagglutinin  and  neuraminidase.  These 
sequences have been listed in Table 1.     The Neighbor‐ Joining method [9] was used to prepare rooted 
trees  for  the  two  genes,  hemagglutinin  and  neuramini‐
Table 1: GenBank Accession Number of protein  dase,  using  the  software  MEGA4  [10].  The  inferred          
sequences   phylogeny  was  tested  using  Bootstrap  consensus  [11]  with 
500  replicates.  The  tree  is  drawn  to  scale,  with  branch 
Virus Isolates  Abbreviation  HA  NA lengths  in  the  same  units  as  those  of  the  evolutionary   
A/England/2005(H1N1)  England/2006  ABB84190  ND  distances  used  to  infer  the  phylogenetic  tree.  The         
A/Spain/53207/2004(H1N1)  Spain/2006  ABE27153  ABE27156  evolutionary  distances  were  computed  using  the  Poisson 
A/California/2007(H1N1)  California/2007  ABY51259  ABY51262  correction method  [12]  and are in the units of the number of 
A/New Caledonia/2007(H1N1)  New  Caledo‐ ABQ52695  ND  amino acid substitutions per site. All positions containing 
nia/2007 
gaps  and  missing  data  were  eliminated  from  the  dataset 
A/IDT/Re230/92hp(H1N1)  Germany/2007  ABV60698  ABP64733  (Complete  deletion  option).  There  were  a  total  of  290   
A/USSR/46/1979(H1N1)  USSR/2007  ABQ01322  ABQ01325  positions  for  HA  and  207  positions  for  NA,  in  the  final 
A/Busan/03/2007(H1N1)  Busan/2007  ABY25766  ABY25770  dataset. 
A/England/557/2007(H1N1)  England/2008  ACJ25157  ACJ25158 
A/Canarias/R2915/2007(H1N1)  Canarias/2008  ACL01105  ACL01103 
3 RESULTS AND DISCUSSION
A/California/AF1214/2008(H1N1)  California/2008  ACD45767  ACD85794 
A/New York/03/2008(H1N1)  New York/2008  ACD85755  ACD85780  Multiple  sequence  alignment  of  the  sequences  was      
A/New Mexico/AF1900/2008(H1N1)  New  Mex‐ ACH69193  ACB11771  analyzed and a number of conserved regions were found 
ico/2008  to  be  present.  Thus,  the  study  was  proceeded  further  to 
A/Paris/1208/2008(H1N1)  Paris/2008  ACD68122  ACD68095  determine the relatedness between these sequences. 
A/Germany/AF1992/2008(H1N1)  Germany/2008  ACH69269  ACI94928  For the alignment performed using BioEdit 7.0.2, HA was 
A/St. Petersburg/8/2006(H1N1)  St.  Peters‐ ACI26450  ACI26453  found  with  360  conserved  sites,  163  parsimony             
burg/2008  informative sites, 206 variable sites and 43 singleton sites. 
A/Korea/AF1951/2008(H1N1)  Korea/2008  ACH69232  ACE77988  For  NA,  the  alignment  was  found  with  319  conserved 
A/Zhejiang/1/2007(H1N1)  Zhejiang/2008  ACJ06667  ACJ06668  sites,  103  parsimony  informative  sites,  151  variable 
A/England/195/2009(H1N1)  England/2009  ACR15621  ACR15618  sites=151 and 48 singleton sites. The entropy plot was also 
A/Catalonia/53/2009(H1N1)  Catalonia/2009  ACR08489  ACR08488  generated  using  BioEdit  7.0.2  and  from  the  results       
A/California/07/2009(H1N1)  California/2009  ACR47014  ACR47015  obtained  it  was  be  concluded  that  in  case  of  HA,  the    
A/New York/3201/2009(H1N1)  New York/2009  ACS14666  ACS14669  entropy crossed the scale of one at most of the positions, 
A/Mexico/47N/2009(H1N1)  Mexico/2009  ACR47006  ACR47008 
and did not cross this scale at some positions. 
A/Paris/2591/2009(H1N1)  Paris/2009  ND  ACS16453  However,  in  case  of  NA,  most  of  the  positions  had  their 
A/Germany/01/2009(H1N1)  Germany/2009  ACQ44236  ACQ63471 
entropy value below the scale of one. The latter case is a 
A/Moscow/02/2009(H1N1)  Moscow/2009  ACS27774  ACR33740 
sign of better alignment in the region. 
A/Korea/01/2009(H1N1)  Korea/2009  ACQ84451  ACQ89891 
The  entropy  data  provided  the  value  of  entropy  at       
A/Shanghai/37T/2009(H1N1)  Shanghai/2009  ACS27780  ACS27784 
respective positions. Three conserved regions were found 
to be present in case of HA and NA, each. The results are 
shown in Table 2 and 3. 
 
2.1 Sequence alignment and analyses Table 2: Entropy data for HA 
 
Multiple  sequence  alignment  was  performed  using     Region Position Segment length  Average Entropy(Hx)
Clustal W  [7]  and the data obtained was analyzed to deter‐ 1  332‐382  50  1.31372 
mine the similarity between the sequences. BioEdit 7.0.2  [8]  2  422‐456  34  1.37375 
was also used to perform the alignment to determine the  3  458‐490  32  0.59057 
number of conserved sites, parsimony info sites, variable   
sites and singleton sites.  Table 3: Entropy data for NA 
 
  Region  Position  Segment length  Average Entropy(Hx) 
2.2 Determination of the Entropy  1  127‐157  30  0.80873 
BioEdit 7.0.2 was used to determine the entropy plot and  2  190‐214  24  0.78485 
3  289‐328  39  0.85164 
the  values  obtained  were  summarized  in  the  entropy   
data. From information theory, Entropy can be defined as  The  tree  was  constructed  using  Neighbour‐Joining 
JOURNAL OF COMPUTING, VOLUME 2, ISSUE 11, NOVEMBER 2010, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 85

method  with  the  help  of  MEGA4  software.  Influenza  A 


virus  strains  isolated  from  different  countries  and 
belonging to different years have been represented in the 
tree  on  the  nodes.  The  tree  constructed  for  HA  (Fig.  1) 
showed  that  HA/Catalonia/2009  made  a  totally  diverged 
branch from the main tree. The nodes for HA/Spain/2006, 
HA/Germany/2007  and  HA/Zhejiang/2008  were 
supported  by  very  high  bootstrap  values  i.e.,  100%. 
Similarly,  HA/USSR/2007  and  HA/England/2006, 
HA/California/2007  and  HA/New  Caledonia/2007  have 
nodes  with  bootstrap  value  of  100%.  The  other  nodes 
were supported by lower bootstrap values.

Fig. 2: Bootstrap Consensus Tree for NA

4 CONCLUSIONS
The  purpose  of  this  study  was  to  carry  out  the             
phylogenetic  analysis  of  the  influenza  A  virus  H1N1. 
From  the  information  gathered  it  can  be  concluded  that 
the influenza A virus H1N1 is closely related to the strains 
that  had  been  earlier  isolated  from  North  America,       
Europe and Asia.    

5 ACKNOWLEDGEMENTS
The work has been supported by DBT‐BIF Grant to DKG 
under  its  BTISNet scheme, Department of Biotechnology, 
Fig. 1. Bootstrap Consensus Tree for HA India. VT is thankful to UGC‐India Scholarship. 
 
In  case  of  NA,  the  tree  (Fig.  2)  showed  a  completely     REFERENCES
diverged  branch  for  NA/Catalonia/2009.  High  bootstrap  [1] A.J.  Hay,  V.  Gregory,  A.R.  Douglas  and  Y.P.  Lin,  “The 
value  of  100%  supported  the  nodes  for  NA/Spain/2006  evolution  of  human  influenza  viruses”.  Phil  Trans  R  Soc 
and NA/Zhejiang/2008. The nodes for NA/Germany/2007,  Lond B, pp.1861–1870, 2001.  
NA/USSR/2007  and  NA/Korea/2008  had  high  bootstrap  [2] M.W. Shaw, “New Aspects of Influenza Viruses,” Clinical 
values.  Thus,  it  could  be  inferred  from  the  trees  that  the  Microbiology Reviews, pp. 74‐92, 1992. 
new  virus  strains  of  2009  are  more  closely  related  to  the 
strains of America, Europe and Asia isolated from earlier  [3] E.D. Kilbourne,  “Influenza pandemics of the 20th cen‐
years.  tury” Emerg. Infect. Dis., pp.9‐14, 2006. 

[4] Y.  Kawaoka,  S.  Krauss  and  R.G.  Webster,  “Avian‐to‐


human  transmission  of  the  PB1  gene  of  influenza  A 
viruses in 1957 and 1968 pandemics,” J. Virol., pp. 4603–
4608, 1989. 
JOURNAL OF COMPUTING, VOLUME 2, ISSUE 11, NOVEMBER 2010, ISSN 2151-9617
HTTPS://SITES.GOOGLE.COM/SITE/JOURNALOFCOMPUTING/
WWW.JOURNALOFCOMPUTING.ORG 86

[5] C. Scholtissek, W. Rohde, V. Von Hoyningen and R. Rott, 
“On the origin of the human influenza virus subtype 
H2N2 and H3N2”Virology, pp.13–20, 1978. 

[6]   M.L. Cervantes, “On the Spread of the Novel Influenza 
A (H1N1) Virus in Mexico,” J. Infect. Dev. Ctries., pp. 327‐
330, 2009 

[7] D. Higgins  and  J.  Thompson, “CLUSTAL  W:  improving 


the  sensitivity  of  progressive  multiple  sequence  align‐
ment through sequence weighting, position‐specific gap 
penalties  and  weight  matrix  choice,”  Nucleic  Acids  Res. 
pp. 4673‐4680, 1994. 

[8] T.A. Hall, “BioEdit: a user-friendly biological se-


quence alignment editor and analysis program for-
Windows 95/98/NT,” Nucl. Acids. Symp. Ser., pp. 95-
98, 1999.

[9] N. Saitou and M. Nei, “The neighbor-joining method:


A new method for reconstructing phylogenetic
trees,” Molecular Biology and Evolution, pp.406-425,
1987.

[10] K. Tamura, J. Dudley, M. Nei and S. Kumar,


“MEGA4: Molecular Evolutionary Genetics Analysis
(MEGA) software version 4.0.,” Molecular Biology and
Evolution, pp.1596-1599, 2007.

[11] J. Felsenstein, “Confidence limits on phylogenies: An


approach using the bootstrap,” Evolution, pp. 783-791,
1985.

[12] E. Zuckerkandl and L. Pauling, “Evolutionary diver-


gence and convergence in proteins,” Evolving Genes
and Proteins, Academic Press, New York, pp. 97-166,
1965.

© 2010 Journal of Computing Press, NY, USA, ISSN 2151-9617


http://sites.google.com/site/journalofcomputing/

You might also like