Raj Bharti

Report
on
Computational Analysis of Genomes and Proteomes
Submitted to
Azad Institute of Engineering and Technology

Lucknow
2017
Submitted To
Er. Rehan sultan khan
Submitted By
Raj Bharti
B.Tech (Biotechnology); 2nd Year
1
EXPERIMENT NO. 01
Aim: To retrieve five nucleotides and five protein sequences in FASTA format from NCBI
and EMBL.
Date: 13/09/2017
Theory:
NCBI:
The National Center For Biotechnology Information (Ncbi) Is Part Of The United States
National Library Of Medicine (Nlm), A Branch Of The National Institutes Of Health (Nih). The
Ncbi Is Located In Bethesda, Maryland And Was Founded In 1988 Through Legislation
Sponsored By Senator Claude Pepper.
The Ncbi Houses A Series Of Databases Relevant To Biotechnology And Biomedicine And Is
An Important Resource For Bioinformatics Tools And Services. Major Databases
Include Genbank For Dna Sequences And Pubmed, A Bibliographic Database For The
Biomedical Literature. Other Databases Include The Ncbi Epigenomics Database. All These
Databases Are Available Online Through The Entrez Search Engine.
Ncbi Was Directed By David Lipman, One Of The Original Authors Of The Blast Sequence
Alignment Program And A Widely Respected Figure In Bioinformatics. He Also Leads An
Intramural Research Program, Including Groups Led By Stephen Altschul (Another Blast Co-
Author), David Landsman, Eugene Koonin (A Prolific Author On Comparative Genomics), John
2
Wilbur, Teresa Przytycka, And Zhiyong Lu. David Lipman Stood Down From His Post In May
2017.
EMBL:
The ENA is produced and maintained by the European Bioinformatics Institute and is a
member of the International Nucleotide Sequence Database Collaboration (INSDC) along
with the DNA Data Bank of Japan and GenBank.
FASTA format:
A sequence in FASTA format consists of:
One line starting with a ">" sign, followed by a sequence identification code.
It is optionally be followed by a textual description of the sequence. Since it is not part of the
official description of the format, software can choose to ignore this, when it is present.
One or more lines containing the sequence itself.
A file in FASTA format may comprise more than one sequence The FASTA format is
sometimes also referred to as the "Pearson" format (after a
author of the FASTA program and ditto format).
Link use :
www.ncbi.nlm.nih.gob
www.ebi.ac.in
PROCEDURE:
NUCLEOTIDE SEQUENCE(NCBI)
 Switch on the system and check the internet connection and look for MS office word
3
 .Clicked on internet browser and typed NCB Iwww.ncbi.nlm.nih.gob
 Type the desired gene(ANY3)name and clicked on search button selected approbiated item
from resultant gene database
 The page of the particular gene get displayed clicked on FASTA option to get the gene
sequence in FASTA format
 Copied the entire the sequence and pasted on word pad / note pad . simillarly process was
repeated for four nucleotide sequence (AADC, AHC, AR, CCA)
NUCLEOTIDE SEQUENCE (EMBL)
 Switch on the system and check the internet connection and look for MS office word .
 Clicked on internet browser and typed EMBI
 www.ebi.ac.uk
 Type the desired gene(ANY3)name and clicked on search button selected approbiated
item from resultant gene database
repeated for four nucleotide sequence (AADC, AHC, AR, CCA)
PROTINE SEQUENCE (NCBI)
 Clicked on internet browser and typedNCBI www.ncbi.nlm.nih.gob
 Type the desired gene(ANY3)name and clicked on search button selected approbiated
item from resultant gene database
repeated for four nucleotide sequence (AADC, AHC,AR, CCR)
4
NUCLEOTIDES RESULT ( NCBI)
AADC GENE
>AB618097.1 Gryllus bimaculatus AADC mRNA for aromatic L-amino-acid decarboxylase,

complete cds
CCGACCCCGTCATGGAGACGAAGCAGTTCAAGGAGTTCGCCAAGGAGATGGTGGACTACATTGGCAA
CTACTTGGACAACATACGAGACAGGCCCGTGCTGCCCAACGTGAAGCCGGGCTACCTGCGCGAGCTGC
TGCCCGAGAGCGCGCCCGAGCAGCCGGAGAAGTGGCAGGACGTGATGGCGGACGTGGAGCGCCTCAT
CATGCCGGGGGTCACCCACTGGCACTCGCCCCGCTTCCACGCCTACTTCCCCACGGCCAACTCGTACCC
GGCCATCGTGGCGGACATGCTGAGCGGCGCCATCGCCTGCATTGGCTTCTCATGGATCGCGAGCCCTG
CTTGCACGGAGCTGGAAGTGGTGATGCTGGATTGGTTGGGCAAGATGCTGGAGCTGCCGCCCGAATTT
CTCGCCAGCTCTGGAGGCAAGGGGGGCGGCGTCATACAGGGGACCGCGAGTGAGGCGACCCTGGTGG
CGTTGCTGGGAGCCAAAGCTCGAGTCCTCCGCAAAGCGCGCCAAGAGAACCCAGATGTGAATGAAAA
CGACATTGTATCAAAACTTGTGGGATACGCTTCAAGCCAGGCGCACTCGTCGGTGGAGCGCGCGGGGC
TGCTGGGCGGCGTCAAGCTGCGTCTGCTGCCCACGGACGCCAACAACCGCCTGCGCGCCGACGCCCTG
CAAGACGCCATCCGCAGCGACCGCCAGCAGGGACTCATCCCATTCTACGCTGTGGCTACTCTTGGAAC
AACTAGTTCTTGTGCTTTTGATCCCCTTGAGGAGCTGGGTGTCGTATGCAATCAAGAAGGAGTTTGGTT
GCATGTAGATGCTGCATATGCTGGATCTGCTTTCATTTGCCCGGAATATCGATATCTGATGGCCGGAAT
TGAACATGCTGATTCATTCAATTTCAACCTCACAAATGGATGTTGGTCAATTTTGATTGCTCTGCTATG
TGGTTGAAAGACCCTAATGATGTGGTTAGTGCTTTTAATGTTGATCCTCTTTATCTTAAACACGATCAG
CAAGGGTCTGCTCCCGATTACAGACATTGGCAGATTCCTCTTGGAAGACGATTTCGAGCTCTCAAACT
GTGGTTTGTATTTCGCCTTTATGGTATTGCGAATCTACAGGCACATATAAGACGCCAAATAGCTTTGGC
TCATGAATTTGAAGATCATGTCAAATCAGACTCGCGCTTTGAAATATATGGAGAAGTTACCATGGGCC
TTGTGTGCTTCAGACTTAAGGGTTCAAATGAACTGAATGAAACATTGCTCCGTAGAATCAATGGTCAC
GGAGTTATCCATCTGGTACCTTCCAAAATCCGTGATACATATTTCCTTCGTTTGGCAATTTGCTCACGA
TTCACAGAATCTCATGATATCAAACTGTCCTGGAATGAAGTACGCAGTTTGGCAGATGAAGTTCTTGCT
GAAGAACGTCCTGGTAACTGACTTAAGTAATTCCAGCTAATGGCTGGTATGGTAAGTTGAACAGTATT
ACTGCATCACTGTTGCAGAGG
AHC GENE
>NM_000475.4 Homo sapiens nuclear receptor subfamily 0 group B member 1 (NR0B1), mRNA
5
CGGGCGCCGCGGGCCATGGCGGGCGAGAACCACCAGTGGCAGGGCAGCATCCTCTACAACATGCTTA
TGACGCGAAGCAAACGCGCGCGGCTCCTGAGGCTCCAGAGACGCGGCTGGTGGATCAGTGCTGGGGC
TGTTCGTGCGGCGATGAGCCCGGGGTGGGCAGAGAGGGGCTGCTGGGCGGGCGGAACGTGGCGCTCC
TGTACCGCTGCTGCTTTTGCGGTAAAGACCACCCACGGCAGGGCAGCATCCTCTACAGCATGCTGACG
AGCGCAAAGCAAACGTACGCGGCACCGAAGGCGCCCGAGGCGACGCTGGGTCCGTGCTGGGGCTGTT
CGTGCGGCTCTGATCCCGGGGTGGGCAGAGCGGGGCTTCCGGGTGGGCGGCCCGTGGCACTCCTGTAC
CGCTGCTGCTTTTGTGGTGAAGACCACCCGCGGCAGGGCAGCATCCTCTACAGCTTGCTCACTAGCTCA
AAGCAAACGCACGTGGCTCCGGCAGCGCCCGAGGCACGGCCAGGGGGCGCGTGGTGGGACCGCTCCT
ACTTCGCGCAGAGGCCAGGGGGTAAAGAGGCGCTACCAGGCGGGCGGGCCACGGCGCTTCTGTACCG
CTGCTGCTTTTGCGGTGAAGACCACCCGCAGCAGGGCAGCACCCTCTACTGCGTGCCCACGAGCACAA
ATCAAGCGCAGGCGGCTCCGGAGG
AGCGGCCGAGGGCCCCCTGGTGGGACACCTCCTCTGGTGCGCTGCGGCCGGTGGCGCTCAAGAGTCCA
CA
GGTGGTCTGCGAGGCAGCCTCAGCGGGCCTGTTGAAGACGCTGCGCTTCGTCAAGTACTTGCCCTGCT
TCCAGGTGCTGCCCCTGGACCAGCAGCTGGTGCTGGTGCGCAACTGCTGGGCGTCCCTGCTCATGCTTG
AGCTGGCCCAGGACCGCTTGCAGTTCGAGACTGTGGAAGTCTCGGAGCCCAGCATGCTGCAGAAGATC
CTCACCACCAGGCGGCGGGAGACCGGGGGCAACGAGCCACTGCCCGTGCCCACGCTGCAGCACCATT
TGGCACCGCCGGCGGAGGCCAGGAAGGTGCCCTCCGCCTCCCAGGTCCAAGCCATCAAGTGCTTTCTT
TCCAAATGCTGGAGTCTGAACATCAGTACCAAGGAGTACGCCTACCTCAAGGGGACCGTGCTCTTTAA
CCCGGACGTGCCGGGCCTGCAGTGCGTGAAGTACATTCAGGGACTCCAGTGGGGAACTCAGCAAATA
CTCAGTGAACACACCAGGATGACGCACCAAGGGCCCCATGACAGATTCATCGAACTTAATAGTACCCT
TTTCCTGCTGAGATTCATCAATGCCAATGTCATTGCTGAACTGTTCTTCAGGCCCATCATCGGCACAGT
CAGCATGGATGATATGATGCTGGAAATGCTCTGTACAAAGATATAAAGTCATGTGGGCCACACAAGTG
CAGTAGTGCAGTTCACCATGAGGGAAGAATAAAGAGCTGTGGGCAAAAGAGTGTAAAATATTTTAAA
ATAA
AR GENE
>NM_001082287.1 Oryctolagus cuniculus aldo-keto reductase family 1 member B

(AKR1B1), mRNA
CCCCCTCCATGGCCTCCCACGTGTCCAGAAAGTCAGTGTCGCTGGGAATCACGTTGCCCGCCGCATCC
AGGGGGAAATACTCACTGCCGTGCTTAAAGCCCGTCGGGCAGTGGATAAGGTAGAGGTCCAGGTAGT
CCAACTTCAGGTCGTTCAGTGTCTTCTGGCAGGCGGGTAGGAGAGGGGAGAGGGAGGTCTGGGCTGG
GCCTTCAGAGCGGCGGCCATGGCGACCCACCTTGTGCTCTACAACGGCGCCAAGATGCCGATCCTGGG
6
GCTGGGCACCTGGAAGTCACCACCGGGCCAGGTGACCGAGGCCGTGAAGACAGCCATCGACCTCGGG
TACCGCCACATCACTGCGCCCACGTGTACCAGAACGAGAACGAGGTCGGGGTGGCCCTGCAGGAGAA
GCTCAAGGAGCAGGTGGTGAAACGTGAGGAGCTCTTCATCGTCAGCAAGCTGTGGTGCACGTCCCACG
ACAAGAGCCTGGTAAAAGGTGCCTGCCAGAAGACACTGAACGACCTGAAGTTGGACTACCTGGACCT
CTACCTTATCCACTGGCCGACGGGCTTTAAGCACGGCAGTGAGTATTTCCCCCTGGATGCGGCGGGCA
ACGTGATTCCCAGCGACACTGACTTTCTGGACACGTGGGAGGCCATGGAGGGGCTGGTGGACGAAGG
AATTTCAACCATCTGCAGATCGAGAGGATCCTAAACAAGCCGGGCTTAAAATACAAGCCGGCAGTTAA
CAGATCGAGTGCCACCCGTACCTAACTCAGGAGAAATTAATCCAGTACTGCCACTCCAAAGGCATCGT
GGTCACTGCCTACAGTCCCCTCGGCTCTCCCGACAGGCCCTGGGCAAAGCCCGAGGACCCTTCCCTCCT
GGAGACCCCAGGATCAAGGCGATTGCAGACAAGCACAAAAAAACCACCGCCCAGGTTCTGATCCGGT
TCCCCATGCAGAGGAACCTGGTGGTGATTCCCAAGTCCGTGACGCCGGCACGCATTGCTGAGAACTTC
CAGGTCTTTGACTTTGAACTGAGCAGCGAGGACATGACTACCTTACTGAGCTACAACAGGAACTGGAG
GGTCTGCGCCCTGGTGAGCTGTGCCTCTCACAAGGATTACCCCTTCCACGCCGAGTTCTGAAGCTGCGG
ATGCCGGCTCTTCCCCACGTCACGTGTGCCTGCTTTCCCTGCCTGACAAATCCTCGGAGCAGCCCAGCC
AGCCAGGGCCTGCTCGCAGGGATCTGGGAGTGAGCAGCACCATCAGTAGGTTAGAAGTCGCCGCCAG
TGTTTTCTTTGCCTTTCTTCTCGCCCAGCTGGGAAAAGTACAATTCTTCCGACCCAGGAGAAGCAAAAC
CTACGAAGTCAGAGTAGTGCCACTAACAGCTGAGTTTTGACTGCTTAGAACTATAATCCTTTCAGCCA
GACTTACTTTGCCTCCAATAAAAAGTGCTTTTGTGAGCCTGAACTTTCTTAATATTTTTACATGCAGAG
TATTTTTGTATTCAATTAAAGAAATAATTTTATTCCAAAAAAA
CCA GENE
>KP661081.1 Pasteurella multocida strain UNMSM cca protein (cca) gene,

complete cds
ATGAACAACAAGATAAAAATCTATTTAGTTGGAGGTGCTGTGCGAGATCAGCTCCTCAATCTTGTTGT
GAAAGATCGTGATTGGGTCGTAGTTGGTGCAACGCCAGATGATTTACTATCACAAGGCTATCAACAAT
CGGCAAAGACTTTCCTGTTTTTCTGCATCCCCAAACAAAAGAAGAATATGCTCTCGCTAGAACAGAAC
GTAAAGCGGGTAGCGGCTATACTGGCTTCATTTGTGATTTTTCGCCTACAATTTCTTTGGAACAAGATT
TAAGTCGACGTGATTTAACTATCAATGCACTCGCTCAAGATCTTGACGGAAAAATCTATGATTTTTATG
GTGGTCTTACGGATTTAAAACAACGTCTTTTACGCCACGTTTCCCCCGCCTTTGCAGAAGATCCGCTAC
GCGTATTACGTGTGGCACGTTTTGCTGCTCGCTACCATACTCTTGGCTTCACTATTGCCTCTGAAACCC
GCGAATTGATGCAACAGTTATCACAAAGTGGTGAACTGTCAAACCTAACCGCAGAACGTGTCTGGTTA
GAAACAGAAAAAGCCTTATTAGAACCGCATCCTGAAGTGTATTTCCAAACGCTACAAGAGGTGGGCG
CATTACAAGTACTGTTTCCTGAATTAGCTGCATTACAGGGCGTCCCCAATCCCGCTAAATACCATCCGG
7
AAATAGATACGTTTGTGCATACTATGCTGGTCCTACAACAAGCAGTCTTGTTGACAGAAAACACGGAC
AGTGATAAAAGTGCGGTACGTTTTGCTGCAATTTGTCATGATTTAGGCAAAGCCTTAACACCAAAAGA
AATATTGCCACATCATTATGGACATGAAAAAGCTGGTGTCATGCCGACAAGACGCTTATGTCAGCGCT
TTAAATTACCTCACCAATTCAAGATTTTGCAGAACTTTGTTGTGAATATCATTCGCACATACACAAAGC
CTTTGAATTACGTGCGGAGACAATATTGAAATTATTCAATCGTCTAGATGTCTGGCGTAAGTCGGAGC
GTTTTAAAGCACTTTTGTTAGTCTGTATTGCAGACACGCGTGGTAGGACCGGATTTGAACAAGTTGACT
ATCCACAACGTGAATTTCTCTGGCAACTTTATCAAAGTACTCTGCAGGTTAACGTGCAAGACATCATCC
AACAAGGTTTCCAGCAGCAAGCCAT
TCGTGATGAACTCAATCGCCGTCGTATAATCGCGATTAAACAGACACGCGCGGAAATCCTCCCGCGCT
TTACTAATCCGTGTTAA
ANY3GENE
>JN804612.1 Anonychonitis freyi isolate ANY3 cytochrome oxidase subunit I (COI) gene, partial cds;
mitochondrial
GGATAATTTCTCATATTATTAGACAAGAAACTAGAAAAAAGGAAACTTTTGGTACTTTAGGAATAATT
TATGCTATAATAACAATTGGACTTCTAGGTTTTATTGTTTGAGCTCACCATATATTTACAGTAGGTATG
GATGTAGATACACGAGCTTATTTTACATCAGCTACTATAATTATTGCCGTTCCAACAGGAATCAAAATT
TTTAGATGATTAGCTACTCTTCATGGATCTCAATTAAATTACTCACCCTCTCTACTATGAGCATTAGGA
TTTGTATTTCTATTCACCGTAGGGGGATTAACAGGAGTAATTCTTGCCAATTCTTCAATTGATATTATTC
TTCATGACACTTATTATGTAGTAGCACACTTCCATTATGTTTTATCAATAGGGGCTGTATTTGCTATTAT
AGCTGGGCTTGTACATTGATTTCCATTATTTACTGGTTTAACTATAAATCAAAAACTTTTAAAAATCCA
ATTTATAATTATATTTATCGGAGTTAATATAACCTTTTTTCCCCAACATTTTCTTGGATTAAGAGGAATA
CCCCGTCGTTATTCTGACTACCCTGACGCTTACACCACTTGAAATATTATTTCTTCAATTGGATCAATA
ATTTCTTTAATTAGAATTTTTATATTTTTATTTATTATTTGAGATAGATTTACCTCAATTCGTAAATCTAT
TATACCCTTAAATATACCTTCATCTATTGAATGATTACAAAAATTACCACCAG
RESULT OF EMBL
AADC
>ENA|AB037498|AB037498.1 Pan troglodytes AADC gene for aromatic L-amino acid decarboxylase, exon 1.
8
GGAGTCCTGCTCCTTCTATTGCACCCATCAACCAGGAGTGGGGGGAGGGGGTGGAGGTGGGGAAGAT
GATCCTCCCTGTTGCTGCCCCATGGTGGCAGGAGAGACTGAGCCCAAACCATGTTTTAGATGCTGATA
GGCTTAAGGGTAACAGCACAGGAGTTTGAGATGCATGCGGCTCAACACCTAATCTACATCTCACTTCA
CTTTCTCATCTGGGGAAGTGGGCTTGGGACCCTGAGCCTCCCGGGTATCACAGGGTCCTAATAGTCCCT
CACAGAAGGAGCAGACCCAGAGTGAGCACTCCCCAAATGCCACGCCGTCCCTTCCTCACTCTTGGAGT
GGAGCCTGGGGGTTCTCAGA
GTTGCTGGGAGAGTCCCAGGAGCCCTGGCCCCAAATCTGCATCCTACACAGTGCCTGGGA
ACACAGGGCCCATTTTTTCCTTGGCCTCTCCCCAGTCCCAGCAGGCCCTGATGCTCCTCT
CCATCCTGCTAGGATGGCTGTCTCCCCCTGGGGGCAGAGTGGGGGCAGGAGGTGGTGGGA
GTGGAGAGGAGAGAGAGAGGACAGAGAGCAAGTCACTCCCGGCTGCCTGTGAGTACTG
GGGTGGAGGGATGCTGCTCAGTAAATAATGCAGAGCCGGCAGCTCTGATTGGCTTCGGGG
AGGCAGACACTCTGTCTACATAAATGGCAATCACATCTTCTGTGCCTCTTAACTGTCACT
AHC
>ENA|AJ853475|AJ853475.1 Nicotiana glauca partial mRNA for putative adenosylhomocysteinase (ahc gene)
CTTTGCTTTTCCCCGCTATTAACGTTAACGACTCTGTTACCAAGAGCAAGTTCGACAACT
TGTACGGATGCCGCCATTCACTGCCCGATGGTCTCATGAGGGCTACTGATGTTATGATTG
CTGGAAAGGTTGCCCTTGTTGCTGGTTATGGAGATGTCGGAAAGGGTTGTGCTGCTGCCT
TGAAACAAGCTGGTGCCCGTGTGATTGTGACCGAGATTGACCCGATCTGTGCTCTCCAAG
CTACCATGGAAGGTCTCCAAGTTCTTACTCTTGAGGACGTTGTTTCTGATGTCGATATCT
TCGTCACCACAACCGGTAACAAGGACATCATCATGGTTGACCACATGAGGAAGATGAAGA
ACAATGCCATTGTTTGCAACATTGGTCACTTTGACAATGAAATCGACATGCTCGGTCTCG
AGACCTACCCTGGTGTCAAGAGGATCACAATTAAGCCTCAAACCGACAGATGGGTTTTCC
CCGACACCAACAGTGGCATCATTGTCTTGGCCGAGGGTCGTCTCATGAACTTGGGATGTG
CAACTGGACACCCTAGTTTTGTGATGTCTTGCTCATTCACTAACCAAGTCATTGCCCAAC
TCGAGTTGTGGAATGAGAAGAGCAGTGGCAAGTATGAGAAGAAGGTGTACGTCTTGCCAA
AACACCTCGACGAGAAGGTTGCTGCACTTCATCTTGGAAAGCTCGGAGCCAAGCTTACCA
AACTTTCCAAGGATCAAGCTGACTACATTAGCGTACCAGTTGAAGGTCCTTACAAGCCTG
CTCACTACAGGTACTGAGTGAAGACAAATCGACAGAGAAGAACAACGTTGTTGCAGCATG
ATTGTTTTGCATTTAATACTTTGATTTTTGTTTAGGATACTAGTATTTTGAATATTGTTG
GTGATATATTTGGGAGGAAGTAGCATGTTTTGCTGGAAAAGATATGGTCTTATATGAAAG
TAAGACCAAAATGTGTTGAATAAGATTATGGTTGGTGTGAAAAAAAAAA
9
AR
>ENA|KT990095|KT990095.1 UNVERIFIED: Eugenia sp. AR-2016 NADH dehydrogenase subunit F-like (ndhF)
gene, partial sequence; plastid.
AATCGGCACAATTCCCCCTCCATGTATGGTTACCTGATGCCATGGAAGGTCCTACTCCTATTTCGGCTA
TACATGCCGCTACTATGGTAGCAGCGGGCATTTTTCTTGTAGCTCGACTTCTTCCTCTTTTTATAATCAT
ACCTTACATAATGAATTTCATATCCTTAATAGGTATAATAACAGTATTATTAGGGGCTACTTTAGCTCT
TGCTCAAAAAGATATTAAAAGAGGTTTAGCTTATTCTACAATGTCTCAATTGGGTTATATGATGTTAGC
TCTAGGTATGGGGTCTTATCGAGTCGCTTTATTTCATTTGATTACTCATGCTTATTCAAAAGCATTGTTG
TTTTTAGGATCCGGATCAATTATTCATTCAATGGAAGCTATTGTTGGATATTCTCCAGATAAAAGTCAG
ATATGGTTCTTATGGGAGGTTTAAAAAAGCATGTACCAATTACAAAAACTGCTTTTTTAGTAGGTACAC
TTTCTCTTTGTGGTATTCCTCCACTTGCTTGTTTTTGGTCCAAAGATGAAATTCTTAATGATAGTTGGTT
GTATTCACCTATTTTCGCAATAATAGCTTGTTCTACAGCAGGATTAACCGCATTTTATATGTTTCGNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNTATGATAGTTGGTTGTATTCACCTATTTTCGCAATAATAGCTTGTTCTACAGCAGGATTA
ACCGCATTTTATATGTTTCGGATCTATTTACTTACTTTTGAGGGACATTTCAATGTTCATTTTCAAAATT
ACAGTGGTCAAAAAAGTAGTTTCTACTATTCAATATCTCTATGGGGAAAAGAAGTACCAAAAACGATT
AAAAACAATTTTCATTTATTAAGTTTATTAACAATGAATAATAATGAAAGGGCTTCTTTTTTTTGGAAA
AGACATATCAAATTGGTGGTAATGGAAAAAACAGGATGCACCCCTTTATTACTATTACTCATTTTGGTA
CTAAAAATACTTTCTCTTATCCTCATGAATCGGACAATACTATGCTATTTTCCATGGTTATATTAGTGCT
ATTTACTTTGTTTGTTGGAGTCGTAGGAATTCCCTTTTCTTTTAATCAAGAAGGAATTCATTTGGATATA
TTATCCAAATTGTTAAATCCGTCTATAAACCTTTTACATCAGAATTCAAATAATTCTGTGGATTGGTAT
GAATTTGTGACAAATGCAAGTTTTTCTGTCAGTATAGCTTTTTTCGGAATATTTATATCGTCTTTTTTAT
ATAAGCCTATTTATTCATCTTTACAAAATTTGAACTTACTAAATTCGTTTTCTAAAAGAGGTCCTAATA
GAATTTTAGGGGACAAAATAATAAATGTGATATATGATTGGTCATATAATCGTGGTTACATAGATGCT
TTTTATACAATATCCTTAACTCAGGGTATAAGGGGACTAGCTGAACTAATTCATTTTTTTT
CCA
>ENA|AB894065|AB894065.1 Cypripedium macranthos chloroplast trnW-CCA gene for tRNA-Trp, partial

sequence.
GCGCTCTTAGTTCAGTTCGGTAGAACGCGGGTCTCCAAAACCCGATGTCGTAGGTTCAAA
TCCTACAGAGCGTG
ANY3
10
>ENA|JN804612|JN804612.1 Anonychonitis freyi isolate ANY3 cytochrome oxidase subunit I (COI) gene, partial
cds; mitochondrial.
GGATAATTTCTCATATTATTAGACAAGAAACTAGAAAAAAGGAAACTTTTGGTACTTTAGGAATAATT
TATGCTATAATAACAATTGGACTTCTAGGTTTTATTGTTTGAGCTCACCATATATTTACAGTAGGTATG
GATGTAGATACACGAGCTTATTTTACATCAGCTACTATAATTATTGCCGTTCCAACAGGAATCAAAATT
TTTAGATGATTAGCTACTCTTCATGGATCTCAATTAAATTACTCACCCTCTCTACTATGAGCATTAGGA
TTTGTATTTCTATTCACCGTAGGGGGATTAACAGGAGTAATTCTTGCCAATTCTTCAATTGATATTATTC
TTCATGACACTTATTATGTAGTAGCACACTTCCATTATGTTTTATCAATAGGGGCTGTATTTGCTATTAT
AGCTGGGCTTGTACATTGATTTCCATTATTTACTGGTTTAACTATAAATCAAAAACTTTTAAAAATCCA
ATTTATAATTATATTTATCGGAGTTAATATAACCTTTTTTCCCCAACATTTTCTTGGATTAAGAGGAATA
CCCCGTCGTTATTCTGACTACCCTGACGCTTACACCACTTGAAATATTATTTCTTCAATTGGATCAATA
ATTTCTTTAATTAGAATTTTTATATTTTTATTTATTATTTGAGATAGATTTACCTCAATTCGTAAATCTAT
TATACCCTTAAATATACCTTCATCTATTGAATGATTACAAAAATTACCACCAG
PROTINE RESULT NCBI
AADC
>AGS83412.1 aadc [Schmidtea mediterranea]

MNVFDNKESLRKSGRKISHDVYTPKMDAEEFRKRGKEMIDFVANYLENIDELKVFPQVEPGYLHKMISAD
PPIKPEEWDNIMNDVNSVIMPGITHWHHPHFHAYFPAANSYAAMCGDILSGGIGCIGFTWASSPACTELEVV
MMDWLAKMLQLPKDFLSESGTGGGVIYNTCSEATFVALLAARNKAIEFRRKENLDEDQYTIMSKLVGYY
DQAHSSVERAGLLSMIKMREVKSIKRKMRGSVLQEMIKEDLENGFYPFYCVATLGTTGSCAFDSLDEIGPIC
EAHQIWLHVDAAYAGSALICQEYRHLLDGIEYAMSFVFNPHKWMLVNFDCSAVWFKDSRFVVETFTVDP
VYLKHKKEGKCPDFRHWHIQLGRRFRSLKIWFVLRLYGVDGIQKYIRNHIKLAHLFEKLMLGDDRFIVEEV
TMGLVCFRLKGNNEINKELYSRIEGDGRIHIVTSEFSDTDTLYLRFAVCYQFATEDHVKYAYGTIIDITNQM
DLCSDLFLEK
AHC
>NP_999552.1 nuclear receptor subfamily 0 group B member 1 [Sus scrofa]
MAGEDHQWQGSILYNMLMSAKQTHATREAPEARLRGSCWGCSCGSEPPVGREGQPGGPAVALLYRCCFC
G
EDHPRQGSILYNMLTSAKQTQETPEAPEARLGGACWGCSCGSEPRVGREELPGGRATVLLYRCCFCGEEH
PRQGSILYSLLTSAKQTHVALEAPEARPGGAWWDRSYCAQRLGAREELPGGRPVTLPYRCCFCGEDHPRQ
SGILCNMPMSAKQTHVAPEAQPGAPWWDPSCAAQRVALKSPQVVCEAASAGLLKTLRFVKYLPCFQVLPL
DQQLVLVRSCWAPLLMLELAQDRLNFETVETLEPSLLQMILTTRRQETEGDEPPSPQPPVQPHLVLPSEA
11
EHLPSVAEVQAIKGFLAKCWSLDISTKEYAYLKGTVLFNPDLPGLQCVKYIQGLQWGTQQILSEHIRMTH
RGYQARFAELNSALFLLRFINANVLAELFFRPIIGTVSMDDMMLEMLCAKL
AR
>ARR95948.1 androgen receptor [Equus caballus]
MEVQLGLGRVYPRPPSKTYRGAFQNLFQSVREVIQNPGPRHPEAASAAPPGAHLQQQQETSPRQQQQQGE
DGSPQTQSRGPTGYLALEEEQQPSQQPSAPEGHPESGCVPEARAALAAGKGLQQQPPAPPDEDDSAAPST
LSLLGPTFPGLSSCSADLKDILSEAGTMQLLQQQQQEVVSEGSSSGRAREAAGAPTCSKDSYLGCSSTIS
DSAKELCKAVSVSMGLGVEALEHLSPGEQLRGDCMYAPLLGGPPAVRPTSCAPRAECKGSLLDNGPGKGT
EETAEYSPFKAGYAKGLDGESLGCSGSGEAGGSGTLELPSTLSLYKPGAVDEAAVYQSRDYYNFPLALPG
PPPPAPPPHPHARIKLENPLDYGSAWAAAAQCRYGDLAGLHGGGAAGPGSGSPSAAASSSWHTLFTAEEG
QLYGPCSGGGGGSAGEAGTVAPYGYTRPPQGLAGQEGDFPPPDVWYPGGMGSRVPYPSPSCVKSEMGPW
MESYSGPYGDMRLETARDHVLPIDYYFPPQKTCLICGDEASGCHYGALTCGSCKVFFKRAAEGKQKYLCA
SRNDCTIDKFRRKNCPSCRLRKCYEAGMTLGARKLKKLGNLKLQEEGEASSATSPTEEPTQKLTVSHIEGY
ECQPIFLNVLEAIEPGVVCAGHDNNQPDSFAALLSSLNELGERQLVHVVKWAKALPGFRNLHVDDQMAVI
QYSWMGLMVFAMGWRSFTNVNSRMLYFAPDLVFNEYRMHKSRMYSQCVRMRHLSQEFGWLQITPQEFL
CMKALLLFSIIPVDGLKNQKFFDELRMNYIKELDRIIACKRKNPTSCSRRFYQLTKLLDSVQPIARELHQFTF
DLLIKSHMVSVDFPEMMAEIISVQVPKILSGKVKPIYFHTQ
CCA
>ADD78550.1 Cca [Pantoea ananatis LMG 20103]

MCPSGFRCRKPTDAQITYLSLELCVKTFLVGGAVRDALLKLPVKDKDWVVVGATPEAMLEQGYQQVGRD
FPVFLHPDSREEYALARTERKNGKGYTGFTTWSAPDVTLEQDLQRRDLTINAIARDAQGELYDPYHGQKDI
ADRQLRHVSDAFSEDPLRVLRVARFAARFAHLNFRIADETQALMRQMAESGELADLTAERVWKETEKALS
SHNPQVYFQVLRDCGALQGLFPEIDNLFGVPAPARWHPEIDTGVHTLMALTLSAGLSEAIDVRFATLFHD
VGKALTPVEKWPSHHGHGPAGVPLVAALCQRLRVPNAIRDLALLVTEFHDMMHTIEQRPADALIGLFDRL
DAWRKPERVNQLALCSEADARGRGGLANMPYPQGNYLRRAFALAQAVSSKAVVEAGFKGIEVREELTRR
RIEAVEQGLA
ANY3
>AFK27312.1 cytochrome oxidase subunit I, partial (mitochondrion) [Anonychonitis freyi]

MISHIISQETSKKETFGTLGMIYAMMTIGLLGFIVWAHHMFTVGMDVDTRAYFTSATMIIAVPTGIKIFS
WLATLHGSQLNYSPSLLWALGFVFLFTVGGLTGVILANSSIDIILHDTYYVVAHFHYVLSMGAVFAIMAG
LVHWFPLFTGLTMNQKLLKIQFMIMFIGVNMTFFPQHFLGLSGMPRRYSDYPDAYTTWNIISSIGSMISL
ISIFMFLFIIWDSFTSIRKSIMPLNMPSSIEWLQKLPP
12
13
EXPERIMENT NO. 02
Aim To perfrom pairwaise and multiple sequence alignment of nucleotide

and protein sequence using EMOSS and CLUSTAL OMEGA.
DATE: 15/09/2017
Theory:
EMBOSS:
EMBOSS is a free open source software analysis package specially developed for the needs of
the molecular biology and bioinformatics user community. The software automatically copes
with data in a variety of formats and even allows transparent retrieval of sequence data from the
web.
CLUSTAL OMEGA
Clustal Omega is a multiple sequence alignment program. It produces biologically meaningful

multiple sequence alignments of divergent sequences. Evolutionary relationships can be seen via
viewing Cladograms or Phylograms.
Pairwise sequence alignment
Pairwise Sequence Alignment is used to identify regions of similarity that may indicate
functional, structural and/or evolutionary relationships between two
biological sequences (protein or nucleic acid).
14
Multiple sequence alignment
A multiple sequence alignment (MSA) is asequence alignment of

three or more biologicalsequences, generally protein, DNA, or
RNA. In many cases, the input set of query sequences are assumed
to have an evolutionary relationship by which they share a
lineage and are descended from a common ancestor.
LINK USE: www.ebi.ac.uk
Procedures:
FOR MULTIPLE SEQUENCE ALINGMENT

 Clicked on internet browser and typed NCBI
 At NCBI homepage clicked on nucleiotide and protein from dropdown menu
 Type the desired gene(AADC)name and clicked on search button selected approbiated item
repeated for four nucleotide and protein sequence (AADC).
 Click on run BLAST-result
 Download 10 sequence from BLAST hits then opened CLUSTAL OMEGA homepage using
URL-
 The browsed the aline file of BLAST result from computer location
15
 Then clicked on submit option observed the result.
FOR PAIRWISE ALIGNMENT:
 Clicked on internet browser and typed NCBI
 At NCBI homepage clicked on nucleiotide and protein from dropdown menu
 Type the desired gene(AADC)name and clicked on search button selected approbiated item
repeated for four nucleotide and protein sequence (AADC).
 Click on run BLAST-result
 Download 02 sequence from BLAST hits then opened EMBOSS homepage using
 The browsed the aline file of BLAST result from computer location
 Then clicked on submit option observed the result.
16
NUCLEOTIDE SEQUENCE (CLUSTR OMEGA)
17
PROTEIN SEQUENCE (CLUSTER OMEGA)
18
19
Protein sequence (EMBOSS)
20
21
Nucleotide sequence(EMBOSS)
22
23
EXPERIMENT NO. 03
AIM : To visualise 3D structure of given protein sequences using RCSB-PDC

and Cn3D.
DATE :15/09/2017
THEORY:
RCSB PDB:
The Protein Data Bank (PDB) archive is the single worldwide

repository of information about the 3D structures of large
biological molecules, including proteins and nucleic acids.
These are the molecules of life that are found in all organisms
including bacteria, yeast, plants, flies, other animals, and
humans.
Cn3D:
Cn3D ("see in 3D") is a helper application for your web browser that allows you to view 3-
dimensional structures from NCBI's Entrez Structure database. Cn3D is provided for Windows
and Macintosh, and can be compiled on Unix.
3D structure of Protein:
The covalent backbone of proteins is made up of hundreds of

individual bonds. If free rotation were possible around even a
fraction of these bonds, proteins could assume an almost
infinite number of threedimensional structures. Each protein has
a specific chemical or structural function, however, strongly
suggesting that each protein has a unique three-dimensional
structure (Fig. 7-1). The simple fact that proteins can be
24
crystallized provides strong evidence that this is the case. The
ordered arrays of molecules in a crystal can generally form only
if the molecular units making up the crystal are identical. The
enzyme urease (Mr 483,000) was among the first proteins
crystallized, by James Sumner in 1926. This accomplishment
demonstrated dramatically that even very large proteins are
discrete chemical entities with unique structures, and it
revolutionized thinking about proteins.
LINK USE: www.ncbi.nlm.nih.gob
PROCEDURE:
 .Clicked on internet browser and typed NCBI and retrieve the protein 3D sequence ancheive
the fasta format of sequence .
 Then download the Cn3D tool. And achieve their result.
 After this we openRCSB- PDB web and input fasta format sequences and achieved their
resut.
 And paste the result in our documentary.
 Then we open the cn3D web ad paste the FASTA format which we achieve in NCBI and
then find the resuit and paste it in their documentary.
RESULT:
25
PROTEIN SEQUENCE (Cn3D,NCBI)
HAEMOGLOBINE (3D):
LINE
SPHERE
26
BALL AND STICK
27
B FACTOR TUBE
RCSB PDB
NGL(Web GL)
SPACEFILL
28
SURFACE
29
BACKBONE
SURFACE
30
JSMOL
CARTOON
31
BALL AND STICK
TRACE
32
EXPERIMENT NO- 04
Aim : To predict secondry structure of given protein sequence using chau-

fasman server, GOR tool & Jpred method.
DATE:
THEORY:
Chau fasman:
Jump to: navigation, search. The Chou–Fasman method is an empirical technique for the
prediction of secondary structures in proteins, originally developed in the 1970s by Peter
Y. Chou and Gerald D.Fasman.
GOR TOOL:
33
The GOR method of protein secondary structure prediction is described. ... Our preliminary
studies show that the GOR method is a promising and efficient alternative to other protein
aggregation predicting tools.
JPred:
JPred is a web server that takes a protein sequence or multiple alignment of protein sequences,
and from these predicts the location of secondary structures using a neural network called Jnet.
Secondey structure of protein:
The most common types of secondary structures are the α helix and the β pleated sheet. Both
structures are held in shape by hydrogen bonds, which form between the carbonyl O of
one amino acid and theamino H of another. Images showing hydrogen bonding patterns in beta
pleated sheets and alpha helices.
LINK USE:
PROCEDURES:
 Clicked on internet browser and typed NCBI and retrieve the protein 2D sequence acheive
the fasta format of sequence.
 Then we open the CHAU FASMAN server web then we entre the sequence and predict it and
achieve their result.
 Same process is apply for GOR TOOL and JPred method. and achieve their result and paste
it in our documentary all result .
RESULT PROTEIN SEQUENCE (Chau farman)
34
GOR finder
35
36
J pred
 JNetPRED
The consensus prediction - helices are marked as red tubes,
and sheets as dark green arrows.
 JNetCONF
The confidence estimate for the prediction. High values
mean high confidence. prediction - helices are marked as
red tubes, and sheets as dark green arrows.
 JNetALIGN
Alignment based prediction - helices are marked as red
tubes, and sheets as dark green arrows.
 JNetHMM
HMM profile based prediction - helices are marked as red
tubes, and sheets as dark green arrows.
37
 JNETPSSM
PSSM based prediction - helices are marked as red tubes,
and sheets as dark green arrows.
 JNETJURY
A '*' in this annotation indicates that the JNETJURY was
invoked to rationalise significantly different primary
prediction.
EXPERIMENT NO. 05
Aim: To predict Open reading frams (ORF) & exons of a given DNA sequence
using ORF finder, genscan and gene mark.
Date :
Theory:
ORF Finder:
38
The ORF finder is a program available at NCBI website. It identifies the all open reading
frames or the possible protein coding region in sequence. It shows 6 horizontal bars
corresponding to one of the possible reading frame.
GENSCAN:
In bioinformatics GENSCAN is a program to identify complete gene structures in genomic

DNA. It is a GHMM-based program that can be used to predict the location of genes and their
exon-intron boundaries in genomic sequences from a variety of organisms.
GENEMARK:
GeneMark is a generic name for a family of ab initio gene prediction programs developed at the
Georgia Institute of Technology in Atlanta. GeneMark is a generic name for a family of ab
initio gene prediction programs developed at the Georgia Institute of Technology in Atlanta.
Link used:
Procedures:
 Clicked on internet browser and typed NCBI and retrieve the nucleotide DNA sequence
acheive the fasta format of sequence.
 Then open the CHAU FASMAN server web and input their sequence and run it and find out
their result.
 Same way is apply for GOR TOOL, JPred method .
 And retrieve their result and paste the result in their docunmentry .
Result:
ORF finder
39
40
Genscan
41
Gene mark
42
EXPERIMENT NO –O6
Aim : To perfrom homology modeling of given target sequence using SWISS
Model .
Date : 06/10/2017
Theory:
NCBI:
The National Center for Biotechnology Information (NCBI) is part

of the United States National Library of Medicine (NLM), a
branch of the National Institutes of Health (NIH). The NCBI is
located in Bethesda, Maryland and was founded in 1988 through
legislation sponsored by Senator Claude Pepper.
The NCBI houses a series of databases relevant to biotechnology

and biomedicine and is an important resource for bioinformatics
tools and services. Major databases include GenBank for DNA
sequences and PubMed, a bibliographic database for the
biomedical literature. Other databases include the NCBI
Epigenomics database. All these databases are available online
through the Entrez search engine.
NCBI was directed by David Lipman, one of the original authors

of the BLAST sequence alignment program and a widely respected
figure in bioinformatics. He also leads an intramural research
program, including groups led by Stephen Altschul (another BLAST
co-author), David Landsman, Eugene Koonin (a prolific author on
43
comparative genomics), John Wilbur, Teresa Przytycka, and
Zhiyong Lu. David Lipman stood down from his post in May 2017.[1]
NCBI is listed in the Registry of Research Data Repositories

re3data.org.[2]
HOMOLOGY:
In biology, homology is the existence of shared ancestry between a pair of structures, or genes,
in different taxa. A common example of homologous structures is the forelimbs of vertebrates,
where the wings of bats, the arms of primates, the front flippers of whales and the forelegs of
dogs and horses are all derived from the same ancestral tetrapod structure.
UNIPROT:
The UniProt consortium comprises the European Bioinformatics Institute (EBI), the Swiss Institute of
Bioinformatics (SIB), and the Protein Information Resource (PIR). EBI, located at the Wellcome Trust
Genome Campus in Hinxton, UK, hosts a large resource of bioinformatics databases and services. SIB,
located in Geneva, Switzerland, maintains the ExPASy (Expert Protein Analysis System) servers that are a
central resource for proteomics tools and databases. PIR, hosted by the National Biomedical Research
Foundation (NBRF) at the Georgetown University Medical Center in Washington, DC, USA, is heir to the
oldest protein sequence database, Margaret Dayhoff's Atlas of Protein Sequence and Structure, first
published in 1965.[2] In 2002, EBI, SIB, and PIR joined forces as the UniProt consortium.[3]
SWISS MODEL:
SWISS-MODEL is a structural bioinformatics web-server dedicated to homology modeling of

protein 3D structures.[1][2] Homology modeling is currently the most accurate method to generate
reliable three-dimensional protein structure models and is routinely used in many practical
applications. Homology (or comparative) modelling methods make use of experimental protein
structures ("templates") to build models for evolutionary related proteins ("targets").
44
Today, SWISS-MODEL consists of three tightly integrated components: (1) The SWISS-
MODEL pipeline – a suite of software tools and databases for automated protein structure
modelling,[1] (2) The SWISS-MODEL Workspace – a web-based graphical user workbench
Linked used:
Procedure
 Clicked on internet browser and typed NCBI retrieve the protein acheive the fasta format of
sequence.
 Click on SWISS model and enter protein sequence in SWISS model and retrieve the protein
structure .
 Same process apply UNIPROT and achieve their result .
 Paste their result in our documentary .
Result:
45
Protein insulin (NCBI):
STRUCTURE INSULIN (3D)
46
INSULIN (UNIPROT):
47
STRUCTURE:
48
49
50

Raj Bharti

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Raj Bharti

Uploaded by

Copyright:

Available Formats

Report

Azad Institute of Engineering and Technology

Er. Rehan sultan khan

member of the International Nucleotide Sequence Database Collaboration (INSDC) along

with the DNA Data Bank of Japan and GenBank.

A sequence in FASTA format consists of:

One or more lines containing the sequence itself.

NUCLEOTIDE SEQUENCE (EMBL)

PROTINE SEQUENCE (NCBI)

>AB618097.1 Gryllus bimaculatus AADC mRNA for aromatic L-amino-acid decarboxylase,

>NM_001082287.1 Oryctolagus cuniculus aldo-keto reductase family 1 member B

>KP661081.1 Pasteurella multocida strain UNMSM cca protein (cca) gene,

>ENA|AB894065|AB894065.1 Cypripedium macranthos chloroplast trnW-CCA gene for tRNA-Trp, partial

PROTINE RESULT NCBI

>AGS83412.1 aadc [Schmidtea mediterranea]

>ADD78550.1 Cca [Pantoea ananatis LMG 20103]

>AFK27312.1 cytochrome oxidase subunit I, partial (mitochondrion) [Anonychonitis freyi]

Aim To perfrom pairwaise and multiple sequence alignment of nucleotide

Clustal Omega is a multiple sequence alignment program. It produces biologically meaningful

Pairwise sequence alignment

A multiple sequence alignment (MSA) is asequence alignment of

LINK USE: www.ebi.ac.uk

FOR MULTIPLE SEQUENCE ALINGMENT

AIM : To visualise 3D structure of given protein sequences using RCSB-PDC

The Protein Data Bank (PDB) archive is the single worldwide

The covalent backbone of proteins is made up of hundreds of

LINK USE: www.ncbi.nlm.nih.gob

Aim : To predict secondry structure of given protein sequence using chau-

Secondey structure of protein:

RESULT PROTEIN SEQUENCE (Chau farman)

In bioinformatics GENSCAN is a program to identify complete gene structures in genomic

The National Center for Biotechnology Information (NCBI) is part

The NCBI houses a series of databases relevant to biotechnology

NCBI was directed by David Lipman, one of the original authors

NCBI is listed in the Registry of Research Data Repositories

SWISS-MODEL is a structural bioinformatics web-server dedicated to homology modeling of

STRUCTURE INSULIN (3D)

You might also like