Professional Documents
Culture Documents
Scan Prosite
Scan Prosite
Bioinformtica
2011-2012
BANC DE DADES PRIMARI DE SEQNCIES............................................................................................................ 5 Banc de dades de recerca americ (http://www.ncbi.nlm.nih.gov/nuccore) ....................................... 6 Banc de dades de recerca europeu (EBI) (http://www.ebi.ac.uk/ena/#Search) ................................... 8 BANC DE DADES PRIMARI ESTRUCTURAL ............................................................................................................. 9 Uniprot (http://www.uniprot.org/) ...................................................................................................... 9 PDB (protein data bank) (http://www.rcsb.org/pdb/)....................................................................... 10 BANCS DE DADES ESPECIALITZATS .................................................................................................................... 10 Prosite (http://prosite.expasy.org/) .................................................................................................... 10 Swiss-2DPage (http://us.expasy.org/ch2d) ........................................................................................ 11 Mint (http://mint.bio.uniroma2.it/mint/Welcome.do) ...................................................................... 11 Brenda (http://www.brenda-enzymes.org/) ...................................................................................... 12 TDT (Therapeutic Target Database) (http://xin.cz3.nus.edu.sg/group/cjttd/ttd.asp) ...................... 12 Pharmacogenomics Knowledge base (http://www.pharmgkb.org/index.jsp) ................................. 12 TFSEARCH (Transcriptional Factor search) (http://mbs.cbrc.jp/research/db/TFSEARCH.html) ......... 13 OMIM (online mendelian inheritance in man) (http://www.ncbi.nlm.nih.gov/omim)..................... 13 BASES GENMIQUES ..................................................................................................................................... 13 BASES PROTIQUES ....................................................................................................................................... 13 Procom (http://procom.wustl.edu) ................................................................................................... 14 MAPES DE RESTRICCI (ESTRATGIA DE CLONATGE/RFLP (POLIMORFISMES)). ....................................................... 15 Selecci del Vector .............................................................................................................................. 15 Tall de la seqncia nucleotdica dinters ........................................................................................ 16 Doble digesti i patr de bandes ....................................................................................................... 17 Buscar dianes para caracteritzar polimorfismes (RFLP) .................................................................... 17 DISSENY DE SONDES I DOLIGONUCLETIDS PER PCR. ......................................................................................... 17 Disseny automatitzat de primers ....................................................................................................... 18 Disseny automatitzat de primers per a la recerca dins dun genoma (primer-BLAST) .................... 19 Disseny automatitzat de primers per a fer mutagnesi.................................................................... 19 Anlisi dels primers (hairpins, dmers, tm, etc) ................................................................................. 20 TRADUCCI DE NUCLETIDS A PROTENA I VICEVERSA ......................................................................................... 21 EMBOSS Transeq (http://www.ebi.ac.uk/Tools/st/emboss_transeq/) .............................................. 21 SMS (Sequence manipulation site) (http://www.bioinformatics.org/sms2/rev_trans.html)............ 21 IDENTIFICACI DORF (OPEN READING FRAME) ................................................................................................. 22 ORF finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html) ................................................................ 22 CERCA DE GENS ............................................................................................................................................ 22 Genscan (http://genes.mit.edu/GENSCAN.html) ................................................................................ 22 PROMOTOR ................................................................................................................................................. 23 EMBOSS CpPlot (http://www.ebi.ac.uk/Tools/emboss/cpgplot/)...................................................... 23 Promoser (http://biowulf.bu.edu/zlab/PromoSer/) ........................................................................... 23 Promoters and terminators (http://molbiol-tools.ca/Promoters.htm).............................................. 23 PGINES ALTERNATIVES ................................................................................................................................. 24 Molecular Toolkit (http://www.vivo.colostate.edu/molkit/index.html) ........................................... 24 DNA Tools (http://biology.semo.edu/cgi-bin/dnatools.pl) ................................................................ 24 DNA and Genomics analysis (http://jura.wi.mit.edu/bio/dna/) ........................................................ 24 SEQENCIACI, ASSEMBLATGE I ANOTACIONS DE GENOMES ................................................................................. 24
2.
3. 4. -
5. -
TEMA 3 ALINEAMENT I COMPARACI DE SEQNCIES .............................................................................. 25 MATRIU DE PUNTS (DOT PLOT)....................................................................................................................... 26 PUNTUACI DUN ALINEAMENT....................................................................................................................... 28 MATRIU DE PUNTUACI ................................................................................................................................. 28 PAM (percent accepted mutation) ..................................................................................................... 29 Blosum (Blocks Substitution Matrix) .................................................................................................. 29
TEMA 4 CERQUES PER SIMILITUD .............................................................................................................. 30 FASTA ....................................................................................................................................................... 30 BLAST........................................................................................................................................................ 30 E-value ................................................................................................................................................. 31 Pgina blast del NCBI i tipus de blast ................................................................................................ 31 Primer basats en Blast (http://www.ncbi.nlm.nih.gov/tools/primer-blast/) ................................. 33 ALINEAMENT MLTIPLE DE SEQNCIES ............................................................................................................ 34 ALINEAMENT MLTIPLE DE SEQNCIES MTODE DINMIC ................................................................................... 34 DCA (Divide and conquer) (http://bibiserv.techfak.uni-bielefeld.de/dca/)......................................... 35 ALINEAMENT MLTIPLE DE SEQNCIES PER MTODES HEURSTICS ......................................................................... 35 CLUSTALW (http://www.ebi.ac.uk/Tools/msa/clustalw2/) ................................................................ 36 T-coffe (http://tcoffee.crg.cat/apps/tcoffee/do:regular) ................................................................... 36 DbClustal (http://www.ebi.ac.uk/Tools/msa/dbclustal/)................................................................... 36 PSSM (POSITION-SPECIFIC SCORING MATRICES) ................................................................................................. 39 PSI-BLAST (POSITION-SPECIFIC ITERATED BLAST) ................................................................................................. 40 MODEL DE MARKOV OCULT (HMM) ............................................................................................................... 40 RESUM........................................................................................................................................................ 40 Prosite (prosite.expasy.org) ................................................................................................................ 41 Emotif (http://motif.stanford.edu/distributions/3motif/index.html)................................................. 41 ALTRES BASES DE DADES ................................................................................................................................ 41 BASE DE DADES INTEGRADES ........................................................................................................................... 42 InterproScan (http://www.ebi.ac.uk/Tools/pfa/iprscan/).................................................................. 42 ALTRES PGINES ........................................................................................................................................... 42 WebLogo (http://weblogo.berkeley.edu/logo.cgi/) ........................................................................... 42 PROGRAMES AMB PREDICCI PER REDS NEURONALS ........................................................................................... 44 PHD (profile network from Heidelberg) .............................................................................................. 44 PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred/) ..................................................................................... 44 PROF (protein forecasting) (http://www.aber.ac.uk/~phiwww/prof) ............................................... 44 SSPro (Http://download.igb.uci.edu/sspro4.html) ............................................................................. 44 PORTER ................................................................................................................................................ 44 PROGRAMES DE PREDICCI MULTIPLE:.............................................................................................................. 44 Jpred (http://www.compbio.dundee.ac.uk/www-jpred/) .................................................................. 44 PredictProtein (http://www.predictprotein.org/) .............................................................................. 44 EVALUACI DE LA FIABILITAT DE LA PREDICCI ................................................................................................... 45 PREDICCI EN PROTENES TRANSMEMBRANA AMB HLIX .................................................................................. 46 TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) ..................................................................... 46 Phobius (http://phobius.sbc.su.se/) .................................................................................................... 46 PREDICCI EN PROTENES TRANSMEMBRANA AMB -BARREL ............................................................................... 46 TBBpred (http://www.imtech.res.in/raghava/tbbpred/) ................................................................... 47 PREDICCI DE COILED COIL ............................................................................................................................. 47 COILS (http://www.ch.embnet.org/software/COILS_form.html) ....................................................... 47 Multicoil (http://www.osc.edu/supercomputing/software/apps/multicoil.shtml) ........................... 47
TEMA 6 - ANLISIS I PREDICCI DE LESTRUCTURA TRIDIMENSIONAL DE PROTENES.................................... 48 MODELAT PER HOMOLOGIA ............................................................................................................................ 48 ANOLEA (Atomic Non-Local Environment Assessment) ...................................................................... 48 Verify3D (http://nihserver.mbi.ucla.edu/Verify_3D/) ........................................................................ 48 Swiss-Model (http://swissmodel.expasy.org/) ................................................................................... 49 3D-JIGSAW (http://bmm.cancerresearchuk.org/~3djigsaw/) ............................................................ 49 MODELAT SENSE HOMOLOGIA ........................................................................................................................ 49 Phyre (http://www.sbg.bio.ic.ac.uk/~phyre/) .................................................................................... 50 -
Genthreader (http://bioinf.cs.ucl.ac.uk/psipred/?program=genthreader) ........................................ 50 Fugue (http://tardis.nibio.go.jp/fugue) .............................................................................................. 50 MTODE AB INITIO ..................................................................................................................................... 50 Rosetta (http://depts.washington.edu/uwc4c/express-licenses/assets/rosetta/) ............................ 50 CASP (CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE PREDICTION) ........................................... 50 ANLISI I UTILITZACI DE LA BASE DE DADES DEL PDB (HTTP://WWW.RCSB.ORG/PDB/HOME/HOME.DO) ................... 50 COMPARACI ESTRUCTURES ........................................................................................................................... 52 Mtode intermolecular....................................................................................................................... 52 Mtode intramolecular ...................................................................................................................... 52 CLASSIFICACI ESTRUCTURAL DE LA PROTENA ................................................................................................... 53 SCOP (Structural Classification Of Proteins) (http://scop.mrc-lmb.cam.ac.uk/scop/) ....................... 53 CATH (Classification by Class, Architecture, Topology, and Homology) (http://www.cathdb.info/) . 53
Bioinformtica
Bases de dades primries Bancs de dades on entrem informaci experimental. Un exemple seria lanlisi de lestructura duna protena (tema 6). Les dades obtingudes experimentalment ens donen distancies entre toms. Entrem distancies no el dibuix de la protena. Altres exemples serien tamb arrays dexpressi de gens on entrem dades experimentals. Bases de dades secundaries utilitza informaci daltres bancs o bases i ens la classifica en categories. Agafa per exemple lestructura de protenes i lagrupa en famlies o lagrupa segons els motius o dominis que t. Manipulem la informaci.
Podrem tenir tamb un banc de dades especialitzat (que podrem considerar com a banc de dades secundaries) que responen a nivells de classificaci ms especfic, com el Medline, el Brenda, etc. Sn banc especialitzats en alguna caracterstica com per exemple en enzims (BRENDA), malalties gentiques (OMIM), ets. Tamb hi ha motors de cerca (tamb anomenat motor de recerca o b cercador) com el SRS o el ENTREZ. Ens faciliten la recerca en aquests bancs de dades. Una de les revistes de biologia molecular molt coneguda s la nucleic acid research, on en el primer numero de cada any treu informaci de bancs de dades de biologia molecular. Tenim 1330 bancs de dades de biologia molecular. Tenim molta informaci dividida en diferents categories Anem a descriure els dos tipus primaris de bancs de dades que veurem, tant el de seqncies com el destructura.
Bioinformtica
identificador nic i varis camps on lautor explica diferents informacions. Per poder-hi accedir a aquest banc de dades i posar en pblic la teva seqncia normalment hi ha dues entrades, BankIt i Sequin (ho explica fatal...). Tu envies la seqncia i ells te laccepten. Et donen un codi i a partir daqu pots modificar la teva seqncia. Tenim 3 nuclis o bases de dades al voltant dels quals gira la bioinformtica. Aquestes bases de dades sn una europea (EBI), una americana (NCBI o GenBank) i una japonsa (DDBJ). Vinculat a cada un daquests bancs hi ha un pgina concreta. Aquests tres bancs estan intercomunicats entre ells i, per tant, tot est en principi a tot arreu. A la hora de la veritat podem trobar algunes excepcions. Banc de dades de recerca americ (http://www.ncbi.nlm.nih.gov/nuccore) La informaci que ens dna al buscar quelcom en el marge esquerra sn els camps (on trobem el codi, versi, paraules clau, organisme de procedncia, etc).
En el marge dret podem canviar el tros de la seqncia que volem veure, posant per exemple des del nucletid 1 al 500. Tamb trobem diferents informacions com el promotor, el missatger (en aquest cas ens diu que est format per la uni de varis trossos), els axons, introns, etc. s una descripci del que podem trobar en aquesta seqncia de nucletids. En la banda dreta trobem referncies creuades daquesta seqncia (gens homlegs, el gen que
Bioinformtica
codifica, etc). CDS s la pauta oberta de lectura (des de lATG fins al cod stop). s el tros codificant. La seqncia apareix amb espais i nombres. No la podem utilitzar per treballar amb ella. Per treballar necessitem poder veure la seqncia en format FASTA, sense espais ni nmeros.
Amb el format FASTA abans de la seqncia ens apareix dues lletres amb informaci iniciada per > i acabat amb un salt de fila. Aix ens permetr per exemple comparar seqncies. Amb el format FASTA podem veure si volem noms una regi.
A part del format FASTA tamb ho podem veure en format grfic. s la mateixa informaci visualitzada. Podem fer clic sobre lax o sobre lintr per conixer la seva seqncia.
Bioinformtica
Banc de dades de recerca europeu (EBI) (http://www.ebi.ac.uk/ena/#Search) El banc de dades del EBI funciona de la mateixa manera. Surt la mateixa informaci visualitzada duna altre forma. Tamb ho podem treure en format FASTA i tenim la possibilitat de veure diferents seqncies relacionades, etc.
Bioinformtica
Va ser el primer banc de dades de protenes que va existir, abans fins i tot que el de seqncies. Es va gestionar inicialment en un banc anomenat swissprot (t una revisi de lautor, sn les seqncies ms revisades). Al cap dun temps va aparixer la TrEMBL que sn seqncies de protena tradudes directament de les seqncies nucleotdiques del EBI (sn traduccions automatitzades, no revisades per lautor). Al unificar aix va nixer el uniprot La informaci que podem trobar s el codi daccs, noms de protenes, organisme del qual prov la protena, caracterstiques de la seqncia, diferents regions definides per lautor, la seqncia de la protena, etc. Fins i tot podem treure la seqncia en format FASTA.
Bioinformtica
Cal destacar que els bancs estan relacionats entre ells, com per exemple amb el PI. La idea s que en un banc de dades primari, tenim la seqncia per tamb informaci de lautor.
Un altre banc de dades primari que veurem ms endavant s el PDB. Aqu podem veure les dades de les protenes. Lautor entre la distancia entre toms i a partir daqu el programa dibuixa la protena.
Prosite (http://prosite.expasy.org/)
Banc de dades basat en la presencia de motius. Per exemple els enzims de restricci tallen el DNA en dianes. Podem trobar seqncies aminoacdiques que indiquin que una protena necessita glicosilar-se, acetilar-se, etc. Aquestes seqncies que sn com motius shan guardat en el prosite. Trobem tamb motius duni al DNA, etc.
10
Bioinformtica
Swiss-2DPage (http://us.expasy.org/ch2d)
Tamb tenim un banc de dades de gels bidimensionals (primera dimensi SDS, segona dimensi punt isoelctric) on podem comparar per exemple cllules heptiques canceroses amb cllules normals. Tenim gels bidimensionals estanderificats on hem reconegut algunes protenes.
Mint (http://mint.bio.uniroma2.it/mint/Welcome.do)
Tamb podem mirar la interacci entre protenes a travs de mint. Busca bibliografia que expliqui la interacci entre protenes. Les protenes dinteracci tenen un score de fiabilitat. Quan ms alt menys protenes trobarem. LScore s molt important perqu ens permet determinar les evidencies experimentals que hi ha a favor daquella interacci.
11
Bioinformtica
Brenda (http://www.brenda-enzymes.org/)
Un altre banc de dades que tenim s el BRENDA. Aquest ja el coneixem i ens el saltarem. Brenda recull tota la informaci sobre enzims, etc.
Un altre banc que tenim s el de dianes teraputiques. Sobre aix cal destacar que una diana teraputica s una protena sobre la qual hi actua un frmac, no cal que en sigui la causa sin la que genera els smptomes (protena que genera moc en bronquitis per exemple). Nhi ha molts, el problema s que molts no sn pblics.
12
Bioinformtica
Podem trobar dianes de factor de transcripci en les regions promotores ja que tenim les dianes mapejades. Donada una seqncia promotora on volem saber possibles factors de transcripci que hi ha ens donar les possibles dianes de factors de transcripci. Aix s possible, no segur, per aix tenim lScore Clicant a sobre les paraules marcades en blau ens surt tota la informaci detallada del factor de transcripci. Tamb tenim com a bancs de dades genric, els bancs de gens humans. OMIM (online mendelian inheritance in man) (http://www.ncbi.nlm.nih.gov/omim) Ja nem parlat a genmica. T molta importncia perqu relaciona mutacions amb malalties. Aquest s exclusivament per gens humans.
- Bases genmiques
Hi ha pgines especialitzades amb el projecte genoma. Hi ha pgines en el NCBI (http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome), en el EBI (http://www.ebi.ac.uk/genomes on trobem un resum del projecte genoma. Ensembl, http://www.ensemblgenomes.org/ s una pagina ms semblant a NCBI) i en altres pgines web. Normalment sol sortir una llista dorganismes vinculats. Els la informaci est tamb linkada a altres pgines web per poder ampliar la informaci (per exemple a lOMIM). Nosaltres, grcies a la interface de la pgina web, podem anar ampliant la informaci (fent zooms) per collocar els gens fcilment dintre del cromosoma. Cal destacar que fins i tot podem arribar a veure la seqncia del gen. La pgina web de lensembl (http://www.ensemblgenomes.org/) ens permet comparar genomes i anar als diferents llocs del cromosoma per veure que hi ha exactament en cada part. s un navegador genmic.
- Bases protiques
A part dels projectes genoma tamb tenim proteomes (totes les protenes duna espcie). Veurem una pgina (eina) que ens permet comparar proteomes entre espcies diferents (www.ebi.ac.uk/proteome) [b, no la veurem...teniu el link...ja est xD]
13
Bioinformtica
Procom (http://procom.wustl.edu)
Podem triar un E-value que, com ms petit sigui E-value ms fiable seran els resultats. s un exemple, suposa que ja ho veurem a GPI. Els motors de busqueda ja els vam veure a les classes de problemes.
14
Bioinformtica
Primer hem descollir el vector de clonatge que ens donar unes dianes especifiques inicials (daquestes dianes hem de mirar on tallen en el nostre fragment). Per seleccionar el vector (selecci vector) hi ha la pgina comercial de BioLabs: (http://www.neb.com/nebecomm/tech_reference/restriction_enzymes/dna_sequences_maps.asp?) on tindrem tots els vectors que existeixen a nivell comercial i el seu mapa, juntament amb la seqncia en FASTA, etc.
15
Bioinformtica
Un cop tenim escollit el vector i sabem els enzims que interessen em danar a una pagina tamb de BioLab (http://tools.neb.com/NEBcutter2/index.php) on nosaltres colloquem la seqncia que volem clonar sense espai ni nmeros (semblant a FASTA per sense el codi inicial). Sobre aquesta sequencia li diem que ens doni un mapa amb tots els enzims possibles, on dentrada en posa els enzims que tallen una vegada, per podem dir que ens doni enzims que tallin dos cops, etc. Aquest programa tamb busca les ORF i ens les indica (fletxa en gris sobre la linia negra). Va b per si volem mapejar una regi codificant.
Exemple prctic: Mirem els enzims que no tallen per tal de poder posar un encebador que ens doni dianes de tall per desprs fer la inserci en el vector. Les marcades sn les dianes que trobem en el polilinker del vector escollit, sn dianes perfectes per posar-les en els extrems de la nostres seqeencia dinters per a fer linserci.
16
Bioinformtica
Pgina tamb de BioLab que ens dna la manera de poder fer una doble digesti i ens dona el patr de bandes que obtindrem : http://www.neb.com/nebecomm/DoubleDigestCalculator.asp
Podem utilitzar la pgina web que hem vist abans de BioLab: http://tools.neb.com/NEBcutter2/index.php Tot i que tamb hi ha pgines opcionals a la de BioLabs com per exemple: http://www.vivo.colostate.edu/molkit/mapper/index.html o http://rna.lundberg.gu.se/cutter2/ o fins i tot: http://rna.lundberg.gu.se/cutter2/
17
Bioinformtica
Hem de tenir en compte els criteris inicials per a dissenyar els primer com per exemple: Compatibilitat: Tm, longitud y % GC Extrems 3: Estabilitat i falsos inicis. Complementarietat entre primers: Primer dmer Complementarietat interna: Hairpin
Una pgina que ens permet fer un disseny automatitzat de primers s la pgina web de primer3 (http://frodo.wi.mit.edu/primer3/input.htm) que ens permet definir varies opcions per a la sntesi de PCR. Ens pregunta la mida de la seqncia, si volem excloure alguna part, etc. A la classe de problemes ja ho vam veure.
al
mateix
programa
s:
18
Bioinformtica
Si volem fer primers per a detectar o amplificar una zona dins dun genomes utilitzem primer-BLAST per tal de no tenir falsos inicis: http://www.ncbi.nlm.nih.gov/tools/primer-blast/
Per a crear un primers per a fer mutagnesi hem de ser concients de les caractersitques que aquests han de tenir: Primers complementaris entre si. Longitud: 25-45 bases Tm > 78 C Mutaci en el centre del primer. Contingut de GC ~ 40% Extrem 3 G o C Per a crear-los usem al pgina primerX: http://www.bioinformatics.org/primerx/cgibin/protein_1.cgi. Nosaltres introdum la mutaci i ell ens dna com es fan els canvis.
19
Bioinformtica
El programa Netprimer ens permet analitzar els primers, per exemple, mirar hairpins, tm, dimers, cross dimer etc. http://www.premierbiosoft.com/netprimer/netprlaunch/netprlaunch.html
20
Bioinformtica
Ja que el codi gentic varia entre especies. Cal destacar que NO buscar ORF, sin que fa traduccions directes i per tant llegir els 6 ORF possibles. Tamb podem traduir de manera reversa o sigui, daminocids a nucletids. SMS (Sequence manipulation site) (http://www.bioinformatics.org/sms2/rev_trans.html) La traducci de forma reversa ens pot interessar per exemple per si tenim una protena diferent entre una cllula cancerosa i una que no ho s. Podem buscar els oligonucletids que codifiquen aquesta protena per tal de trobar el gen mutat. El problema que tenim s que el codi s degenerat, i, per tant, la pgina ens dir quin s el codi ms favorable per lorganisme amb el que estem tractant i ens donar totes les possibles seqncies que codifiquen per la protena Com llegir-ho. La primera base ser una G al 100%, la segona una C al 100% i la tercera base tindr una probabilitat de G 34%, A 22%, T 17% i C 27%. Hem de fer una taula amb els diferents nucletids que sabem segurs i en les posicions variables posem el percentatge en que hauria dhaver cada base. Ho enviem a una casa comercial i obtenim oligos degenerats.
21
Bioinformtica
Una vegada tenim una amplificaci per PCR (amb tots els primers degenerats a la vegada), seqenciem i coneixem la seqncia especfica que codifica per la protena.
- Cerca de gens
Tenim un tros seqenciat i volem saber quans gens tenim en aquest tros. No podem agafar un tros de 10 Mb i buscar el ORF, perqu en trobarem tants que no ho podrem analitzar. En una situaci tant massiva hem de buscar gens i no ORF. A destacar que tenim molts programes per a fer aquesta cerca...uns exemples serien: Genscan (http://genes.mit.edu/GENSCAN.html) En aquest programa colloquem la seqncia de DNA, determinem lespecies i una vegada fet aix el programa analitza els gens. La pgina busca motius com illes CpG davant de ATGs seguides de regions codificant, regions TATA, regions CAT, etc. En les ORF tamb busca els usos de cod (el programa no noms troba el ATGs i mira el ORF sin que tamb estudia ls de cod). Ens donar escrit els inicis i finals dels gens que hem trobat.
22
Bioinformtica
- Promotor
Altres pgines de cerca diferents sn per exemple EMBOSS CpPlot que busca illes CpG. Li podem definir una relaci observat/esperat (el que el programa veu respecte lesperat), la composici de la seqncia s coneguda. Aquest programa mira si estan repartides al llarg de la seqncia o estan acumulades. En resum, estem buscant illes de CpG. Si sabem que hi ha 70% de GC, tenim una probabilitat de esperat de 0,7. Si en una regi tenim ms de 0,7 (observat) el programa ens ho marcar.
Altres pgines alternatives sobre promotors serien: [a causa de que anem curts de temps, ni els anomena] Promoser (http://biowulf.bu.edu/zlab/PromoSer/) PromoSer is a web-based service aimed specifically at the extraction of a large number of promoter sequences from mammalian genomes.
Pagina on tenim molts recursos a utilitzar sobre promotors i terminadors. Ens indica qu fa cada un i ens dna el link de referncia.
23
Bioinformtica
- Pgines alternatives
The Molecular Toolkit is a group of programs for analysis and manipulation of nucleic acid and protein sequence data.
A destacar que a dia davui, As of January 2008, this page is no longer maintained.
24
Bioinformtica
25
Bioinformtica
Ortlegs s el concepte dhomologia que estvem parlant fins ara. Mateixa funci per en diferents organismes, en canvi, parleg, s quan un gen sha duplicat en una mateixa espcies i ha generat un altre subtipus. A partir dels parlegs es poden crear noves funcions. Aix dels homlegs i anlegs ho podem detectar per multi-alineaments, quan busquem diferents seqncies en un banc de dades, trobem molts gens amb similituds variables, i hem de determinar els anlegs, els homlegs, etc
Hi ha un programa que tho fa per aquets programa necessita parmetres que hem de donar per a fer alineaments correctes. Aquests sn la grandria de la paraula i el percentatge de restricci (% mnim de similitud dins duna finestra). Si busquem de forma laxa obtenim aix:
100 200 300 400 500 600 700 800 100 100 200 200
300
300
400
400
500
500
600
600
700
700
800
800
100
200
300
400
500
600
700
800
La diagonal est explicada perqu estem alineant una seqncia amb ella mateixa (que ser la millor alineaci). Si utilitzem condicions ms restrictives obtenim:
100 200 300 400 500 600 700 800 100 100 200 200
300
300
400
400
500
500
600
600
700
700
800
800
100
200
300
400
500
600
700
800
Puc fer per exemple buscades de 15 paraules. Busquem 15, movem un nucletid i busquem 15 ms, movem un altre nucletid i busquem 15 ms, etc. Quan ms gran sn les paraules ms llargues sern les diagonals ja que comparar ms nucletids de cop. El percentatge de restricci s indicar per exemple que si busquem de 15 en 15
26
Bioinformtica
noms considerarem correcte si en tenim 14 de similars. Si augmentem les buscades de paraula i augmentem el % de restricci netegem la imatge. Una de les funcions de fer Dot blot s analitzar una seqncia sobre si mateixa. En a) tenim la identitat del 100%. Quan viem b) estem veient seqncies repetides directes (identificaci de repeticions directes). Quan veiem lnies perpendicular a la principal com en c) tenim palndroms.
Tamb quan fem una seqncia amb una altre, no tenim perqu tenir un Dot Blot quadrat, ja que la mida no t perqu ser la mateixa.
En el cas h tenim un gap que ser, per exemple, una deleci. Per a fer un dot blot utilitzarem la segent http://emboss.bioinformatics.nl/cgi-bin/emboss/dotmatcher
pgina
web:
27
Bioinformtica
Lequaci que ens donar lScore ser Lusuari ser el que decidir quins valors dScore es creu i quins no ja que lScore sempre s relatiu.
- Matriu de puntuaci
Normalment els mismatch no sn sempre 0, i per tant entrem a les matrius de puntuaci, que utilitzem per puntuar els Score. Aquesta matriu no t res a veure amb la matriu de punts. Dalguna manera, quan hi ha un mismatch, depenent de la substituci que shagi produt li posarem un valor de 0, major de 0 o 1. Els canvis ms probables tindran una puntuaci inferior a 1 per superior a 0 (0,5 per exemple).
Per protenes s ms complex, ja que els aminocids tenen caracterstiques diferents (aromtics, polars, no polars, etc). Sempre s ms fcil una modificaci conservativa (canvis daminocids entre el mateix grup) que una modificaci no conservativa. Les matrius de substituci (un tipus de matriu de puntuaci)(valors entre 0 i 1 inclosos) venen matisades per les caracterstiques del canvi mentre que les didentitat (noms 0 o 1) no tindr en compte les caracterstiques.
28
Bioinformtica
Tamb tenim en compte la diferent probabilitat segons el nombre de mutacions necessries per passar dun cod a un altre diferents. No tenim la seqncia nucleotdica per si que sabem que per passar dAsp a Tyr shan de produir 3 canvis.
Les matrius PAM sn unes matrius de puntuaci en que es t en compte les freqncies de mutaci. Sn unes matrius que venen derivades dalineaments globals i per tant no ens serviran gaire per buscar alineaments locals com dominis. Aquestes matrius acostumen a portar un nombre (PAM 256 per exemple). Aquest nombre ens indica la probabilitat que qualsevol aminocid muti en un altre en un interval en concret (normalment 100 aminocids). Com ms gran s el nombre PAM ms mutacions es produiran (Una matriu PAM de 1 ens indicar protenes molt similars entre elles). Blosum (Blocks Substitution Matrix)
Les matrius Blosum miren alineaments locals (dominis). Si fem un Blosum 62, el nombre ens indica les probabilitat de mutaci de lalineament de protenes que tenen una semblana del 62%. Quan ms elevat s el nombre menys freqncia de mutaci. En resum: El PAM alinea de forma global, encara que hi hagi una regi ms conservada fem un alineament global. Probabilitat que canvi un aminocid concret cada 100 aminocids. Per tant, el nombre fa referncia que, quan ms allunyades sn ms gran s el nombre PAM. En canvi, les matrius BLOSUM fan alineaments locals i el nombre ens indica el grau de similitud.
29
Bioinformtica
- FASTA
En FASTA tenim la nostres seqncia problema, i el programa fa matrius dalineaments amb totes les seqncies del banc de dades que nosaltres li hem dit. Posa la nostre protena en un eix i en laltre una per una totes les protenes del banc de dades. Sn cerques exhaustives que tarden molt. El resultat que et dna el programa s la uni de diagonals ms correctes per poder-te donar un alineaments globals posant GAPs o insercions. Tamb s important ja que puntua lalineament global, no per separat. Optimitza lalineament global.
- BLAST
En el cas del BLAST busquem una coincidncia mxima entre dos seqncies amb una mida similar. Quan troba una coincidncia el que intenta s estendre a esquerra i dreta lalineament, sempre intentant no disminuir el valor de puntuaci mnim. Per poder estendre a esquerra i dreta lalineament tamb afegir GAPs. BLAST busca alineament local.
30
Bioinformtica
El blast comena per un extrem i quan et troba un alineament correcte ja lesten. Quan a trobat x alineaments amb un valor superior al teu dona ja para de buscar, s menys exhaustiu. Tot i aix, el BLAST funciona millor ja que el FASTA troba massa informaci i per tant masses alineaments (no sabem el que triar). Utilitzarem un FASTA quan podem restringir molt la recerca. El 90% de les vegades ho fas primer per BLAST i desprs per FASTA. E-value
A part de lScore un altre valor important s el E-value (Expect value)(ja lhem vist en comparaci de seqncies). Aquest valor ens diu la probabilitat de trobar aquell alineament concret per pur atzar. Com ms petit sigui E menys probable s trobar aquell alineament per pur atzar. Si tenim seqncies curtes els valors de E pugen molt. Podem tenir un Score del 100% i un E-value molt alt. No podrem comparar les seqncies perqu ser massa curta. Seqncies nucleofliques
Seqncies proteiques
A part del Blast del NCBI (http://blast.ncbi.nlm.nih.gov/Blast.cgi), algunes pgines del projecte genoma tamb permeten fer un blast. Si busquem en un projecte genoma em de ser conscients que els resultats noms seran del genoma en el que estem buscant.
31
Bioinformtica
Com podem fer servir les cerques per similitud? Cal saber que hi ha diferents tipus de blast que variaran segons el tipus de seqncia dentrada i la base de dades on
buscarem. En el tblastn, tenim la protena i busquem en una base de nucletids. El que fem s tradur les seqncies de la base de dades a protena. Aix va b per detectar seqncies que codifiquen per algunes protenes. Si fem blastx, si que agafem la nostre seqncia de nucletids i ho tradum a protenes.
La sortida del blast s grfica inicialment. El color ens indica lScore i la regi solapada. Quan ms gran s la regi solapada ms gran seran ser lScore perqu tindrem ms match (aminocids iguals).
32
Bioinformtica
Laltre pantalla que obtindrem s la llista de gens. Cada lnea de les de dalt correspon a un gen. Trobem valors dScore mxim, dScore total, valor de E i mxima identitat. Sempre tenim de millor a pitjor.
La ultima pantalla que surt s lalineament en concret. La seqncia query s la que posem nosaltres i la inferior la trobada del banc de dades.
Primer basats en Blast (http://www.ncbi.nlm.nih.gov/tools/primer-blast/) Tamb hi ha una pagina per dissenyar primers basada en el blast. Si agafo DNA duna cllula de rata i poso el nostre primer, sempre ens queda el dubte de saber si el nostre primer es pot unir en algun altre tros del genoma de rata. Fem cerques per similitud.
33
Bioinformtica
Lalineament de mltiples seqncies entre elles t molt inters per a nosaltres. No obstant cal destacar que no s tant senzill lalineament de mltiples seqncies com fer varis pairwise ja que tenim un problema de cost de memria computacional i de temps. Aquesta tcnica t fora ms inters que el seqncia seqncia, ja que ens pot donar informaci sobre els patrons i/o motius conservats en una famlia que salteren poc o sn constants (relaci estructural amb aquella famlia. Una altre opci que tenim s predir si una seqncia nova pertany o no a una famlia concreta a travs de lalineament mltiple. s un treball ms dirigit a una finalitat. Tamb s important perqu, quan parlem destructures de protenes que tenen alguna funci, com transportar oxigen, lanlisi de seqncia ens permet detectar els aminocids importants funcionalment, ja que sn molt ms mantinguts que la resta (no acostumen a canviar). Un cop coneixem aquests aminocids per mutagnesi dirigida podem mirar que passa amb al protena (per la opci dunir el lligant, etc). Una altre de les opcions interessants s que podem fer relacions filogentiques. Cal destacar que no ho podem fer a partir duna nica protena perqu pot tenir un alt grau de variaci per si a partir de varies protenes ja que tindrem una vista docell. Protenes ms properes tindran menys canvis que protenes ms separades filogenticament. Un altre punt important s que ens ajuda a predir estructures secundaries o terciries, sempre i quan tinguem una protena de la mateixa famlia que hagi estat cristallitzada o que en coneguem lestructura. Si comparem el plegament de la protena que coneixem (empric) amb la que no coneixem en podrem fer una predicci destructura per tenir una idea de com plega la protena. Recordar que la seqncia consens s aquella seqncia majoritria en un alineament de seqncies. Existeix bsicament dos mtodes per fer alineament de seqncia, els dinmics i els heurstics.
Alineament mltiple de seqncies mtode dinmic
Implica que per cada part de seqncies es comparin totes les posicions. Fent aquest mtode es fa una matriu de substituci entre A i B i es busca el cam que dona la major puntuaci. o Ho podem fer a nivell global (algoritme de Needleman.wunsch) que alinia tota la seqncia de punta a punta, per pot cometre error per culpa de Gaps (encara que el programa en posi). Si tens dues seqncies molt properes podem fer un alineament dinmic global, per si les seqncies estan fora allunyades evolutivament (sabem que poden haver gaps o zones discontinues) no ens interessa lalineament global sin que utilitzarem el local. o Lalineament local primer connecta les parts ms semblants i desprs compara la resta. Per
Jordi Rod Morera
34
Bioinformtica
seqncies divergents s ms fiable el local, ja que no posar gaps en les zones conservades. Per seqncies divergents s ms fiable el local perqu no posar gaps en zones conservades. Un dels alineaments locals que funciona molt b per a fer pairwise s el LALIGN (http://www.ebi.ac.uk/Tools/psa/lalign). Per si volem fer alineaments mltiples no ho podem fer aix perqu tardaria massa. Per a fer un alineament mltiple de seqncies podem ferho amb exhaustiu dinmic on, si tenim 3 seqncies estem fent una matriu tridimensional que ens tardar molt ms. Si tenim n seqncies estem fent una matriu ndimensional, per tant, cada cop ens costar ms fer els clculs i per tant, com a mxim podem posar 10 seqncies a la vegada. s el mtode ms fiable. DCA (Divide and conquer) (http://bibiserv.techfak.uni-bielefeld.de/dca/) Un exemple que no s del tot exhaustiu s el DCA (Divide and conquer) que trenca la seqncia en seccions ms petites.
Alineament mltiple de seqncies per mtodes heurstics
Consisteixen en que agafem petites regions de la seqncia query (la que volem comparar), les compara amb la resta de seqncies i a partir daqu (un cop t el core), va allargant tot comparant (com el blast). [Vaja, va buscant per exemple aminocids de 10 en 10 (query de 10), de 12 en 12 (query de 12) o amb el query que vulguem. Quan trobem aquesta seqncia en la base de dades la selecciona com a positiu i llavors de les que a triat les compara. No analitza base a base] Els algoritmes heurstics ens permet fer-ho amb molt poc temps per no ens garanteix mai tenir el 100% de precisi ni de sensibilitat (podem perdre fins un 30% dels positius). Si amb un Blast no trobem una seqncia pot ser que lestiguem perdent. Quan alineem seqncies hem de fer un sistema semblant al de query. Comparem regions ms petites i desprs allarguem a partir del core. Tenim tres tipus dalgoritmes heurstics. o Progressius: ho fa pas a pas. Si comet un error en un pas inicial lanirem arrossegant. o Iteratius: fa un alineament poc afinat i desprs torna enrere i lintenta millorar, va retocant fins que aconsegueix el millor alineament o En bloc: s el millor per comparar seqncies divergents ja que busca segments en bloc i desprs els compara.
35
Bioinformtica
CLUSTALW (http://www.ebi.ac.uk/Tools/msa/clustalw2/)
s el mtode heurstic ms conegut i per tant no s el millor. Depn dEBI i s un mtode progressiu (si fa un error en una etapa inicial lanir arrastrant). Fa alineaments dos a dos i desprs va ajuntant. Utilitza el mtode de needleman-Wunsch, per tant, fa un alineament global (ms error en seqncies allunyades evolutivament). Registra les puntuacions per cada par segons una matriu de substituci. Aleshores amb les puntuacions de cada par fa un arbre filogentic simple (arbre filogentic en que relaciona les seqncies ms semblants entre elles). Per aix s diu sistema guiat per arbre (primer situa els % didentitat i desprs fa larbre filogentic). Primer realinea les seqncies ms prximes (de les que obt una seqncia consens). A partir de la seqncia consens va afegint la seqncia ms propera, sempre de 2 a 2 afegint gaps si fa falta. Sn realineades un cop t els seqncies consens amb un mtodes dinmic, posici a posici. Avantatges: Ens permet triar entre diferents matrius de substituci (automticament utilitza BLOSOM62 o PAM120 en etapes inicials i per les seqncies ms allunyanes (final de lalineament) utilitza altres matrius com BLOSUM45 o PAM250). Permet ajustar la penalitzaci per gaps, permets gaps ms freqentment fora de les zones conservades que dins delles i aplica uns contraps en seqncies redundants Limitacions: No adequat per seqncies de diferents de longituds, perqu s un mtode dalineament global Lordre de ladici de seqncies afecta el resultat final. SI fixem un gap en letapa inicial queda fixat i no el podem corregir. Molt important analitzar a posteriori lalineament. Han sortit nous algoritmes millorats: T-coffe (http://tcoffee.crg.cat/apps/tcoffee/do:regular) Fa alineaments globals i locals en tots els parells (arregla problemes de gaps) DbClustal (http://www.ebi.ac.uk/Tools/msa/dbclustal/)
36
Bioinformtica
Permet incorporat gaps llargs a part de fer alineaments globals i locals. Recordar entrar la protena en format FASTA (smbol de la clau oberta sobre la seqncia). Cal destacar que lalineament es sol fer amb protena perqu lscore dels aminocids s millor que el de les bases de DNA. El programa ja porta les penalitzacions (per gap, per exemple) i els valors de blosum tamb. Ens deixa programar per alineament seqncia - seqncia un tipus de parmetres i per lalineament de les consens un altre tipus de parmetres. Si mirem la pgina web trobarem W. El valor de W s la penalitzaci per Gaps: Si no posem penalitzaci per GAP, tenim un score ms alt per ha obert gaps on no tocaria ja que s poc probable tants gaps discontinus. Un millor score no vol dir que sigui millor.
Format de sortida. Normalment ens marcar un * per residus conservats en totes les seqncies, un : si tenim substitucions conservades i . Per substitucions semi-conservades. Tamb t un codi de colors segon aminocid.
Quan fem lalineament ens sortir el codi de FASTA a linici, i els alineaments, amb el Gap en lnia discontinua. Observar que ens marca els canvis a sota i sn conservatius o no.
37
Bioinformtica
Si ho traem en format Stockholm, ho podem passar al JAlview (http://www.jalview.org) (o el bioedit) i editar la seqncia (posant colors, movent gaps, etc). En magenta els de carrega negativa, etc. A sota ens dona la quantitat de conservaci.
Cal destacar que podem obtenir larbre amb les distancies negatives. Es guardar el fitxer en format *.dnd . Tamb saber que tenim el clustal omega (http://www.clustal.org/omega) per moltes seqncies.
38
Bioinformtica
Per a arreglar aix utilitzem la PSSM (position-specific scoring matrices) (http://www.ncbi.nlm.nih.gov/Class/Structure/pssm/pssm_viewer.cgi on busquem una espcie de seqncies (en la imatge est DNA per ho podem tenir en protena) duna famlia, que tot i no ser similars tenen certa homologia. Si trobem una zona repetida (empremta), identifica la freqncia en cada posici. Un cop tenim la matriu de seqncia relacionada amb la posici, normalitzem la freqncia respecta al total i fem el logaritme amb base dos. Tenim una matriu que ens indica quins sn els aminocids ms usuals per cada posici (resultats positius) i quins tenen una realitat baixa (resultats negatius). Un cop tenim feta la matriu de posici la podem utilitzar per detectar altres protenes de la mateixa famlia. Primer fem la matriu i desprs identifiquem nous membres de la famlia amb lempremta. Primer a nivell manual triem les seqncies i desprs a nivell informtic traiem la matriu. Un cop feta la matriu busquem altres membres que comparteixin la empremta. Si fem la matriu entre protenes homologues, la podem utilitzar per buscar altres elements distants que no haguem trobat abans, ja que tindran la mateixa empremta. Podem donar un nombre concret a la probabilitat de pertnyer a la famlia de les protenes noves.
39
Bioinformtica
Els perfils sn PSSM on dna la possibilitat de que tinguem una inserci o delecci (penalitzant). Per tant, el perfil s en essncia una PSSM amb una penalitzaci per inserci/delecci. El blast ens pot detectar homlegs amb ms del 30% didentitat. Si volem mirar els homlegs llunyans ens em de mirar el PSIblast (position-specific iterated Blast), un blast que utilitza un perfil. La primera fase s la dun blast normal. A partir dels homlegs crea el perfil i un cop tenim el perfil fa rondes de cerca a partir del perfil. Ens apareixeran protenes noves, on, si volem podem fer la empremta i tornar a fer una altre ronda. Si fem aquest procs entre 2 i 5 cops podem detectar entre 3 i 5 vegades ms protenes que si fssim un blast clssic. Vigilar perqu si fem moltes rondes pot comenar a degenerar lempremta.
- Resum
En resum, la predicci de motius i dominis proteics s important para la caracteritzaci de funciones desconegudes duna protena a partir de petites seqncies consens relacionades amb funcions conegudes. Els patrons daquestes seqncies consens sn conegudes com a motius i dominis
Jordi Rod Morera
40
Bioinformtica
Motiu: seqncia curta conservada, generalment associada amb alguna funci, i al lloc estructural que realitza aquesta funci (ex. El motiu dit-Zn, amb 10-20 residus). Domini: seqncia conservada normalment ms llarga (40-700 residus) i que s definida com una unitat estructural i funcional independent (ex. Dominis transmembrana i d'uni a lligand). Prosite (prosite.expasy.org)
Alguns programes com el prosite (miren expressions regulars, o sigui, empremtes) ens permet buscar empremtes en tota la base de dades. Podem buscar la nostre protena en la seva base de dades, podem fer empremtes i mirar quines protenes de la base de dades coincideixen, etc. El prosite, s molt interessant perqu si premem en scanprosite, podem entrar empremtes. El PRATT ens permet buscar les empremtes si entrem seqncies amb regions compartides (noms entrem els regions similars, no tota la protena) en format fasta. Les bases de dades que miren les expressions regulars sn el prosite i el emotif. Emotif (http://motif.stanford.edu/distributions/3motif/index.html)
PRINTS: base d'empremtes proteiques dalineaments revisats manualment. Utilitza PSSMs. s una base de dades petita. BLOCKS: alineaments automtics de regions conservades. Els alineaments normalment ms grans que els motius sn anomenats blocs. Utilitza PSSMs. ProDom: generat automticament a partir de seqncies de SwissProt i TrEMBL. Utilitza PSI-Blast (PSSM). Pfam: tamb genera els dominis a partir de seqncies de SwissProt i TrEMBL. Cada motiu/domini s representat per un perfil HMM generat a partir de protenes conservades. Pfam-A cont alineaments revisats manualment, i Pfam-B automtics (noms cont famlies de seqncies no cobertes per Pfam-A). SMART: alineaments refinats manualment, i basats en l'estructura terciria (si n'hi ha) o en perfils PSI-BLAST. Genera perfil HMM. RPS-BLAST (PSI-Blast revers): permet buscar coincidncies amb la base de dades generada per PSI-Blast.
41
Bioinformtica
Tamb tenim bases de dades de famlies proteiques. Menys recomanat si busquem protenes divergents, ja que aquestes bases busquen la similitud, no lempremta. Sn alineaments globals, no locals. COG (Cluste of ortologous Groups): calcificaci filogentica de protenes codificades en genomes completats. ProtoNet: agrupa protenes homologues procedents de la base SWISSPROT, per comparaci mitjanant BLAST.
-
Altres pgines
WebLogo (http://weblogo.berkeley.edu/logo.cgi/)
Ens permet identificar visualment les probabilitats de cada aminocid. s important entrar les seqncies en format FASTA.
42
Bioinformtica
43
Bioinformtica
A partir daix es va afegir el multialineament, fet que va millorar la predicci. Si comparem amb els diferents GOR, el GORV, que incorpora multialineament, ha fet millorar molt la fiabilitat de la predicci. Cal destacar que aquest multialineament, la majoria de vegades es fa amb PSI-blast. A part dels multialineaments tamb sutilitzen les reds neuronals, que sn una metodologia que t a veure amb sistemes informtics daprenentatge. Analitzen patrons repetitius i es van millorant contrastant amb dades conegudes. Les regles dinici van canviant a mesura que lexperincia els diu que s millor una cosa o altre. Tamb sutilitza el marc ocult que s millor que el PSI-blast. Un exemple seria el HMMSTR (Hidenn Markov Model for protein Structures), que fragmenta la seqncia a trossos i a partir destructures conegudes ensambla els motius en estructures supersecundries. Primer ensambla els trossos petits de forma cclica i ramificada. No fa una predicci de tota la seqncia sin a partir de trossets i de lexperincia adquirida per la red neuronal. Cal sempre tenir en compte que s ms fcil predir hlix que fulla .
PHD s un dels programes ms fiables. Es fa un psi-blasp, nobt lalineament i desprs lutilitza per introduir-lo en la red neuronal que cont diferents capes de filtratge que prenen decisions. Al final tenim una capa de filtratge que diu si el resultat s correcte o no, o sigui, la red neuronal sautoavalua.
PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred/)
Perfils Derivats de PSI-Blast + xarxa neuronal PROF (protein forecasting) (http://www.aber.ac.uk/~phiwww/prof) PSI-BLAST + xarxa neuronal. SSPro (Http://download.igb.uci.edu/sspro4.html) PSI-BLAST + avanada xarxa neuronal (biderectional recurrent neural networks (BRNNs)
PORTER
PSI-BLAST + (BRNNs)
Sn programes que triguen molt ms temps que els anteriors perqu han de fer clculs elaborats. Els diferents programes varien molts cops en les capes de reds neuronals. Recordar que cap mtode t el poder absolut de fer una predicci fiable, tots cometen errors. s bo comparar diferents mtodes de predicci.
Jpred (http://www.compbio.dundee.ac.uk/www-jpred/)
PredictProtein (http://www.predictprotein.org/)
44
Bioinformtica
Comparaci dels diferents programes. Tot i que hi ha una tendncia com en una mateixa seqncia proteica, hi ha diferents interpretacions. Destacar que la primera seqncia s la real i desprs veiem els programes.
45
Bioinformtica
TMHMM (http://www.cbs.dtu.dk/services/TMHMM/)
Un dels programes s el TMHMM, que utilitza el model de HMM, estan entrenats per ms de 160 protenes de membrana i s til per diferenciar protenes de membrana de protenes globulars. Comet error en els pptids senyal.
Phobius (http://phobius.sbc.su.se/)
Laltre s phobius, algoritme actualitzar que funciona millor. Esta dissenyat per detectar fals positius degut a pptids senyal. Utilitza el mtode de HMM i s millor que el TMHMM. Existeix tamb el polyphobiius que busca en la base de NCBI homlegs de la seqncia problema que ajuda a derivar la predicci consens.
46
Bioinformtica
TBBpred (http://www.imtech.res.in/raghava/tbbpred/)
COILS (http://www.ch.embnet.org/software/COILS_form.html)
Estadsticament es veu que dna millor predicci la finestra de 21 per tamb en t de 14 i 28. s fora precs en coiled-coils levogirs exposats al solvent.
Multicoil (http://www.osc.edu/supercomputing/software/apps/multicoil.shtml)
47
Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012
Verify3D (http://nihserver.mbi.ucla.edu/Verify_3D/)
48
Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012
La seqncia sintrodueix a lordinador, que fa un alineament buscant seqncies amb el mxim didentitat i localitza les ms semblants utilitzant-les com a model. A partir daqu fa correccions per ajustar les dues protenes. Cal destacar que en la correcci de lalineament podem afegir gaps en la protena model (mai en la nostre), fent que en la nostre protena inters quedi lestructura secundaria definida igual que la protena model. Fem model noms de la cadena principal (carbonis ) i residus conservats. Dissenyem on estan les estructures secundaries. Per a fer les connexions el programa va al PDB a buscar llaos que tingui caracterstiques de seqncia similar a la que volem fer (longitud de seqncia i semblana aminoactica). No ho fa a travs del motlle. Els loops i connexions sn la font derror ms gran. En les cadenes laterals afegim les cadenes laterals en la posici ms habitual per a aquell aminocid (per exemple Tyr) que trobem en el PDB per a tenir menys variabilitat (rotmers). Finalment tenim un refinament per energia i eliminem les protenes menys favorables (impediments per exemple) i al final obtenim un o uns quants models. Finalment farem una validaci i si el model s bo el donem com a correcte. Si no s bo podem millorar alguns parametres (fletxes rosa clar). Hi ha programes que aix ja ho fan automticament, com el: Swiss-Model (http://swissmodel.expasy.org/) 3D-JIGSAW (http://bmm.cancerresearchuk.org/~3djigsaw/) Cal destacar que aquests programes tarden molt de temps.
49
Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012
Tarden aproximadament 30 minuts a fer el modelat. Aquests dos mtodes utilitzaven un motlle, ara veurem un mtode que no ho fa.
- Mtode AB INITIO
Predicci estructural noms a partir de la seqncia de la protena. El coneixement que tenim per a fer aix no s gaire slid i per tant s el model menys precs. Tracta de buscar la mnima energia global. Programes com Rosetta (de David Baker) utilitzen aquest model. Rosetta (http://depts.washington.edu/uwc4c/expresslicenses/assets/rosetta/)
CASP
Structure Prediction)
Que passa amb tots aquest programes que hi ha per moldejats? Va haver un moment que es va crear el CASP (Critical Assessment of techniques for PROTEIN Structure Prediction) per tenir un criteri per triar els millors programes. Aquest s un programa en que tota la gent que fa algoritmes de predicci prediuen estructures de protenes resoltes no dipositades al PDB. Aquests resultats senvien a CASP i sanalitzen els resultats amb la realitat de la protena. Sinforma de en quins efectes a de millorar els diferents programes.
-
Si es resol una protena i es vol publicar sha de penjar a PDB. Aquesta base de dades est regulada per RCSB (research collaboratory for structural bioinformatics) i ens dna molta informaci parallela i collateral que podem acumular de les diferents protenes a part de donar-nos el plegament.
50
Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012
Sha vist que hi ha una alta redundncia en quan a estructura tridimensional. La realitat s que, tot i que tenim ms de 1.000.000 destructures resoltes, les estructures noves que entren no sn gaires. Per al mili de seqncies hi ha uns 800 plegaments diferents. La pgina del PDB t molta informaci. Bsicament per buscar necessitem el codi didentificaci de la protena que gaireb sempre est format per 4 parmetres (que poden ser lletres o nombres) com ILYZ i 4RCR. Tamb podem buscar per autor o el nom de la molcula. s una base de dades dels anys 70, s antiga, fet que noms ens permet 80 carcters/linia. T una introducci amb la informaci de la seva estructura i la seva qualitat. A part tamb t el nom de la molcula, organisme dorigen, resoluci dels parmetres cristallogrfics, seqncia, cofactors Imatge de la introducci i tota la informaci. Observem els atoms del polipeptid. Si sn atoms del cofactor apareix com a HETAM (totes les coses que no siguin polipptid apareixen com a HETAM). Aquest tipus de format com podem veure est una mica desfasat i per tant shan generat altres formats com el mmCIF (macromolecular crystallographic information file) o el MMDB (molecular modeling database). Si tenim unes coordenades podem: generar una estructura que podem modelar. Podem intentar ajustar un lligant (Docking). Ens permet fer anlisi de les cavitats i superficie de la protena. Ens permet fer una proposici del mecanisme dactuaci per exemple denzims (si cristallitzem un enzim amb el substrat podem veure la connexi daquest amb el substrat i proposar un mecanisme dactuaci). Algunes de les representacions que podem trobar sn en forma de barres, en forma de punts, en forma de farciment espaial i en model de cintes (el ms tpic).
Jordi Rod Morera
51
Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012
Alguns programes serien el RasMol, Swiss-PDBViewer, Molscript, Ribbons, Crasp, WebMol, Chime, Cn3Detc.
Mtode intermolecular Quan tenim estructures resoltes en pot interessar comparar-ho amb altres estructures. Per a fer-ho les superposem. Per analitzar els resultats podem mirar el valor RMSD, que ens dir la distancia de cada carboni entre ells (carboni de ltom 1 amb el carboni de ltom 1 de la protena amb la que estem comparant). Aquesta distancia seleva a dos i es divideix entre el nombre dtoms mirats. Mirem la desviaci estndard entre les dues estructures. Aquest plantejament funciona b per depn del nombre datoms (a protenes ms grans RMSD ms grans). Per tant, es va fer el RMSD100 fent que el numero final no sigui dependent de la mida de la protena. Aix ens permet identificar la similitud, total o parcial (podem tenir dominis similars). Tamb serveix per la classificaci estructural de protenes. Esquema per la comparaci de dues protenes:
- Comparaci estructures
Mtode intramolecular Per a fer la comparaci destructures tamb ho podem fer amb el mtode intramolecular. Aquest mtode busca la distancia entre un carboni i els carbonis que el rodegen. Busca les distancies internes, i per tant, no depn de la similitud entre les protenes comparades. Busca la distancia entre els atoms interns, fa una matriu de distancies i s aquesta la que comapra amb les difernets matrius de distancia ja creades. Es comparen les matrius de distancia.
52
Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012
Exemple: matrius de distancia de la cadena de la hemoglobina amb la cadena . Si les dos matrius de distancia tenen el mateix patr s perqu tenen un plegament semblant i per tant sn similars. Alguns programes de comparaci destructures sn el DALI (distancia intermolecular. Si tenim un valor Z>4 indica similitud) i el VAST (utilitza els dos mtodes).
53
Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012
54