You are on page 1of 54

3r de Bioqumica

Bioinformtica
2011-2012

TEMA 1 - BANCS DE DADES ............................................................................................................................ 5 -

BANC DE DADES PRIMARI DE SEQNCIES............................................................................................................ 5 Banc de dades de recerca americ (http://www.ncbi.nlm.nih.gov/nuccore) ....................................... 6 Banc de dades de recerca europeu (EBI) (http://www.ebi.ac.uk/ena/#Search) ................................... 8 BANC DE DADES PRIMARI ESTRUCTURAL ............................................................................................................. 9 Uniprot (http://www.uniprot.org/) ...................................................................................................... 9 PDB (protein data bank) (http://www.rcsb.org/pdb/)....................................................................... 10 BANCS DE DADES ESPECIALITZATS .................................................................................................................... 10 Prosite (http://prosite.expasy.org/) .................................................................................................... 10 Swiss-2DPage (http://us.expasy.org/ch2d) ........................................................................................ 11 Mint (http://mint.bio.uniroma2.it/mint/Welcome.do) ...................................................................... 11 Brenda (http://www.brenda-enzymes.org/) ...................................................................................... 12 TDT (Therapeutic Target Database) (http://xin.cz3.nus.edu.sg/group/cjttd/ttd.asp) ...................... 12 Pharmacogenomics Knowledge base (http://www.pharmgkb.org/index.jsp) ................................. 12 TFSEARCH (Transcriptional Factor search) (http://mbs.cbrc.jp/research/db/TFSEARCH.html) ......... 13 OMIM (online mendelian inheritance in man) (http://www.ncbi.nlm.nih.gov/omim)..................... 13 BASES GENMIQUES ..................................................................................................................................... 13 BASES PROTIQUES ....................................................................................................................................... 13 Procom (http://procom.wustl.edu) ................................................................................................... 14 MAPES DE RESTRICCI (ESTRATGIA DE CLONATGE/RFLP (POLIMORFISMES)). ....................................................... 15 Selecci del Vector .............................................................................................................................. 15 Tall de la seqncia nucleotdica dinters ........................................................................................ 16 Doble digesti i patr de bandes ....................................................................................................... 17 Buscar dianes para caracteritzar polimorfismes (RFLP) .................................................................... 17 DISSENY DE SONDES I DOLIGONUCLETIDS PER PCR. ......................................................................................... 17 Disseny automatitzat de primers ....................................................................................................... 18 Disseny automatitzat de primers per a la recerca dins dun genoma (primer-BLAST) .................... 19 Disseny automatitzat de primers per a fer mutagnesi.................................................................... 19 Anlisi dels primers (hairpins, dmers, tm, etc) ................................................................................. 20 TRADUCCI DE NUCLETIDS A PROTENA I VICEVERSA ......................................................................................... 21 EMBOSS Transeq (http://www.ebi.ac.uk/Tools/st/emboss_transeq/) .............................................. 21 SMS (Sequence manipulation site) (http://www.bioinformatics.org/sms2/rev_trans.html)............ 21 IDENTIFICACI DORF (OPEN READING FRAME) ................................................................................................. 22 ORF finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html) ................................................................ 22 CERCA DE GENS ............................................................................................................................................ 22 Genscan (http://genes.mit.edu/GENSCAN.html) ................................................................................ 22 PROMOTOR ................................................................................................................................................. 23 EMBOSS CpPlot (http://www.ebi.ac.uk/Tools/emboss/cpgplot/)...................................................... 23 Promoser (http://biowulf.bu.edu/zlab/PromoSer/) ........................................................................... 23 Promoters and terminators (http://molbiol-tools.ca/Promoters.htm).............................................. 23 PGINES ALTERNATIVES ................................................................................................................................. 24 Molecular Toolkit (http://www.vivo.colostate.edu/molkit/index.html) ........................................... 24 DNA Tools (http://biology.semo.edu/cgi-bin/dnatools.pl) ................................................................ 24 DNA and Genomics analysis (http://jura.wi.mit.edu/bio/dna/) ........................................................ 24 SEQENCIACI, ASSEMBLATGE I ANOTACIONS DE GENOMES ................................................................................. 24

TEMA 2 - ANLISI DE LA INFORMACI SEQENCIAL DEL DNA:...................................................................... 15 1.

2.

3. 4. -

5. -

TEMA 3 ALINEAMENT I COMPARACI DE SEQNCIES .............................................................................. 25 MATRIU DE PUNTS (DOT PLOT)....................................................................................................................... 26 PUNTUACI DUN ALINEAMENT....................................................................................................................... 28 MATRIU DE PUNTUACI ................................................................................................................................. 28 PAM (percent accepted mutation) ..................................................................................................... 29 Blosum (Blocks Substitution Matrix) .................................................................................................. 29

TEMA 4 CERQUES PER SIMILITUD .............................................................................................................. 30 FASTA ....................................................................................................................................................... 30 BLAST........................................................................................................................................................ 30 E-value ................................................................................................................................................. 31 Pgina blast del NCBI i tipus de blast ................................................................................................ 31 Primer basats en Blast (http://www.ncbi.nlm.nih.gov/tools/primer-blast/) ................................. 33 ALINEAMENT MLTIPLE DE SEQNCIES ............................................................................................................ 34 ALINEAMENT MLTIPLE DE SEQNCIES MTODE DINMIC ................................................................................... 34 DCA (Divide and conquer) (http://bibiserv.techfak.uni-bielefeld.de/dca/)......................................... 35 ALINEAMENT MLTIPLE DE SEQNCIES PER MTODES HEURSTICS ......................................................................... 35 CLUSTALW (http://www.ebi.ac.uk/Tools/msa/clustalw2/) ................................................................ 36 T-coffe (http://tcoffee.crg.cat/apps/tcoffee/do:regular) ................................................................... 36 DbClustal (http://www.ebi.ac.uk/Tools/msa/dbclustal/)................................................................... 36 PSSM (POSITION-SPECIFIC SCORING MATRICES) ................................................................................................. 39 PSI-BLAST (POSITION-SPECIFIC ITERATED BLAST) ................................................................................................. 40 MODEL DE MARKOV OCULT (HMM) ............................................................................................................... 40 RESUM........................................................................................................................................................ 40 Prosite (prosite.expasy.org) ................................................................................................................ 41 Emotif (http://motif.stanford.edu/distributions/3motif/index.html)................................................. 41 ALTRES BASES DE DADES ................................................................................................................................ 41 BASE DE DADES INTEGRADES ........................................................................................................................... 42 InterproScan (http://www.ebi.ac.uk/Tools/pfa/iprscan/).................................................................. 42 ALTRES PGINES ........................................................................................................................................... 42 WebLogo (http://weblogo.berkeley.edu/logo.cgi/) ........................................................................... 42 PROGRAMES AMB PREDICCI PER REDS NEURONALS ........................................................................................... 44 PHD (profile network from Heidelberg) .............................................................................................. 44 PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred/) ..................................................................................... 44 PROF (protein forecasting) (http://www.aber.ac.uk/~phiwww/prof) ............................................... 44 SSPro (Http://download.igb.uci.edu/sspro4.html) ............................................................................. 44 PORTER ................................................................................................................................................ 44 PROGRAMES DE PREDICCI MULTIPLE:.............................................................................................................. 44 Jpred (http://www.compbio.dundee.ac.uk/www-jpred/) .................................................................. 44 PredictProtein (http://www.predictprotein.org/) .............................................................................. 44 EVALUACI DE LA FIABILITAT DE LA PREDICCI ................................................................................................... 45 PREDICCI EN PROTENES TRANSMEMBRANA AMB HLIX .................................................................................. 46 TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) ..................................................................... 46 Phobius (http://phobius.sbc.su.se/) .................................................................................................... 46 PREDICCI EN PROTENES TRANSMEMBRANA AMB -BARREL ............................................................................... 46 TBBpred (http://www.imtech.res.in/raghava/tbbpred/) ................................................................... 47 PREDICCI DE COILED COIL ............................................................................................................................. 47 COILS (http://www.ch.embnet.org/software/COILS_form.html) ....................................................... 47 Multicoil (http://www.osc.edu/supercomputing/software/apps/multicoil.shtml) ........................... 47

TEMA 5 (A): PREDICCI DE LA FUNCI DUNA PROTENA ............................................................................. 39 -

TEMA 5 (B): PREDICCI DE LESTRUCTURA SECUNDARIA DE PROTENES ....................................................... 43 -

TEMA 6 - ANLISIS I PREDICCI DE LESTRUCTURA TRIDIMENSIONAL DE PROTENES.................................... 48 MODELAT PER HOMOLOGIA ............................................................................................................................ 48 ANOLEA (Atomic Non-Local Environment Assessment) ...................................................................... 48 Verify3D (http://nihserver.mbi.ucla.edu/Verify_3D/) ........................................................................ 48 Swiss-Model (http://swissmodel.expasy.org/) ................................................................................... 49 3D-JIGSAW (http://bmm.cancerresearchuk.org/~3djigsaw/) ............................................................ 49 MODELAT SENSE HOMOLOGIA ........................................................................................................................ 49 Phyre (http://www.sbg.bio.ic.ac.uk/~phyre/) .................................................................................... 50 -

Genthreader (http://bioinf.cs.ucl.ac.uk/psipred/?program=genthreader) ........................................ 50 Fugue (http://tardis.nibio.go.jp/fugue) .............................................................................................. 50 MTODE AB INITIO ..................................................................................................................................... 50 Rosetta (http://depts.washington.edu/uwc4c/express-licenses/assets/rosetta/) ............................ 50 CASP (CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE PREDICTION) ........................................... 50 ANLISI I UTILITZACI DE LA BASE DE DADES DEL PDB (HTTP://WWW.RCSB.ORG/PDB/HOME/HOME.DO) ................... 50 COMPARACI ESTRUCTURES ........................................................................................................................... 52 Mtode intermolecular....................................................................................................................... 52 Mtode intramolecular ...................................................................................................................... 52 CLASSIFICACI ESTRUCTURAL DE LA PROTENA ................................................................................................... 53 SCOP (Structural Classification Of Proteins) (http://scop.mrc-lmb.cam.ac.uk/scop/) ....................... 53 CATH (Classification by Class, Architecture, Topology, and Homology) (http://www.cathdb.info/) . 53

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

Tema 1 - Bancs de dades


Distingim dos tipus de bancs de dades generalment:

Bases de dades primries Bancs de dades on entrem informaci experimental. Un exemple seria lanlisi de lestructura duna protena (tema 6). Les dades obtingudes experimentalment ens donen distancies entre toms. Entrem distancies no el dibuix de la protena. Altres exemples serien tamb arrays dexpressi de gens on entrem dades experimentals. Bases de dades secundaries utilitza informaci daltres bancs o bases i ens la classifica en categories. Agafa per exemple lestructura de protenes i lagrupa en famlies o lagrupa segons els motius o dominis que t. Manipulem la informaci.

Podrem tenir tamb un banc de dades especialitzat (que podrem considerar com a banc de dades secundaries) que responen a nivells de classificaci ms especfic, com el Medline, el Brenda, etc. Sn banc especialitzats en alguna caracterstica com per exemple en enzims (BRENDA), malalties gentiques (OMIM), ets. Tamb hi ha motors de cerca (tamb anomenat motor de recerca o b cercador) com el SRS o el ENTREZ. Ens faciliten la recerca en aquests bancs de dades. Una de les revistes de biologia molecular molt coneguda s la nucleic acid research, on en el primer numero de cada any treu informaci de bancs de dades de biologia molecular. Tenim 1330 bancs de dades de biologia molecular. Tenim molta informaci dividida en diferents categories Anem a descriure els dos tipus primaris de bancs de dades que veurem, tant el de seqncies com el destructura.

- Banc de dades primari de seqncies


Un banc de dades primari consta duna collecci de registres, per tant, en el nostre cas, cada registre ser una seqncia diferent (la diferencia pot ser la variaci dun sol aminocid per exemple). s un registre per seqncia no per gen. Cada registre t un
Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

identificador nic i varis camps on lautor explica diferents informacions. Per poder-hi accedir a aquest banc de dades i posar en pblic la teva seqncia normalment hi ha dues entrades, BankIt i Sequin (ho explica fatal...). Tu envies la seqncia i ells te laccepten. Et donen un codi i a partir daqu pots modificar la teva seqncia. Tenim 3 nuclis o bases de dades al voltant dels quals gira la bioinformtica. Aquestes bases de dades sn una europea (EBI), una americana (NCBI o GenBank) i una japonsa (DDBJ). Vinculat a cada un daquests bancs hi ha un pgina concreta. Aquests tres bancs estan intercomunicats entre ells i, per tant, tot est en principi a tot arreu. A la hora de la veritat podem trobar algunes excepcions. Banc de dades de recerca americ (http://www.ncbi.nlm.nih.gov/nuccore) La informaci que ens dna al buscar quelcom en el marge esquerra sn els camps (on trobem el codi, versi, paraules clau, organisme de procedncia, etc).

En el marge dret podem canviar el tros de la seqncia que volem veure, posant per exemple des del nucletid 1 al 500. Tamb trobem diferents informacions com el promotor, el missatger (en aquest cas ens diu que est format per la uni de varis trossos), els axons, introns, etc. s una descripci del que podem trobar en aquesta seqncia de nucletids. En la banda dreta trobem referncies creuades daquesta seqncia (gens homlegs, el gen que

Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

codifica, etc). CDS s la pauta oberta de lectura (des de lATG fins al cod stop). s el tros codificant. La seqncia apareix amb espais i nombres. No la podem utilitzar per treballar amb ella. Per treballar necessitem poder veure la seqncia en format FASTA, sense espais ni nmeros.

Amb el format FASTA abans de la seqncia ens apareix dues lletres amb informaci iniciada per > i acabat amb un salt de fila. Aix ens permetr per exemple comparar seqncies. Amb el format FASTA podem veure si volem noms una regi.

A part del format FASTA tamb ho podem veure en format grfic. s la mateixa informaci visualitzada. Podem fer clic sobre lax o sobre lintr per conixer la seva seqncia.

Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

Banc de dades de recerca europeu (EBI) (http://www.ebi.ac.uk/ena/#Search) El banc de dades del EBI funciona de la mateixa manera. Surt la mateixa informaci visualitzada duna altre forma. Tamb ho podem treure en format FASTA i tenim la possibilitat de veure diferents seqncies relacionades, etc.

Tamb podem veure-ho de forma grfica.

Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

- Banc de dades primari estructural


En el cas dels bancs de dades primaris de seqncies de protenes, tamb tenim els 3 nuclis diferents de bases de dades. A nivell europeu tenim el uniprot, a nivell americ tenim tant PIR (protein international resource) com NCBI (funciona igual que si mirssim seqncies). Uniprot (http://www.uniprot.org/)

Va ser el primer banc de dades de protenes que va existir, abans fins i tot que el de seqncies. Es va gestionar inicialment en un banc anomenat swissprot (t una revisi de lautor, sn les seqncies ms revisades). Al cap dun temps va aparixer la TrEMBL que sn seqncies de protena tradudes directament de les seqncies nucleotdiques del EBI (sn traduccions automatitzades, no revisades per lautor). Al unificar aix va nixer el uniprot La informaci que podem trobar s el codi daccs, noms de protenes, organisme del qual prov la protena, caracterstiques de la seqncia, diferents regions definides per lautor, la seqncia de la protena, etc. Fins i tot podem treure la seqncia en format FASTA.

Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

Cal destacar que els bancs estan relacionats entre ells, com per exemple amb el PI. La idea s que en un banc de dades primari, tenim la seqncia per tamb informaci de lautor.

PDB (protein data bank) (http://www.rcsb.org/pdb/)

Un altre banc de dades primari que veurem ms endavant s el PDB. Aqu podem veure les dades de les protenes. Lautor entre la distancia entre toms i a partir daqu el programa dibuixa la protena.

- Bancs de dades especialitzats

Prosite (http://prosite.expasy.org/)

Banc de dades basat en la presencia de motius. Per exemple els enzims de restricci tallen el DNA en dianes. Podem trobar seqncies aminoacdiques que indiquin que una protena necessita glicosilar-se, acetilar-se, etc. Aquestes seqncies que sn com motius shan guardat en el prosite. Trobem tamb motius duni al DNA, etc.

10

Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

Swiss-2DPage (http://us.expasy.org/ch2d)

Tamb tenim un banc de dades de gels bidimensionals (primera dimensi SDS, segona dimensi punt isoelctric) on podem comparar per exemple cllules heptiques canceroses amb cllules normals. Tenim gels bidimensionals estanderificats on hem reconegut algunes protenes.

Mint (http://mint.bio.uniroma2.it/mint/Welcome.do)

Tamb podem mirar la interacci entre protenes a travs de mint. Busca bibliografia que expliqui la interacci entre protenes. Les protenes dinteracci tenen un score de fiabilitat. Quan ms alt menys protenes trobarem. LScore s molt important perqu ens permet determinar les evidencies experimentals que hi ha a favor daquella interacci.

11

Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

13 de febrer del 2012

Brenda (http://www.brenda-enzymes.org/)

Un altre banc de dades que tenim s el BRENDA. Aquest ja el coneixem i ens el saltarem. Brenda recull tota la informaci sobre enzims, etc.

TDT (Therapeutic Target Database) (http://xin.cz3.nus.edu.sg/group/cjttd/ttd.asp)

Un altre banc que tenim s el de dianes teraputiques. Sobre aix cal destacar que una diana teraputica s una protena sobre la qual hi actua un frmac, no cal que en sigui la causa sin la que genera els smptomes (protena que genera moc en bronquitis per exemple). Nhi ha molts, el problema s que molts no sn pblics.

Pharmacogenomics Knowledge base (http://www.pharmgkb.org/index.jsp)

12

Jordi Rod Morera

Bioinformtica

Tema 1- Bancs de dades

20 de febrer del 2012

TFSEARCH (Transcriptional Factor search) (http://mbs.cbrc.jp/research/db/TFSEARCH.html)

Podem trobar dianes de factor de transcripci en les regions promotores ja que tenim les dianes mapejades. Donada una seqncia promotora on volem saber possibles factors de transcripci que hi ha ens donar les possibles dianes de factors de transcripci. Aix s possible, no segur, per aix tenim lScore Clicant a sobre les paraules marcades en blau ens surt tota la informaci detallada del factor de transcripci. Tamb tenim com a bancs de dades genric, els bancs de gens humans. OMIM (online mendelian inheritance in man) (http://www.ncbi.nlm.nih.gov/omim) Ja nem parlat a genmica. T molta importncia perqu relaciona mutacions amb malalties. Aquest s exclusivament per gens humans.

- Bases genmiques
Hi ha pgines especialitzades amb el projecte genoma. Hi ha pgines en el NCBI (http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome), en el EBI (http://www.ebi.ac.uk/genomes on trobem un resum del projecte genoma. Ensembl, http://www.ensemblgenomes.org/ s una pagina ms semblant a NCBI) i en altres pgines web. Normalment sol sortir una llista dorganismes vinculats. Els la informaci est tamb linkada a altres pgines web per poder ampliar la informaci (per exemple a lOMIM). Nosaltres, grcies a la interface de la pgina web, podem anar ampliant la informaci (fent zooms) per collocar els gens fcilment dintre del cromosoma. Cal destacar que fins i tot podem arribar a veure la seqncia del gen. La pgina web de lensembl (http://www.ensemblgenomes.org/) ens permet comparar genomes i anar als diferents llocs del cromosoma per veure que hi ha exactament en cada part. s un navegador genmic.

- Bases protiques
A part dels projectes genoma tamb tenim proteomes (totes les protenes duna espcie). Veurem una pgina (eina) que ens permet comparar proteomes entre espcies diferents (www.ebi.ac.uk/proteome) [b, no la veurem...teniu el link...ja est xD]

Jordi Rod Morera

13

Bioinformtica

Tema 1- Bancs de dades

20 de febrer del 2012

Per comparar proteomes despcies properes podem utilitzar:

Procom (http://procom.wustl.edu)

Podem triar un E-value que, com ms petit sigui E-value ms fiable seran els resultats. s un exemple, suposa que ja ho veurem a GPI. Els motors de busqueda ja els vam veure a les classes de problemes.

Jordi Rod Morera

14

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA

20 de febrer del 2012

Tema 2 - Anlisi de la informaci seqencial del DNA:


Treballem amb una seqncia concreta de nucletids, que, amb diferents eines podrem fer: 1. 2. 3. 4. 5. 6. 7. Mapes de restricci (estratgia de clonatge/RFLP (Polimorfismes)). Disseny de sondes i doligonucletids per PCR. Traducci de les seqncies a protena. Identificaci de seqncies codificants (ORF) y promotores. Seqenciaci, assemblatge i anotacions de genomes. Estructura secundaria del RNA. Mapes de restricci.

1. Mapes de restricci (estratgia de clonatge/RFLP (Polimorfismes)).


Tinc un DNA i vull saber les dianes que t (per exemple dianes de restricci tils per clonatge). Ens interesa clonar un domini duna protena per exemple.

Selecci del Vector

Primer hem descollir el vector de clonatge que ens donar unes dianes especifiques inicials (daquestes dianes hem de mirar on tallen en el nostre fragment). Per seleccionar el vector (selecci vector) hi ha la pgina comercial de BioLabs: (http://www.neb.com/nebecomm/tech_reference/restriction_enzymes/dna_sequences_maps.asp?) on tindrem tots els vectors que existeixen a nivell comercial i el seu mapa, juntament amb la seqncia en FASTA, etc.

Jordi Rod Morera

15

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA

20 de febrer del 2012

Tall de la seqncia nucleotdica dinters

Un cop tenim escollit el vector i sabem els enzims que interessen em danar a una pagina tamb de BioLab (http://tools.neb.com/NEBcutter2/index.php) on nosaltres colloquem la seqncia que volem clonar sense espai ni nmeros (semblant a FASTA per sense el codi inicial). Sobre aquesta sequencia li diem que ens doni un mapa amb tots els enzims possibles, on dentrada en posa els enzims que tallen una vegada, per podem dir que ens doni enzims que tallin dos cops, etc. Aquest programa tamb busca les ORF i ens les indica (fletxa en gris sobre la linia negra). Va b per si volem mapejar una regi codificant.

Exemple prctic: Mirem els enzims que no tallen per tal de poder posar un encebador que ens doni dianes de tall per desprs fer la inserci en el vector. Les marcades sn les dianes que trobem en el polilinker del vector escollit, sn dianes perfectes per posar-les en els extrems de la nostres seqeencia dinters per a fer linserci.

Jordi Rod Morera

16

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA

20 de febrer del 2012

Doble digesti i patr de bandes

Pgina tamb de BioLab que ens dna la manera de poder fer una doble digesti i ens dona el patr de bandes que obtindrem : http://www.neb.com/nebecomm/DoubleDigestCalculator.asp

Buscar dianes para caracteritzar polimorfismes (RFLP)


Una altre opci s buscar dianes per a caracteritzar polimorfismes. Tenim un gen amb diferents allels (insercions, delecions o mutacions que ens insereixen dianes). Mirant com s el patr de bandes que ens origina podem detectar si hi ha hagut canvis en el gen. s important conixer el mapa de restricci per detectar els canvis.

Podem utilitzar la pgina web que hem vist abans de BioLab: http://tools.neb.com/NEBcutter2/index.php Tot i que tamb hi ha pgines opcionals a la de BioLabs com per exemple: http://www.vivo.colostate.edu/molkit/mapper/index.html o http://rna.lundberg.gu.se/cutter2/ o fins i tot: http://rna.lundberg.gu.se/cutter2/

2. Disseny de sondes i doligonucletids per PCR.


Per al disseny de primers haurem de ser conscients de la finalitat que els hi volem donar. Podem utilitzar primers per fer clonatge, primers per fer mutagnesis o fins i tot podem utilitzar primers per real time PCR on necessitarem un tercer primer. Tamb veurem primers que flaquegin un lloc on sha produt la mutaci en cas de tenir RFLP per tal de veure bandes diferents.

Jordi Rod Morera

17

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA

20 de febrer del 2012

Hem de tenir en compte els criteris inicials per a dissenyar els primer com per exemple: Compatibilitat: Tm, longitud y % GC Extrems 3: Estabilitat i falsos inicis. Complementarietat entre primers: Primer dmer Complementarietat interna: Hairpin

Disseny automatitzat de primers

Una pgina que ens permet fer un disseny automatitzat de primers s la pgina web de primer3 (http://frodo.wi.mit.edu/primer3/input.htm) que ens permet definir varies opcions per a la sntesi de PCR. Ens pregunta la mida de la seqncia, si volem excloure alguna part, etc. A la classe de problemes ja ho vam veure.

Una altre interface ms fcil de treballar per http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi

al

mateix

programa

s:

Jordi Rod Morera

18

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA

20 de febrer del 2012

Disseny automatitzat de primers per a la recerca dins dun genoma (primer-BLAST)

Si volem fer primers per a detectar o amplificar una zona dins dun genomes utilitzem primer-BLAST per tal de no tenir falsos inicis: http://www.ncbi.nlm.nih.gov/tools/primer-blast/

Disseny automatitzat de primers per a fer mutagnesi

Per a crear un primers per a fer mutagnesi hem de ser concients de les caractersitques que aquests han de tenir: Primers complementaris entre si. Longitud: 25-45 bases Tm > 78 C Mutaci en el centre del primer. Contingut de GC ~ 40% Extrem 3 G o C Per a crear-los usem al pgina primerX: http://www.bioinformatics.org/primerx/cgibin/protein_1.cgi. Nosaltres introdum la mutaci i ell ens dna com es fan els canvis.

Jordi Rod Morera

19

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA

20 de febrer del 2012

Anlisi dels primers (hairpins, dmers, tm, etc)

El programa Netprimer ens permet analitzar els primers, per exemple, mirar hairpins, tm, dimers, cross dimer etc. http://www.premierbiosoft.com/netprimer/netprlaunch/netprlaunch.html

Jordi Rod Morera

20

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA 27 de febrer del 2012

3. Traducci de nucletids a protena i viceversa


Una de les coses que podem fer s tradur una seqncia de nucletids a aminocids sense la necessitat de trobar un cod dinici (per exemple perqu estem dins dun ex). EMBOSS Transeq (http://www.ebi.ac.uk/Tools/st/emboss_transeq/) Programa de lEBI en que podem escollir si la seqncia de nucletids s provinent de:

Ja que el codi gentic varia entre especies. Cal destacar que NO buscar ORF, sin que fa traduccions directes i per tant llegir els 6 ORF possibles. Tamb podem traduir de manera reversa o sigui, daminocids a nucletids. SMS (Sequence manipulation site) (http://www.bioinformatics.org/sms2/rev_trans.html) La traducci de forma reversa ens pot interessar per exemple per si tenim una protena diferent entre una cllula cancerosa i una que no ho s. Podem buscar els oligonucletids que codifiquen aquesta protena per tal de trobar el gen mutat. El problema que tenim s que el codi s degenerat, i, per tant, la pgina ens dir quin s el codi ms favorable per lorganisme amb el que estem tractant i ens donar totes les possibles seqncies que codifiquen per la protena Com llegir-ho. La primera base ser una G al 100%, la segona una C al 100% i la tercera base tindr una probabilitat de G 34%, A 22%, T 17% i C 27%. Hem de fer una taula amb els diferents nucletids que sabem segurs i en les posicions variables posem el percentatge en que hauria dhaver cada base. Ho enviem a una casa comercial i obtenim oligos degenerats.

Jordi Rod Morera

21

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA 27 de febrer del 2012

Una vegada tenim una amplificaci per PCR (amb tots els primers degenerats a la vegada), seqenciem i coneixem la seqncia especfica que codifica per la protena.

4. Identificaci dORF (open reading frame)


No ens allargarem massa parlant daquest apartat. Ho utilitzem per buscar quina part dun gen pot codificar per una protena. Fem una traducci de nucletids a aminocids buscant ATGs. ORF finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html) Utilitzarem per exemple el ORF finder del NCBI per tal de buscar la pauta oberta de lectura.

- Cerca de gens

Tenim un tros seqenciat i volem saber quans gens tenim en aquest tros. No podem agafar un tros de 10 Mb i buscar el ORF, perqu en trobarem tants que no ho podrem analitzar. En una situaci tant massiva hem de buscar gens i no ORF. A destacar que tenim molts programes per a fer aquesta cerca...uns exemples serien: Genscan (http://genes.mit.edu/GENSCAN.html) En aquest programa colloquem la seqncia de DNA, determinem lespecies i una vegada fet aix el programa analitza els gens. La pgina busca motius com illes CpG davant de ATGs seguides de regions codificant, regions TATA, regions CAT, etc. En les ORF tamb busca els usos de cod (el programa no noms troba el ATGs i mira el ORF sin que tamb estudia ls de cod). Ens donar escrit els inicis i finals dels gens que hem trobat.

Jordi Rod Morera

22

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA 27 de febrer del 2012

- Promotor

EMBOSS CpPlot (http://www.ebi.ac.uk/Tools/emboss/cpgplot/)

Altres pgines de cerca diferents sn per exemple EMBOSS CpPlot que busca illes CpG. Li podem definir una relaci observat/esperat (el que el programa veu respecte lesperat), la composici de la seqncia s coneguda. Aquest programa mira si estan repartides al llarg de la seqncia o estan acumulades. En resum, estem buscant illes de CpG. Si sabem que hi ha 70% de GC, tenim una probabilitat de esperat de 0,7. Si en una regi tenim ms de 0,7 (observat) el programa ens ho marcar.

Altres pgines alternatives sobre promotors serien: [a causa de que anem curts de temps, ni els anomena] Promoser (http://biowulf.bu.edu/zlab/PromoSer/) PromoSer is a web-based service aimed specifically at the extraction of a large number of promoter sequences from mammalian genomes.

Promoters and terminators (http://molbiol-tools.ca/Promoters.htm)

Pagina on tenim molts recursos a utilitzar sobre promotors i terminadors. Ens indica qu fa cada un i ens dna el link de referncia.

Jordi Rod Morera

23

Bioinformtica

Tema 2 Anlisi de la informaci seqencial del DNA 27 de febrer del 2012

- Pgines alternatives

Molecular Toolkit (http://www.vivo.colostate.edu/molkit/index.html)

The Molecular Toolkit is a group of programs for analysis and manipulation of nucleic acid and protein sequence data.

DNA Tools (http://biology.semo.edu/cgi-bin/dnatools.pl) DNA and Genomics analysis (http://jura.wi.mit.edu/bio/dna/)

A destacar que a dia davui, As of January 2008, this page is no longer maintained.

5. Seqenciaci, assemblatge i anotacions de genomes

Jordi Rod Morera

24

Bioinformtica

Tema 3 Alineaments de seqncies

27 de febrer del 2012

Tema 3 Alineament i comparaci de seqncies


Alinear s comparar dues seqncies de manera que fem coincidir el mxim daminocids o de nucletids. Volem comparar seqncies per veure, per exemple, si hi ha alguna relaci evolutiva entre les dues seqncies (evoluci molecular). Tamb ens pot servir per si tenim una quantitat X de bases seqenciades dun genoma i seqencio un mRNA podem localitzar un gen al genoma comparant el genoma amb el mRNA. Tamb ens serveix per trobar regions o dominis semblants entre protenes que fan la mateixa opci (regions dadhesi al DNA, etc) i sn dominis conservats. Es tracta de buscar la posici relativa entre dues seqncies per tal de tenir el mxim de similitud. Podem fer-ho comparant per parelles (pairwise), comparant una nica seqncia davant de moltes seqncies per similitud o comparar moltes seqncies alhora. Tamb hi ha un altre concepte que ens parlar dun alineament global o local. La idea est illustrada a la imatge: La idea de lalineament global s comparar dues seqncies mirant tot lalineament sencer, buscant el mxim didentitats. Les longituds de les dues seqncies per fer alineaments globals ha de ser similars (comparaci A amb A de la imatge). Ho farem quan coneguem que les seqncies seran fora semblant i tenen mides aproximades. En canvi, un alineament local s noms per quant busquem la similitud entre una seqncia gran i una petita. Busquem el millor alineament local sense oblidar la resta de la seqncia. [Sexplica fatal...ho he posat el millor possible :S] Homologia: No s quantificable. Podem tenir protenes homologues o no homologues per no podem determinar el grau dhomologia. Lhomologia s quan tenim el mateix gen en dues especies (que seran homlegs entre ells per no t perqu ser semblants (similitud)). Mnim de similitud per ser homleg 40%)) La similitud si que s quantificable. Podem tenir gens homlegs amb un percentatge de similitud molt baix. Volem introduir el concepte homleg remot. Un homleg remot s quan entre dos gens tenim menys del 25% didentitat. Del 25 al 40% dependr del gen. Quan tenim un percentatge didentitat tant baix, hem de buscar alineaments locals ja que les regions funcionalment importants haurien de tenir una homologia alta. Lanalogia sn seqncies amb un origen NO com que han acabat amb una estructura molt semblant. s el contrari dhomologia per entendrens.
Jordi Rod Morera

25

Bioinformtica

Tema 3 Alineaments de seqncies

27 de febrer del 2012

Ortlegs s el concepte dhomologia que estvem parlant fins ara. Mateixa funci per en diferents organismes, en canvi, parleg, s quan un gen sha duplicat en una mateixa espcies i ha generat un altre subtipus. A partir dels parlegs es poden crear noves funcions. Aix dels homlegs i anlegs ho podem detectar per multi-alineaments, quan busquem diferents seqncies en un banc de dades, trobem molts gens amb similituds variables, i hem de determinar els anlegs, els homlegs, etc

- Matriu de punts (Dot Plot)


Qu s una comparaci per matriu de punts? La matriu de punts s una comparaci de sequencies en la que posem la seqncia nucleotdica a comparar (per exemple A) amb la que compararem (B). Quan tindrem similituds de bases per exemple posarem un punt i entre punts semblants tindrem una ratlla.

Hi ha un programa que tho fa per aquets programa necessita parmetres que hem de donar per a fer alineaments correctes. Aquests sn la grandria de la paraula i el percentatge de restricci (% mnim de similitud dins duna finestra). Si busquem de forma laxa obtenim aix:
100 200 300 400 500 600 700 800 100 100 200 200

300

300

400

400

500

500

600

600

700

700

800

800

100

200

300

400

500

600

700

800

La diagonal est explicada perqu estem alineant una seqncia amb ella mateixa (que ser la millor alineaci). Si utilitzem condicions ms restrictives obtenim:
100 200 300 400 500 600 700 800 100 100 200 200

300

300

400

400

500

500

600

600

700

700

800

800

100

200

300

400

500

600

700

800

Puc fer per exemple buscades de 15 paraules. Busquem 15, movem un nucletid i busquem 15 ms, movem un altre nucletid i busquem 15 ms, etc. Quan ms gran sn les paraules ms llargues sern les diagonals ja que comparar ms nucletids de cop. El percentatge de restricci s indicar per exemple que si busquem de 15 en 15

Jordi Rod Morera

26

Bioinformtica

Tema 3 Alineaments de seqncies

27 de febrer del 2012

noms considerarem correcte si en tenim 14 de similars. Si augmentem les buscades de paraula i augmentem el % de restricci netegem la imatge. Una de les funcions de fer Dot blot s analitzar una seqncia sobre si mateixa. En a) tenim la identitat del 100%. Quan viem b) estem veient seqncies repetides directes (identificaci de repeticions directes). Quan veiem lnies perpendicular a la principal com en c) tenim palndroms.

Tamb quan fem una seqncia amb una altre, no tenim perqu tenir un Dot Blot quadrat, ja que la mida no t perqu ser la mateixa.

En el cas h tenim un gap que ser, per exemple, una deleci. Per a fer un dot blot utilitzarem la segent http://emboss.bioinformatics.nl/cgi-bin/emboss/dotmatcher

pgina

web:

Jordi Rod Morera

27

Bioinformtica

Tema 3 Alineaments de seqncies

5 de mar del 2012

- Puntuaci dun alineament


Ara mirarem el Dynamic Programming (Programaci dinmica) i heuristic searches (cerca heurstica). El tema dels multialineaments el far la Rosario. Quan intentem alinear seqncies amb elles mateixes podem treure alguna caracterstica (com regions repetides o gaps) per no podem veure ni els aminocids alineats ni podem saber la mxima concordana i mnima diferencia. Pensem que entre dos seqncies de 100 aminocids tenim 1000000 alineaments diferents. Per seleccionar la millor alineaci observem lScore. Score en aquest cas ens puntua el match (nucletids idntics) en positiu, els mismatch (llocs desaparellats) que contar en negatiu i els gaps (forats, insercions o delecions) que tamb contar en negatiu.

Lequaci que ens donar lScore ser Lusuari ser el que decidir quins valors dScore es creu i quins no ja que lScore sempre s relatiu.

- Matriu de puntuaci
Normalment els mismatch no sn sempre 0, i per tant entrem a les matrius de puntuaci, que utilitzem per puntuar els Score. Aquesta matriu no t res a veure amb la matriu de punts. Dalguna manera, quan hi ha un mismatch, depenent de la substituci que shagi produt li posarem un valor de 0, major de 0 o 1. Els canvis ms probables tindran una puntuaci inferior a 1 per superior a 0 (0,5 per exemple).

Per protenes s ms complex, ja que els aminocids tenen caracterstiques diferents (aromtics, polars, no polars, etc). Sempre s ms fcil una modificaci conservativa (canvis daminocids entre el mateix grup) que una modificaci no conservativa. Les matrius de substituci (un tipus de matriu de puntuaci)(valors entre 0 i 1 inclosos) venen matisades per les caracterstiques del canvi mentre que les didentitat (noms 0 o 1) no tindr en compte les caracterstiques.

Jordi Rod Morera

28

Bioinformtica

Tema 3 Alineaments de seqncies

5 de mar del 2012

Tamb tenim en compte la diferent probabilitat segons el nombre de mutacions necessries per passar dun cod a un altre diferents. No tenim la seqncia nucleotdica per si que sabem que per passar dAsp a Tyr shan de produir 3 canvis.

PAM (percent accepted mutation)

Les matrius PAM sn unes matrius de puntuaci en que es t en compte les freqncies de mutaci. Sn unes matrius que venen derivades dalineaments globals i per tant no ens serviran gaire per buscar alineaments locals com dominis. Aquestes matrius acostumen a portar un nombre (PAM 256 per exemple). Aquest nombre ens indica la probabilitat que qualsevol aminocid muti en un altre en un interval en concret (normalment 100 aminocids). Com ms gran s el nombre PAM ms mutacions es produiran (Una matriu PAM de 1 ens indicar protenes molt similars entre elles). Blosum (Blocks Substitution Matrix)

Les matrius Blosum miren alineaments locals (dominis). Si fem un Blosum 62, el nombre ens indica les probabilitat de mutaci de lalineament de protenes que tenen una semblana del 62%. Quan ms elevat s el nombre menys freqncia de mutaci. En resum: El PAM alinea de forma global, encara que hi hagi una regi ms conservada fem un alineament global. Probabilitat que canvi un aminocid concret cada 100 aminocids. Per tant, el nombre fa referncia que, quan ms allunyades sn ms gran s el nombre PAM. En canvi, les matrius BLOSUM fan alineaments locals i el nombre ens indica el grau de similitud.

Jordi Rod Morera

29

Bioinformtica

Tema 4 Cerques per similitud

5 de mar del 2012

Tema 4 Cerques per similitud


He trobat una protena i en conec un tros de la seqncia. Vull saber si en el banc de dades aquesta protena ja ha estat caracteritzada, per tant, fem un alineament en un banc de dades per veure si hi ha alguna seqncia igual o similar a la meva protena. Per exemple, seqenciem una protena de lestrella de mar de la costa brava i volem mirar si hi ha alguna protena semblant caracteritzada. Hem de tenir en compte que lScore ser molt important per creurens o no lalineament. Hi ha dos algoritmes bsics per a fer cerques per similitud, el FASTA (alineaments globals) i el BLAST (alineament parcial).

- FASTA
En FASTA tenim la nostres seqncia problema, i el programa fa matrius dalineaments amb totes les seqncies del banc de dades que nosaltres li hem dit. Posa la nostre protena en un eix i en laltre una per una totes les protenes del banc de dades. Sn cerques exhaustives que tarden molt. El resultat que et dna el programa s la uni de diagonals ms correctes per poder-te donar un alineaments globals posant GAPs o insercions. Tamb s important ja que puntua lalineament global, no per separat. Optimitza lalineament global.

- BLAST
En el cas del BLAST busquem una coincidncia mxima entre dos seqncies amb una mida similar. Quan troba una coincidncia el que intenta s estendre a esquerra i dreta lalineament, sempre intentant no disminuir el valor de puntuaci mnim. Per poder estendre a esquerra i dreta lalineament tamb afegir GAPs. BLAST busca alineament local.

Jordi Rod Morera

30

Bioinformtica

Tema 4 Cerques per similitud

5 de mar del 2012

El blast comena per un extrem i quan et troba un alineament correcte ja lesten. Quan a trobat x alineaments amb un valor superior al teu dona ja para de buscar, s menys exhaustiu. Tot i aix, el BLAST funciona millor ja que el FASTA troba massa informaci i per tant masses alineaments (no sabem el que triar). Utilitzarem un FASTA quan podem restringir molt la recerca. El 90% de les vegades ho fas primer per BLAST i desprs per FASTA. E-value

A part de lScore un altre valor important s el E-value (Expect value)(ja lhem vist en comparaci de seqncies). Aquest valor ens diu la probabilitat de trobar aquell alineament concret per pur atzar. Com ms petit sigui E menys probable s trobar aquell alineament per pur atzar. Si tenim seqncies curtes els valors de E pugen molt. Podem tenir un Score del 100% i un E-value molt alt. No podrem comparar les seqncies perqu ser massa curta. Seqncies nucleofliques

Seqncies proteiques

Pgina blast del NCBI i tipus de blast

A part del Blast del NCBI (http://blast.ncbi.nlm.nih.gov/Blast.cgi), algunes pgines del projecte genoma tamb permeten fer un blast. Si busquem en un projecte genoma em de ser conscients que els resultats noms seran del genoma en el que estem buscant.

Jordi Rod Morera

31

Bioinformtica

Tema 4 Cerques per similitud

5 de mar del 2012

Com podem fer servir les cerques per similitud? Cal saber que hi ha diferents tipus de blast que variaran segons el tipus de seqncia dentrada i la base de dades on

buscarem. En el tblastn, tenim la protena i busquem en una base de nucletids. El que fem s tradur les seqncies de la base de dades a protena. Aix va b per detectar seqncies que codifiquen per algunes protenes. Si fem blastx, si que agafem la nostre seqncia de nucletids i ho tradum a protenes.

La sortida del blast s grfica inicialment. El color ens indica lScore i la regi solapada. Quan ms gran s la regi solapada ms gran seran ser lScore perqu tindrem ms match (aminocids iguals).

Jordi Rod Morera

32

Bioinformtica

Tema 4 Cerques per similitud

5 de mar del 2012

Laltre pantalla que obtindrem s la llista de gens. Cada lnea de les de dalt correspon a un gen. Trobem valors dScore mxim, dScore total, valor de E i mxima identitat. Sempre tenim de millor a pitjor.

La ultima pantalla que surt s lalineament en concret. La seqncia query s la que posem nosaltres i la inferior la trobada del banc de dades.

Primer basats en Blast (http://www.ncbi.nlm.nih.gov/tools/primer-blast/) Tamb hi ha una pagina per dissenyar primers basada en el blast. Si agafo DNA duna cllula de rata i poso el nostre primer, sempre ens queda el dubte de saber si el nostre primer es pot unir en algun altre tros del genoma de rata. Fem cerques per similitud.

Jordi Rod Morera

33

Bioinformtica

Tema 4- Cerques per similitud

12 de mar del 2012

Lalineament de mltiples seqncies entre elles t molt inters per a nosaltres. No obstant cal destacar que no s tant senzill lalineament de mltiples seqncies com fer varis pairwise ja que tenim un problema de cost de memria computacional i de temps. Aquesta tcnica t fora ms inters que el seqncia seqncia, ja que ens pot donar informaci sobre els patrons i/o motius conservats en una famlia que salteren poc o sn constants (relaci estructural amb aquella famlia. Una altre opci que tenim s predir si una seqncia nova pertany o no a una famlia concreta a travs de lalineament mltiple. s un treball ms dirigit a una finalitat. Tamb s important perqu, quan parlem destructures de protenes que tenen alguna funci, com transportar oxigen, lanlisi de seqncia ens permet detectar els aminocids importants funcionalment, ja que sn molt ms mantinguts que la resta (no acostumen a canviar). Un cop coneixem aquests aminocids per mutagnesi dirigida podem mirar que passa amb al protena (per la opci dunir el lligant, etc). Una altre de les opcions interessants s que podem fer relacions filogentiques. Cal destacar que no ho podem fer a partir duna nica protena perqu pot tenir un alt grau de variaci per si a partir de varies protenes ja que tindrem una vista docell. Protenes ms properes tindran menys canvis que protenes ms separades filogenticament. Un altre punt important s que ens ajuda a predir estructures secundaries o terciries, sempre i quan tinguem una protena de la mateixa famlia que hagi estat cristallitzada o que en coneguem lestructura. Si comparem el plegament de la protena que coneixem (empric) amb la que no coneixem en podrem fer una predicci destructura per tenir una idea de com plega la protena. Recordar que la seqncia consens s aquella seqncia majoritria en un alineament de seqncies. Existeix bsicament dos mtodes per fer alineament de seqncia, els dinmics i els heurstics.
Alineament mltiple de seqncies mtode dinmic

- Alineament mltiple de seqncies

Implica que per cada part de seqncies es comparin totes les posicions. Fent aquest mtode es fa una matriu de substituci entre A i B i es busca el cam que dona la major puntuaci. o Ho podem fer a nivell global (algoritme de Needleman.wunsch) que alinia tota la seqncia de punta a punta, per pot cometre error per culpa de Gaps (encara que el programa en posi). Si tens dues seqncies molt properes podem fer un alineament dinmic global, per si les seqncies estan fora allunyades evolutivament (sabem que poden haver gaps o zones discontinues) no ens interessa lalineament global sin que utilitzarem el local. o Lalineament local primer connecta les parts ms semblants i desprs compara la resta. Per
Jordi Rod Morera

34

Bioinformtica

Tema 4- Cerques per similitud

12 de mar del 2012

seqncies divergents s ms fiable el local, ja que no posar gaps en les zones conservades. Per seqncies divergents s ms fiable el local perqu no posar gaps en zones conservades. Un dels alineaments locals que funciona molt b per a fer pairwise s el LALIGN (http://www.ebi.ac.uk/Tools/psa/lalign). Per si volem fer alineaments mltiples no ho podem fer aix perqu tardaria massa. Per a fer un alineament mltiple de seqncies podem ferho amb exhaustiu dinmic on, si tenim 3 seqncies estem fent una matriu tridimensional que ens tardar molt ms. Si tenim n seqncies estem fent una matriu ndimensional, per tant, cada cop ens costar ms fer els clculs i per tant, com a mxim podem posar 10 seqncies a la vegada. s el mtode ms fiable. DCA (Divide and conquer) (http://bibiserv.techfak.uni-bielefeld.de/dca/) Un exemple que no s del tot exhaustiu s el DCA (Divide and conquer) que trenca la seqncia en seccions ms petites.
Alineament mltiple de seqncies per mtodes heurstics

Consisteixen en que agafem petites regions de la seqncia query (la que volem comparar), les compara amb la resta de seqncies i a partir daqu (un cop t el core), va allargant tot comparant (com el blast). [Vaja, va buscant per exemple aminocids de 10 en 10 (query de 10), de 12 en 12 (query de 12) o amb el query que vulguem. Quan trobem aquesta seqncia en la base de dades la selecciona com a positiu i llavors de les que a triat les compara. No analitza base a base] Els algoritmes heurstics ens permet fer-ho amb molt poc temps per no ens garanteix mai tenir el 100% de precisi ni de sensibilitat (podem perdre fins un 30% dels positius). Si amb un Blast no trobem una seqncia pot ser que lestiguem perdent. Quan alineem seqncies hem de fer un sistema semblant al de query. Comparem regions ms petites i desprs allarguem a partir del core. Tenim tres tipus dalgoritmes heurstics. o Progressius: ho fa pas a pas. Si comet un error en un pas inicial lanirem arrossegant. o Iteratius: fa un alineament poc afinat i desprs torna enrere i lintenta millorar, va retocant fins que aconsegueix el millor alineament o En bloc: s el millor per comparar seqncies divergents ja que busca segments en bloc i desprs els compara.

Jordi Rod Morera

35

Bioinformtica

Tema 4- Cerques per similitud

12 de mar del 2012

CLUSTALW (http://www.ebi.ac.uk/Tools/msa/clustalw2/)

s el mtode heurstic ms conegut i per tant no s el millor. Depn dEBI i s un mtode progressiu (si fa un error en una etapa inicial lanir arrastrant). Fa alineaments dos a dos i desprs va ajuntant. Utilitza el mtode de needleman-Wunsch, per tant, fa un alineament global (ms error en seqncies allunyades evolutivament). Registra les puntuacions per cada par segons una matriu de substituci. Aleshores amb les puntuacions de cada par fa un arbre filogentic simple (arbre filogentic en que relaciona les seqncies ms semblants entre elles). Per aix s diu sistema guiat per arbre (primer situa els % didentitat i desprs fa larbre filogentic). Primer realinea les seqncies ms prximes (de les que obt una seqncia consens). A partir de la seqncia consens va afegint la seqncia ms propera, sempre de 2 a 2 afegint gaps si fa falta. Sn realineades un cop t els seqncies consens amb un mtodes dinmic, posici a posici. Avantatges: Ens permet triar entre diferents matrius de substituci (automticament utilitza BLOSOM62 o PAM120 en etapes inicials i per les seqncies ms allunyanes (final de lalineament) utilitza altres matrius com BLOSUM45 o PAM250). Permet ajustar la penalitzaci per gaps, permets gaps ms freqentment fora de les zones conservades que dins delles i aplica uns contraps en seqncies redundants Limitacions: No adequat per seqncies de diferents de longituds, perqu s un mtode dalineament global Lordre de ladici de seqncies afecta el resultat final. SI fixem un gap en letapa inicial queda fixat i no el podem corregir. Molt important analitzar a posteriori lalineament. Han sortit nous algoritmes millorats: T-coffe (http://tcoffee.crg.cat/apps/tcoffee/do:regular) Fa alineaments globals i locals en tots els parells (arregla problemes de gaps) DbClustal (http://www.ebi.ac.uk/Tools/msa/dbclustal/)

Jordi Rod Morera

36

Bioinformtica

Tema 4- Cerques per similitud

12 de mar del 2012

Permet incorporat gaps llargs a part de fer alineaments globals i locals. Recordar entrar la protena en format FASTA (smbol de la clau oberta sobre la seqncia). Cal destacar que lalineament es sol fer amb protena perqu lscore dels aminocids s millor que el de les bases de DNA. El programa ja porta les penalitzacions (per gap, per exemple) i els valors de blosum tamb. Ens deixa programar per alineament seqncia - seqncia un tipus de parmetres i per lalineament de les consens un altre tipus de parmetres. Si mirem la pgina web trobarem W. El valor de W s la penalitzaci per Gaps: Si no posem penalitzaci per GAP, tenim un score ms alt per ha obert gaps on no tocaria ja que s poc probable tants gaps discontinus. Un millor score no vol dir que sigui millor.

Format de sortida. Normalment ens marcar un * per residus conservats en totes les seqncies, un : si tenim substitucions conservades i . Per substitucions semi-conservades. Tamb t un codi de colors segon aminocid.

Quan fem lalineament ens sortir el codi de FASTA a linici, i els alineaments, amb el Gap en lnia discontinua. Observar que ens marca els canvis a sota i sn conservatius o no.

Jordi Rod Morera

37

Bioinformtica

Tema 4- Cerques per similitud

12 de mar del 2012

Si ho traem en format Stockholm, ho podem passar al JAlview (http://www.jalview.org) (o el bioedit) i editar la seqncia (posant colors, movent gaps, etc). En magenta els de carrega negativa, etc. A sota ens dona la quantitat de conservaci.

Cal destacar que podem obtenir larbre amb les distancies negatives. Es guardar el fitxer en format *.dnd . Tamb saber que tenim el clustal omega (http://www.clustal.org/omega) per moltes seqncies.

Jordi Rod Morera

38

Bioinformtica

Tema 5(A)- Predicci de la funci duna protena

19 de mar del 2012

Tema 5 (A): Predicci de la funci duna protena


El tema 5 tracta de fer predicci de la funci de la protena, identificant bsicament motius homlegs, motius llunyans, dominis copiats entre protenes. Finalment mirarem les famlies proteiques. Les empremtes sn aminocids especfics per posicions concretes. Aquestes empremtes podem ser relativament curtes (motius) o relativament grans (dominis). Algunes famlies amb una funci concreta, tot i que poden haver divergit molt, tenen lempremta igual (ja que sn aminocids molt importants funcionalment). Si fem un alineament tipus BLAST, podem no tenir similitud suficient per dir que sn famlia.
-

PSSM (position-specific scoring matrices)

Per a arreglar aix utilitzem la PSSM (position-specific scoring matrices) (http://www.ncbi.nlm.nih.gov/Class/Structure/pssm/pssm_viewer.cgi on busquem una espcie de seqncies (en la imatge est DNA per ho podem tenir en protena) duna famlia, que tot i no ser similars tenen certa homologia. Si trobem una zona repetida (empremta), identifica la freqncia en cada posici. Un cop tenim la matriu de seqncia relacionada amb la posici, normalitzem la freqncia respecta al total i fem el logaritme amb base dos. Tenim una matriu que ens indica quins sn els aminocids ms usuals per cada posici (resultats positius) i quins tenen una realitat baixa (resultats negatius). Un cop tenim feta la matriu de posici la podem utilitzar per detectar altres protenes de la mateixa famlia. Primer fem la matriu i desprs identifiquem nous membres de la famlia amb lempremta. Primer a nivell manual triem les seqncies i desprs a nivell informtic traiem la matriu. Un cop feta la matriu busquem altres membres que comparteixin la empremta. Si fem la matriu entre protenes homologues, la podem utilitzar per buscar altres elements distants que no haguem trobat abans, ja que tindran la mateixa empremta. Podem donar un nombre concret a la probabilitat de pertnyer a la famlia de les protenes noves.

Jordi Rod Morera

39

Bioinformtica

Tema 5(A)- Predicci de la funci duna protena

19 de mar del 2012

PSI-blast (position-specific iterated Blast)

Els perfils sn PSSM on dna la possibilitat de que tinguem una inserci o delecci (penalitzant). Per tant, el perfil s en essncia una PSSM amb una penalitzaci per inserci/delecci. El blast ens pot detectar homlegs amb ms del 30% didentitat. Si volem mirar els homlegs llunyans ens em de mirar el PSIblast (position-specific iterated Blast), un blast que utilitza un perfil. La primera fase s la dun blast normal. A partir dels homlegs crea el perfil i un cop tenim el perfil fa rondes de cerca a partir del perfil. Ens apareixeran protenes noves, on, si volem podem fer la empremta i tornar a fer una altre ronda. Si fem aquest procs entre 2 i 5 cops podem detectar entre 3 i 5 vegades ms protenes que si fssim un blast clssic. Vigilar perqu si fem moltes rondes pot comenar a degenerar lempremta.

- Model de Markov ocult (HMM)


El model de Markov ocult (HMM) completa, a part de la freqncia dun residu en una posici, tamb la probabilitat de que, al costat duna arginina tinguem una treonina, etc. Computa lempremta i tamb mirar la probabilitat de tenir dos aminocids junts. Es considera millor model per detectar seqncies divergents. T un major poder predictiu. Pot diferenciar entre delecions i insercions, s ms flexible. Tamb pondera pel nombre de seqncies repetides (pondera a la baixa les ms repetides). Pot ser utilitzat un com entrenat (preparar el programa anteriorment) per detectar homlegs distants i sutilitza a posteriori per a classificar famlies de protenes a travs de la identificaci de motius i patrons. Tamb s utilitzat per predir gens, promotor i reconixer motius de plegament proteic.

- Resum
En resum, la predicci de motius i dominis proteics s important para la caracteritzaci de funciones desconegudes duna protena a partir de petites seqncies consens relacionades amb funcions conegudes. Els patrons daquestes seqncies consens sn conegudes com a motius i dominis
Jordi Rod Morera

40

Bioinformtica

Tema 5(A)- Predicci de la funci duna protena

19 de mar del 2012

Motiu: seqncia curta conservada, generalment associada amb alguna funci, i al lloc estructural que realitza aquesta funci (ex. El motiu dit-Zn, amb 10-20 residus). Domini: seqncia conservada normalment ms llarga (40-700 residus) i que s definida com una unitat estructural i funcional independent (ex. Dominis transmembrana i d'uni a lligand). Prosite (prosite.expasy.org)

Alguns programes com el prosite (miren expressions regulars, o sigui, empremtes) ens permet buscar empremtes en tota la base de dades. Podem buscar la nostre protena en la seva base de dades, podem fer empremtes i mirar quines protenes de la base de dades coincideixen, etc. El prosite, s molt interessant perqu si premem en scanprosite, podem entrar empremtes. El PRATT ens permet buscar les empremtes si entrem seqncies amb regions compartides (noms entrem els regions similars, no tota la protena) en format fasta. Les bases de dades que miren les expressions regulars sn el prosite i el emotif. Emotif (http://motif.stanford.edu/distributions/3motif/index.html)

- Altres bases de dades


PRINTS: base d'empremtes proteiques dalineaments revisats manualment. Utilitza PSSMs. s una base de dades petita. BLOCKS: alineaments automtics de regions conservades. Els alineaments normalment ms grans que els motius sn anomenats blocs. Utilitza PSSMs. ProDom: generat automticament a partir de seqncies de SwissProt i TrEMBL. Utilitza PSI-Blast (PSSM). Pfam: tamb genera els dominis a partir de seqncies de SwissProt i TrEMBL. Cada motiu/domini s representat per un perfil HMM generat a partir de protenes conservades. Pfam-A cont alineaments revisats manualment, i Pfam-B automtics (noms cont famlies de seqncies no cobertes per Pfam-A). SMART: alineaments refinats manualment, i basats en l'estructura terciria (si n'hi ha) o en perfils PSI-BLAST. Genera perfil HMM. RPS-BLAST (PSI-Blast revers): permet buscar coincidncies amb la base de dades generada per PSI-Blast.

Jordi Rod Morera

41

Bioinformtica

Tema 5(A)- Predicci de la funci duna protena

19 de mar del 2012

- Base de dades integrades


InterproScan (http://www.ebi.ac.uk/Tools/pfa/iprscan/) El que ens interessa dentrada s no buscar en una base de dades concreta, sin que utilitzem bases de dades integrades perqu podem tenir ms resultats. Per exemple podem utilitzar interpro. Si troba 5 bases de dades amb el motius iguals ens dna el resultat per bo. Ens mostra un grfic resum dels motius torbats amb enllaos dinformaci. Ens permet treballar tamb en seqncies de DNA i traduir-la. Altres bases de dades integrades sn: CDART (conserved domain architecture): combina resultats de RPS-BLAST, SMART, y Pfam CDD: integra SMART, Pfam y COG

Tamb tenim bases de dades de famlies proteiques. Menys recomanat si busquem protenes divergents, ja que aquestes bases busquen la similitud, no lempremta. Sn alineaments globals, no locals. COG (Cluste of ortologous Groups): calcificaci filogentica de protenes codificades en genomes completats. ProtoNet: agrupa protenes homologues procedents de la base SWISSPROT, per comparaci mitjanant BLAST.
-

Altres pgines
WebLogo (http://weblogo.berkeley.edu/logo.cgi/)

Ens permet identificar visualment les probabilitats de cada aminocid. s important entrar les seqncies en format FASTA.

Jordi Rod Morera

42

Bioinformtica

Tema 5 (B)- Predicci de lestructura secundaria de protenes 26 de mar del 2012

Tema 5 (B): Predicci de lestructura secundaria de protenes


La predicci de lestructura secundaria en protenes sempre ha tingut inters de cara a predir la possible funci proteica. Quan parlem destructura secundaria sempre parlem dhelix , fulles i coils. Tot i aix, no podem predir girs amb fiabilitat, ni llaos perqu al tenir molta diversitat destructura sn difcils de predir... Predir lestructura secundaria ens permet: Classificar les protenes i identificar motius funcionals i a vegades dominis. Guiar lalineament de seqncies divergents i relacionades perqu en principi est ms conservat el plegament que la prpia seqncia daminocids s un pas previ a la predicci destructura terciria (ms difcil que secundaria). El primer mtode que es va utilitzar era molt rude ja que mirava la probabilitat de trobar un residu en una estructura respecte la quantitat de residu en aquella seqncia. I per aix tenia una fiabilitat del 50% (una mica a latzar). En 30 anys sha aconseguit el 75% (fora bona, per cal contrastar els resultats). Desprs va sortir el mtode de Chou-Fasman, que mirava la probabilitat dun aminocids destar en una estructura mirant les proporcions. Sobre els anys 70 va sortir el mtode de Gor (Garnier-Osguthorpe-Robson), que mirava la propensi estadstica dun aminocid destar en una estructura tenint en compte la regi que lenvolta (17 aminocids, per tant, finestres ms grans), amb el que considera una mica ms els residus vens que no el mtode anterior. Amb el temps van aparixer GORII, i GORIII. A partir dels anys 80 principis de 90 van aparixer una srie dalgoritmes de segona generaci amb algunes millores estadstiques en les quals va millorar un 10% la fiabilitat (60% molt baixa). El segon grup de mtodes que sn els de segona generaci es basen en relacions dhomologia. Es fa una predicci de la seqncia consens i en alguns casos sincorporen dades destructures resoltes dalgun membre de la famlia descrit i per tant s ms fiable. A partir dels 90 shan desenvolupats mtodes basats en lhomologia. Es busquen relacions dhomologia a vegades diverses i es fa la predicci en base la seqncia consens ja que ha de reflexar la combinaci destructures secundaries. Aix millora aproximadament un 10% ms la fiabilitat (ja ens trobem sobre els 70%).
Jordi Rod Morera

43

Bioinformtica

Tema 5 (B)- Predicci de lestructura secundaria de protenes 26 de mar del 2012

A partir daix es va afegir el multialineament, fet que va millorar la predicci. Si comparem amb els diferents GOR, el GORV, que incorpora multialineament, ha fet millorar molt la fiabilitat de la predicci. Cal destacar que aquest multialineament, la majoria de vegades es fa amb PSI-blast. A part dels multialineaments tamb sutilitzen les reds neuronals, que sn una metodologia que t a veure amb sistemes informtics daprenentatge. Analitzen patrons repetitius i es van millorant contrastant amb dades conegudes. Les regles dinici van canviant a mesura que lexperincia els diu que s millor una cosa o altre. Tamb sutilitza el marc ocult que s millor que el PSI-blast. Un exemple seria el HMMSTR (Hidenn Markov Model for protein Structures), que fragmenta la seqncia a trossos i a partir destructures conegudes ensambla els motius en estructures supersecundries. Primer ensambla els trossos petits de forma cclica i ramificada. No fa una predicci de tota la seqncia sin a partir de trossets i de lexperincia adquirida per la red neuronal. Cal sempre tenir en compte que s ms fcil predir hlix que fulla .

- Programes amb predicci per reds neuronals


PHD (profile network from Heidelberg)

PHD s un dels programes ms fiables. Es fa un psi-blasp, nobt lalineament i desprs lutilitza per introduir-lo en la red neuronal que cont diferents capes de filtratge que prenen decisions. Al final tenim una capa de filtratge que diu si el resultat s correcte o no, o sigui, la red neuronal sautoavalua.

PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred/)
Perfils Derivats de PSI-Blast + xarxa neuronal PROF (protein forecasting) (http://www.aber.ac.uk/~phiwww/prof) PSI-BLAST + xarxa neuronal. SSPro (Http://download.igb.uci.edu/sspro4.html) PSI-BLAST + avanada xarxa neuronal (biderectional recurrent neural networks (BRNNs)

PORTER
PSI-BLAST + (BRNNs)

Sn programes que triguen molt ms temps que els anteriors perqu han de fer clculs elaborats. Els diferents programes varien molts cops en les capes de reds neuronals. Recordar que cap mtode t el poder absolut de fer una predicci fiable, tots cometen errors. s bo comparar diferents mtodes de predicci.

- Programes de predicci multiple:

Jpred (http://www.compbio.dundee.ac.uk/www-jpred/)

Busca a PHD, PREDATOR,DSC, NNSSP, Jnet y Zpred.

PredictProtein (http://www.predictprotein.org/)

Jordi Rod Morera

44

Bioinformtica

Tema 5 (B)- Predicci de lestructura secundaria de protenes 26 de mar del 2012

Comparaci dels diferents programes. Tot i que hi ha una tendncia com en una mateixa seqncia proteica, hi ha diferents interpretacions. Destacar que la primera seqncia s la real i desprs veiem els programes.

- Evaluaci de la fiabilitat de la predicci


El valor Q3 es el nombre de residus ben predits entre els totals El valor Sov medeix el solapament fraccional dels segmets, s a dir, si els fragments es tronen en el lloc que toquen tot i que el nombre de hlix i sigui correcte. Shan fet estudis amb diferents protenes amb plegaments diferents: La A s bsicament hlix , la b , la C combinaci i la D barril amb i . Veiem diferents mtodes el valor de Q3 i de Sov que t.

Jordi Rod Morera

45

Bioinformtica

Tema 5 (B)- Predicci de lestructura secundaria de protenes 26 de mar del 2012

- Predicci en protenes transmembrana


Qu passa amb les protenes que no sn globulars i solubles? En principi els mtodes de predicci tamb serveixen per les transmembrana, no obstant, degut a al propensi de tenir residus hidrofbics hi ha molt ms error en la predicci. Per tant,els algoritmes anteriors no sutilitzen per aquestes (no els algoritmes, sin la propensi daminocid). Hi ha programes especials per les protenes de membrana. Aquestes protenes sn importants perqu constitueixen fins al 30% de les protenes de la cllula i de fet sn les menys estudiades, ja que sn molt difcils de cristallitzar (costa tenir dades, per aix les reds neuronals tenen menys input, perqu no poden aprendre). Sn ms fcils de predir perqu sn ms regulars en quan al seu comportament destructura secundria (punt positiu). Podem distingir dos tipus principals: - Amb hlix transmembrana Tenen una regularitat fcil dentendre. Es troben perpendiculars a la bicapa i solen estar paralleles entre elles la majoria. Solen tenir llaos que les connecten hidrfils en ambdues cares. Es sol donar la regla del inside positiu (en el lmit de la hlix acostumem a tenir carrega positiva, sobretot a la cara citoplasmtica). - Barrils (sobre tot porines).

- Predicci en protenes transmembrana amb hlix


Els millors programes de predicci rastregen valors de hidrofobicitat, fan servir la regla de positiu dins, tenen informaci evolutiva i tenen reds neuronals.

TMHMM (http://www.cbs.dtu.dk/services/TMHMM/)

Un dels programes s el TMHMM, que utilitza el model de HMM, estan entrenats per ms de 160 protenes de membrana i s til per diferenciar protenes de membrana de protenes globulars. Comet error en els pptids senyal.

Phobius (http://phobius.sbc.su.se/)

Laltre s phobius, algoritme actualitzar que funciona millor. Esta dissenyat per detectar fals positius degut a pptids senyal. Utilitza el mtode de HMM i s millor que el TMHMM. Existeix tamb el polyphobiius que busca en la base de NCBI homlegs de la seqncia problema que ajuda a derivar la predicci consens.

- Predicci en protenes transmembrana amb -barrel


Per les protenes barril tamb hi ha regles fixes igual que per les protenes transmembrana amb majoria .
Jordi Rod Morera

46

Bioinformtica

Tema 5 (B)- Predicci de lestructura secundaria de protenes 26 de mar del 2012

TBBpred (http://www.imtech.res.in/raghava/tbbpred/)

Red neuronal, entrenat amb protenes transmembrana tipus barril-.

- Predicci de Coiled coil


Tenim la rotaci de la cremallera (tpic coiled-coil). A b c i d. El primer i el 4 estan en contacte i s el que fan lenlla entre hlix i hlix (enlla hidrofbic). Es troben cara a cara i es un contacte hidrofbic. La resta sol ser hidroflic perqu esta en contacte amb el medi.

COILS (http://www.ch.embnet.org/software/COILS_form.html)

Estadsticament es veu que dna millor predicci la finestra de 21 per tamb en t de 14 i 28. s fora precs en coiled-coils levogirs exposats al solvent.

Multicoil (http://www.osc.edu/supercomputing/software/apps/multicoil.shtml)

Utilitza una matriu de puntuaci basada en dades de coiled coils de 2 o 3 cadenes.

Jordi Rod Morera

47

Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012

Tema 6 - Anlisis i predicci de lestructura tridimensional de protenes


Quan fem predicci destructura terciria tenim varies possibilitats de com fer-ho. El cas ideal quan no tenim lestructura resolta s fer un modelat per homologia (modelat comparatiu) en que tenim ms del 30% de seqncia entre la nostre protena inters i la resolta.

- Modelat per homologia


Fem una recerca dhomlegs propers (triem el que ms sassembli), aliniem lestructura i contruim el model de plegament utilitzant lestructura de la protena homologa com a model. Busquem la protena ms identica i la utilitzem com a model. Quan tenim el model contrum lesquelet principal aliniant els carbonis . Un cop ho tenim afegim les conexions (llaos) entre els diferents tipus de cadena secundaria i desprs refinem la cadena lateral amb els aminoacids que no conicideixen amb el motlle (els aminocids que si que conicideixen es deixen igual). Finalment fem un refinament total buscant mnims denergia de tota lestructura obtinguda. Molt programes tenen una avaluaci final de la qualitat. Sn alguns programes daquests: ANOLEA (Atomic Non-Local Environment Assessment) (http://protein.bio.puc.cl/cardex/servers/anolea/index.html)

Verify3D (http://nihserver.mbi.ucla.edu/Verify_3D/)

En resum la idea s la segent:

Jordi Rod Morera

48

Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012

La seqncia sintrodueix a lordinador, que fa un alineament buscant seqncies amb el mxim didentitat i localitza les ms semblants utilitzant-les com a model. A partir daqu fa correccions per ajustar les dues protenes. Cal destacar que en la correcci de lalineament podem afegir gaps en la protena model (mai en la nostre), fent que en la nostre protena inters quedi lestructura secundaria definida igual que la protena model. Fem model noms de la cadena principal (carbonis ) i residus conservats. Dissenyem on estan les estructures secundaries. Per a fer les connexions el programa va al PDB a buscar llaos que tingui caracterstiques de seqncia similar a la que volem fer (longitud de seqncia i semblana aminoactica). No ho fa a travs del motlle. Els loops i connexions sn la font derror ms gran. En les cadenes laterals afegim les cadenes laterals en la posici ms habitual per a aquell aminocid (per exemple Tyr) que trobem en el PDB per a tenir menys variabilitat (rotmers). Finalment tenim un refinament per energia i eliminem les protenes menys favorables (impediments per exemple) i al final obtenim un o uns quants models. Finalment farem una validaci i si el model s bo el donem com a correcte. Si no s bo podem millorar alguns parametres (fletxes rosa clar). Hi ha programes que aix ja ho fan automticament, com el: Swiss-Model (http://swissmodel.expasy.org/) 3D-JIGSAW (http://bmm.cancerresearchuk.org/~3djigsaw/) Cal destacar que aquests programes tarden molt de temps.

- Modelat sense homologia


Si no tenim homlegs tendim a buscar protenes que encaixin al mxim possible pel plegament predit daquella seqncia, buscar similitud en les seqncies secundaries. Fem una predicci del plegament de la nostre protena i llavors anirem al PDB i buscarem patrons iguals o semblants. Es busca lencaix de plegament secundari. Aquest mtode ens permet identificar protenes similars estructuralment tot i no tenir conservaci de seqncia. El model atmic no s gaire refinat per ens dna una aproximaci. Programes possibles serien:
Jordi Rod Morera

49

Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012

Phyre (http://www.sbg.bio.ic.ac.uk/~phyre/) Genthreader (http://bioinf.cs.ucl.ac.uk/psipred/?program=genthreader) Fugue (http://tardis.nibio.go.jp/fugue)

Tarden aproximadament 30 minuts a fer el modelat. Aquests dos mtodes utilitzaven un motlle, ara veurem un mtode que no ho fa.

- Mtode AB INITIO
Predicci estructural noms a partir de la seqncia de la protena. El coneixement que tenim per a fer aix no s gaire slid i per tant s el model menys precs. Tracta de buscar la mnima energia global. Programes com Rosetta (de David Baker) utilitzen aquest model. Rosetta (http://depts.washington.edu/uwc4c/expresslicenses/assets/rosetta/)

Aquests programes utilitzen els segents passos

CASP

(Critical Assessment of techniques for PROTEIN

Structure Prediction)

Que passa amb tots aquest programes que hi ha per moldejats? Va haver un moment que es va crear el CASP (Critical Assessment of techniques for PROTEIN Structure Prediction) per tenir un criteri per triar els millors programes. Aquest s un programa en que tota la gent que fa algoritmes de predicci prediuen estructures de protenes resoltes no dipositades al PDB. Aquests resultats senvien a CASP i sanalitzen els resultats amb la realitat de la protena. Sinforma de en quins efectes a de millorar els diferents programes.
-

Anlisi i utilitzaci de la base de dades del PDB


(http://www.rcsb.org/pdb/home/home.do)

Si es resol una protena i es vol publicar sha de penjar a PDB. Aquesta base de dades est regulada per RCSB (research collaboratory for structural bioinformatics) i ens dna molta informaci parallela i collateral que podem acumular de les diferents protenes a part de donar-nos el plegament.

Jordi Rod Morera

50

Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012

Sha vist que hi ha una alta redundncia en quan a estructura tridimensional. La realitat s que, tot i que tenim ms de 1.000.000 destructures resoltes, les estructures noves que entren no sn gaires. Per al mili de seqncies hi ha uns 800 plegaments diferents. La pgina del PDB t molta informaci. Bsicament per buscar necessitem el codi didentificaci de la protena que gaireb sempre est format per 4 parmetres (que poden ser lletres o nombres) com ILYZ i 4RCR. Tamb podem buscar per autor o el nom de la molcula. s una base de dades dels anys 70, s antiga, fet que noms ens permet 80 carcters/linia. T una introducci amb la informaci de la seva estructura i la seva qualitat. A part tamb t el nom de la molcula, organisme dorigen, resoluci dels parmetres cristallogrfics, seqncia, cofactors Imatge de la introducci i tota la informaci. Observem els atoms del polipeptid. Si sn atoms del cofactor apareix com a HETAM (totes les coses que no siguin polipptid apareixen com a HETAM). Aquest tipus de format com podem veure est una mica desfasat i per tant shan generat altres formats com el mmCIF (macromolecular crystallographic information file) o el MMDB (molecular modeling database). Si tenim unes coordenades podem: generar una estructura que podem modelar. Podem intentar ajustar un lligant (Docking). Ens permet fer anlisi de les cavitats i superficie de la protena. Ens permet fer una proposici del mecanisme dactuaci per exemple denzims (si cristallitzem un enzim amb el substrat podem veure la connexi daquest amb el substrat i proposar un mecanisme dactuaci). Algunes de les representacions que podem trobar sn en forma de barres, en forma de punts, en forma de farciment espaial i en model de cintes (el ms tpic).
Jordi Rod Morera

51

Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012

Alguns programes serien el RasMol, Swiss-PDBViewer, Molscript, Ribbons, Crasp, WebMol, Chime, Cn3Detc.

Mtode intermolecular Quan tenim estructures resoltes en pot interessar comparar-ho amb altres estructures. Per a fer-ho les superposem. Per analitzar els resultats podem mirar el valor RMSD, que ens dir la distancia de cada carboni entre ells (carboni de ltom 1 amb el carboni de ltom 1 de la protena amb la que estem comparant). Aquesta distancia seleva a dos i es divideix entre el nombre dtoms mirats. Mirem la desviaci estndard entre les dues estructures. Aquest plantejament funciona b per depn del nombre datoms (a protenes ms grans RMSD ms grans). Per tant, es va fer el RMSD100 fent que el numero final no sigui dependent de la mida de la protena. Aix ens permet identificar la similitud, total o parcial (podem tenir dominis similars). Tamb serveix per la classificaci estructural de protenes. Esquema per la comparaci de dues protenes:

- Comparaci estructures

Mtode intramolecular Per a fer la comparaci destructures tamb ho podem fer amb el mtode intramolecular. Aquest mtode busca la distancia entre un carboni i els carbonis que el rodegen. Busca les distancies internes, i per tant, no depn de la similitud entre les protenes comparades. Busca la distancia entre els atoms interns, fa una matriu de distancies i s aquesta la que comapra amb les difernets matrius de distancia ja creades. Es comparen les matrius de distancia.

Jordi Rod Morera

52

Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012

Exemple: matrius de distancia de la cadena de la hemoglobina amb la cadena . Si les dos matrius de distancia tenen el mateix patr s perqu tenen un plegament semblant i per tant sn similars. Alguns programes de comparaci destructures sn el DALI (distancia intermolecular. Si tenim un valor Z>4 indica similitud) i el VAST (utilitza els dos mtodes).

- Classificaci estructural de la protena


Quan tenim una estructura resolta de protenes una de les coses que es fan s classificar-les. Els sistemes ms populars sn el SCOP i el CATH: SCOP (Structural Classification Of Proteins) (http://scop.mrclmb.cam.ac.uk/scop/) Funciona per classificaci manual (ms fiable). Hi ha 4 nivells de classificaci o Classe: Tipus delement secundaris. No hi ha relaci evolutiva. o Plegament: Es basa en quin tipus delements secundaris i la seva disposici. No hi ha relaci evolutiva. o Superfamlia: Membres que probablement tenen un origen evolutiu com. o Famlia: ms del 30% didentitat de seqncia. Membres evolutivament emparentats CATH (Classification by Class, Architecture, Topology, and Homology) (http://www.cathdb.info/) Molt semblant al SCOP. Cal destacar que lalineament s tant automtic com manual o Entre el nivell de classe i plegament t el nivell darquitectura (disposici dels elements secundaris) Classificaci de la pgina web CATH

Jordi Rod Morera

53

Bioinformtica Tema 6- Anlisi i predicci de lestructura tridimensional de protenes 11 dabril del 2012

Comparaci entre SCOP i CATH per dues protenes:

Jordi Rod Morera

54

You might also like