You are on page 1of 14

Pesquisa

Bioinformtica: Manual do Usurio


Ilustraes cedidas pelos autores

Um guia bsico e amplo sobre os diversos aspectos dessa nova cincia


Francisco Prosdocimi
Mestrando em Gentica e Especialista em Bioinformtica Universidade Federal de Minas Gerais franc@icb.ufmg.br

Fernando Camargo Filho


Mestrando em Biotecnologia Vegetal e Especialista em Bioinformtica Universidade de Ribeiro preto camargo@odin.unaerp.br Jayme Loureno Kessedjian Analista de sistemas e Especialista em Bioinformtica Embrapa Agrobiologia jayme@cnpab.embrapa.br

INTRODUO Do incio at meados do sculo passado os geneticistas e qumicos se questionaram sobre a natureza qumica do material gentico. Das pesquisas desenvolvidas, surgiu a concluso de que o DNA era a molcula que armazenava a informao gentica e, em 1953, sua estrutura qumica foi desvendada no clssico trabalho de Watson e Crick. Com a posterior descoberta do cdigo gentico e do fluxo da informao biolgica, dos cidos nuclicos para as protenas, tais polmeros passaram a constituir os principais objetos de estudo de uma nova cincia, a Biologia Molecular. Logo surgiram mtodos de seqenciamento desses polmeros, principalmente do DNA, que permitiam a investigao de suas seqncias monomricas constituintes. Desde ento, mais de 18 bilhes dessas seqncias j foram produzidas e esto disponveis nos bancos de dados pblicos.

Gustavo Coutinho Cerqueira


Bacharel em Cincia da Computao e Especialista em Bioinformtica Universidade Federal de Minas Gerais cerca@csr.ufmg.br

Jorge H. Petretski
Prof. Associado e Especialista em Bioinformtica Universidade Estadual do Norte Fluminense jhpetretski@uenf.br Luiz Paulo Camargo Analista de Sistemas e Especialista em Bioinformtica Universidade de Ribeiro Preto luizpcam@uol.com.br

Eliseu Binneck
Doutor em Cincia e Tecnologia de Sementes e Especialista em Bioinformtica Embrapa Soja binneck@cnpso.embrapa.br

Accia Fernandes Silva


Mestre em Agronomia e Especialista em Bioinformtica Empresa Pernambucana de Pesquisa Agropecuria acacia@ipa.br

Ricardo de Godoi Mattos Ferreira


Bacharel em Cincias Biolgicas e Especialista em Bioinformtica Universidade de So Paulo ricgmf@lineu.icb.usp.br

Adriana Neves dos Reis


Bacharel em Informtica e Especialista em Bioinformtica Universidade do Vale do Rio dos Sinos adriana@exatas.unisinos.br

Roceli P. Lima
Mestrando em Informtica e Especialista em Bioinformtica Universidade do Amazonas rossi@horizon.com.br

Ana Carolina Martins Junqueira


Mestre em Gentica e Biologia Molecular e Especialista em Bioinformtica Universidade de Campinas anacmj@unicamp.br

Rodrigo Matheus Pereira


Mestrando em Microbiologia e Especialista em Bioinformtica Universidade Estadual Paulista rodrigus@fcav.unesp.br

Figura 1: O Dogma Central da Biologia Molecular Na segunda metade da dcada de 90, com o surgimento dos seqenciadores automticos de DNA, houve uma exploso na quantidade de seqncias a serem armazenadas, exigindo recursos computacionais cada vez mais eficientes. Alm do armazenamento ocorria, paralelamente, a necessidade de anlise desses dados, o que tornava indispensvel a utilizao de plataformas computacionais eficientes para a interpretao dos resultados obtidos. Assim nascia a bioinformtica. Essa nova cincia envolveria a unio de diversas linhas de conhecimento a engenharia de softwares, a matemtica, a estatstica, a cincia da computao e a biologia molecular. Os primeiros projetos na rea eram compostos por profissionais de diferentes

Ana Ceclia Feio dos Santos


Mestranda em Gentica e Biologia Molecular e Especialista em Bioinformtica Universidade Federal do Par cecifeio@ufpa.br

Slvia Jardim
Mestre em Farmacologia e Especialista em Bioinformtica Embrapa Milho e Sorgo silviajardim@yahoo.com.br

Antnio Nhani Jnior


Doutor em Bioqumica e Especialista em Bioinformtica Universidade Estadual Paulista nhani@fcav.unesp.br

Vanderson de Souza Sampaio


Mestrando em Gentica e Biologia Molecular e Especialista em Bioinformtica Universidade Federal do Par vander@ufpa.br

Charles I. Wust
Mestrando em Cincias da Computao e Especialista em Bioinformtica Universidade Federal de Santa Catarina wust@inf.ufsc.br

urea V. Folgueras-Flatschart
Doutora em Microbiologia e Especialista em Bioinformtica Universidade Federal de Minas Gerais folguera@bol.com.br

12

Biotecnologia Cincia & Desenvolvimento - n 29

reas da biologia e informtica e percebia-se uma certa dificuldade de comunicao: enquanto o bilogo procurava uma soluo que levasse em considerao as incertezas e erros que ocorrem na prtica, o cientista da computao procurava uma soluo eficiente para um problema bem definido. Assim, surgiu a necessidade de um novo profissional, que entendesse bem ambas as reas e fizesse a ponte entre elas: o Bioinformata. Esse profissional deveria ter o conhecimento suficiente para saber quais eram os problemas biolgicos reais e quais seriam as opes viveis de desenvolvimento e abordagem computacional dos problemas em questo. Dado o sucesso e a importncia que alcanaram os projetos Genoma e seus desmembramentos, o bioinformata tem sido um profissional requisitado e raro. No exterior, podem ser encontrados pelo menos 122 cursos de formao em bioinformtica, em sua grande maioria centrados na Amrica do Norte e Europa (http://linkage. rockefeller. edu/wli/ bioinfocourse/). No Brasil, entretanto, at o incio deste ano, no existiam cursos que formassem tais profissionais especializados. Polticas cientficas governamentais tm procurado incentivar a formao de grupos de pesquisa e de pessoal nessa rea, financiando projetos e criando cursos de ps-graduao. Em 2002, foi implantado o primeiro Curso de Especializao (ps-graduao lato sensu) do LNCC (http://www. lncc.br/~biologia) - do qual formamos a segunda turma. Ainda neste ano foi autorizada pela CAPES a criao de dois cursos de doutorado em Bioinformtica, um na USP e outro na UFMG (http://www. capes.gov.br/). Parece-nos que cada vez mais a bioinformtica vai ser necessria para a anlise de dados em biologia molecular e, nesse sentido, o presente artigo foi escrito com o intuito de conter as informaes mais relevantes para quem deseja comear a trabalhar na rea. Assim, tentamos apresentar os principais conceitos relacionados biologia e computao, os softwares mais utilizados, os

sites mais freqentados e as principais reas de interesse. Sistemas operacionais O sistema operacional (SO) o principal programa de um computador. Ele responsvel pelo gerenciamento da memria, pelo acesso aos discos e tambm intermedeia todo acesso aos componentes fsicos da mquina (hardware). Os SOs mais conhecidos e utilizados so aqueles baseados no Windows, Unix e MacOS. Muitas das aplicaes utilizadas em bioinformtica so compiladas e distribudas para a execuo em plataformas derivadas do Unix, portanto o conhecimento desse sistema operacional de grande importncia para aqueles que desejam aprofundar-se na rea. A preferncia por sistemas baseados em Unix deve-se ao fato de que tais sistemas so normalmente mais confiveis, gerenciam melhor o trabalho com grandes quantidades de dados e que algumas de suas variantes, como o Linux, possuem cdigo aberto e distribuies gratuitas. Linguagens de programao Um profissional em bioinformtica, alm de saber utilizar os programas produzidos por outros programadores, deve tambm ser capaz de desenvolver programas aplicativos para lidar com os mais diversos problemas encontrados durante a anlise de dados em biologia molecular. Para desenvolver, portanto, tais programas, o bioinformata deve ter conhecimento sobre algum tipo de linguagem de programao. As Linguagens de programao foram criadas para facilitar a especificao de tarefas a um computador. Existem milhares de linguagens de programao e cada uma delas possui um conjunto de comandos especficos que criam esta interface homem-mquina. Das linguagens de programao mais utilizadas, podemos citar: basic, pascal, C, C++, java, cobol e fortran. Entretanto, a linguagem mais utilizada pelos bioinformatas , sem sombra de dvida, o PERL. O PERL (Practical Extract and Report Language) uma linguagem de

programao, simples e muito rica, alm de disponvel gratuitamente. Foi criada por Larry Wall, originalmente para produzir relatrios de informaes de erros, que a disponibilizou na Internet no esprito freeware, pensando que algum pudesse ach-la til. Ao longo dos anos esta linguagem conquistou milhares de adeptos e, atravs de vrias colaboraes recebidas para seu aprimoramento, o PERL hoje conceituado como uma linguagem sofisticada, que possui como ponto forte a manipulao de texto, mas que, alm disso, possui todas as caractersticas de uma linguagem de alto-nvel genrica. essa grande facilidade para a manipulao de texto que fez do PERL a linguagem mais utilizada no tratamento de dados de seqncias de DNA e protenas. O PERL pode ter suas funcionalidades acrescidas atravs de mdulos, que so distribudos gratuitamente. Existem mdulos para uma gama de aplicaes, desde mtodos estatsticos clssicos, aplicaes grficas em 3D, at acesso a internet via programao PERL. O site CPAN (Comprehensive Perl Archive Network http://www. cpan.org) o principal ponto de distribuio de mdulos e de suas respectivas documentaes. Alguns destes mdulos so especialmente dirigidos para aplicaes em Bioinformtica, destacando-se os mdulos bioperl e biographics,que apresentam ferramentas bastante teis para as mais diversas aplicaes nesta rea. Uma boa interconectividade com bancos de dados outra caracterstica desejada em uma linguagem de programao. A linguagem PERL atende muito bem a esta demanda atravs da biblioteca PERL-DBI, um conjunto de mdulos que fornece uma interface consistente para solues de integrao com bancos de dados. Bancos de dados Em conseqncia da grande quantidade de informaes de seqncias de nucleotdeos e de aminocidos que so produzidas atualmente, principalmente em projetos Genoma, Transcriptoma e Proteoma, o uso dos bancos de dados vem as13

Biotecnologia Cincia & Desenvolvimento - n 29

sumindo uma importncia crescente na bioinformtica. Um banco de dados pode ser considerado uma coleo de dados inter-relacionados, projetado para suprir as necessidades de um grupo especfico de aplicaes e usurios. Um banco de dados organiza e estrutura as informaes de modo a facilitar consultas, atualizaes e delees de dados. A grande maioria dos bancos de dados atrelado a um sistema denominado SGBD (Sistema de Gerenciamento de Banco de Dados). Este sistema responsvel por intermediar os processos de construo, manipulao e administrao do banco de dados solicitados pelos usurios ou por outras aplicaes. Existem vrios sistemas de gerenciamento de banco de dados, sendo que cada sistema possui seus prs e contras. O mysql um sistema muito utilizado pela comunidade acadmica e em projetos genoma por ser gratuito, possuir cdigo aberto e acesso veloz aos dados, mas apresenta certas limitaes em suas ferramentas. O postgreSQL tambm um SGBD gratuito, com ferramentas muito poderosas, entretanto no muito utilizado pela dificuldade no seu gerenciamento. Os SGBDs Oracle e SQL Server so robustos e sofisticados, mas devido ao alto custo de suas licenas possuem seu uso limitado s grandes empresas. Bancos de dados pblicos em bioinformtica O investimento contnuo na construo de bancos de dados pblicos um dos grandes motivos do sucesso dos projetos genoma e, em especial, do Projeto genoma Humano. Devido magnitude do conjunto de dados produzidos torna-se fundamental a organizao desses dados em bancos que permitam acesso on-line. Os bancos de dados envolvendo seqncias de nucleotdeos, de aminocidos ou estruturas de protenas podem ser classificados em bancos de seqncias primrios e secundrios. Os primeiros so formados pela deposio direta de seqncias de nucleotdeos, aminocidos ou estruturas proticas, sem qualquer processamento
14 Biotecnologia Cincia & Desenvolvimento - n 29

BOX1 - Exemplo de programa PERL para obter a fita reversacomplementar a partir de uma seqncia de DNA desejada. #!/usr/bin/perl # Seqncia que se deseja utilizar $meuDNA = TTCCGAGCCAATTGTATCAGTTGCCAATAG; # Inverte a ordem da seqncia de DNA $RevCom = reverse $meuDNA; # Troca as bases produzindo a fita complementar $RevCom =~ tr/ACGT/TGCA/; print Minha seqncia invertida : \n $RevCom; A primeira linha obrigatria e diz ao programa o caminho onde se encontra o interpretador PERL para que o programa possa ach-lo na hora de sua execuo. As linhas seguintes que se iniciam com o sinal de # representam linhas de comentrio. As variveis em PERL so sempre seguidas do sinal de $ e no precisam ser declaradas, cabe ao programador saber como e em que contexto devem ser utilizadas. Os comandos terminam sempre com ponto-e-vrgula e o sinal de =~ est relacionado utilizao de uma expresso regular. BOX2 - Principais Sistemas de Gerenciamento de Bancos de dados MySQL http://www.mysql.org Acesso livre para download do gerenciador MySQL, como tambm a vrias ferramentas de conexo como: DBI, Java, ODBC e etc. Apresenta documentao completa. PostgreSQL http://www.pgsql.com/ Acesso livre para download do gerenciador PostgreSQL, como tambm algumas ferramentas. Apresenta documentao completa. ORACLE http://www.oracle.com Informaes comerciais sobre o banco de dados. Microsoft SQL Server http://www.microsoft.com/sql/ Informaes comerciais sobre o banco de dados. BOX3 - Bancos de Dados mais utilizados em bioinformtica Genbank http://www.ncbi.nlm.nih.gov/ Banco de dados americano de seqncias de DNA e protenas. EBI http://www.ebi.ac.uk/ Banco de dados europeu de seqncias de DNA. DDBJ http://www.ddbj.nig.ac.jp/ Banco de dados japons de seqncias de DNA. PDB http://www.rcsb.org/pdb Armazena estruturas tridimensionais resolvidas de protenas. GDB http://gdbwww.gdb.org/ Banco de dados oficial do projeto genoma humano. TIGR Databases http://www.tigr.org/tdb/ Banco com informaes de genomas de vrios organismos diferentes. PIR http://www-nbrf.georgetown.edu/ Banco de protenas anotadas. SWISS-PROT http://www.expasy.ch/spro/ Armazena seqncias de protenas e suas respectivas caractersticas moleculares, anotado manualmente por uma equipe de especialistas. INTERPRO http://www.ebi.ac.uk/interpro/ Banco de dados de famlias, domnios e assinaturas de protenas. KEGG http://www.genome.ad.jp/kegg/ Banco com dados de seqncias de genomas de vrios organismos diferentes e informaes relacionadas s suas vias metablicas.

ou anlise. Os principais bancos de dados primrios so o GenBank, o EBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). Os trs primeiros bancos so membros do INSDC (International Nucleotide Sequence Database Colaboration) e cada um desses centros possibilita a submisso individual de seqncias de DNA. Eles trocam informaes entre si diariamente, de modo que todos os trs possuem informaes atualizadas de todas as seqncias de DNA depositadas em todo o mundo. Apesar disso, cada centro apresenta seus dados de forma particular, apesar de bastante semelhante. Atualmente a maioria das revistas exige que as seqncias identificadas pelos laboratrios sejam submetidas a um destes bancos antes mesmo da publicao do artigo. Os bancos de dados secundrios, como o PIR (Protein Information Resource) ou o SWISS-PROT, so aqueles que derivam dos primrios, ou seja, foram formados usando as informaes depositadas nos bancos primrios. Por exemplo, o SWISS-PROT um banco de dados onde as informaes sobre seqncias de protenas foram anotadas e associadas informaes sobre funo, domnios funcionais, protenas homlogas e outros. Os bancos de seqncias tambm podem ser classificados como bancos estruturais ou funcionais. Os bancos estruturais mantm dados relativos estrutura de protenas. Embora a seqncia de nucleotdeos, a seqncia de aminocidos e a estrutura de protena sejam formas diferentes de representar o produto de um dado gene, esses aspectos apresentam informaes diferentes e so tratados por projetos diferentes, que resultam em bancos especficos. Dos bancos funcionais, o KEGG (Kyoto Encyclopedia of Genes and Genomes) um dos mais utilizados. Disponibiliza links para mapas metablicos de organismos com genoma completamente ou parcialmente seqenciados a partir de seqncias e de busca atravs palavras-chave. Com o crescente nmero de dados biolgicos que vem sendo gerados, vrios bancos de dados tm surgido e anualmente a revista Nucleic Acids

Research(http://www3.oup.co.uk/nar/ database/) publica uma lista atualizada com a classificao de todos os bancos de dados biolgicos disponveis. Alinhamento de seqncias O alinhamento de seqncias possui uma diversidade de aplicaes na bioinformtica, sendo considerada uma das operaes mais importantes desta rea. Este mtodo de comparao procura determinar o grau de similaridade entre duas ou mais seqncias, ou a similaridade entre fragmentos destas seqncias. No caso de mais de duas seqncias o processo denominado alinhamento mltiplo. bom lembrar que similaridade e homologia so conceitos diferentes. O alinhamento indica o grau de similaridade entre seqncias, j a homologia uma hiptese de cunho evolutivo, e no possui gradao: duas seqncias so homlogas caso derivem de um ancestral comum ou, caso esta hiptese no se comprove, simplesmente no so homlogas. Existem vrios programas de computador que realizam esta tarefa e a grande maioria deles pode ser utilizado on-line, sem a necessidade de instalao. Como exemplo temos os programas: ClustalW, Multialin, FASTA, BLAST 2 sequences, etc.

Figura 3. Parte de uma matriz de substituio BLOSUM62, utilizada em alinhamentos de seqncias de protenas. As letras representam os aminocidos e os nmeros indicam os pontos a serem contabilizados na ocorrncia de match (diagonal principal) ou mismatch

tas matrizes indicam os diferentes valores a serem contabilizados para cada par de unidades. As matrizes de substituio so normalmente utilizadas no alinhamento de seqncias proticas. Assim o valor de cada uma de suas clulas indica a chance da ocorrncia da substituio correspondente ao par de aminocidos deste mismatch.

Figura 2 Alinhamento de duas seqncias de protenas O processo consiste em introduzir espaos (gaps) entre os monmeros de uma ou mais seqncias a fim de obter o melhor alinhamento possvel. A qualidade de um alinhamento determinada pela soma dos pontos obtidos por cada unidade pareada (match) menos as penalidades pela introduo de gaps e posies no pareadas (mismatch). Matrizes de substituio Matrizes de substituio so uma alternativa aos valores fixos de pontuao para matches e mismatches. EsAs matrizes de substituio mais utilizadas so aquelas pertencentes s famlias de matrizes PAM (Point Accepted Mutation) e BLOSUM. A matriz PAM1 foi construda atravs da anlise de mutaes entre protenas homlogas com 1% de divergncia (1% dos aminocidos diferentes). As outras matrizes, PAM50, PAM100, PAM250 so extrapolaes da matriz PAM1. As matrizes BLOSUM foram construdas tendo como base os alinhamentos do banco de motivos BLOCKS. Uma matriz BLOSUM62 definida atravs da anlise das substituies nas seqncias de BLOCKS que possuem menos
15

Biotecnologia Cincia & Desenvolvimento - n 29

que 62% de similaridade. As seqncias que ultrapassam este limite so mescladas, e participam da definio da matriz como se fossem uma nica seqncia. Alinhamento global e local Quanto regio analisada, o alinhamento de seqncias pode ser grosseiramente classificado em dois tipos, o alinhamento global e o alinhamento local. No alinhamento global, as seqncias envolvidas devem ser alinhadas de um extremo ao outro, dando origem a apenas um resultado. J no alinhamento local, procura-se alinhar apenas as regies mais conservadas, independente da localizao relativa de cada regio em sua seqncia. Consequentemente, este alinhamento tem como resultado uma ou mais regies conservadas entre as seqncias. O alinhamento global freqentemente utilizado para determinar regies mais conservadas de seqncias homlogas. Exemplo de programas que utilizam este alinhamento so ClustalW e Multialin. O alinhamento local geralmente utilizado na procura por seqncias homlogas ou anlogas (funcionalmente semelhantes) em banco de dados. O algoritmo utilizado pelo programa BLAST (Basic Local Alignment Search Tool) realiza este tipo de alinhamento.

Figura 4: Exemplos de alinhamento global e local. No alinhamento global as seqncias so alinhadas do incio ao fim, j no alinhamento local alinha-se as subseqncias conservadas Projetos genoma e transcriptoma Grande parte dos bioinformatas modernos trabalha com dados de projetos genoma ou transcriptoma. Em projetos genoma adota-se a abordagem de fragmentar todo o genoma de um organismo em pequenos pedaos e de seqenciar tais pedaos, utilizando programas computacionais para mont-los e reconstituir a informao genmica inicial. Essa estratgia adotada principalmente devido restrio do tamanho da seqncia que pode ser lida nos seqenciadores. Mesmo os mais modernos conseguem ler apenas cerca de 1000 pares de base em cada corrida. Em projetos genomas de procariotos, normalmente realiza-se a quebra do DNA inteiro do organismo desejado em fragmentos pequenos (atravs da tcnica de shotgun) que so clonados em vetores plasmidiais que sero seqenciados em suas extremidades. Aps uma primeira etapa de montagem desse genoma, fragmentos maiores so clonados em cosmdeos e seqenciados. Essa segunda etapa importante para a montagem do genoma completo do organismo, j que a primeira normalmente produz uma seqncia incompleta, apresentando alguns buracos de seqncia (gaps). J em projetos genomas de organismos eucariotos, que possuem freqentemente uma enorme quantidade de DNA, normalmente prefere-se adotar uma tcnica conhecida como shotgun hierrquico. Nessa tcnica, o DNA inteiro do organismo primeiramente inserido em grandes vetores de clonagem, como cromossomos artificiais de bactrias (BACs) ou de leveduras (YACs). Depois ento realizado um shotgun desses grandes fragmentos dos vetores, gerando fragmentos menores que so agora clonados em vetores plasmidiais para o sequenciamento. Portanto, tais projetos consistem de duas etapas, a montagem de cada um dos grandes fragmentos clonados nos BACs e YACs e a montagem final que reunir as seqncias completas dos BACs e YACs montados para a reconstituio da informao genmica inicial.

BOX4 - Softwares mais utilizados para o alinhamento de seqncias ClustalW http://www.ebi.ac.uk/clustalw/index.html Verso web de um dos programas de alinhamento mltiplo mais utilizados (Clustal). Fornece ao usurio uma grande quantidade de parmetros e de sadas diferentes. Possui interface grfica onde os alinhamentos podem ser visualizados de forma agradvel e alterados. Multialin http://prodes.toulouse.inra.fr/multalin/multalin.html Programa de alinhamento mltiplo bastante conhecido. Fcil e rpido. Fasta http://www.ebi.ac.uk/fasta33/ Precursor dos programas de alinhamento. Promove servio de busca em banco de dados de cidos nuclicos e protenas. BLAST, BLAST2sequences http://www.ncbi.nlm.nih.gov/BLAST/ BLAST o programa de alinhamento mais utilizado no mundo. Realiza a busca por seqncias homlogas em banco de dados de cidos nuclicos e protenas. O programa BLAST 2 sequences consiste no algoritmo BLAST para alinhamento de duas seqncias.

16

Biotecnologia Cincia & Desenvolvimento - n 29

Figura 5. a) Na estratgia de shotgun, todo o DNA genmico de um organismo fragmentado em pequenos pedaos (1), que so clonados em vetores de pequeno porte, como plasmdeos, para o posterior seqenciamento. b) Na estratgia de shotgun hierrquico, normalmente utilizada para grandes genomas, realizam-se dois passos. (1) Primeiramente fragmenta-se o genoma em grandes pedaos, que so clonados em vetores de grande porte, como BACs ou YACs. (2) Posteriormente realiza-se uma segunda etapa de shotgun, onde as seqncias contidas nesses vetores so fragmentadas em pequenos pedaos e clonadas em vetores de pequeno porte, que sero sequenciados

Muitas vezes, ao invs de ser realizado o seqenciamento genmico de um organismo eucarioto, prefere-se realizar o seqenciamento s das regies gnicas, utilizando informaes oriundas de RNA mensageiro (mRNA). Dessa forma realizada uma biblioteca de cDNA, representando o conjunto de mRNAs de uma clula, que so clonados em vetores plasmidiais. Os insertos de cDNA presentes em tais vetores so ento seqenciados a partir de suas extremidades 5 ou 3, produzindo pequenas seqncias que iro representar pedaos dos genes expressos no momento da extrao do mRNA da clula em questo. Esses pedaos seqenciados representam etiquetas de genes expressos, ou ESTs (Expressed Sequence Tags) e uma anlise dos genes expressos uma abordagem bastante utilizada na tentativa de entender o funcionamento do metabolismo dos mais diversos organismos. Como exemplo, no Brasil abordagens transcriptmicas j foram utilizadas em larga escala no projeto da canade-acar e vm sendo utilizados em organismos parasitas, como o caso dos projetos de seqenciamento de ESTs de Schistosoma mansoni em So Paulo e em Minas Gerais. Como j foi mencionado anteriormente, normalmente adota-se a estratgia de seqenciamento genmico

em organismos cujo genoma pequeno e que contm baixa quantidade de seqncias repetitivas. Entretanto, a estratgia de seqenciamento do transcriptoma, ou a produo de ESTs, no utilizada apenas quando o genoma do organismo muito grande. Essa estratgia importante tambm para estudar o desenvolvimento dos organismos, produzindo bibliotecas de diferentes fases de desenvolvimento e observando quais genes so expressos em cada momento. Tal abordagem tambm importante para estudarmos como ocorre a expresso diferencial de genes em diferentes rgos de um mesmo organismo, para que possamos entender a funo desses rgos ou como eles realizam funes conhecidas. Portanto podemos dizer que as estratgias de seqenciamento de genomas e transcriptomas so complementares e ambas devem ser realizadas, quando possvel, para que possamos obter informaes relevantes sobre os organismos que estamos estudando. Base calling

ainda um valor de qualidade para cada posio nucleotdica identificada. Normalmente cada seqenciador apresenta um programa de base calling associado. Entretanto, o programa mais utilizado nessa etapa o PHRED. O PHRED reconhece dados de seqncias a partir de arquivos SCF (Standard Chomatogram Format), arquivos de cromatograma dos analisadores automticos de DNA ABI e arquivos MegaBACE ESD. Este software reconhece a seqncia de nucleotdeos a partir do arquivo de dados brutos do seqenciador, atribui valores de qualidade s bases constituintes da seqncia nucleotdica e gera arquivos de sada contendo informaes sobre o base call e os valores de qualidade. O valor de qualidade das seqncias analisadas pode ser encontrado nos arquivos FASTA e PHD. De acordo com Ewing et al (1998) as atribuies seguras de valores s seqncias nucleotdicas so proporcionadas pela implantao de um algoritmo que tem como base os mtodos de Anlise de Fourier. O algoritmo analisa as quatro bases e prediz a provvel regio central dos picos e as distncias relativas entre os picos da seqncia de DNA. O valor de qualidade atribudo a cada base obtido pela frmula a seguir, que calcula a probabilidade de erro no base call, onde o Pe a probabilidade de uma base estar errada. PHRED Quality = -10 log (Pe)

As pontuaes inseridas nos arquivos de sada do PHRED representam a probabilidade logartmica negativa em escala de erro de um base call; portanto, quanto maior o valor de qualidade do PHRED, menor a probabilidade de ter ocorrido um erro. S como exemplo, um valor de PHRED 20 para uma determinada posio nucleotdica significa que ela apresenta uma chance em 100 de estar errada. J um valor de PHRED 30 significa que determinada base apresenta uma chance em 1000 de ter havido um erro no base calling. Esses valores so Os dados brutos provenientes do importantes para determinar se uma reseqenciador de DNA so normalmente gio precisa ser resseqenciada. submetidos diretamente a algum programa de base calling. O base calling Mascaramento de vetores consiste no processo de leitura dos dados do seqenciador e identificao da A estratgia freqentemente adotaseqncia de DNA gerada, atribuindo da aps a realizao do base calling a
Biotecnologia Cincia & Desenvolvimento - n 29 17

procura por regies de contaminantes na seqncia produzida. Regies contaminantes so partes da seqncia obtida que no representam o DNA ou o cDNA que se deseja analisar. Tais regies representam, normalmente, partes dos vetores de clonagem onde as seqncias de interesse foram inseridas ou pedaos de DNA adaptadores utilizados durante a construo das bibliotecas. Como essas regies no representam as seqncias que se deseja analisar, elas devem ser retiradas ou mascaradas por um programa. E aqui, o programa mais utilizado o Cross_match. Esse , na verdade, um programa para a comparao de duas seqncias e preciso utilizar como entrada um arquivo apresentando a seqncia dos vetores que se deseja mascarar. O que o Cross_match faz comparar a seqncia desejada com o arquivo de seqncias de vetores e, onde o programa encontrar similaridade entre as seqncias, ele ir mascarar (acrescentando letras X) a seqncia de entrada. Assim, os nucleotdeos das seqncias de entrada similares a regies de vetores de clonagem sero alterados para X e no atrapalharo os processos posteriores de anlise computacional. Agrupamento de seqncias Aps a gerao de arquivos sem contaminantes, contendo a identificao das bases e a qualidade, todas essas informaes so repassadas a um software de montagem como o PHRAP, o CAP3 ou o TIGR Assembler. O software mais utilizado nessa etapa, o PHRAP (Phragment Assembly Program) o programa responsvel pela leitura das informaes do base call e montagem dos pequenos fragmentos de DNA seqenciados em seqncias maiores, os contguos (contigs). Este programa possui diversos pontos chaves para a obteno de resultado final satisfatrio, como: construo de seqncia do contguo atravs de um mosaico de partes das seqncias com alta qualidade; utilizao de informaes da qualidade dos dados computados internamente e de implementaes feitas pelos usurios para aumentar a qualidade da montagem; apresenta extensivas informaes sobre a monta18

gem realizada (incluindo valores de qualidades para a seqncia dos contguos). Em projetos genoma espera-se obter, na sada do PHRAP, a seqncia montada do contguo genmico. J em projetos trancriptoma esperamos obter as seqncias de cada dos genes expressos aps a execuo deste software de montagem. A visualizao e edio das seqncias geradas aps a montagem so realizadas normalmente atravs do programa Phrapview ou Consed.

O processo de anotao gnica Uma vez obtidos os dados do seqenciamento das molculas de DNA preciso saber o que representa cada uma das seqncias nucleotdicas produzidas. A anotao consiste simplesmente no processo de identificao dessas seqncias. Em projetos genoma, este processo normalmente realizado em trs etapas: anotao de seqncias de nucleotdeos, de seqncias proticas e de processos biolgicos.

Figura 6: Interface do programa Consed BOX5 - Programas mais utilizados em projetos genoma e transcriptoma PHRED http://www.phrap.org Software para a realizao do base calling e a produo do cromatograma processado. CROSS-MATCH http://www.phrap.org Software para a comparao entre duas seqncias de DNA. Normalmente utilizado para o mascaramento de regies representando vetores em seqncias genmicas ou de cDNA. Distribudo juntamente com o PHRAP. PHRAP http://www.phrap.org Software mais utilizado para a realizao do agrupamento de seqncias (clustering analysis) e montagem de contguos genmicos. CAP3 http://genome.cs.mtu.edu/cap/cap3.html Software utilizado para o agrupamento de seqncias e montagem de contguos genmicos. Utiliza um algoritmo diferente do PHRAP. CONSED http://www.phrap.org Software mais utilizado para a visualizao dos resultados obtidos por softwares de agrupamento de seqncias. Permite a edio das bases seqenciadas, alm de diversos outros recursos.

Biotecnologia Cincia & Desenvolvimento - n 29

Figura 7: Etapas da anotao em projetos genoma e as perguntas que se deseja responder em cada uma delas A partir da anotao de seqncias nucleotdicas procura-se, primeiramente, identificar a natureza de uma determinada seqncia. Devemos descobrir se tal seqncia est inserida em uma regio gnica, se representa uma molcula de RNA transportador ou RNA ribossmico, se pertence a algum tipo de regio repetitiva j descrita ou se apresenta algum marcador gentico conhecido em seu interior. O principal objetivo dessa etapa construir um mapa do genoma do organismo, posicionando cada um dos possveis genes e caracterizando as regies no-gnicas. Nesta fase, alguns programas de predio gnica so usados para a localizao de possveis genes nas seqncias de DNA. A procura por elementos como o cdon de iniciao de protenas (a trinca de nucleotdeos ATG) e cdons de terminao na mesma fase de leitura so utilizados por alguns desses programas. O tamanho delimitado por esta janela de leitura freqentemente utilizado para definir uma determinada regio como sendo gnica ou no. Alguns outros programas so capazes de identificar, dependendo do genoma analisado, regies gnicas codificadoras (xons) e no codificadoras (ntrons). Alguns exemplos so o GenomeScan e o GenScan. Em projetos de trancriptmica, onde se utiliza a abordagem de seqenciamento de ESTs, essa etapa no realizada, uma vez que todas as seqncias produzidas se restringem a regies gnicas. Mapeados os genes, a etapa seguinte consiste em identificar quais protenas so codificadas, e nisso consiste o processo de anotao das seqncias proticas. Nessa etapa, procura-se montar um catlogo dos genes presentes no organismo estudado, dando-lhes nomes e associando-os a provveis funes. No caso de projetos genoma, deseja-se identificar o nmero total de genes presentes no organismo seqenciado, j que h informao da seqncia de DNA de todo o genoma. J em projetos transcriptoma, a tarefa consiste em identificar os genes expressos no organismo em uma determinada condio. Apesar de no ser capaz de identificar todos os genes de um determinado organismo, os projetos de transcriptmica podem permitir a identificao de genes expressos em diferentes tecidos e fases de desenvolvimento, alm de permitir a observao daqueles que apresentam variantes de splicing. Portanto, nessa etapa da anotao, o principal objetivo identificar e caracterizar cada uma das protenas codificadas pelos mRNAs presentes no organismo estudado em determinada condio. A parte mais interessante e desafiadora dos processos de anotao gnica relacionar, finalmente, a genmica com os processos biolgicos, e essa a etapa de anotao dos processos biol-

gicos. Essa etapa comum a projetos genoma e transcriptoma. Identificados os genes, devemos agora tentar relacion-los de modo a obtermos um mapa funcional do organismo estudado. Nesse ponto deve-se identificar quais vias bioqumicas esto completas ou incompletas no organismo e quais vias alternativas ele possui. Aqui fundamental a participao de bilogos especialistas em diversas reas para que se possa descobrir como o metabolismo do organismo pode influenciar seu modo de vida e seu comportamento. Esse o momento onde possvel levantar vrias hipteses que relacionem o funcionamento dos organismos com seus dados genmicos. Tais hipteses devem ser testadas experimentalmente, por pesquisadores que trabalhem com o organismo estudado. Como realizada a anotao At aqui foi mostrado o que normalmente feito em um processo de anotao gnica. Vejamos agora como tal processo realizado. Lincoln Stein definiu muito bem como acontece a sociologia dos projetos de anotao gnica. Ele dividiu o processo de anotao de genomas em trs etapas: a fbrica, o museu e a festa.

BOX6 Principais softwares utilizados durante a anotao gnica Repeat Masker http://repeatmasker.genome.washington.edu/ Utilizado para a identificao e o mascaramento de regies repetitivas freqentemente encontradas em genomas. Genscan http://genes.mit.edu/GENSCAN.html Utilizado para a predio de genes em genomas eucariticos. Seu mtodo de predio baseado em cadeias escondidas de Markov. tRNAscan-SE http://www.genetics.wustl.edu/eddy/tRNAscan-SE/ Utilizado para encontrar genes de tRNA em uma seqncia genmica. BLAST http://www.ncbi.nlm.nih.gov/BLAST Utilizado para encontrar similaridades entre seqncias de nucleotdeos e protenas contra bancos de dados com grande nmero de seqncias dos mais diversos organismos. um dos principais programas utilizados na identificao dos genes. Interpro http://www.ebi.ac.uk/interpro Utilizado para realizar buscas contra diferentes bancos de dados de domnios e famlias de protenas. Integra os servios do Pfam, PRINTS, ProDom, PROSITE, SMART, TIGRFAMs e SWISS-PROT. GeneOntology http://www.geneontology.org Consrcio destinado a produzir um vocabulrio comum a ser aplicado para a classificao dos genes presentes em organismos eucariticos. Cada gene classificado em trs nveis: funo molecular, processos celulares e localizao celular.
Biotecnologia Cincia & Desenvolvimento - n 29 19

Na primeira etapa trabalham apenas as ferramentas de bioinformtica, funcionando em larga escala, como uma fbrica. Assim, as seqncias obtidas passam por uma grande diversidade de programas, que devem ajudar os anotadores a identific-las e agrup-las para a prxima fase. A segunda etapa necessita de especialistas que observem os dados obtidos na primeira etapa pelas ferramentas automticas e que, como curadores de um museu, identifiquem as seqncias de acordo com critrios pr-definidos. Aps a identificao dos genes, feita a anotao dos processos. Nesse momento deve-se promover a interao entre vrios anotadores, bioinformatas e bilogos especialistas em diferentes reas e no organismo estudado. Nessa festa deve-se discutir como as informaes obtidas nas etapas anteriores podem estar relacionadas com a biologia do organismo em questo. A era ps-genmica Uma das caractersticas mais fascinantes da exploso, ocorrida nos ltimos 10 anos, de projetos e consrcios destinados a compor o genoma completo dos mais diversos organismos, foi o estabelecimento de abordagens e tecnologias que permitiram um estilo linha-de-montagem na obteno, em tempos cada vez mais curtos, de quantidades industriais de seqncias de cidos nucleicos (DNA e RNA). Agora comeamos a enfrentar o problema de interpretar e adicionar significado a essas seqncias. Temos agora que, a partir dos bancos de dados existentes, processar e correlacionar os dados brutos transformando-os em informao e a partir desta informao gerar conhecimento, que a informao testada experimentalmente. No final, esta nova etapa promete ser uma jornada, provavelmente sem fim, atravs das protenas, suas estruturas e funes, vias metablicas e interaes celulares. Esta mudana do foco de ateno, dos cidos nucleicos para as protenas, tem sido utilizada para batizar esta nova etapa da pesquisa biolgica em larga escala como Era Ps-Genmica. Contudo, trata-se apenas de mais uma etapa e, certamente, no a ltima para
20

que os frutos dos programas de seqenciamento de genomas possam ser colhidos. Etapas estas que foram previstas pelo Projeto do Genoma Humano. Das cinco metas a serem atingidas, o estudo da expresso de protenas e a obteno de mapas de interao protena-protena ocupam o segundo e terceiro estgios, dos quais se espera o maior impacto econmico, levando descoberta de novas drogas e reduzindo o seu tempo de entrada no mercado. Resumidamente, na Era Ps-Genmica procura-se estudar a expresso dos genes codificados pelo genoma dos organismos, tecidos, clulas ou compartimentos celulares em determinadas condies fisiolgicas (por exemplo, uma doena, uma situao de estresse ou ainda a administrao de uma droga). Tentando entender a resposta a essas condies, so alvos de estudos: a ativao ou represso de determinados genes, a induo de mudanas no estado ps-traducional das protenas e qualquer processo que resulte na modificao do nmero e/ ou da composio das protenas existentes. Anlise da Expresso Gnica Lembrando do dogma central da biologia (DNA mRNA Protena), facil perceber que podemos avaliar a expresso gnica atravs da anlise de transcritos (mRNA). Em organismos eucariotos, a facilidade de isolamento dos mRNAs (usando oligonucleotdeos poli-T para capturar os mRNAs pela cauda poli-A), a possibilidade da transcrio reversa do mRNA para cDNA (usando a tcnica de RT-PCR) e o domnio das tcnicas de seqenciamento em massa de cDNAs tornaram possvel a anlise qualitativa e quantitativa, em larga escala, dos genes transcritos em organismos, tecidos e clulas. Desta forma, nos projetos Transcriptoma, como j comentado, feito o seqenciamento parcial de cDNAs representativos da populao de mRNA de maneira a permitir a identificao de diferentes transcritos (pela comparao das seqncias do cDNA) e sua abundncia na populao (pelo nmero de vezes em que cada transcrito seqencia-

do). As tcnicas mais usadas so as de ESTs e SAGE (Serial Analysis of Gene Expression). Nesta ltima tcnica, mais recente, so gerados e seqenciados concatmeros de fragmentos de cDNAs com apenas 10 ou 17 nucleotdeos de cada mensageiro, respectivamente denominados SAGE tags e SAGE long tags. DNA chips e Microarrays Uma outra forma de anlise de transcritos, que permite a busca de transcritos de genes especficos na populao dos mRNAs expressos, usa o j conhecido princpio da hibridao de DNA a sondas moleculares. As mais novas verses da tcnica so os DNA chips e os microarrays, que permitem a anlise simultnea da expresso de milhares de genes. Nestas duas tcnicas, respectivamente, oligonucleotdeos ou fragmentos de cDNA conhecidos so ligados a uma lmina de vidro e, em cada experimento de hibridao, os mRNAs de dois tipos celulares diferentes ou de clulas em duas condies patolgicas ou tratamentos so analisados. As duas populaes de mRNAs so amplificadas e marcadas com diferentes corantes fluorescentes (cianinas ou Cys), um verde e outro vermelho. Ao hibridarem com cada gene (oligo ou cDNA) aplicado sobre a lmina de vidro, a cor verde ou vermelha de cada ponto (ou spot) indicar que esse gene est sendo mais transcrito em um tipo ou condio celular do que no outro. A cor amarela indicar que o gene transcrito igualmente em ambos os tipos ou condies celulares. Alm disso, a maior ou menor intensidade de cada cor indicar maior ou menor nvel de expresso do gene. A enorme quantidade de dados gerada nos experimentos de DNA chips e microarrays so analisados por softwares especficos que envolvem mtodos de inferncia estatstica. Uma etapa bastante importante na fase de anlise dos resultados a que chamamos de normalizao. Usando como referncia os spots de genes controles (sabidamente expressos ou reprimidos nos tecidos ou clulas estudados), o que se busca , basicamente, retirar dos valores de cada spot a influncia de

Biotecnologia Cincia & Desenvolvimento - n 29

manchas esprias (background) e de variaes do processo de hibridao. Desta forma, aps a normalizao, torna-se possvel a comparao de spots de uma mesma lmina ou de experimentos diferentes. Em uma etapa posterior, programas de clustering procuram identificar e agrupar os spots super-expressos, reprimidos ou que no tem expresso alterada nos tecidos ou clulas analisadas. Apesar dos mtodos de anlise empregados, a falta de reprodutibilidade dos resultados ainda uma queixa bastante comum. O uso de maior nmero de rplicas de cada spot e/ou a busca de mtodos de inferncia estatstica mais adequados parecem ser teis para a validao destes resultados. Mais recentemente, com novas tcnicas para isolamento de mRNA de procariotos, projetos de ESTs e de microarray tambm tm sido desenvolvidos para estes organismos. Vrios grupos de pesquisa em todo o Brasil esto iniciando projetos nesta rea. Apenas como exemplo, entre os vrios projetos brasileiros nesta rea temos o projeto Cooperation for Analysis of Gene Expression (CAGE) (http:// bioinfo.iq.usp.br/ e http://www.vision. ime.usp.br/~cage/) e o Projeto Genoma Razes da Embrapa Soja (http:// www.cnpab.embrapa.br/pesquisas/ gp.html). Projetos Proteoma Um problema que surge com a abordagem descrita acima, de avaliao da expresso gnica a partir da anlise dos mRNAs transcritos, que nem sempre a quantidade de um mRNA reflete a quantidade da protena correspondente expressa na clula e, assim, no podemos relacionar diretamente essa protena a uma funo nas clulas. Por isto, uma outra abordagem, embora muito mais trabalhosa, tem sido usada para avaliar a expresso gnica: a anlise das protenas expressas. Esta contrapartida protica do genoma conhecida como proteoma. Por permitir relacionar diretamente a uma protena determinada funo, esta abordagem constitui um instrumento particularmente poderoso para elucidar os mecanismos celulares relaciona-

BOX7 Exemplos de Projetos Transcriptoma: Procuram avaliar quais so os genes expressos, e quanto deles expresso, a partir do seqenciamento parcial dos mRNAs transcritos. Dados obtidos pela tcnica de SAGE podem ser consultados na pgina http:/ /www.ncbi.nlm.nih.gov/SAGE/. J no banco dbEST esto depositadas ESTs de diversos Projetos Transcriptoma desenvolvidos em todo o mundo (http:/ /www.ncbi.nlm.nih.gov/dbEST/). Mais informaes sobre DNA Chips e Microarrays Nestas tcnicas, a verificao da expresso de genes especficos feita em experimentos de hibridao em lminas de vidro contendo milhares de fragmentos de DNA. Na pgina http://cmgm.stanford.edu/pbrown/, do pioneiro da tcnica de microarray, Dr. Patrick Brown, h mais explicaes, um forum de discusso e bancos de dados de microarrays. Na pgina http://ihome.cuhk.edu.hk/ ~b400559/array.html h informaes sobre os equipamentes necessrios, uma tabela de comparao dos programas de anlise mais usados, noes de estatstica aplicadas a microarrays, sugestes de bibliografia, etc. Programa gratuto para anlise de microarrays ScanAlyse: escrito por Michael Eisen, o programa pode ser obtido gratuitamente na pgina http://rana.lbl.gov/EisenSoftware.htm. Assinando um termo de compromisso, o autor permite, inclusive, o acesso ao cdigo-fonte.

dos ao desenvolvimento de doenas, ao mecanismo de funcionamento de compostos qumicos (por exemplo, frmacos) e identificar novos alvos terapeuticos. As bases experimentais da protemica no so novas e pertencem ao arsenal clssico da bioqumica, mas houve, nos ltimos anos, um salto qualitativo e quantitativo sem precedentes. Esse salto foi resultado de grandes investimentos privados na busca de abordagens mais agressivas e rpidas no isolamento, identificao e caracterizao de protenas, no mesmo estilo industrial que caracterizou a era genmica. O isolamento de protenas em grande nmero, inicialmente repousava nas tcnicas eletroforticas, como a eletroforese mono e bi-dimensional em gis de poliacrilamida. Embora tais tcnicas certamente sempre venham a ter um papel importante em qualquer laboratrio de protemica, nota-se hoje uma tendncia cada vez maior no uso da cromatografia lquida de alta eficincia, com o uso de colunas capilares, no desempenho desta tarefa. A identificao e caracterizao das protenas depende de um conjunto de tecnologias (com certeza as que mais

sofreram incremento no desempenho) envolvendo a espectrometria de massa, a ressonncia magntica nuclear, alm de recursos computacionais para a armazenagem, anlise e compartilhamento dos diversos tipos de dados gerados por estas tecnologias (imagens de gis bidimensionais, sequncias proticas, estruturas proticas, espectros de massa, etc.). Nos ltimos anos a espectrometria de massa, em conjunto com a cromatografia lquida de alta performance, vem se tornando a abordagem preferida para identificar e caracterizar protenas, devido essencialmente a trs motivos. O primeiro o desenvolvimento de novos mtodos para ionizao de protenas e peptdeos, especialmente o MALDI e o ESI (Matrix-Assisted Laser Dessorption-Ionization e ElectroSpray Ionization). O segundo o desenvolvimento de recursos da bioinformtica, permitindo a anlise de dados obtidos por espectrometria de massas em bancos genmicos e de sequncias proticas. E o terceiro que a espectrometria de massas fornece informao detalhada de modificaes ps-traducionais, em particular as fosforilaes e glicosilaes.
21

Biotecnologia Cincia & Desenvolvimento - n 29

BOX8 MALDI e ESI MALDI - Matrix-Assisted Laser Desorption-Ionization Uma amostra de protena ou peptdeo misturada com um largo excesso de uma matriz, formada por uma substncia que absorve no ultra-violeta, e posta para secar. Um laser com um comprimento de onda que seja absorvido pela matriz, em um compartimento sob vcuo, incide sobre a amostra seca e fragmentos ionizados da amostra so carreados pela vaporizao da matriz e capturados por um campo eltrico do analisador de massas. ESI - ElectroSpray Ionization Um voltagem aplicada em uma fina agulha contendo uma soluo protica, gera uma nvoa de pequenas gotculas da soluo, contendo pequeno nmero de molculas proticas. A reduo das gotculas por evaporao acaba colocando em fase gasosa as protenas ionizadas. Elas so ento capturadas pelo analisador de massas. A grande vantagem desta tcnica permitir o acoplamento direto de um sistema cromatogrfico de alta eficincia ao espectrmetro de massas, possibilitando a anlise em fluxo contnuo de misturas proticas complexas.

Modelagem molecular Ainda neste sentido, procurando associar protenas a suas funes, a bioinformtica pode e dever trazer, nas prximas dcadas, suas maiores contribuies biologia. O conhecimento da estrutura terciria de uma protena constitui uma informao valiosa para determinao de sua funo, pois pode permitir a identificao de domnios conhecidos, como stios catalticos, stios de modificao alostrica e outros. Alm disso, tendo as estruturas tridimensionais das protenas determinadas, podemos ento realizar pesquisas mais direcionadas no sentido de encontrar inibidores, ativadores enzimticos e outros ligantes que permitam a produo de frmacos mais eficientes e especficos: o almejado Desenvolvimento Racional de Frmacos (Rational Drug Design). Atualmente a abordagem mais eficaz na determinaro da estrutura terciria de protenas aquela que se utiliza de tcnicas experimentais como NMR (Ressonncia Magntica Nuclear) e cristalografia por difrao de raios-X. Dezenas de milhares de protinas tiveram suas estruturas tercirias conhecidas atravs destes mtodos e tm fornecido dados para o desenvolvimento de programas de modelagem e para a modelagem por homologia. Entretanto os mtodos experimentais so, frequentemente, procedimentos dispendiosos e de difcil execuo. Alm disso, existem limitaes tcnicas que dificultam a determinao de vrias protenas. A obteno de cada protena pura um desses fatores limitantes. Outro fator a dificuldade de cristalizao das protenas, etapa necessria para a determinao de estrutura por difrao de raios-X. Este um problema comum em protenas de membrana ou glicosiladas. Mesmo usando robs para acelerar o processo experimental, estas e outras dificuldades fazem com que a determinao de novas estruturas proticas no consiga acompanhar a velocidade de obteno de dados dos projetos genoma.

No Brasil, apenas agora comeamos a montar grupos de pesquisa nesta rea. Merecem destaque as redes de protemica em So Paulo, sediada no Laboratrio Nacional de Luz Sncrotron (http://www.lnls.br/), e no Rio de Janeiro (http://www.faperj.br/ interna. phtml?obj_id=219). BOX9 - Links interessantes

mero de protenas codificadas pelo genoma da espcie humana (o que ainda hoje discutido), previsvel que em alguns anos possamos conhecer de 4000 a 10000 protenasalvo, sobre as quais medicamentos podero agir. Para termos uma idia da grandeza destes nmeros, todo o

Eletroforese bi-dimensional em gis de poliacrilamida (PAGE-2D) http://us.expasy.org/ch2d/protocols/ http://www.aber.ac.uk/parasitology/Proteome/Tut_2D.html Cromatografia lquida de alta eficincia, com o uso de colunas capilares (HPLC) http://www.ionsource.com/tutorial/chromatography/rphplc.htm http://www.ionsource.com/tutorial/capillary/introduction.htm Espectrometria de Massas (MS) http://ms.mc.vanderbilt.edu/tutorials/ms/ms.htm Software gratuto para anlise de PAGE-2D - Melanie Desenvolvido no Swiss Prot, est disponvel diretamente na pgina do Swiss Prot, http://www.expasy.org/ ou num link na pgina http:// www.science.gmu.edu/ ~ntongvic/Bioinformatics/software.html, que d acesso a muitos outros programas de bioinformtica.

As tcnicas experimentais expostas acima, alm de oferecerem respostas curiosidade humana, constituem formas inovadoras na pesquisa para o combate de problemas globais como diabetes, cncer, hemofilia, etc... Na prtica, independentemente do n22

arsenal teraputico que conhecemos hoje atua sobre apenas 500 delas. O nmero de drogas disponveis hoje nos EUA, derivadas destas novas tecnologias, chegou a 103 no ano passado (21 delas foram aprovadas em 2000).

Biotecnologia Cincia & Desenvolvimento - n 29

Figura 8: Estrutura terciria e quaternria da Deoxihemoglobina humana obtida por Difrao de Raios X e depositada no PDB. A molcula um tetrmero, composta por 4 cadeias, e ligada a 4 tomos de ferro
A modelagem molecular um mtodo alternativo, no experimental, que permite, com base nos conhecimentos da estereoqumica dos aminocidos e nas informaoes adquiridas das estruturas tercirias j resolvidas, prever a conformao de protenas a partir da seqncia primria dos aminocidos. Uma das formas de se realizar a modelagem de protenas utilizar como referncia uma ou mais protinas homlogas e de estrutura terciria j conhecida. Este tipo de modelagem conhecido como modelagem por homologia ou modelagem comparativa, e, por enquanto, a abordagem que obtm melhores resultados. O primeiro passo do processo a pequisa de protenas homlogas em bancos de dados de estruturas tercirias de protenas. O PDB (Protein Database Bank) o mais utilizado para este fim. A seguir, deve ser realizado o alinhamento das seqncias de aminocidos das protinas homlogas e a protenaalvo (o programa Clustal, citado anteriormente no artigo, pode ser usado). A modelagem, propriamente dita, realizada atravs de softwares como o Modeller, SWISS-MODEL, 3D-PSSM, dentre outros. Esses programas normalmente procuram encontrar a estrutura terciria que melhor se aproxime da disposio dos tomos das protenas utilizadas como modelo, e ao mesmo tempo atenda s restries este-

reoqumicas. Aps a definio de uma estrutura candidada, esta pode ser avaliada atravs de outros softwares de verificao de restries estereoqumicas, como o programa Procheck. A modelagem por homologia um processo iterativo de ajuste de parmetros e verificao dos resultados. Normalmente necessrio que o processo seja repetido vrias vezes at que uma estrutura terciria adequada seja obtida. Alm disso, a modelagem de protenas, como um todo, uma tcnica heurstica: mesmo que a estrutura obtida concorde perfeitamente com todas as restries impostas, no h garantias de que esteja correta. Deve-se lembrar que uma estrutura bastante semelhante real pode ser o suficiente para formulao de novas hipteses e atingir as expectativas do usurio desta tcnica. Uma abordagem recente, que possui um crescente nmeros de adeptos e acumula bons resultados, a modelagem atravs de threading de protena. Esta tcnica baseada na comparao da protena em questo com modelos descritivos dos enovelamentos de protenas homlogas. Nesses modelos so descritas: a distncia entre

os resduos de aminocidos, a estrutura secundria de cada fragmento e as caractersticas fisico-qumicas de cada resduo. Entretanto, um grande desejo dos que trabalham com protenas o desenvolvimento de programas realmente eficientes para a modelagem ab initio, ou seja, que sejam capazes de predizer a estrutura terciria de uma protena, tendo como informao apenas a seqncia dos resduos de aminocidos e suas interaes fisico-qumicas, entre si e com o meio. Programas assim existem hoje mas tm muito a melhorar para que possamos confiar unicamente no seu resultado. No geral, a modelagem de protenas atravs de programas de computador um campo de pesquisa recente e ainda no gerou softwares de eficincia comprovada. Para estimular o desenvolvimento de programas de molelagem molecular de protenas, foi criado um evento para a avaliao desses softwares denominado CASP (Critical Assesment of Structural Prediction). A cada dois anos este evento rene os mais conhecidos pesquisadores desta rea, que so desafiados e suas diferentes metodologias avalia-

BOX10 Programas e sites relacionados com modelagem e estruturas de protenas PDB http://www.rcsb.org/pdb/ Mais famoso e completo banco de dados de estrutura de protenas. Protein explorer http://molvis.sdsc.edu/protexpl/ Programa derivado do RasMol para a visualizao de estruturas de protenas. SWISS-PDBviewer http://www.expasy.org/spdbv/ Programa para a visualizao e anlise da estrutura de vrias protenas ao mesmo tempo. Permite a realizao de mutaes de aminocidos, alteraes em pontes de hidrognio, ngulos de toro e distncias entre tomos. Modeller http://guitar.rockefeller.edu/modeller Um dos programas mais utilizados para a modelagem de protenas por homologia. SWISS-MODEL http://www.expasy.org/swissmod Programa via web para a modelagem de protenas por homologia. PROCHECKhttp://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html Programa que checa a qualidade estereoqumica de uma estrutura de protena, gerando anlises grficas sobre a geometria espacial da protena, resduo por resduo. Libra http://www.ddbj.nig.ac.jp/E-mail/libra/LIBRA_I.html Programa on-line que utiliza threading para encontrar uma seqncia de resduos de aminocidos que melhor se adequem a uma estrutura terciria conhecida e vice-versa. CASP http://predictioncenter.llnl.gov/Center.html Critical Assesment of Structural Prediction. Competio que avalia os softwares de predio de estrutura de protenas.
Biotecnologia Cincia & Desenvolvimento - n 29 23

das. Nesta competio cada grupo recebe seqncias de protenas tiveram sua estrutura resolvida experimentalmente por NMR e/ou cristalografia por difrao de raios X, mas que ainda no foram publicadas. Vence o grupo que conseguir prever ab initio, com maior exatido, a estrutura do maior nmero protenas. Apesar dos esforos, at hoje no houve 100% de acerto. Mtodos em filogentica molecular Uma das aplicaes mais antigas da bioinformtica a de desenvolvimento de programas que, a partir das seqncias de DNA ou de protenas de diferentes organismos, sejam capazes de reconstruir a relao de parentesco entre as espcies, o que chamamos de sistemtica molecular, ou de reconstruir o parentesco entre as espcies associando essas informaes a uma escala temporal, o que chamamos de filogenia molecular. A representao grfica desses resultados feita na forma de rvores filogenticas. Atualmente, rvores filogenticas so extremamente comuns em artigos que abordam assuntos de biologia molecular, refletindo o reconhecimento de que estas rvores representam uma maneira legtima de entender os processos biolgicos e a evoluo dos mais diversos caracteres. Estes estudos e as ferramentas criadas para este fim tm aplicaes to diversas como procurar entender a origem do homem ou reconstituir a histria epidemiolgica da AIDS a partir de dados do genoma do vrus HIV. Para realizar inferncias a respeito das relaes de parentesco entre organismos, tomando como base seqncias de DNA ou protenas, o primeiro passo identificar seqncias de interesse que apresentem ancestralidade comum, ou seja, que sejam homlogas. Para isto, muitas vezes estas seqncias so escolhidas por similaridade nos grandes bancos de dados disponveis na rede, sem que tenhamos, sobre elas, dados das funes bioqumicas e biolgicas que possam confirmar sua homologia. Por isso, importante ressaltar que, ao fazermos uma reconstruo filogentica, a escolha de seqncias homlogas fundamental para gerar uma rvore confivel, pois s assim teremos certeza de que esta24

remos comparando um mesmo marcador que apresenta similaridades entre vrios organismos a partir de uma origem comum, garantindo que eles compartilham um mesmo ancestral. Quando no se comparam caracteres homlogos, pode-se incidir no erro de considerar similaridades sem origem comum e, portanto, com histrias evolutivas diferentes. Uma das formas de avaliar esta escolha incluir nas anlises, seqncias de grupos externos (organismos com historia evolutiva conhecida em relao ao grupo em estudo), que funcionam como controles no processo de reconstruo de parentescos. Uma vez selecionadas as seqncias homlogas dos organismos de interesse e de grupos externos, ser necessrio realizar o alinhamento mltiplo entre elas e ento gerar rvores filogenticas a partir de mtodos de distncia ou de caracteres discretos (mxima parcimnia ou mxima verossimilhana) para podermos realizar a inferncia filogentica desejada. Para tanto, os seguintes mtodos so freqentemente utilizados pelos softwares: Mtodos de Distncia Funcionam basicamente em dois passos, sendo que o primeiro deles a reduo das variaes entre seqncias alinhadas a valores de distncia dispostos em uma matriz. No segundo passo, estes valores so utilizados na reconstruo filogentica. Um dos mtodos de distncia mais comuns a chamada distncia p, que expressa o nmero de stios variveis entre duas seqncias com relao ao total de stios comparados. Alm deste, existem tambm muitos outros modelos evolutivos utilizados para o clculo de distncias genticas, como o Jukes-Cantor, Kimura 2 parmetros, Tajima e Nei e Tamura 3 parmetros. Na reconstruo filogentica, os algoritmos mais utilizados so o UPGMA (Unweighted Pair Group Method with Arithmetic means) e o Neighbor-joining, que realizam uma srie de clculos com a matriz de distncia gerada a partir do alinhamento para estimar a rvore filogentica. Mxima Parsimnia (MP) Este mtodo baseia-se na teoria de que a melhor hiptese para explicar um processo aquela que requer o menor

nmero de passos. Para a anlise filogentica, isto significa que a rvore que possuir um menor nmero de mudanas (substituies) para explicar os dados do alinhamento a mais prxima da real. Na MP no h a fase de clculo de distncia, sendo que as rvores so calculadas diretamente dos dados do alinhamento. Entretanto, esta metodologia requer muito mais tempo quando se usa a busca exaustiva de rvores, uma vez que o computador precisa reconstruir todas as rvores possveis para escolher aquelas com um nmero mnimo de mudanas, que so chamadas de rvores mais parcimoniosas. Para contornar este problema do tempo, existem tambm algoritmos heursticos de reconstruo filogentica, mas preciso lembrar que, nestes casos, a rvore final pode ser subtima. Mxima Verossimilhana (MV) Este mtodo baseia-se na reconstruo filogentica atravs da busca por uma rvore que maximize a probabilidade dos dados observados. Neste sentido, o mtodo de MV calcula as probabilidades associadas a diferentes topologias e cada uma delas com as variaes nos tamanhos dos ramos, considerando o modelo evolutivo escolhido. Portanto, encontrar a rvore mais verossmil envolve no somente a anlise das topologias possveis, mas tambm das variaes de comprimento de ramos para cada topologia. Deste modo, o emprego de algoritmos heursticos pode auxiliar enormemente na busca pela rvore ideal, j que o tempo computacional aumenta de acordo com o nmero de espcies e de parmetros considerados na anlise. A cada vez que um programa de filogenia molecular rodado para gerar uma rvore sobre o conjunto de dados escolhidos, o resultado pode ser diferente. Por isso, para validar uma rvore filogentica, o que se faz rodar repetidas vezes o programa escolhido e, estatisticamente, testar cada ramo para escolher um a um aqueles com maior probabilidade de ocorrncia para a composio final da rvore. O mtodo estatstico mais usado nessas anlises o chamado bootstrap. O bootstrap funciona gerando conjuntos modificados de dados, obtidos aleatoriamente a partir dos dados do alinhamento. Para cada conjunto aleat-

Biotecnologia Cincia & Desenvolvimento - n 29

BOX11 - Programas mais utilizados na anlise filogentica Clustal Programa para o alinhamento mltiplo de seqncias Acesso on line - http://www.ebi.ac.uk/clustalw/ Download do clustal X para diversas plataformas - http://innprot.weizmann.ac.il/software/ClustalX.html PAUP 4.0 (Phylogenetic Analysis Using Parsimony and other methods) http://paup.csit.fsu.edu/ Anlises filogenticas utilizando mtodos de distncia, mxima parcimnia e mxima verossimilhana PHYLIP (Phylogeny Inference Package) inferncias filogenticas http://evolution.genetics.washington.edu/phylip.html MEGA (Molecular Evolutionary Genome Analysis) - http:// www.megasoftware.net/ Inferncias filogenticas com mtodos de distncia e parcimnia. Download gratuito. Treeview http://taxonomy.zoology.gla.ac.uk/rod/treeview Software gratuito para edio grfica e impresso de rvores filogenticas

rio de dados obtidos estimada uma rvore. As novas rvores, geradas a partir dos conjuntos modificados dos dados de entrada, so comparadas. Cada um dos ramos da rvore final recebe ento um valor de probabilidade, que obtido do nmero de novas rvores onde esse ramo ocorreu dividido pelo nmero total de novas rvores estimadas. Probabilidades altas indicam que, mesmo com algumas alteraes, os dados suportam o ramo ao qual essa probabilidade se refere e probabilidades baixas significam que, com a amostra analisada, no se pode ter certeza de que determinado ramo seja correto. CONSIDERAES FINAIS Tentamos abordar nesse artigo os principais tpicos desenvolvidos em bioinformtica. Este artigo no pretende esgotar cada um dos assuntos abordados, mas imaginamos que os leitores interessados podero encontrar mais informaes e trilhar seu prprio caminho visitando os links e observando as referncias sugeridas. Agradecimentos Sendo este trabalho fruto do aprendizado obtido no II Curso de Especializao em Bioinformtica, realizado de agosto a novembro de 2002 em Petrpolis - RJ, os autores gostariam de agradecer principalmente ao CNPq

pelo suporte financeiro concedido para a realizao do curso e ao LNCC (Laboratrio Nacional de Computao Cientfica) por sediar este evento, em especial coordenadora do curso, Ana Tereza Vasconcelos. Agradecemos tambm a todos os nossos professores: Darcy de Almeida, Richard Garratt, Glaucius Oliva, Patricia Palagi, Marie Anne Van Sluys, Cludia Russo, Anamaria Camargo, Helena Brentani, Sandro de Souza, Jorge de Souza, Luiz Gonzaga, Frank Alarcon, Fernanda Raupp, Daniele Quintella, Helio Barbosa, Alexandre Plastino, Dorival Leo, Marcos Grivet, Simone Martins e a todo o pessoal do Laboratrio de Bioinformtica do LNCC. Agradecemos tambm a nossos orientadores e s instituies e rgos de financiamento nacionais e estaduais pelo apoio dado a cada um de ns para a participao no Curso de Especializao em Bioinformtica do LNCC. REFERNCIAS BIBLIOGRFICAS 1. Altschul SF et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25: 3389-3402. 1997. 2. Baxevanis AD, Ouellette BFF. Bioinformatics: A practical guide to the analysis of genes and proteins. Ed. Wiley-interscience. 2nd ed. 2001. 470p. 3. Clote P, Backofen R. Computatio-

nal Molecular Biology: An introduction. John Wiley & Sons, LTD. 2000. 286p. 4. Ewing B, Green P. Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res 8:186-94. 1998. 5. Frishman D et al. Comprehensive, comprehensible, distributed and intelligent databases: current status. Bioinformatics Review, 14, 551-561. 1998. 6. Huang X, Madan A. CAP3: A DNA Sequence Assembly Program. Genome Biol 9: 868-877. 1999. 7. Hunt SP, Livesey FJ. Functional genomics. Oxford University Press. 2000. 253p. 8. Matioli RM. Biologia Molecular e Evoluo. Ed. Ribeiro Preto: Holos, 2001. 202 p. 9. Nei M, Kumar S. Molecular evolution and phylogenetics. 1 Ed. New York: Oxford, 2000. 333 p. 10. Lander ES et al. Initial sequencing and analysis of the human genome. Nature 409:860-921. 2001. 11. Li WH, Graur D. Fundamentals of molecular evolution. 2. Ed. Sunderland: Sinauer Associates, 2000.480p. 12. Prosdocimi F et al. Clustering of Schistosoma mansoni mRNA sequences and analysis of the most transcribed genes: implications in metabolism and biology of different developmental stages. Mem Inst Oswaldo Cruz 97: 61-69. 2002. 13. Schena M. Microarray Analysis. Ed. John Wiley & Sons. 2002. 14. Setubal JC, Meidanis J. Introduction to Computational Molecular Biology. Brooks Cole Publishing Company. 1997. 296p. 15. Stein L. Genome annotation: from sequence to biology. Nat Reviews 2: 493-505. 2001. 16. Strohman R. Five stages of the Human Genome Project. Nat. Biotechnol 17, 112. 1999. 17. Schwartz RL. Learning Perl. Ed. OReilly & Associates, Inc. 1993. 247p. 18. Tisdall JD. Beginning Perl for Bioinformatics. Ed. OReilly & Associates, Inc. 2001. 368p. 19. Venter JC et al. The sequence of the human genome. Science 29:1304-51. 2001.
25

Biotecnologia Cincia & Desenvolvimento - n 29