You are on page 1of 15

Translon/Ao, So Paulo,

v. 14, p. 1 23- 1 37, 1 991 .


LINGSTICA DE INTERAE MOLECULARES*
Romeu Cardoso GUIMA**
RESUMO: As molculs biolgicas mis intressantes so lngos poleros. Em anlogi com
a linguagem huna alfabltca, ests podem ser chads de tetos, e anliados, quanto es
tu
t
ra primria, como seqnci de lta (mnmeros; como nucleotdeos, aminocdos, etc.) ou
de palvras (cdigos de oligmros, de a
t
5-6 ltas). Conidera-se que o estdo d palvras,
em abordgem de tpo lingfto, possa contibuir para o entendimento ds int

raes ( comuni
caes) mleculres. As linguagen e diletos, mleculres e humns, so contrastds A lin
guagem mlculr se dingue peculirnte d human, por exemlo, por utilizar for ti
mnionl, dinlica tmorl, ausncia d espaamnto e pontuao, e sobreposio de signi
cados. Apresent-se um rtodo mtemto para descobert. de palvras em tetos. A palvra
AA (tinca de adenins) foi estda na evoluo do RNA ribossmico 5S. Observou-se que es
ta palvra l mi feqente em organiss mnos comlexos e mnos feqente nos mi comle
xos, d lnhagen de fngos, plnta e vertebrados. Nas duas ltims, reduziu-se tmblm o grau
d varibildde gnica. Pel contri, grau modrado d feqnci d palvra persistiu em
tod a linhagem dos invertebrads, com mnuteno paralel de alto nlvel de varibilidd gni
ca. Nas mitocndrias, plstdeos e mico pl, a feqnci d palvra AAA foi aumentd, de
acordo com sua necessidde de interes com mior amlitde de variao. Esses comort
mntos inicam que a palvra mnton AA penite ambigidde d intraes. Com a evo
luo d comleide orgnica e d mior especiidde mleculr, as palvras amb(guas fo
ra progressivamnt evits.
UNIERMOS: Bioqu(mica; poleros; palvras; cdigos; interes; ling(stica; comuni
cao.
Apresento alguns procedimentos tericos sobre a anlise de seqncias de polmeros
biolgicos que interssam ao tema das interaes moleculares.
Esses trabalhos se baseiam em princpios alogos aos de alguns estudos da lin
guagem humana. A analogia no extensa, porque a "linguagem molecular" apr
senta muitas peculiaridades e distines. No entanto, o estabelecimento de contastes
com algo que nos failia (neste caso, a linguagem ocidenta, baseada no alfabeto)
pode auxiliar na comprenso do problema.
* Trabalho apresentdo em mesa-redonda no Encont Bilgi e Fisof, no Institto de Biocincia d
Botcatu - UNES P - 3 1 de outbro de 1990.
** Depatamento de Gentca - Institt de Biocincia - UNESP - 1 861 0 - Botucat - SP.
1 24
Um exemplo de interaes moleculares ilustrado (Fig. 1 ) com o caso do Cito
cromo C. Note-se que a molcula possui uma conformao espacia, ou tridimensional,
que demarca um centro ativo, intero, com a propriedade (fno) de coordenar a li
gao de uma porfIrina (hem). Esta, por sua vez, coordena a ligao de u metal,
que o responsvel imediato pela fno.
A molcula possui, ainda, propredades de intrao com outras molculas, no caso,
por exemplo, para acoragem membrana mitocondrial, atravs de regies exteras
da molcula.
Esses princpios so comuns aos vros outros casos de interaes moleculares, co
mo: enzi-substrato, antgeno-anticoro, indutor-molcula alvo, hormnio-receptor,
e os casos de agonistas, antagonistas e mdicamentos com seus receptores, etc.
A abordagem tadicional, ilustrada na Figura 1 , privilegia o estudo de letas, ou
monmros, como nos estudos de mutaes puntifores, por toca de ainocidos
singulares. A abordagem lingstica apresenta, como principal novidade, o estudo de
palavras, em vez de letras. A analogia com a linguagem humana alfabtica prope
a terologia de sentenas ou textos para as molculas inteiras, de palavras para
pequenos segmentos das molculas (oligmeros, tipicament com cerca de 5-6 ele
mentos; ( 15)), e de letas para os elemntos sngulares (aminocidos, nas proteas;
nucleotdeos, nos cidos nuclicos, RNA ou DNA; e assim por diante) .
ANALOGIAS ENTRE AS LINGUAGENS HUMANA E MOLECULAR
Passo, ento, a ressaltar os detalhes que fazem se assemelhar ou distinguir as lin
guagens humaa e molecular.
De incio, a molecular espacial e conforacional (Fig. 1 ) , enquanto a humana
liear. A configurao global do sentido de uma sentena humana s6 apreendida
totalmente, com for "gestltca", ao fm da leitura seqencial.
A humana tem pontuao e espaamento ente palavras e sentenas. Por exemplo,
o espaamento adequado, segundo o idioma ingls, que nos perite entender o sen
tido da seqncia de letras justapostas togetherhere (Fig. 2), que pode ser lida de
4 maneiras distintas. Na molecular a justaposio a regr e seu desdobramento em
palavras difcil.
Ambas so degeneradas, com sinonia fqente, como o caso dos codons para
taduo de mRNA em protenas ( l O) .
A linguagem molecular altamente superosta; o mesmo texto pode ser lido de
vrias maneiras no-sinnimas, com elevada densidade ou compactao da informao
(Fig. 3). O mesmo segmento de DNA codilca vrias funes, cada uma de suas pala
vras pode signifca informaes diferentes. O DNA codica interaes com prote
nas, para regulao gnica e constituio da cromatna. Est, tambm, embutida no
DNA, a informao necessria para que o RNA, transcrito dele, desenvolva sua esttu
rao secundria e terciria e interaja com proteas, para processamento e regulaes.
Trans/Form/Ao, So Paulo, v. 14, p. 1 23- 1 37, 1 991 .
125
o DNA pode, ainda, produzir diferentes RNAs, dependendo do modo como tas
crito e processado. At um nico RNA pode ser traduzido de modos altrativos,
produzindo proteas diferentes ( 1 1). A alta ambigidade que se detecta ao nvel dos
genes somente reduzida nas proteas. Mesmo as enzimas apresenta um cero
grau de inespecifcidade nas suas fnes (6).
A leitura da codifcao molecular , tambm, dinica e multidimensional,
modulaa por movimentos e frqncias, at com casos de ritcidade que se asse
melhariam mtca da poesia e da msica. Em todas as interaes so importates
a variaes de equilbrios tricos, expressas pla qumica como constantes de af
nidade ou de associao e dissociao, cujas alteraes podem afetar grndemente os
resultados ( 1 2). Por exemplo, (Fig. 4) h um priodicidade modular estatstica NG
nos rNA, que corresponde a um periodicidade complementar NNC em stios do
rRNA; h, tabm, uma priodicidade estatstica de AA no DNA, a cada 10,5 bases,
que mrca curvaturas em passos regulares da dupla hlice e interaes do DNA com
protenas cromaticas. Essas priodicidades so residuais, oultas sob as especifci
dades de cada seqncia.
O nosso alfabeto tem mais de 20 letras, mas o som de cada um pode vaar, con
forme o contexto silbico em que se situa, gerando mais de 4 sons (Quadro 5).
Semelhantemente, a codifcao molecular usa 4 letras fndamentais, as 4 bases
primrias dos cidos nuclicos, chegando a pouco mais de 20 aminocidos, nas pro
tenas, m a reatividade de cada elemento diferir, conforme suas vizinhas na "pa
lavra" molecular. Estas so chamadas de palavras-cdigos e seu sentdo pode variar
conforme o ambiente trico, inico e hidroptico. Com a mudana em uma palavra,
s vezes toda a sentena (polero) se altera; por exemplo, no caso das protenas
com propriedades alostricas (9), ou em algumas trocas de aminocidos, como na
Hemoglobina S. Com a troca de um nico amnocido, em ambiente pobre em oxignio,
a hemoglobina adquire solubilidade e conforao alterada, que produz a hemcia
falciform ( 1 6) .
Os mais longos segmentos dos cidos nuclicos que interagem com protenas chegam
a 20-30 bases ( 1 5), como algums palavrs humas. Tambm, em ambas situaes,
as palavras mais comuns tm cerca de 5-6 letras (Quadro 6). Os vocabulrios so
pquena frao do total de combinaes possveis, portanto, com alto grau de seleti
vidade e, como corolrio, de repetitividade. Esta ltima, em eucariotos complexos,
varia de 1 a mlhes (8).
O tabalho de decifar a codicao molecular difcil, com procedimntos labo
ratoriais e computacionais demrados e tediosos. O montante atualmente conhecido
no chega a 1 % do to total do genoma de mmferos (7). A maior parte desse
total conhecido composto plos 6 tips de trincas que constituem os codons para
traduo de protnas.
Translorm/Ao, So Paulo, v. 14, p. 1 23- 1 37, 1991 .
126
A LINGUAGEM GeNMCA
A linguagem gentica foi chamda pr Trifonov e Brndel ( 1 5) de GN

MICA,
derivada do grego (gnomon: m, nora, aforisma) , tambm usada para denomi
nar os ponteiros dos rel6gios solas e os gnomos ou duendes da mitologia n6rdica
(semlhates aos homnculos que os primiros mcroscopistas diziam enxergar nos
espratz6ides?), e que se adequa bm aos genes, como em genoma e em "ge
noms". O dicionrio gnmco de 1986 continha cerca de 80 palavras.
Algumas palavras gnmicas so praticamente universais, consensuais para muitos
tipos de organismos (Fig. 7).
Outros voabulrios compem grupos lingsticos (dialetos) menores como: os
stios de resto que so usados na engenhaia gentica, m fncionam in vivo nas
bactrias (4) ; os genes dos rRNA e das rPROT (protenas ribossmcas) tm voca
bulrios semelhantes, indicando convergncia, por compailharem funes e rgu
laes, ou homologia ancestral; bactrias e seus bacteri6fagos simples tambm usa
os mesmos dialetos, novamente indicando convergncia, por adaptao parasito
hospdeiro, ou origem comum; etc. ( 1 3).
PALAVRAS-CONTRASTE
Um mtodo matemtico foi desenvolvido plo grupo de Trfonov para descobrr
palavras-c6digos em textos genticos, que estamos agora comeando a aplicar a
estudos do rRNA 5S. O princpio do mtodo o das cadeias de Markov, simples e de
apreenso intuitiva (Fig. 8).
O mtodo no estritamente estatstico ou probabilstico porque no depende fn
daentalmente da feqncia de ocorncia das palavras. Tem, ainda, as vantagens
de independer de modelos paramticos e dos tamnhos ou de homologias ente as
molculas a serm comparadas.
Calcula-se o valor do contraste (proporo) ente a feqncia observada de uma
palavra no texto com a feqncia eserada, a partir de seu segmento intero. Por
isso, as palavras identifcadas plo mtodo so chamadas de palavras-contrastes.
Um contraste elevado (at 1) signifca corelao ata entre as letras anterior e
posterior com o segmento intero; sugere que a palavra confivel, tem boas chances
de ser demonstrada como palavra ral, e merece ser investigada experimentalmente.
N caso exemplifcado, toda vez que se colocar R ap6s ELHO, ser obrigat6rio
coloar-se M antes, e MLHOR ser boa palavra-contraste.
Constroem-se vocabulrios de palavras-contastes. A investigao experimental
confirr a validade das palavras e, quando sua fno e signifcado forem desco
bertos, poder-se- construir os dicionrios semticos.
Trans/Fonn/Ao, S Pauo, v. 4, p. 123- 137, 1 991
.
1 27
A PALAVRA AAA NO rRNA 5S
Passo, agora, a apresentar rsultados de nosso tabalho (3) sobre a palavra AAA
no rRNA 5S. Este RNA pequeno, com somente 120 bases, mas apresenta a grande
vatagem de ser ubiquito; seu texto j foi deciado em cerca de 60 molculas, ao
longo de toda a evoluo.
O trabalho somente evolutivo e compaativo. Portanto, no h dados sobr o
signcado semtico da paavra. No entato, conseguimos desenvolver uma inter
pretao sobre algumas de suas propredades inforacionais.
As feqncias de ocorncias d palavra, nas principas linhagens de organismos
(Fig. 9), produziram regulaidades que fora interretveis por comarao com
outros dados biol6gicos.
O modelo intrpretativo utilizado de que a palavra AAA possui ambigidade in
foracional na intrao com outas molculas, como as protenas (Fig. 1 0) . Diz-se
que, quado um amnocido de uma protna deve interagir especifcamente com uma
adenina do RNA, e esta adenina ladeada por outas bases diferentes, a palavra (trin
ca) complexa e a interao ser posicionalmente inambgua, especca ou unvoca.
Por outro lado, quando a adenina ladeada por outras adeninas, a interao pere
cer qualitativamente especca, mas se tomar posicionalmente ambgua. O RNA to
lera a interao com a I !, 2! ou 3! adenina igualmente, possibilitando deslocaentos
e aceitando variaes na posio dos anocidos, de at 3 paa a fente ou para ts.
Este modelo nos peritiu oferecer uma interrtao paa a vaiabilidade (poli
morsmo ou heterozigosidade de aelos) gnica observada nos invertebrados, que o
dobro (47% de genes polim6rcos) da apresentada plos vertebrados e plantas
(25-26%; ( 1 . Nossos dados sugerem que o mesmo, das duas ltims rotas, deve ter
ocorido na evoluo dos fungos complexos. Nessas rotas evolutivas, as palavras
abguas foram selecionadas conta, fora reduzidas ou evitadas. O RNA deve ter
desenvolvido outas interaes ao lado ou superpostas s das palavras abguas, tor
nou-se ms car egado de fnes, e a prncia das palavras abguas foi prju
dicial novas interaes. As palavras ambguas fora substitudas por outas mais
complexas. Os invertebrados no seguira essas rotas, mantivera as palavras amb
guas e a tolercia a mor grau de polimorfsmo gnico.
O inverso ocoru na evoluo
d
organelas (mitocndrias e plastdeos) e dos
micoplasmas, que aumentara a fqncia de utilizao das palavras abguas. Pelo
menos paa o caso das organelas, a explicao consistente com os dados biol6gicos
e a teoria de sua origem endossimbintica ( 14). Atualmente, as rPROT que interagem
com seus rRNA so, na grde moria, nucleaes. No entato, deve ter havido um
perodo de adaptao das bactrias associao com a clula eucari6tca, quando o
RNA da bactria de vida livre foi forado a interagir com as rPROT nucleares. Estas
so hom610gas s bacterianas, as diferenas ent os dois tipos so maiores que ente
varates allicas, e o acmulo das palavras ambguas foi selecionado a favor.
Trans/Fon/Ao, So Pauo, v. 14, p. 123- 137, 1991 .
128
Existe, ainda, para essa rota de aumento da freqncia das palavras ambguas, a
possibilidade de evoluo neutra (5), por relaxamento de presses seletivas. ORNA
da bactria associada ao eucarioto pode, simplesmente, ter perdido interaes com
protenas, possibilitando acmulo aleatrio de adeninas ao longo de todo seu genoma.
Nossos dados, especialmente sobre as mitocndrias (3), no favorecem essa possibi-
lidade, mas o caso dos micoplasmas poderia ser consistente com a hiptese da evo-
luo neutra. Essas bactrias so extracelulares, aderidas s membranas plasmticas
(2), e poderiam no utilizar rPROT nucleares para compor seus ribossomos. Estamos
procura de dados experimentais para decidir entre essas duas possibilidades.
Em concluso, as principais indicaes desse estudo so:
1. o aumento da complexidade lingstica (ou a reduo da ambigidade informacio-
nal) molecular foi paralelo reduo de tolerncia variabilidade gnica;
2. nas linhagens de vertebrados e plantas (e fungos) complexos houve aumento
paralelo da complexidade molecular;
3. na linhagem dos invertebrados, manteve-se nvel moderado de complexidade
molecular;
4. em organelas endossimbinticas e micoplasmas (parasitas celulares obrigatrios),
amplificou-se a ambigidade informacional.
9
CH
3
-C-HH-G d
k 100 COOH (j
90 a y k c.' 6
S R. (l) (Dr k@k
t di.. 5
k L i
k k F Y
k Z
F])... --1- \'-=@ a 15
p GKft;i),, C Z k
75() K t y Q
;y') \fi - \ N \!V 0.wg.
70N _3%) 25
e (0-- kh

65 m <I:t
t 60 W
k t t t G
8d3 d50 P
55 k
n k
Figura 1. Acondicionamento do anel porfrrnico (heme) na molcula do Citocromo
C. Os resduos de aminocidos com crculos tm suas cadeias laterais voltadas
para o interior da molcula. As "cabeas de alrmetes" assinalam os resduos
em contato com o heme. Os semicrculos indicam os resduos com cadeias
laterais parcialmente voltadas para o interior da molcula. As setas partindo da
TranslForm/Ao, So Paulo, v. 14, p. 123-137, 1991.
129
tiro sina 48 e do triptofano 59 representam pontes de hidrognio. Os resduos
em maisculas so os que permaneceram invariveis em 29 espcies. Os
aminocidos esto indicados pelo cdigo de letras singulares, em vez de
trincas. O tomo de ferro, no centro do heme, coordenado pela 'cadeia lateral
da histidina 18 e pelo enxofre da metionina 80. Note-se que 24 dos 39 resduos
marcados com crculos ou semicrculos aparecem em "palavras" de 2 ou 3
"letras". Adaptado de: R. Acher -1974- "L'volution molculaire au niveau
des protines!" Biochimie, v. 56, p. 1-19.
"togethemowhere "
together nowhere
together now here
to get her nowhere
to get her now here
Figura 2. Espaamento entre palavras na linguagem humana alfabtica. O exemplo
apresentado do idioma ingls. A seqncia de 15 letras justapostas pode ser
lida de at 4 maneiras distintas, conforme os espaamentos utilizados.
Adaptado de: E.N. Trifonov -1989- "The multiple codes of nucleotide
sequences." Buli. Math. Biol., v. 51, p. 417-32.
A B c
PROTEINA
Figura 3. Superposio de mensagens na linguagem molecular. Um segmento de
DNA contm at 3 nveis (classes, tipos) de mensagens sobrepostos: (a) para
interao do DNA com protelas na estruturao da cromatina e nas regulaes
TranslForm/Ao, So Paulo, v. 14, p. 123-137, 1991.
130
de transcrio; (b) codificando a estrutura secundria e terciria do RNA
transcrito, e a interao deste com protenas na regulao e no processamento;
(c) codificando a estrutura secundria e terciria das protenas traduzidas, suas
associaes quaternrias, modificaes p6s-traducionais e funes. Adaptado
de: E.N. Trifonov -1988-'Codes of nuc1eotide sequences." In: Non linearity in
biology and medicine. Eds: A.S. Perelson, B. Goldstein, M. Dembo and l.A.
laques. Elsevier, New York. Mathematical Biosc., v. 90, p. 507-17.
RNA ri'bossmico
(A)
3 '
5'
movimento da traduo RNA mensageiro
(B)
Figura 4. Cdigos ocultos e peridicos nas seqncias nuc1eotdicas. Esses cdigos
so genricos e estatsticos, descobertos aps anlise de periodicidades
remanescentes na estrutura de grande nmero de seqncias, heterogneas
quanto s funes primrias e especficas. (a) As seqncias dos RNA
mensageiros tm, mais freqentemente, Guaninas nas primeiras posies das
trincas codnicas. Alguns stios do RNA ribossmco tm Citosinas espaadas
precisamente em posies Cn, Cn + 3 e Cn +6, e localizados em regies do
ribossomo que interagem com os RNA mensageiros, que funcionam como
marcadores dos mdulos das trincas, no processo da traduo. (b) A dupla
hlice do DNA apresenta uma curvatura intrnseca que depende da presena,
mais freqente, das bases vizinhas AA (ou TI), em intervalos regulares de 10,5
TranslForm/Ao, So Paulo, v. 14, p. 123-137, 1991.
1 31
bases. Este intervalo corsponde a um passo completo da dupla hlice. A
curvatura intnseca facilita o enrolanto do DNA em tomo das prteas que
compem os nuc1eossomos da cromatna. Os sos das duplas AA (ou T) so
os que apresentam curvatura mis acentuada. Adaptado de E.N. Trifonov
- 1989- "The multiple coes of nuc1eotide sequences. " Bul. Math. Biol. , v. 5 1 ,
p. 417-32.
L ae 2 5 .
t
2
. b bee 26 . J
3 .
C
h chee
( see )
4 . d dee
5 . e ee
2 7 . Sh
28 . J
29 .

3 0 . a
6 . f ef 3 1 . a
7 . g gae 3 2 . e
8 . h hac 3 3 . 1
9 . i- le 34 . o
1 0 .
j
j ae 3 5 . u
l I . k kae 3 6 . au
1 2 . 1 e l 3 7 . '
1 3 . m em 3 8 .
(
1 4 . n en 3 9 . O
1 5 . o oe 40 . o
1 6 .
p p
ee
( kue )
1 7 . r ra
1 8. s es s 4 1 .
1 9 . t t ee 42 . wh
20 . ue ne
2 I . v vee
22 . w wac
( eks )
2 3 . y yac
24 . z zed or zee
Quadro 5. As letras do alfabeto e os cdigos de sons.
ith
thee
i sh
zhee
lng
ahv
at
et
it
ot
ut
aul
foot
brood
owl
oi l
zess
whae
O exemlo do idioma ingls. Diferntes combinaes de letras produzem
contextos silbicos distintos nos quais a mesma letra paicipa de sons
diferentes. Assim, o "alfabeto" sonoro ms extenso que o conjunto das letrs
individuas. Adaptado de: D. Diringer - 1 968- The alphet. A k to the
hitor ofmin. 3. ed. , 2 vol . , Hutchinson, London, p. 424.
Translorm/Ao, S Paulo, v. 14, p. 123 137, 1 991 .
132
Quadro 6. Repetitividade e especifcidade na linguagem humana.
As obras completas de Shakespear, segundo anlise de B. Efrom e R. Tisted
( 1 976 - "Estimating te number of unseen species: how many words did
Shaespeare know?" Biomtik v. 63, p. 435-57), contm vocabulrio de
3 1 . 534 palavras. Para o total de 884.67 palavras escritas, obteve-se taanho
mdio de 5 letras por palavra e reptitividade mdia de 28 ( btal de
palavras/vocabulrio) . A distribuio aleatria das 26 letras, em grupos de 5,
produz 1 2 x 10
6
palavras (seletividade de 14x), com repetitividade de 1 ,07.
As 4 letras dos cidos nuclicos produzem 1 6 palavras de 2 letras, 64 de
3 letras (como os codons) , 256 de 4 letras, 1 . 024 de 5 letas e 4.096 palavras de
6 letras. Ver: E. N. Trifonov - 1 988- "Nucleotde sequences as a language:
mrphological classes of words. " In: Clssicaton an relted meth 01
dt analsis. E. H. H. Bock, Elsevier, North Holland, p. 57-6.
Figura 7. Alguns exemplos de palavra GeNMICAS consensuais.
a. NNN em exons dos RNA mensageiros (N = qualquer base).
Signifcado "semntico": codons para traduo em anocidos.
b. bactrias 80 95 45 6 %
T A T A
eucarotos 82 97 93 85 %
' Signf. : quando em posio prxima do incio de um gene, cdigo
"promotor" de ini
d
ao da tanscrio desse em RNA.
c. S

mdia de 8 bases paradas no tonco e 5 bases na ala, e at 10
= T T T T bases no segmento linear rico em T.
Signif. : em bactrias, cdigo para terinao da trascrio de um gene,
independente de fators proticos auxiliares.
d. AAUAAA 5 CA situada na posio no-traduzida distal de
precursores de RNA mensageiros eucariticos.
Signif. : sinal para clivagem do precursor e adio das caudas de poli A.
e. _____, GuS (AG ' __em RNA transcritos de euca-
riotos.
Signif. : os dinucleotdeos ' GU e AG' so as extremidades dos intons a
serem eliminados dos trascritos, no processamento.
Translorm/Ao, So Paulo, v. 14, p. 1 23- 1 37, 1 991 .
f. bactrias
eucariotos
133
U U CCUCC na extrmidade 3' de RNA ri-
-UGCGG GGAUGA UUA bossmicos. Os tral ls verticais
A A so os stios das inseres mos
tradas acima ou abaixo.
Signif. : palavras para interao com os RNA mensageiros, participando da
iniciao da traduo.
Compilado de vrias fontes: ver R. C. Guimares - 1987- Estrutura e funo do
RNA. In: Gentica molecular e de microrganismos. E. SOP Costa. Manole,
So Paulo, p. 39-77; B Lewin - 1990- Genes IV. Oxfor Univ. Press, Oxford
UK, 857 p. ; J. D. Watson, N.H. Hopkins, J. W. Roberts, J. A. Steitz & A. M.
Weiner-4th ed. , BenjaCummings, Menlo Park, Cal USA, 1 987 1 . 1 63, p.
Figura 8. Ilustrao do mtoo do contaste para identifcao de palavras-cdigos
em polmros.
O polero considerado como um texto contnuo. Segmentos interos de
tamaho 1 ou mais so a base para o teste das letras vizinhas, anterior e
posteror. O exemplo para uma palavra de 6 letras, com segmento intero de 4
letras. As letras representadas por . so mais variveis que as apresentadas.
contraste
R
VEHOS
M R
freqncia observada de MLHOR no texto
feqncia esperada a partir de ELHO no texto
feqncia esperada
f (MELHO) . f (ELHOR)
f. (ELHO)
O mtodo foi desenvolvido por V. Brendel, J. S. Beckmann e E.N. Trifonov
- 1986- Linguistics of nucleotide sequences: morhology and comparison of
vocabulaes. J. Biam/ec. Stt. Dn. " v. 4, p. 1 1 -21 .
Translorm/Ao, So Paulo, v. 14, p . 123- 1 37, 1991 .
l34
If)
~ . __ 1
I

I
If)
\Nti 3J
ffiLIJS
3J
TranslFonn/Ao, So Paulo, v. 14, p. 123-l37, 1991.
~
I
i
I
I i
\
\ i
\ !
I' ~
\ !
\ .I
1
.... 1 - - - 4 1 ~ ~ . ----<I
I
I
~ I _ ......
I .......
I ........ - .
,--! ...........
........ I
..... / :
I
I
I
I
I
I
+
I
I
GH-J;N
I
I
I
I
~
H
~
G'i
..:I
I
~
~
o.
W
Ci
o. W
w no:
Ci o.
!
W
~
1><:
1 35
Figura 9. Frqncia das palavras AAA no RNA ribossmico 5S, ao longo da evo
luo.
So aprsentados os nmeros idios de ocorncia de sios de agrpa
mentos de adeninas (tncas ou mis longos) , por grupo de organismos, dentro
das catgorias apresentadas.
X = mdia geral de ocorncia de AA por grpo, em todas as catego
rias; ARC, arquebactrias; EUB, eubatrias; DEP PRE, eubactrias de vida li
v, precursoras das DEP; DEP, organelas de eucariotos (mitondas e plast
deos) e micoplasmas; ALGas; PLANtas; LVeduras e FUNgos das categorias
Ascomicetos e Basidiomicetos; PROTistas; Iertebrados; grpos AQU

ticos
(incluindo aios) e TERRestrs da linhagem dos vertebrados. Os dados so
mdias e desvios padro por categora; para LEV e FUNG, os dados so os li
mites apresentados pelos gpos compnentes das categorias. Dados extrados
de R.c. Guimares e V. A. En ( 1 990).
protena
aa
- 1
aa ,
O

a

,
,
,
+ 1 -
aa
N

,
N
A
A
A
A
RNA
Figura 10. Modelo explicativo da abigidade inormacional da palavra AAA no
RNA ribossmco 5S.
esquerda, uma adenina (A) ladeada por outras bases (N) e a trinca
uma palavra complexa. Quando um anocido (a) de uma protena deve inte
rgir com a adenina, a interao ser espcca e posiciona1nte inambgua.
direita, adeninas vizinhas comem uma pala

ra (tinca) montona. As inte


raes dos annocidos podem perecer especcas com as adeninas, mas
toma-se posicionalmnte ambguas. A tnca tolerar interaes com prote
nas, onde o anocido pode estar deslocado em at, 3 posies, por inseres
ou delees na seqncia. Extdo de R. C. Guimares e V. A. Edn ( 1 990) .
AGRADECIMENTOS
CNPQ, FUNDUNESP E Soco Amigos Inst. Weizmann em So Paulo.
Translorm/Ao, So Paulo, v. 14, p. 123- 137, 1991 .
1 36
GUIMAR

ES, R. C. Linguistics of molecular interactions. Trans/Forml Ao, So Paulo,


v. 14, p. 1 23- 1 37, 1 991 .
ABSTRACT: The most interesting biological molecules are long polyers. In anlogy with
humn alphabetc languages, they can be called texts and anlysed, as to the primr stucture,
as sequences ofletters (monomers; nucleotids, aminoacid, etc.) or ofword (codes ofoligomers,
of up to 5-6 leters). It is considred that the study of word, in a linguistic approach, my
contibute positively to the understanding of moleculr interctons (comunication). The
moleculr and human languages and dilects are contrasted. The mlecular one is peculiarly
ditnct fom the hun, for instnce, by its use of a tridiensional morpholog, temporl
dynamics, absence of spacings and punctuaton, and overlpping messages. A mathemtical
method is presented, for discovering words in tets. The word AA (adenine tiplets) was studied
in the evoluton of the 5S ribosoml RNA. It was shown that this word is more fequent in less
comple organism an less fequent in the more complex ones, in the fngi, plnts, and
vertebrates lineages. In the two ltter ones, the degree ofgenic variabilit was also reduced. To
the contrar, a moderte degree ofusage ofthis word persited in the whole invertebrates lneage,
where a high degree of genic variabilit was maintained. In mitochondria, plstds and
mycoplsas, the fequenc of the word AA was increased, consitently with their need for
interactons with a wider range of variaton. These behaviors indica te tht the monotonous AA
word alows for ambiguit in interactions. With the evolution oforganic compleit and ofgreater
moleculr specicit, ambiguous word were progressively avoided.
KEYWORDS: Biochemist; polymers; word; codes; interctions; linguistics; comunicaton.
REFERNC BmLIOGRICAS
1. AYALA, F. J. , KIGER Jr. , J. A. Modm genetics. Menlo Park: BenjainlCuIIngs,
1 980. p. 622.
2. GHOSH, A. , DAS 1. , MANILOFF, J. Lack of repair of ultraviolet light damage i
Mycop galliseptcum. Journl ofmoleculr Biology, London, v. 1 1 6, p. 337- 344,
1 977.
3. GUIMAR

ES, R. C. , ERDMANN, V. A. Evoluton adenine clutering in 5S rRNA. 1990.


(Texto mimeografado).
4. KESSLER, C. , NEUMAIER, P. S. , WOLF, W. Recognition sequences of restricton
endonucleases and methylases: a review. Gene, Amsterdan, v. 33, p. 1 - 102, 1985.
5. KIMURA, M.
The neutral theor ofmoleculr evolution. Cambridge: Cambridge University
Press, 1 986.
6. KIRKWOOD, T. B. L. , ROSENBERGER, R. F., GALAS, D. 1. , ed. Accurac in
molecular processes: its control and relevance to living systems. London: Chapman &
Hall, 1986. 391p.
7. MCKUSICK, V. A. Mendelan inheritance in mano 7 ed. Baltimore: The Johs Hopkins
University Press, 1 986. p. xv-xviii.
8. MIKLOS, G. L. G. Locaed highIy reptitive DNA sequences in vertebrate and
invertebrate genomes. In: MACINTIRE, R. J. , ed. - Molculr evolutonr genetics.
New York: Plenum Press, 1985. p. 241 - 321 .
9. MONOD, J. , CHANGEUX, J. P. , JACOB, F. Allosteric proteins and cellular control
systems. Journal ofmolecular Biolog, London, v. 6, p. 306- 329, 1 963.
Trans/Form/Ao, So Paulo, v. 14, p. 123- 1 37, 1991 .
137
10. NIRENBERG, M. W. , JONES, O. W., LEDER, P. , et alo On the coding of genetic
information. In: Cold Spring Harbor Symposium on Quantitative Biology, 28,
p. 549-557. 1 963.
1 1 . PARDINI, M. I. M. C. , GUIMAR

ES, R. C. Um conceito sistmico-fncional do gene.


Botucatu: Insttuto de Biocincias da UNESP, 1989. Dissertao (Mestrado).
12. PERELSON, A. S. , OSTER, G. F. Theoretical studies of donal selection: minmal
antibody reprtoire size and reliability of self-non-self discrimination. Journal of
theoretcal Bilogy, v. 81 , p. 645-70. 1 979.
13. PIETROKOVSKI, S., HIRSHON, J., TRIFONOV, E. N. Linguistic measure of
tonomic and functonal reltedness of nucleote sequences. 1990. (Texto
mimeografado) .
14. RAZIN, S., FREUNDT E. A. The mycoplasmas. In: Bergey's mnul of sstemtc
bacterolog I. Baltimore: Willias and Wilkins, Krieg, N.R., ed., p. 740-793. 1 984.
15. TRIFONOV, E. N. , BRENDEL, V. Gnomic: a dictionary of genetic codes. Balaban:
Rehovot, 31 7p.
16. WEATHERALL, D. J. , CLEGG, J. B. , HIGGS. D. R. , WOOD, W. G. The
hemoglobinopathies. In: SCRIVER, C. R., BEAUDET, A. L., SLY, W. S. , VALLE,
D. , ed. The metabolic basis of inherited disease. New York: McGraw-Hil, 1 989.
p. 2 28 1 -2 339.
Trans/Form/Ao, So Paulo, v. 14, p. 123- 137, 1991 .