1.3.

Cadeias de Markov
1.3.1. Cadeias de Markov em tempo discreto
Consideremos um processo estoc´astico discreto
{X
n
: n = 0, 1, 2, . . . } que assume um n´umero finito ou in-
finito numer´avel de estados.
Se X
n
= i, dizemos que o processo se encontra no estado i
no instante n .
Admitiremos que existe uma probabilidade fixa p
ij
do processo
transitar para o estado j a partir do estado i, isto ´e,
p
ij
= P[X
n+1
= j|X
n
= i], n ≥ 0.
1
Defini¸c˜ao 1.3.1.1 Um processo estoc´astico
{X
n
: n = 0, 1, 2, . . . } ´e uma cadeia de Markov, ou possui
a propriedade markoviana, se
P[X
n+1
= j|X
n
= i, X
n−1
= i
n−1
, . . . , X
1
= i
1
, X
0
= i
0
]
= P[X
n+1
= j|X
n
= i] = p
ij
,
para quaisquer estados i
0
, i
1
, . . . , i
n−1
, i, j e n ≥ 0.
A propriedade markoviana pode ser interpretada do seguinte
modo: a probabilidade condicional de qualquer estado futuro,
conhecidos os estados do presente e do passado, ´e independente
dos estados do passado, ou seja, para predizer o futuro s´o pre-
cisamos de conhecer o presente.
2
As probabilidades condicionais p
ij
, i, j ≥ 0 s˜ao chamadas pro-
babilidades de transi¸c˜ao (a um passo).
Como consequˆencia imediata temos
p
ij
≥ 0, , i, j ≥ 0 e

j=0
p
ij
= 1.
Por outro lado, as probabilidades de transi¸c˜ao n˜ao dependem
do instante n, ou seja,
p
ij
= P[X
n+1
= j|X
n
= i] = P[X
1
= j|X
0
= i] , n ≥ 1,
pelo que se dizem estacion´arias ou homog´eneas.
3
As probabilidades de transi¸c˜ao s˜ao dispostas numa matriz P de-
nominada matriz de transi¸c˜ao
P =
_
¸
¸
¸
_
p
00
p
01
p
02
. . .
p
10
p
11
p
12
. . .
p
20
p
21
p
22
. . .
.
.
.
.
.
.
.
.
.
.
.
.
_
¸
¸
¸
_
As cadeias de Markov s˜ao importantes porque conseguem mo-
delar v´arios fen´omenos reais.
Exemplo 1.3.1.1 Suponhamos que a probabilidade de chover
num determinado dia depende apenas das condi¸c˜oes meteo-
rol´ogicas do dia anterior, mais especificamente se choveu ou
n˜ao no dia anterior. Admitamos que se chover hoje, a probabi-
lidade de chover amanh˜a ´e α, enquanto se n˜ao chover hoje, a
probabilidade de chover amanh˜a ´e β.
4
Se
X
n
= estado do tempo no dia n
e consideramos os estados
0 : chove e 1 : n˜ao chove,
ent˜ao {X
n
: n ∈ IN} ´e uma cadeia de Markov discreta com matriz
de transi¸c˜ao
P =
0 1
0 α 1 −α
1 β 1 −β
5
Exemplo 1.3.1.2 Se admitirmos que num segmento de ADN
(ou ARN) o nucle´otido que aparece numa determinada posi¸c˜ao
depende apenas do nucle´otido na posi¸c˜ao anterior, ent˜ao
estamos perante uma cadeia de Markov com quatro estados: A,
C, G e T (U).
Exerc´ıcio 1.3.1.1 Num determinado dia o Evaristo pode sentir-
se contente, assim assim ou triste. Suponhamos que se o Eva-
risto est´a hoje contente, amanh˜a estar´a contente, assim assim ou
triste com probabilidade 0.5, 0.4 e 0.1, respectivamente. Caso
hoje se sinta assim assim, amanh˜a estar´a contente, assim assim
ou triste com probabilidade 0.3, 0.4 e 0.3, respectivamente; e
se estiver hoje triste, amanh˜a estar´a contente, assim assim ou
triste com probabilidade 0.2, 0.3 e 0.5, respectivamente.
Caracterize o processo.
6
Os ´ultimos exemplos s˜ao exemplos de cadeias de Markov de
primeira ordem porque a probabilidade de um estado depende
apenas do estado imediatamente anterior.
Exemplo 1.3.1.3 Suponhamos que o estado do tempo num
determinado dia depende apenas das condi¸c˜oes meteorol´ogicas
dos dois dias anteriores. Admitamos que se choveu ontem e hoje,
a probabilidade de chover amanh˜a ´e 0.7; se n˜ao choveu ontem
mas hoje sim, a probabilidade de chover amanh˜a ´e 0.5; se choveu
ontem mas hoje n˜ao, a probabilidade de chover amanh˜a ´e 0.4;
e se n˜ao choveu ontem nem hoje, a probabilidade de chover
amanh˜a ´e 0.2.
Caracterizemos o processo descrito.
7
Se quisermos uma cadeia com mais “mem´oria”, ou seja, que
a probabilidade de um estado dependa dos n estados imediata-
mente anteriores, ent˜ao estamos perante uma cadeia de Mar-
kov de ordem n. Estas s˜ao transform´aveis em cadeias de Mar-
kov de primeira ordem.
Exemplo 1.3.1.4 Uma cadeia de Markov de 3
a
ordem para mo-
delar o ADN ´e tratado como uma cadeia de Markov de 1
a
ordem
com 64 = 4
3
estados. Por exemplo, partindo do terno GCT, os
estados seguintes s˜ao
CTA CTC CTG ou CTT ,
em que as probabilidades de transi¸c˜ao correspondentes s˜ao, res-
pectivamente,
P(A|GCT) P(C|GCT) P(G|GCT) e P(T|GCT) .
8
Existem v´arios problemas em Biologia que podem ser modelados
por cadeias de Markov. Por exemplo,
• quando os dados e os padr˜oes n˜ao s˜ao t˜ao claros;
• quando se pretende arranjar um m´etodo que seja capaz de
reconhecer um padr˜ao, pelo que h´a que aprender com os
dados.
Defini¸c˜ao 1.3.1.2 Uma cadeia de Markov cujo espa¸co dos esta-
dos ´e constitu´ıdo pelos inteiros i = 0, ±1, ±2, . . . , ´e um passeio
aleat´orio se para algum 0 < p < 1,
p
i,i+1
= p e p
i,i−1
= 1 −p , i = 0, ±1, ±2, . . .
9
Exerc´ıcio 1.3.1.2 Consideremos um jogador que ganha ou
perde um euro em cada aposta com probabilidade p e 1 − p,
respectivamente. Determine a matriz de transi¸c˜ao, sabendo que
o jogador inicia o jogo com um euro e que decide parar de jogar
quando ficar sem dinheiro ou quando tiver em seu poder trˆes
euros.
Nota. Os estados 0 e 3 do exerc´ıcio anterior s˜ao denominados
estados absorventes porque uma vez atingidos n˜ao ser´a
poss´ıvel sair deles. Trata-se de um exemplo de um passeio
aleat´orio com barreiras.
Defini¸c˜ao 1.3.1.3 Um estado i diz-se absorvente se p
ii
= 1.
10
Consideremos
p
(n)
ij
= P[X
m+n
= j|X
m
= i] , i, j ≥ 0 e n ≥ 1,
ou seja, p
(n)
ij
´e a probabilidade condicional do processo transitar
para o estado j no instante m+n, encontrando-se no estado i
no instante m.
Do facto de uma cadeia de Markov ter falta de mem´oria, resulta
que
p
(n)
ij
= P[X
n
= j|X
0
= i] , i, j ≥ 0 e n ≥ 1.
11
Prova-se que
p
(2)
ij
= P[X
n+2
= j|X
n
= i] = P[X
2
= j|X
0
= i]
=

k=0
p
ik
p
kj
.
Exerc´ıcio 1.3.1.3 Considerando o exerc´ıcio 1.3.1.1, determine
a probabilidade do Evaristo depois de amanh˜a se encontrar
contente dado que hoje est´a triste.
12
Generalizando,
p
(m+n)
ij
= P[X
m+n
= j|X
0
= i] =

k=0
p
(m)
ik
p
(n)
kj
, m, n ≥ 0 e i, j ≥ 0.
As equa¸c˜oes anteriores s˜ao conhecidas pelas equa¸c˜oes de
Chapman-Kolmogorov e permitem determinar as probabili-
dades de transi¸c˜ao a n passos.
Por exemplo,
p
(3)
ij
= p
(2+1)
ij
=

k=0
p
(2)
ik
p
kj
ou p
(3)
ij
= p
(1+2)
ij
=

k=0
p
ik
p
(2)
kj
.
13
Se P
(n)
denotar a matriz de transi¸c˜ao a n passos, isto ´e,
P
(n)
=
_
¸
¸
¸
¸
¸
_
p
(n)
00
p
(n)
01
p
(n)
02
. . .
p
(n)
10
p
(n)
11
p
(n)
12
. . .
p
(n)
20
p
(n)
21
p
(n)
22
. . .
.
.
.
.
.
.
.
.
.
.
.
.
_
¸
¸
¸
¸
¸
_
ent˜ao as equa¸c˜oes de Chapman-Kolmogorov permitem concluir
que
P
(m+n)
= P
(m)
×P
(n)
,
pelo que
P
(n)
= P ×P
(n−1)
= P ×P ×P
(n−2)
= . . . = P ×P ×· · · ×P = P
n
.
14
Exerc´ıcio 1.3.1.4 Suponha que as transi¸c˜oes entre nucle´otidos
no ADN se fazem segundo uma cadeia de Markov com matriz
de transi¸c˜ao
A C G T
A 0.25 0.16 0.33 0.26
C 0.12 0.38 0.34 0.16
G 0.16 0.34 0.38 0.12
T 0.26 0.33 0.16 0.25
Se um segmento de ADN come¸car com a citosina, qual a proba-
bilidade do quarto nucl´eotido, a contar do in´ıcio, ser a timina?
15
Pode interessar-nos conhecer P(X
n
= j), a probabilidade abso-
luta do processo se encontrar no estado j no instante n, inde-
pendentemente do estado inicial.
Para o efeito, precisamos da distribui¸c˜ao inicial da cadeia, ou
seja, das probabilidades
P(X
0
= i) , i = 0, 1, 2, . . . ,
em que


i=0
P(X
0
= i) = 1.
Exemplo 1.3.1.5 Suponhamos que na an´alise de um segmento
de ADN temos a seguinte distribui¸c˜ao inicial
P(X
0
= A) = 0.3, P(X
0
= C) = 0.4,
P(X
0
= G) = 0.2, P(X
0
= T) = 0.1
16
Prova-se que
P(X
n
= j) =

i=0
P(X
0
= i)p
(n)
ij
j = 0, 1, 2, . . .
Exerc´ıcio 1.3.1.5 Considerando o exerc´ıcio 1.3.1.4 e as proba-
bilidades do exemplo anterior, determine a probabilidade de num
segmento de ADN o quarto nucle´otido ser a timina.
17
• Classifica¸c˜ao dos estados de uma cadeia de Markov
Defini¸c˜ao 1.3.1.4 Dizemos que o estado j ´e acess´ıvel a partir
do estado i se p
(n)
ij
> 0 para algum n ≥ 0.
No exerc´ıcio 1.3.1.4, todos os estados s˜ao acess´ıveis a partir dos
outros, pois p
ij
> 0.
Exemplo 1.3.1.6 A cadeia de Markov com matriz de transi¸c˜ao
P =
_
¸
_
1/2 1/2 0
1/2 1/4 1/4
0 1/3 2/3
_
¸
_
tem todos os estados acess´ıveis a partir dos outros.
18
Neste caso verificamos que
P
(2)
=
_
¸
_
1/2 3/8 1/8
3/8 19/48 11/48
1/6 11/36 19/36
_
¸
_ .
Defini¸c˜ao 1.3.1.5 Dois estados i e j dizem-se comunicantes
se qualquer um deles ´e acess´ıvel a partir do outro, e escrevemos
i ↔j.
A rela¸c˜ao “comunica¸c˜ao”verifica as propriedades:
i) i ↔i;
ii) se i ↔j, ent˜ao j ↔i;
iii) se i ↔j e j ↔k, ent˜ao i ↔k.
19
Os estados comunicantes formam uma classe de equivalˆencia.
Defini¸c˜ao 1.3.1.6 Uma cadeia ´e irredut´ıvel se todos os seus
estados s˜ao comunicantes.
Exemplo 1.3.1.7 A cadeia de Markov com matriz de transi¸c˜ao
P =
_
¸
_
1/2 1/2 0
1/2 1/4 1/4
0 1/3 2/3
_
¸
_
´e irredut´ıvel.
20
Exerc´ıcio 1.3.1.6 Determine os estados comunicantes da cadeia
de Markov com matriz de transi¸c˜ao
P =
_
¸
¸
¸
_
1/2 1/2 0 0
1/2 1/2 0 0
1/4 1/4 1/4 1/4
0 0 0 1
_
¸
¸
¸
_
.
Seja
f
ii
= P(processo revista o estado i a partir do estado i)
Defini¸c˜ao 1.3.1.7 Se f
ii
= 1, o estado i diz-se recorrente. Se
f
ii
< 1, o estado i diz-se transeunte.
Nota. Os estados absorventes s˜ao casos particulares de estados
recorrentes.
21
Um estado recorrente ser´a visitado um n´umero infinito de vezes,
enquanto um estado transeunte ser´a visitado um n´umero finito
de vezes.
Seja
N
i
= n
o
de instantes em que o processo se encontra no estado i, partindo deste estado.
Ent˜ao
N
i
Geom´etrica(1 −f
ii
).
Assim sendo,
E(N
i
) =
1
1 −f
ii
=
_
_
_
∞ , se f
ii
= 1
< ∞ , se f
ii
< 1
.
22
Numa cadeia de Markov finita (espa¸co de estados finito) pelo
menos um estado da cadeia tem que ser recorrrente.
Proposi¸c˜ao 1.3.1.1 Se os estados i e j s˜ao comunicantes, ent˜ao:
i) i ´e recorrrente se e s´o se j ´e recorrente;
ii) i ´e transeunte se e s´o se j ´e transeunte.
Da proposi¸c˜ao anterior concluimos que uma cadeia de Markov
finita e irredut´ıvel s´o possui estados recorrentes.
23
Exerc´ıcio 1.3.1.7 Considere as cadeias de Markov com matrizes
de transi¸c˜ao
a)
_
0 1
1 0
_
b)
_
¸
¸
¸
_
0 0 1/2 1/2
1 0 0 0
0 1 0 0
0 1 0 0
_
¸
¸
¸
_
c)
_
¸
¸
¸
¸
¸
¸
_
1/4 3/4 0 0 0
1/2 1/2 0 0 0
0 0 1 0 0
0 0 1/3 2/3 0
1 0 0 0 0
_
¸
¸
¸
¸
¸
¸
_
Identifique os estados transeuntes e recorrentes de cada cadeia.
Uma cadeia de Markov com matriz de transi¸c˜ao a) tem estados
com per´ıodo 2.
Por exemplo, se X
0
= 1, ent˜ao X
1
= 0, X
2
= 1, X
3
= 0, etc.
24
Defini¸c˜ao 1.3.1.8 Dizemos que um estado i tem per´ıodo d
(d > 1) se p
(n)
ii
= 0 para todo o n = d, 2d, 3d, . . . , sendo d o maior
inteiro positivo que verifica a propriedade.
Nota. Afirmar que o estado i tem per´ıodo 2 n˜ao quer dizer que
p
(2)
ii
= 1.
Um estado que possa ser visitado em dois instantes consecutivos
diz-se aper´ıodico (d = 1).
Exemplo 1.3.1.8 Se as transi¸c˜oes entre nucle´otidos (estados)
no ADN se fizer segundo uma cadeia de Markov com matriz de
transi¸c˜ao do exerc´ıcio 1.3.1.4, ent˜ao os estados s˜ao aper´ıodicos.
25
Proposi¸c˜ao 1.3.1.2 Se os estados i e j s˜ao comunicantes,
ent˜ao i tem per´ıodo d se e s´o se j tem per´ıodo d.
• Probabilidades limites ou estacion´arias
Consideremos novamente a matriz de transi¸c˜ao que descreve o
estado de esp´ırito do Evaristo (exerc´ıcio 1.3.1.1), ou seja,
P =
0 1 2
0 0.5 0.4 0.1
1 0.3 0.4 0.3
2 0.2 0.3 0.5
26
Ent˜ao
P
(9)
=
0 1 2
0 0.3387 0.3710 0.2903
1 0.3387 0.3710 0.2903
2 0.3387 0.3710 0.2903
Tudo indica que existe uma probabilidade limite do Evaristo se
encontrar num estado de esp´ırito num futuro distante, indepen-
dentemente do estado de esp´ırito dele hoje.
27
Um resultado importante sobre o comportamento a longo
prazo de uma cadeia de Markov ´e o
Proposi¸c˜ao 1.3.1.3 Numa cadeia de Markov irredut´ıvel e
erg´odica existe lim
n→∞
p
(n)
ij
e este n˜ao depende de i.
Nota. Uma cadeia de Markov finita irredut´ıvel ´e erg´odica.
Denotando por
π
j
= lim
n→∞
p
(n)
ij
j ≥ 0,
28
ent˜ao π
j
´e a ´unica solu¸c˜ao n˜ao negativa das equa¸c˜oes esta-
cion´arias
π
j
=

i=0
π
i
p
ij
com

j=0
π
j
= 1 e j ≥ 0.
Nota. As probabilidades π
j
tamb´em podem ser interpretadas
como probabilidades estacion´arias, isto ´e, se a distribui¸c˜ao
inicial do estado j for π
j
= P(X
0
= j), ent˜ao P(X
n
= j) = π
j
,
n = 1, 2, . . . .
29
As equa¸c˜oes estacion´arias para o processo que descreve o estado
de esp´ırito do Evaristo s˜ao
_
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
_
π
0
= 0.5π
0
+0.3π
1
+0.2π
2
π
1
= 0.4π
0
+0.4π
1
+0.3π
2
π
2
= 0.1π
0
+0.3π
1
+0.5π
2
×
π
0

1

2
= 1
Resolvendo o sistema de equa¸c˜oes
_
¸
¸
_
¸
¸
_
π
0
= 0.5π
0
+0.3π
1
+0.2π
2
π
1
= 0.4π
0
+0.4π
1
+0.3π
2
π
0

1

2
= 1

_
¸
¸
_
¸
¸
_
0.5π
0
−0.3π
1
−0.2π
2
= 0
0.4π
0
−0.6π
1
+0.3π
2
= 0
π
0

1

2
= 1
30
obtemos
_
¸
¸
_
¸
¸
_
π
0
= 21/62 ≈ 0.3387
π
1
= 23/62 ≈ 0.3710
π
2
= 9/31 ≈ 0.2903
.
Consequentemente, o Evaristo estar´a contente em 33,87% dos
dias, assim assim em 37.1% dos dias e triste em 29.03% dos
dias.
31
Exerc´ıcio 1.3.1.8 Consideremos o exerc´ıcio 1.3.1.4 em que
A C G T
A 0.25 0.16 0.33 0.26
C 0.12 0.38 0.34 0.16
G 0.16 0.34 0.38 0.12
T 0.26 0.33 0.16 0.25
Determine as probabilidades limite.
• Tempo de primeira passagem e de recorrˆencia
O tempo de primeira passagem entre os estados i e j ´e o
n´umero de transi¸c˜oes que leva o processo a visitar pela primeira
vez o estado j a partir do estado i.
32
Se j = i, o tempo de primeira passagem chama-se tempo de
recorrˆencia do estado i.
Consideremos
f
(n)
ij
= P(tempo de 1
a
passagem entre i e j ´e n)
Por exemplo, para calcularmos f
(2)
ij
basta atendermos ao es-
quema
X
0
X
1
X
2
i → = j → j
33
As probabilidades de 1
a
passagem podem ser calculadas recursi-
vamente
f
(1)
ij
= p
(1)
ij
= p
ij
f
(2)
ij
= p
(2)
ij
−f
(1)
ij
p
jj
.
.
.
f
(n)
ij
= p
(n)
ij
−f
(1)
ij
p
(n−1)
jj
−f
(2)
ij
p
(n−2)
jj
−· · · −f
(n−1)
ij
p
jj
Exerc´ıcio 1.3.1.9 Considere novamente o exerc´ıcio 1.3.1.1. Se
o Evaristo estiver hoje contente, qual a probabilidade de ficar
triste pela primeira vez depois de amanh˜a?
34
O tempo m´edio de primeira passagem entre i e j, µ
ij
, pode ser
calculado resolvendo o sistema
µ
ij
= 1 +

k=j
p
ik
µ
kj
sem recurso `as probabilidades de 1
a
passagem f
(n)
ij
.
Exerc´ıcio 1.3.1.10 Ao fim de quanto tempo, em m´edia, o Eva-
risto fica triste quando est´a contente?
35
Quando j = i, µ
ii
´e o tempo de recorrˆencia do estado i, e
µ
ii
=
1
π
i
, i = 0, 1, 2, . . .
Exerc´ıcio 1.3.1.11 Determine o tempo m´edio de recorrˆencia
do estado “triste”para o Evaristo.
36
• Aplica¸c˜oes das cadeias de Markov na an´alise de
sequˆencias biol´ogicas
As cadeias de Markov podem ser usadas para modelar a de-
pendˆencia da posi¸ c˜ao de um nucle´otido (amino ´acido) relativa-
mente ao do seu vizinho da esquerda.
Por exemplo, qual a probabilidade de observarmos a
sequˆencia
ATACGGC ?
37
Neste caso,
P(ATACGGC) = P(A)p
AT
×p
TA
×p
AC
×p
CG
×p
GG
×p
GC
.
Podemos pensar numa cadeia de Markov como um processo
de gera¸c˜ao de sequˆencias de qualquer comprimento finito L
(L ≥ 2), x
1
x
2
. . . x
L
, em que x
i
∈ A.
Assim sendo,
P(x
1
x
2
. . . x
L
) = P(x
1
)p
x
1
x
2
p
x
2
x
3
· · · p
x
L−1
x
L
38
Nota. As probabilidades iniciais P(x
i
) (π
i
) e de transi¸c˜ao p
x
i
x
j
(p
ij
) tˆem que ser conhecidas a priori.
Consideremos, por exemplo, genes de codifica¸c˜ao de
prote´ınas em organismos procariotas (e.g., em bact´erias).
Um gene procariota consiste numa regi˜ao de codifica¸c˜ao com
um cod˜ao de inicializa¸c˜ao (usualmente ATG, mas `as vezes
CTG ou TTG) e um cod˜ao de finaliza¸c˜ao (TAA, TAG ou
TGA).
As cadeias de Markov permitem modelar genes procariotas.
(sequˆencias open reading frames, ORF)
39
Nota. Na an´alise de sequˆencias biol´ogicas ´e usual considerar
dois outros estados, o estado inicial B e o estado final E
(estado absorvente) que traduzem, por exemplo, o in´ıcio e
o fim de um gene, respectivamente. Estes estados tamb´em
podem ser representados por 0.
Para gerarmos sequˆencias de letras com uma cadeia de Markov
as probabilidades iniciais e de transi¸c˜ao devem ser seleccionadas
de uma certa forma. Para o efeito, podemos usar dados reais
(training data).
Tamb´em h´a que admitir a priori um diagrama de transi¸c˜ao
entre os estados.
40
Diagrama de transi¸c˜ao entre os estados
41
Suponhamos que para um conjunto de sequˆencias de ADN n ge-
nes procariotas foram experimentalmente identificados. Ent˜ao
p
ab
=
N
ab

c∈A
N
ac
em que
N
ab
= n
o
de vezes que b precede a nos dados.
Nota. Se o nucle´otido a n˜ao figurar nos dados, ent˜ao estes
s˜ao insuficientes para estimar p
ab
. Podemos usar neste caso
pseudocontagens.
Quanto `as probabilidades iniciais p
0a

a
), a ∈ A,
p
0a
=
n
o
de vezes que a inicia a sequˆencia
n
.
42
Exemplo 1.3.1.9 Seja n = 4 e suponhamos que s˜ao dadas
sequˆencias que se conhecem serem de genes procariotas:
s
1
: ATGCTATTGATTTAA
s
2
: GTGAAAGACTTCTAA
s
3
: ATGCCCGATGAACGCTAG
s
4
: ATGAAGCATGATTAA
Ignorando os cod˜oes de inicializa¸c˜ao e de finaliza¸c˜ao (a azul), ou
seja, considerando apenas os ORF correspondentes:
p
0A
=
1
2
, p
0C
=
1
2
, p
0G
= 0, p
0T
= 0.
43
p
AA
=
4
13
, p
AC
=
2
13
, p
AG
=
2
13
, p
AT
=
5
13
, p
A0
= 0
p
CA
=
1
9
, p
CC
=
2
9
, p
CG
=
2
9
, p
CT
=
2
9
, p
C0
=
2
9
p
GA
=
5
7
, p
GC
=
2
7
, p
GG
= 0, p
GT
= 0, p
G0
= 0
p
TA
=
1
10
, p
TC
=
1
10
, p
TG
=
3
10
, p
TT
=
3
10
, p
T0
=
2
10
Consequentemente, se tiv´essemos admitido o diagrama de
transi¸c˜ao atr´as, este teria que ser corrigido em fun¸c˜ao dos dados.
44
Exemplo 1.3.1.10 Se quisermos estimar as probabilidade P(A),
P(C), P(G) e P(T) a partir das sequˆencias
ACCGCGCTTA
GCTTAGTGAC
TAGCCGTTAC
as estimativas de m´axima verosimilhan¸ca s˜ao
P(A) =
6
30
= 0.2, P(C) =
9
30
= 0.3, P(G) =
7
30
= 0.23, P(T) =
8
30
.
45
Suponhamos agora que desejamos usar o modelo obtido para
determinar se uma sequˆencia n˜ao identificada de ADN ´e a
sequˆencia de um gene procariota.
• Procura-se um cod˜ao de inicializa¸c˜ao e o primeiro cod˜ao de
finaliza¸c˜ao que o segue na esperan¸ca de que o segmento
obtido seja um gene.
• Pode acontecer que dois cod˜oes de inicializa¸c˜ao sejam en-
contrados sem um cod˜ao de finaliza¸c˜ao entre eles (50% dos
casos). Qual o ORF que corresponde ao gene?
46
A sequˆencia n˜ao identificada de ADN s = x
1
x
2
. . . x
L
´e tratada
como se fosse gerada por uma cadeia de Markov, pelo que
P(s) = P(x
1
x
2
. . . x
L
) = P
0x
1
p
x
1
x
2
p
x
2
x
3
· · · p
x
L−1
x
L
p
x
L
0
Se P(s) for grande comparativamente a um valor estipulado,
ent˜ao existe uma boa chance da sequˆencia provir de um gene
procariota (desde que os dados sejam representativos).
Nota. Dada a simplicidade do modelo podemos obter negati-
vos falsos (baixas probabilidades) ou positivos falsos (elevadas
probabilidades).
47
Exemplo 1.3.1.11 Se considerarmos a sequˆencia n˜ao identifi-
cada de ADN
ATGCTAGTGATTGATTAA
ent˜ao existem dois poss´ıveis genes procariotas
s
1
: 0CTAGTGATTGAT0
s
2
: 0ATTGAT0
Considerando os dados do exemplo 1.3.1.9, vem
P(s
1
) = 0, (p
GT
= 0)
e
P(s
2
) = p
0A
p
AT
p
TT
p
TG
p
GA
p
AT
p
T0
=
1
2
×
5
13
×
3
10
×
3
10
×
5
7
×
5
13
×
2
10
=
2250
2366000
≈ 0.00095
48
A an´alise de genes para a codifica¸c˜ao de prote´ınas em organis-
mos eucariotas ´e mais complicada porque as regi˜oes codificantes
chamadas exons s˜ao interrompidas por regi˜oes n˜ao codificantes
denominadas introns. Neste caso, a pesquisa de genes pode ser
feita recorrendo a cadeias de Markov escondidas.
49