You are on page 1of 135

大 逢 經 ^ 大孝



DA L I A N  U N V E R S T Y  O F  T E C H N O L OG Y
I I 

擴 士字 位论 文


D O C T O R A L D S S E R T AT
I I ON


^ 

P r e d i c t i o n  o f p l a n t  l o n g  n o n c o d i n g  RN A s  i n t e r a c t i o n s


w i t h p r o t e i n s b yd e e p  l e arn i n g

C o mp u t e r App l c at i o n  T e c h n c
学科专 业 
 i

o gy

作者姓名 _ 
J a e lS an y an d a W ek e s a

指导教 师 


答辩 日 期 
_ _ _
2〇2 1

_ _

_
^ _
5 0
_ 


Pr e di c t i o n  ofp l an t  l o n g  n o n c o di n g 
RNA s  i n t e r a c t i o n s  w i th

p r o te i n s  by  de ep  l e a r n i n g

基于 深度学 习 的 植物 I n c RNA

prot e i n 相 互作用 预测研宄



by

J ae l S an y a n d a  W e ke s a


1 1 709 0 72 )

t 

S c h o o l  of C o mp u t e r Sc

 i e n c e  a n d  Te c h n o l o gy

i n p a r t i a l  fu l f i l l m e n t  o f

 t he  re q u i r e m e nt s

fo r  t h e  d e g r e e  o f

Doc t o ro f P h i l o s op hy

i 

C o mp u te r  App li c a t i on  Te c h n o l o
gy

on

Ju ly 2 02 1


D i s s e rt at i o n  S up erv i s o r

P r ofe s s o r Me n g Ju n

 

大 l理 i 工 大#


Da l i an Un i ve r s it
yo f  T e c hn o l o gy


Da l i an  Un i v e r s i ty  o f  T e c hn o l o g y  D i s s e r t at i o n

Or i
gi
nal it
y  D e c l a r at i o n

I d e c ar e  t h a t
l  t h i sd i s s e r t at i o n  i s  t h e  r e s u l t  o f  i n d e p e nd e n t  r e s e a r c h  I  h a v e  m a d e  u n d e r  t h e

su
p e rv i s i o n  o f  my  s u p e r v i s o r .  I t  d o e s  n o t  c o n t a i n  an y  p u b l i s he do ru np u b l i s h e d w o r k s  o r

a r c h  r e s u l t s  b y  o t h e r  i n d i v i d u a l s  o r  i n s t i t ut i o n s  a h o s e  t h a t  h a v e  b e e n  r e fe r e n c e d


re s e
p a r t  fr o m t

i n  t h e  fo r m  o f  r e fe r e n c e s  o r  n o t e s . A ll i n d i v i d u a l s  a n d  i n s t i t u t i o n s  t h at  h a v e  m a d e

c o n t r i b ut i o n s  t o  m
y  r e s e a r c h  h av e  b e e n  a c k n o w l e d g e d  i n  t h e  A c kn o w l e d g e m e nt 

I  a m  fu l l
y  aw a r e  t h at  I  w i l l  b e ar  a l l  t h e  l e g a l r e s
p o n s i b i l i t y  a r i s n g  fr o m  t h e  v o a t i o n  o
i 

f i l

t h e  a b o v e  d e c a r at o n l i 

D i s s e rt at i o nT i t e l : P red i c ti o n  o f
 p l an
tl o n g  n o nc o d n g  RN i A s i nt e r ac t i o n s  w i t h  p r o t e n s  b y

 i

de e
p  e arn n g
l i


Au t h o r  S g n at u r e
i : J Af
c LJ A H ^ Ac hl bA    D at e :
 I〇 _

_
6 _
/2 02 1


大连理工 大学 学位论文独创 性 声 明

作者郑重 声 明 :
所呈 交 的 学位论文 ,
是 本人在 导 师 的 指 导 下 进 行研 究

工 作 所 取得 的 成果 。 尽我所知 ,
除文 中 已 经注 明 引 用 内 容和 致谢 的 地方 外 

本论 文 不 包 含其他 个 人或 集体 已 经发表 的 研 究 成果 ,
也 不 包 含其他 已 申 

学 位或 其他 用 途使用 过 的 成 果 。 与 我

同 工 作的 同 志 对本研 究 所做 的 贡 献

均 已 在论 文 中 做 了 明确 的 说 明 并表 示 了 谢意 

若有不 实之处 ,
本人 愿 意 承担相 关 法 律 责 任 

学 位论文题 基于深度学 习 的 植物 n c RN A n 相 互作用 预测研究




目 :

p r o t e i

作 者 签 名 : 1 A&L  日 期 :
2 0 2 1 年 _ _
[ 月 1 0 日


Da l i an  Un i ve r s i t
y of

 Te ch no l o gy  D o c t o r a l  D i s s e r tat i on

A b s tr a c 

I d e n t i fy i n g  R N A b i n d n g  p r o t e i n  s i t e s  -

i i sc r i ti c al  t o  c e l l b i o l o g y attr an s c r i pt i o nal 



po st

tr a n s c ri

ti o n a l  t r a n s l at i o n a l  a n d  p o s t
, ,

tr a n s l at i o n a l  l evel s . S t u d e s  h a v e  r e v e a l e d  t h at
i 

I n c R N A s  e x e r t  r e g u l at o r y  e ffe c t s  o n  v a r i o u s  b i o c h e m i c a l
p
a t h w a y s  p a r t l y  t hr o u g h  i nt e r a c t i n g

w i t h  D N A  R N A  a n d  p r o t e i n s  N o t ab l y p r e d i c t i n g  t h e  n t e r a c t o n  b e t w e e n  n c R N A s  and
, ?
. 
 ,
i i I

y i n g  m o e c u l a r  m e c h a n i s m s  u n d e r s t a n d i n g  t h e  p at h o g e n e s i s  o
s  e s s e n t i a l  fo r  s t u d 


pro e n s
t i i l

d i s e as e s  and  d e c i
, p h e ri n g Inc R N A  fu n c ti o n s  T h e r e fo r e  b u i l d i n g  a  h i g h


p e r fo r m i n g  s y s t e m

fo r
 p r e d i c t i ng l nc RN
A -

p r o t e i n  i n t e r a c t i o n  a n d  s ub s e q u e n t  fun c t i o n a l  a nno t a t i o n  fo r  I n c RN A s

a r e  c r u c i a l  fo r  c r o d e v e l o p m e n t  a n d  r e l at e d  r e s e a r c h
p


T h i s  d i s s e rt at i o n  a i m s  t o  i n v e s t i g a t e  t h e  i nt e r s e c t i o n  o f p l a n t  g e n o m i c s  a n d  d e e p  l e a r n i n g

 

F o r  v e r s a t i l i t y  an d  t o  e x lde s i
c on sider i n
g  d i ffe r e n t  k i n d s  o f d at a  fo r m s p o r e  d ffe r e n t  m o d e gn


 .  l i

p r i n c p e s  bi o o g i c a
i l

l l  nfo r m at
i i o n  b a s e d  o n a  v a r i a nt  o f  fe at u r e  e x t r a c t i o n a n d  s e l e c t i o n

m e t h o d s  a r e u s e d  t o  d e v e l o p
 n c R N A p r o t e n n t e r a c t o n  p r e d c t i o n a l
g o r i t hm s F un ct on


l i i i i . i

i n fe r e n c e  b a s e d  o n  t h e  i n t e r a c t i o n s  i s  p e r fo r m e d .  T he e xp e r i m e nt s  w e r e  p e r fo r m e d  o n

A r a b dop s i i s  t h a l i a n a  a n d Ze am ays  d a t as e tst ov e ri f


y
the
 p e r fo r m a n c e  o f  t h e  p r o p o s e d

m eth o ds .  T he  c e nt r a l h
yp o th e s i s  i s  t h a t  I n c R N A s  w i t h  n o  kn o wn  f un c t i o n s  th a t  i n t e r a c t  w i th

s i m i l ar
p
ro t e i n sma l n e d  fr o m  t h e  a n a l y s i s  o f
y  d i s p l a y  s i m i a r  f un c t i o n s  w h c h  c o u d  b e  e a r ,

 i l l

t h e i r  n t e r a c t i o n  p a r t ne r s
i .  T h e m a i n c h a l l en
ge s  i n c l u d e  fe a t u r e  e n g n e e r n g  an d  t h e

 i i

n t e r p r e t at i o n o f  r e p r e s e nt at i o n s  l e a r n e d b y  d e e p  e a r n i n g  m o d e s al i
g n e d  fo r  t h e  t a r g
i l l et

d o m a i n / g e n o m e  kn o w l e d g e 

F n  e ffi c i e n t  d e e p  l e a r n i n g  m o d e b as e do no sed




i r st l
y , a

p t ma i l s e
q u e n c e  fe at u r e s  i s
 p ropo

t o
p
re d i c t  i nt e r a c t i o n s  b e tw e e n  I n c RN A s  an d  p r o t e i ns .  A r e c ur re n t n e ur a l n etwo rki sa
pp l i ed

g e  i n fo r m at i o n  d e p e n d e n c i e s  s i n c e  n c R N A s  a r e  c h a r a c t e r i z e



p u r e  c o n e x u a  l o ng
oc a ran

t t t t l I

b yl o ngs e qu e n c e s .  T he n ,  fe at u r e  s e
l e c t i o nu s i n
g  a  r e c u r s i v e  fe at u r e  e l i m n a t i o n  a g o r i t hm 
i l i 

em
pl o y e dt oach ev eopti m a i l
 p e r fo r m a n c e .  T h emo d e l ac h i e v e d 8 8 . 1 2 %  an d 9 0 7 4 . % ac c ur ac y

fo r  t w o
 p a nt  s p e c i e s
l 



S e c o nd l y  a  gr a p h b a s e d  d e e p  l e a r n i n g  m o d e l  t h a t  u s e s  g r a p h  r e p r e s e n t at i o n e a r n i n g  a nd
- -


s t r u c t ur a l  fe a t u r e s  i s  p r o p o s e d  fo r  t h e  p r e d i c t i o n  o f  n c R N A p r o t e i n  i nt e r a c t i o n l

. The

e ffe c t i v e n e s s  o f us n g  c ha o s  g am e  r e p r e s e nt at i o n  t o g e t h e r  w i t h g ra
p h  a t t e nt i o n  


i i

d e m o n s t r a t e d  i n  th e  m o d e l .  A c c ur a c i e so f 8 5  . 76 %  an d9 1 . 97 %  w e r e  o b t ai n e d  b y  t h e  m o d e l 

Th i rd l
y ,  a m u l ti

mo de l  e n s emb l e  de ep l e ar n i n
g  m e t h o d  t h a t  i nt e g r at e s

se
qu
enc e s t r u c t ur a l  fe a u r e s  a nd  i m p l e m e n t s  s e f at t e n t o n m e c h a n i s m s   p r o p o s e d 



t l i i t

d e m o n s t r at e  s c a l a b i l i t y  an d  n t e r p r e t a b i y  n  t h e  p r e d i c t i o n  o f  n c R N A p r o t e i n  i nt e r a c t i o n

i l it i l 

T h e  t e c hn q u e s  e m p o y e d  r e s u i l l ti i c a n t y  h g h  p e r fo r m a n c e  w i t h  8 9 5 0 %  a nd  9 2 3 2 %
n  s i gn i f l i 
 . .

a c c u r a c y fo r  t w o  p l an t  s p e c i e s 

- 


P re d i c ti on of
p an
lt  on
g nonc od ng




RN A s  nt e ra c ti i on s w  i t h
 p ro t e n s  b y  d e e p  e a r n i n g
i l

L as t y ah
y b r i d  m e h o d  h a  i n e g r a e s  a  d e e p  n e u r a l  n e w o r k  an d  e n s e m b e  l a r n i n g
t t t t t t e

, 
 l

hm s d  Th e  m e th o d p r e d i c t s  n c RN A h
al g o r ro
pose p r o t e i n  i nt e r a c t o n s  a n d  a n a l y z e s  t e

t s
p
i i I i

i n t e r a c t i o n s  fo r  fu n c t i o n a l  a nno t at i o n  o f  I n c R N A s .  The  e x p er i m e nt a l  r e s u l ts  s h o w  t h a t

se
q u e n c e  n fo r m a t i o no n l y p o d c s 
i r u e a  r e l i a b l e  p r e d i c t o n o f  i n t e r a c t i o n
p a r t n e r s  b e c a u s e

 i

I n c R N A p r o t e n  nt e r a c t o n  i s  l a rg e l y  i nf u e n c e d  b y  s e q u e n c e  c o m p l e m e nt a r

i i i l i t
y .  A c c ur a c i e so f

89 98 . %an d9 3 . 44 %  fo r  t w o  p l an t  s p e c i e s  w e r e  a c h i e v e d  T h e  k e y  fa c t o r s  t h a t  i n f u e n c e  t h e
. 
 l

p e r fo r m a n c e  o f  t h e  d e e p  e ar n i n g b a s e d
p re d i c t i o nm e t h o d s  a r e  i n v e s t i
ga e
d  hu s


l t t

d e m o n s t r at i n g  t h e  r e s e a r c h  v a u e  o f l  t h i s  d i s s e r t at i o n  o n  i mpr o v i n g  i n t e rac t i o n  p r e d i ct i o n T h e
. 

fr a m e w o r k  c o n t a i n s  m e t h o d s  fo r  t h e  i n t e g r at i v e  a na l y s i s  o f  l a r g e

s c a l eI nc RN A andp ro te n

 i

d a t a  fo r  n t e r a c t o n  p r e d i c t o n  a n d  fu n c t o n a l  a n a l y s i s  I t 
i i i i . i s  a nt i c i
p a e d  t h at  t h e  p r o p o s e d
t 

m e t h o d s  h o l d  g r e at  p r o m i s e  t o  b r o a d e n  o u r  kn o w l e d g e  o f  p l a nt  I n c R N A p r o t e i n  n t e r a c t o n

 -

i i

andI n c R NA  fu n c t i o na l  r e s e ar c h 

K e yw o r d s : L o n
gn o n c o
d i n g  R NA

; Pr ote i n ;  I nt e r a c t i on ; 
D e ep 
l e arn i n g ; 
Pre d i ction

- 

I I
Da li an  Un i v e rs i t
y 
of  Te c hn o l o g y  D o c t or a l  D i s s ertat i o n



摘 要

RN A 结合蛋 白 位 点 的 鉴 定 对细 胞生 物 学在 转录 、
转录 后 、 翻 译和 翻译 后 水平 至 关


重要 。
研 宄表 明 , I n c RN A 可与 D NA 、 RN A 和蛋 白 质 相 互 作 用 从而 调 节 各 种 生化过程 

值 得注意 的 是 ,
I n c R NA 与 蛋 白 质 相 互 作 用 的 预测 对 于 研 宄 分子机制 、 了 解疾病 的 发病


机 理 以 及 解释 nc RN A 的功能是必要的 因此 构建 个 高 性 能 的 系 统来预测 nc RN A


I 。 , I

与 蛋 白 质 相 互作 用 , 对其功 能进行注释 ,
对农作 物发展和 相 关研 宄具有重要 意义 

本文 旨 在 基于 不 同 的 数据 形 式探讨 植 物 基 因 组 学 与 深 度 学 习 的 交叉 。
为 了 通用 性和

探索不 同 的模型设计 原 则 , 利 用 生物信 息 技 术 基 于 不 同 的 特 征 提取和 选择方法来开 发




I nc R N A -

蛋 白 相 互 作 用 预测 算法 ,
并基于 互 作 关系 进行功 能推测 。
在拟南芥和 玉 米数据


集上 进 行 了 实验 , 验证所提 出 方法 的 性 能 。 中 心 假设是指 未知 功 能 的 I n c RN A 可能与相


似蛋 白 相互作用 并展现 出 相 似的 功 能 , 这可 以 通过 分析 它 们 的 相 互 作 用 得 以 了 解 。 其主

要 的 挑 战包 括特 征 工 程 以 及 针 对 目 标域 基 因 组 知 识 的深度学 习 模型 学 习 到 的 表征解释
/ 

首先 ,
提出 了 基于 最优序 列 特征 的 高 效深度 学 习 模型 来预测 I nc RN A 与蛋 白 质 的相


互作用 。 由于 I nc RN A 序 列 较长 , 因 此使用 循 环神 经 网 络来 捕 获上 下 文长程信 息 依赖 性 

然后 采用 递 归 特征 消 除算法进行特 征 选 择 以 获 得最优 的 性 能 。 在两个植物物种 上 分 别 获




得 了8 8 . 1 2 %和 9 0 74. %的准确率 

其次 , 提出 了 使 用 图 表示 学 习 和 结 构 特 征 的 深度 学 习 模型 来 预测 I n c RN A 和蛋 白 


的 相 互作 用 。 该模 型 证 明 了 混沌 博弈 表 征 和 图 注 意 力 相 结 合 的 有 效性 , 在两个植物物种


数据 集上 的 准 确 率 分 别 达 85 . 76 %和 9 1 . 97 % 

第三 , 提 出 了 融 合序 列 及 结 构 特 征 和 采用 自 注 意 力 机制 的 多 模 态 集 成 学 习 方 法 , 

明 了 模型 在 I n c RN A 和 蛋 白 质 相 互 作 用 预 测 中 的 可 扩 展 性 和 可 解释 性 。 所采用 的 技术显

著提高 了 性能 , 在 两 个 植 物 物 种 数 据 集 上 分 别 获 得 了8 9 . 50 %和 92 3 2 . % 的 准确率 



最后 , 提出 了 深度神 经 网 络和 集成学 习 的 混合算法 并预测 I n c RN A 和蛋 白 质 的相互



作用 ,
并分析相 互作 用 对 I nc RN A 进行 功 能注 释 。 实验结 果表 明 , 由于 I n c RN A -

蛋 白 


相 互 作 用 很 大 程度 上 受 序 列 互 补 性 影 响 ,
序 列 信 息 只 能可靠预测相 互作 用 。 在 两种植物


物种 上预测 的 准确 率 分别 为 89 98. %和 93 . 44 % 。 又研 究 了 影 响 深度 学 习 预测 性 能 的 关键


因素 , 证 明 了 提 出 方法对 相 互 作 用 预测 改进 的 研 究 价值 本 文 框 架 包 含 了 大规模 。 I n c RN A

和 蛋 白 质 数据 的 综合分析 方法 ,
以 用 于 相 互作用 预测 和 功 能分析 。
期 望所提 出 的 方法具


有广 阔 的前 景 , 以 扩展对植物 I n c RN A 与 蛋 白 相互作 用 以及 I n c RN A 功 能研 究 的 认识 

关键词 :
长链 非编码 R NA ; 蛋 白质 ; 相互作 用 ; 深度学 习 ; 预测

- 

I I I
P re d i ct i ono f
p l ant  o n l
g n on c o

d n
g  R N A s  i n t er a c t o n s  w i t h p r o t e n s  b y  d e e p  e a r n i n g
i i


i l

TA B L E  O F  C O N T E N T S

Ab s tr ac t  

m 胃  h 

T A B L E O F C O N T E N T S    I 

L i sto f  F i gur e s    V II

L i st  o f  T ab l es  V I I I

Ab b rev i at i o n    . . I 

1I nt r o d u c t i o n      

1 . 1  O v e rv i ew  

1 . 2 M o t i v at i o n   

1 . 3  R e s e ar c h  o bj e c t i v e s   

1 . 4T he d i ss e rt a t i o n  s i
gn i f i c a n c e  a n d  c o nt r i b u t i o ns 


1 . 5  O r g an i z at o n  o f
i  t h e  d i s s e r t at o n i        7

2 B i o l o g i c a l  p e r s p e c t v e  a n d  a p p r o a c h e s  fo r  i n fe r r i n g  l n c R
i NA -

p r o e n  i nt e r a c i o
t i t ns . . . . .  

2 . 1 C l a s s i fi c a t i o n , 
b o g e ne s i s

, a n d  fu n c t i o n s  o f  I n c R NA s  

2 . 1 . 1 H i
gh

t hr o u g h
pu
tt e c hn o l o
g e s  fo r  p r o b i n g  m e c h a n i s m s  o f
i  I nc RN A s . . 1 

2 . 1 . 2  T h e  m o l e c u ar  s t r u c tu r e  o f l  I n c RN A s . .  1 

2 . 1 . 3  L n c RN A s i n  t h e  p a nt  r e s p o n s e  t o  b i o t i c  an d  a b i o t i c  s t r e s s
l   . 1 

2 . 1 . 4  A s s o c at o n  o f i i  I n c RN A s  w i t h o t he r  b i o m o l e c u l e s  1 

2 2 . F e a t u r e  e x tr a c ti o n  a n d  e n c o d i n g        1 

2 . 1 . 1 F ea t u r e  e x tr a c t i o n    1 

2 2 2  F e at u r e  e n c o d i n g
. .    24

2 3 . C ompu t at o n a
i l a
pp r o a c h e s  fo r  l n c
R N A p ro t e n 

i i nte r act o n p re d c t o n
i i i  26

2 . 3 . 1  S ha l l o w  m a c h n e  l e ar n i n g  a
pp r o a c h e s
i   26

2 . 3 . 2 D e ep 
l e arn i n
g  ap p r o a c h e s    28

2 . 3 . 3  G r ap h -

b a s e d  a n d  i nt e g r at e d  l e a r n i n g  m e t h o d s  32

2 4 . D a t a s e t s  a n d  p e r fo r m a n c e  e v a u a t i o n  m e t r i c s l . . . .    3 

2 4 . . 1  D at a s e ts  

3 

2 4 2  E v a l u at i o n  m e tr c s
. . i        3 5

2 5 .  S umm a r y   3 6

3 I t e r at i v e  fe a t u r e  s e l e c t i o n  w i t h  r e c u r r e nt  n e u r a l ne t w o r k  fo r  n c R N A p r o t e i n

 l

i nt e r a c t i o n  p r e d i c t i o n      3 7

3 . 1  I ntro du c ti o n    3 7

3 2  R e c u r r e n t  n e u r a l  n e t w o r k s  fo r  fe a t u r e  l e a r n i n 3 9


g   

3 . 3S e
que
n c e  fe at u r e  e x t r a c t i o n  b y  S V M -

RF E   40

I V 


Da l i an  Un i ve rs i t
y of
 Te c h n o l o gy 
D o c to ra Dl  i s s e r t at i on

3 . 3 . 1 F e a t u r e  e x t r ac t o n  a n d  s e i l e ct i o n    40

3 . 3 2 . M o de lt rai n i n
g      4 

3 . 3 . 3  P a r am e t e r  s e t t i n g  42

3 . 4E xp e r
i m e nt a l re s ul t sa nddi s c u s s i o n  43

3 . 4 . 1  P re d i c t i o n  p e r fo r m a n c e  43

3 . 4 2 .  C o mp ar
i so n  w i th o t h e r  m e t h o d s    44

3 . 5  S umm a r y    46

4  A  g r ap h a tt e n t i o nn e u r a l  n e wo r k  b a s e d  o n s e q u e n c e  a n d  s t r u c t u r e  fe at u r e s  fo r
t 

l n c R N A p r ot e i n  i nt e r a c t i o n  p r e d i c t i o n

 48

4 . 1I nt r o d u c t o n i . .  48

4 2  Gra h b as e d p re d

i ct i o n  m o d e l s 50



.   

4 3  S e u e n c e  a n d  s t r u c t u re  fe a t u r e s  e x t r a c t e d  b y  g r a p h  a t t e n t i o n  n e u r a l  n e t w o r k  5 



. . .

4 3 . . 1 G r ap h  at t e nt o n  n e t w o r k
i . .  52

4 . 3 . 2  C l a s s i fi e r  c o n s t r uc t i o n  54

4 . 3 . 3  Im
p e m e n a i o n  a n d  p a r am e t e r  s et n g s
l t t t i      55

4 4 . .  E xp e r i m e nt a l  r e s ul t s  a n d  d i s c u s s i o n  56

4 4 . . 1 Ab l a t i o n  s t ud y  57

4 4 2  C o m p a r i s o n  o f d ffe r e n t  c l a s s f e r s
. .  i i i  5 8

4 4 3C o m d i ffe r e n t  d e e p
. .

p ar i s o no f 


l e ar n i n
g  m e th o d s  59

4 5  S um m ar y
.    60

5  D e epmu lti

m o d e l  e n s e m b l e l e a rn i ng ba sed o nm u l ti


fe at u r e  fu s i on  fo r

l n c RN A p r o t e n i nt e r a c ti o n p r e d i c t i o n

i    62

5 . 1  I nt r o d u c t i o n    62

5 . 2  H e t e r o g e n e o u s  fe a t u r e  i n t e g r a t i o n    64

5 . 3 Ex tr ac t n i
gs


u e n c e  a n d  s t r u c t u r e  fe a t u r e s  b y  d e e p  e n s e m b e  e a r n n g l l i  65

5 . 3 . 1  O v e rv i ewof  t he p re d i cti o nm o d e l  65



5 . 3 . 2  F e at u r e  f u s i o n    66

5 3 . . 3I m
p l e m e n t at i o n  o f  t h em o d e l  68

5 . 4  E x p e r i m e nt a l  r e s u l t san dd i s c us s i on  70

5 . 4 . 1 Pre d i c t i o n  p e r fo r m a n c e    70

5 . 4 2C o mp ar
. i s o nw i t h  o t h e r m e th o d s   7 

5 . 5  S umm ar y        74

6  F un c ti o n a l  i n fe r e n c e  b a s e d  o n  l n c R NA -

p r o t e ni nt e rac t o n s
i i    76

6 . 1  I nt r o du c t o n i      76

6 2 . F unct i on so f  I n c RN A s  b a s e d o n t he i r i nt e r a c t o n s w i t h p ro t e i ns i  78

6 3 S e q uen c e b as e de n s e mb ede e


p  e a rn n g 78


. l l i  

v 


P re d i ct i o n  o f p an t  o n g n o n c o d n g  R
l l

i NAs i n t e r ac t o n s w i t h  p r o t e n s  b y  d e e p  l e a r n n g
i  i i

6 4 . Au to e n c o d e r  fo r r e p r e s e nt at i o n  l e a r n i n g
  79

6 4
. . 1  I nt e r a c t i o n  b e t w e e n  I nc R N A  an d  p r o t e i n      80

6 4 2
. .  S e qu e n c e  fe at u r e  e n c o d i n g    8 

6 4 3
. . T ra i n i ngw i t h  m x e d  n o r m  c o n s t r a nt
i i  
   82

6 4 4
. . C l a s s i fi e r  c o n s t r u ct i o n     8 3

6 4 5
. .  I m p l e m e n t a t i o n  a n d  o p t i m i z at i o n    84

6 5 .  E x p er i m e nt a l re s u lt s  a n d  d i s c u s s i o n  86

6 5
. . 1  P re d i ction
 p e r fo r m a n c e    86

6 5 2  C o m p ar
. . i s o n  w i th  o t h e r  m eth o d s      8 7

6 5
. . 3  F un c ti o n  an a l y s i s  90

6 6 .  S u mm a r y    92

7  C o nc l u s i o n  an d  p e r sp e c t v e i .    94

7 . 1  C o nc l usi o n          94

7 2 .  F ut u r e  w o rk         96

Abs tr ac t  o f  I nn o v a t o n  P o nt s i i        98

R e fe r e n c e s         1 00

P ub l i c a t i o n s  d ur i n
gP h D P er o d i  . 1 1 

论 文 内 容概述  1 1 

A c kn o w l e d gm e nt  1 1 

Abou tt h e  A ut ho r          1 20

Da l i a n  U n i v e r s it y  o f  T e c hn o l o g y  D o c t o r a l  D i s s e rt at i o n  C o p y r g ht  U s e  A u t h o r i z a t i o n  1 2
i 

大 连理 工 大 学 学 位 论 文 版权使 用 授权 书    1 22

V I



Da l i an  U n ve rs i t
yof i  T e c hn o l o gy 
D o ctora D l  i s s e r t at i on

L i s to fF i
gu e s
r 

F ig . 1 . 1  S t ud y  o u t l i n e  o f  t hed i s s e rt at i on  

F g
i . 2 . 1 C l as s i f c ati o n o f i  I n c RN A s  a n d  e x am p l e s  o f  I n c RN A s ine a c h c l a s s  1 

F g
i . 2 . 2  T h e  r e l at o n s h i p  am o n g  D N A i
, 
RN A , 
an d p r o te i n s

 1 

F g
i .  2 3  S h a l l o w  an d  d e e p  m a c h i n e  e a r n i n g  a l g o r
. l i t hm s  d e v e l o
p m e nt  ti me l i ne  26

F g
i . 2 . 4  T h e  n e t w o rk  s t ru c t u r e  o f C S A E   3 

Fi g . 3 . 1 F l o w c h ar t  o f t h e  p r o p o s e d  m e t h o d     40

Fi g . 3 . 2D e ep

L S T M  ar c h i t e c t u re        42

F g 3
i . . 3  P e r fo r m a n c e  c o m
p a r i s o n  b e t w e e n  p r o p o s e d  m e t h o d  w i t h  fe at u r e  s e l e c t i o n  a n d

w i t h o u t  fe at u r e  s e l e c t i o n  . . 44

F i g  3 4  R O C  c ur v e s  c o m p a r
. . i s o n  o f  d ffe r e n t  m e t h o d s
i ,

 ( a )  a n d  ( c )  o n  A r a b dop s i s

 i

t h a l i an a ^
(
b) , a n d  ( d )  o n  Z e a  m ay s  d a t a s e t  46

Fi g .  4 . 1 F o w c h art  o f t h e  p r o p o s e d  m e t h o d
l     52

Fig .  4 2  G r ap h  A t t e n t i o n  N e u r a
. l  n e t w o rk  ar c h i t e c t u r e . . .    5 3

F g
i .  4 3  P e r fo r m an c e  o f
.  t h e p rop o s e d m e t h o do n

 t w o  p ant  s p e c i e s l    57

F g  4 4  A c c u r a c y  c o m p ar
i . . i so n  b e t w e e n  G P L P I  a nd  o t h e r  c l a s s i fi e r s  o n  t h e  Ze a  m ays

d at a s e t . . . . .      59

F g 4
i . . 5 R O C c ur ve s c o m p ar i s o n s b e tw e e n G P L P I  a nd  t h r e e  o t h e r  m e t h o d s  fo r  ( a )

A r a b dop s i i s  t h a l i a n a  a nd  ( b )  Ze a  m ay s  60

F g
i . 5 . 1  T h e  f o w c h art  o f
l  t hep r o p o s e dm e th o d    65

Fig .  5 2  I l l u s t r a t i o n  o f  fe a t u r e  e x t r a c t o n
. a
( )
i , Me t h o d s  u s e d  t o  e x t r a c t  s e q u e n c e  fe a t u r e s 


b )  S e c o n d a r y  s t r u c t u r e s  p r e d i c t e d  u s i n g  R N A fo l d  a n d  S S P r o  67

F g
i . 5 . 3 C o mp ar i s o n o f
 p e r fo r m a n c e  o f  d i ffe r e n t  i nt e g r a t i o n o f  s e q u e n c e  fe at u r e

e x t r a c t i o n  m e t h o d s  o n  Z e a  m ay s  d a t a s e t  70

F g
i . 5 . 4  P r e d i c t i o n r e s u l t so n  Ze a  m ay s  d a t a s e t  ( a )  P r e d i c t v e  p e r fo r m a n c e u s n g

 , i i

s e
q u e n c e  o n y  a nd s e q u n
l  e ce
p
l u s  s t r u c t u r a l  fe at u r e s ,

(
b )  A U P R C  c urv e s  o f  D RP L P 

a n d  f i v e  c l a s s i fi e r s    72

F g 5
i . . 5 A U P R C c urv e so fd i ffe r e n t  m e t h o d s ,

 ( a )  O n  Ze a  m ay s  ( b )  O n  A r a b i dop s is

 ,

t h a li a n a  73

F g
i . 6 . 1  Th e  w o rk f o w  o f l  t h e P L RP I M  m o d e l     80

F g 6 2  E x p e r m e n t a l  s e t u p  fo r  t e s t i n g  t h e  p r o o s e d  m e t h o d 85


i . . i
p 

F g 6
i . . 3 R O C  c u r v e s  fo r  P L R P M  a n d  f v e  o I i t i e r s  o n  ( a )  A r a b i dop s i s  t h a l i a n a
h e rc as s i f l 

d a t a s e t  a n d  ( b )  Z e a  m ay s  d a t a s e t    88

F g
i . 6 . 4  R O C  c u r v e s  fo r  P L R P I M , an do th e rm e t h o d s  o n  ( a )  A r a b i dop s i s  t h a l i a n a  a n d  ( b )

Ze a  m ay s  d at a s e t s  89

V I I



Pre d i ct i o n  o f
p ant
l  l o n g n o n c o d n g  RN A s  n t e r a c t on s  w i t h  p r o t e n s  b y  d e e p  e a r n i n g

i i

 i i l

L i s to f  Ta b l es

T ab . 2 . 1 R e s o ur c e  fo r
 p a
l nt  I n c R NA  a nd  l n c R NA -

p r o t e i n  i nt e r a c t o n  d a t a i  1 

T ab . 2 . 2D e s c ri
p t o r s  fo r  R
NA  an d p ro t e i n  s e q u e n c e s


2 

T ab . 2 . 3I n c R NA ,  pro e n
t i
, 
an d  i n t e r a c t i o n  d a t a s e t s  u s e d  i n  th i s  s tu d
y  3 

T ab . 3 . 1  P e r fo r m a n c e  o f  5 -

fo l d  c r o s s

va l i d a t o n  ( A T fo l d  C V

)  a n d  L e av e  o n e  o ut

c ro s s

v a l i d at i o n  ( L O OCV )
m e th o d s      
43

T ab . 3 . 2  P e r fo r m a n c e  c o m p a r i s o n  o f  t he  p r o p o s e d  m e th o d  an d  f v e  c i l a s s i fi e r s   4 5

T ab . 3 . 3 C o m p ar i s o no f  LPI -

DL  w it h  o t h e r  t hr e e  e x i s t i n g  m e t h o d s    45

T ab .  4 . 1 P a r a m e t e r  s e t t n g s u s e d  fo r  G P L P I  m e t h o d
i     56

T ab . 4 . 2  P e r fo r m a n c e  c o m
p a r i s o n s  o f d ffe r e nt  p r e d c t o r s  o n  d i ffe r e n t  fe a t u r e  g r o u p s  o
 i 

n i

Z e a m ays   d at a s e t          57

T ab . 4 . 3  P e r fo r m a n c e  o f  t he  p r o p o s e d  m e th o d  n  c o m p a r i i s o nwi tho t he rmet h o d so n Ze a



m ays  d at a s e t  58

T ab . 4 . 4  P e r fo r m a n c e  c o m
p ar i s o n b et we e n GP LP I an do t h e r e x i s t i n gm eth o d s    60

T ab . 5 . 1  P r e di ct i o n
 p e r fo r m a n c e  fo r  d i ffe r e n t  c l a s s i fi e rso n Z e a m a y s  d at a s e t
  7 

T ab . 5 2  P e r fo r m an c e  o f 
. D RP L P I  n  c o m ar i s o n  w

p i t h  o th e r  m e t h o d s  o n  t h e  Z e a  m ay s

d at a s e t  *    72

T ab . 5 . 3  P e r fo r m a n c e  o f  D RP L P Ii n  c o m p a r i s o n  w i t h  o t h e r  m e t h o d s  o n  t h e  A r a b i dop s i s

t h a l i a n a  d at a s e t          72

Tab . 5 . 4 5 -

fo l d  c r o s s

v a l i d at i o n r e s u l ts  o f  t hr e e  p r o p o s e d  m e t h o d s  b a s e d  o n  t h e

NP I n t e r  d at a s e t  74

T ab . 6 . 1 H y p e p ar a m e
r t e rs e tt i ng s  8 5

T ab . 6 . 2  P e r fo r m a n c e  of 5 

fo l d  c r o s s

v a l d at i o ni  8 

T ab . 6 . 3  P e r fo r m a n c e  o f
 p r o p o s e d m e th o d c o mp a r e d
w i t h o t h e r c a s s f
iers l i  8 7

T ab . 6 . 4  P e r fo r m a n c e  o f  t he p r o p o s e d m e t h o d c o m p ar e d w i t h o th e rm e t h o d s  8 9

Tab . 6 . 5 S ome s e l e c t e d  In c R NAs an dth e i rb i o l og ca i l f un c t o n s i  9 



T ab . 6 6P r e d i c te d
. G O  a nn o t at i o n s  ( b i o l o g c a  p r o c e s s  ( B P )  m o l e c u a r  fun c t i o n  (
i l

l MF ) 

a n d  c e l l u l a r  c o m p o n e n t  ( C C ) )  fo r  I n c R N A s   92

V I I I



Da l i an  U n v ers i ty  o f
i  Te ch n o l ogy

Doc t or a l  D i s s e r t a t i on

A b b re v i at i o n

S ym b o l  Fu l l N am e

AE A u t o enc o d e r

A L B E RT AL i t e B i d i re c t i o na l  E n c o d e r  R e p r e s e n t at o n s  fr o m  T r a n s fo r m e r s

i

B E RT B d i ir e c t i o n al  E n c o d e r  Re
p r e s e nt at i o n s  f
r o m  T r a n s fo r m e r s

C at b o o s t  C a t e g o r i c a l  b o o s t i ng

F C G R  F r e q u e n c y  c h ao s  g a m e  r e p r e s e nt at o n

 i

GC c o n t e nt  G u an i n e c y t o s i n e  c o nt e n t

G -

km e r  G ap p e d  A :

mer

G NN  G r a p h  n e u r a l  ne t w o r k

H AN  H i e r a r c h i c a l  a tt e n t i o n n e tw o rk

L B F G S L m

i i t ed -

m e m o ry B ro yd en F l et c he r - -

Go l d fa r b S h a nn o


L L E L o c a l l
y l i n e are mb ed d i n g

L n c R N A  L o n g n o n c o d n g  r b o nu c 
i i l e i cac id

L o n g M a n  L n c R N A  m a mm a l s  a n no t a t i o n s

L o n g T a r g e t  L n c R N A  t a r g e t

L O O C V L e a v e  o n e  o u t  c r o s s v a -

li d at i o n

L P I  L n c R N A p r o t e i n  nt e r ac t o n

 -

i i

L R L o g i sti c  r e g re s s i on

L S T M  L o n g s h o rt -

t e rm  m e m o r y

NP I nt e r N o n p ro t e i n - -

c o din
g  n t e r act i o n
i 

O RF O p e n r e a d i n g  fr a m e

P n c R N A D B  P a n t  n c R N A  d a t ab a s e
l l 
 I

P S S M Po s on f cs c o r n g m atr x


pec

i t i s i i i i

P W M P o s i t i o n  w e i g ht  m a t r x

 i

RB P RN A  b i nd i n gpro tei n

S V M R F E  S up p o r

t v e c t o r m ac h i ne -

r e c u r s i v e  fe at ur e  e l i m i n at i o n

R N N R e c u r r e n t n e ur a l n e tw o r k

RP  RN A I

p r o t e n  nt e r a c t o n
i
 i i

S W S m h Wa e rm an


i t t

I X 


Da l i an  Un i v e rs ity  o f  T e c hn o l o gy  D o c t o r a l  D i s s e r t at i on

1I n t r o du c t i o n

1 . 1  O v e rv i ew

Ac c ord i n g  to  t h e  c e nt r a l  d o g m a  n  m o l e c u l a r  b o o g y  p an t s  a r e  s e s s i l e  s p e c i e s  w h i c h
i 
 i l

li k e  o t h e r  l i fe  fo r m s  c a n  b e  v i e w e d  a s  a  f o w  o f  n fo r m a t o n  fr o m  d e o x y r

i b o nu c e i c  a c d

 l i i l i


DN A )  t o p h e n o t yp e s / c r o p  s p e c i e s  a n d  a g r o n o m i c  t r a i t s .  Ri b o n uc l e i cac i d( R NA )  c a rr i e s

g e n e t i c  i n fo r m a
ti o n  i n  t h e  fo r m  o f  n u c e o t i d e  s e q u e n c e  an d  p e r fo r m s  b i o c h e m i c a l  fu n c t i o n s
l 

d u e  t o  i t s  a b i l i t y  t o  fo l d  i n t o  c om p l e x  t e r t a r y  s t r u c t u r e s i .  L o n gno n -

c o di n
gRN A s( I n c
RN A s 

h av e  l i tt l e  o r  n o  p r o t e i n c o di n
g  c ap a c  w e r e  t r an s c r i b e d  fr o m  n o n fun c t i o n a l en ere g i o n s
- -

i t
y ,
g 

an d  ar e  p e r v a s i v e  i n  b o t h  p l ant s  an d  a ni m a l s . G e n o m i c  i n i t i at i v e s l i keanenc yc l op e d i ao f



D N A e l e m e nt s  ( E N C ODE ) ,  f un c t i o n a  a nn o t a t o n  o f  t h e  m a m m a l i a n  g e n o m e  ( F AN T O M )
l i


g e no t yp e

ti s s u e  e x t e n s i o n  ( G T E x )  an d  G E N E C ,
O D E h av ep r e d i c t e do v e r5 0 ,
0 0 0 I n c R NA s

a nd  a n n o t a t e d  t h e m  t h r o u
g h  m a n u al  an d  a u t o m a ca
p p r o a c h e s  T o  d at e  m a n y s t u d i e s  o n


t i .

I n c R N A s  i n  m i i m a l s  h av e  b e e n  c o n d u c t e d . C o nv e r s e l
y ,  t h e  nu m b e r  o f  fun c t i o n a l y

 l

c h ar a c t e r
i ze d  p l ant  I n c R N A s  i s  m ed P a n t  I n c R NA s  a r e  i nv o l v e d  i n e n c i ng
l i i t . l
 g e ne  s i l


g u l at i o n  o f  f l o w e r i n g  t i m e  r o o  o r g a n o g e n e s s  r e p r o d u c t o n  a n d  d e fe n s e  ag a i n s
t fun
re t i
, g a l ,

i n fe c t i o n s  [ 1

.  T h e  n c R NA s  ar e  n o t  o n y  e n r
I l i c he d  i n t h e n u c l e u s b u t  a l s o  l o c a l i z e  a n d

 ,

f u n c t i o n  n  t h e  c yt o p l a s m
i .  O ther c h ar a c t e r i s t i c s  t h at  d i s t i n
gu i s hI n c RN A s  fr o m  p r o t e i n

c o di ng

m o l e c u l e s  i n c u d e  v e r y  l o w y  e x p r e s s e d  c o n t a n i n g  c a n o n i c a  p o l y a d e n y l at i o n s i g n a l  an d
l l 
 ,
i l

t he y  ar e  p o o r y  c o n s e r v e d  am o n g  s p e c
l i es
 [


.  T h e y  p l a y  i m p o r t a n t  r o l e s  i n e p i g e n e t i c

m o d i fi c at i o n ,
tr a ns c r
i p t o na i l

RN A  s p l i cin
g ,
an d p o s t

tr an s c ri
p t o n a l  r e g u l at i o n  p


.  The

I nc R N A s  p ar t a k e  n  a n  a rr a y  o f  m o i l e c u l ar
pro
c e s s e sth r o u
g hd i re c t  i nt e r a c t i o n  w i t h  DN A 

o t her  R NAs , 
o rp ro te i n s 

R e c e nt y  t h e  s t u d y  o f  n c RN A p r o t e i n  nt e r a c t o n  ( L P I )  h a s  g a i n e d  i n t er e s t  am o n g





 i i

b i o i n fo r m a t i c s  e nt h u s a s t s  T h i s  i . i s  d e r i v e d  fr o m  t h e  kn o w l e d g e  t h at  n c R N A s  a c h i e v e  t h e i r

 I

d i v e r s e  fu n c t o n s  b y  n t e r a c t n g  w
i i i i t h  m u l t p e  p r o t e n s  h e n c e  t h e i r  i nv o l v e m e n t  i n  t h e
i l 
 i

re
g u l at i o n  o f  m u l t p e  c e i l l l u l a r  p r o c e s s e s  s u c h  a s  c e l l  g r o w t h  a n d  c hr o m at i n  m o d i f
i c at i o n 

T h e r e fo r e  e x p e r
i m e nt a  a n d  c o m p u t a t

l i o n al p r e d c t o no f L P I s  i i i s  e s s e nt i a l  fo r  fa c i l i t at i n g

I nc RN A -

re l at e d  a c t v i t i e s  i . We t

l ab e x p eri m e nt s s u c ha s R N A i m m u n o p r e c i p i t at o n  ( R I P )  a n d



 i

m a s s  s p e c t r o m e t r y  h av e  s u c c e s s fu l l
y p r e d c t e d  a n d  v a l i d at e d  L P I s [ 4 ]


.  H o w ev e r , 
ti m e  an d  c o s t

re n de r  th e m  u n s u i t ab l e  fo r  l ar
ge

sc a l e a
pp
l i c at i o n s .  T h e r e fo r e , d i ffe r e n t

m a c hi ne e ar n i n
g b a s e d  c o m p u t at i o n a mo de sar e  e x p o r e d  t o  n fe r  p o t e nt i a  L P I s  a s
- -

l l l l i l

d i s c u s s e d  i n  a  r e c e nt l y  p u b l i s he d  rev i ew
 [


. A l be i t  t h e  a d v a n c e m e nt  o f  s e q u e n c n g

 i

tec hn o l o g i e s , 
t h e r e  are  n um e r o u s  u n e x p l o r e d  I n c R N A s  n  p u b c  r e p o s i t o r
ies i i . P art i c u l ar l y ,  L P I

1  


P re d i ct i o n  o f
p an t
l  l o n g no n c o d in
 g 
RN A s n t e ra c t i i on sw i t h
 p r o te n s  b y de ep 


l e arn i ng

i n  p l a n t s  h a s  r e c e i v e d  l i t t e  a t t e nt i o n l
, 
wh i c h m a k e s   it a  s ubj e c t  o f  i n t e r e s t  fo r  t h e  i d e n t i f c a t i o n

 i

o f n e w  a s s o c i at i o n s
 

Da t a  m i n n g  a l g o r i t h m s  a r e  ap p l i e d  t o  d i s c o v e r  kn o w e d g e  a n d  a d d r e s s  b i o o g i c a
i l l 

q u e s t o n s  T h e  d e m a nd  fo r  d a a  m i n i n g  i n  g e n o m e  r e s e a r c h  i s  g r o w i n g  p r o p o r t i o n a y  t o  th e


i . t l l

a m o u n t  o f  d a t a  b e i n g  g e n e r a t e d  T h e  d at a  m i n i n g  a l g o r i t h m s  d i s c o v e r  p a t t e r n s  a n d  e s t ab . l i sh

re l at i o n s h i T
p s  i n  d at a  h e r e  a r e
 t hr e e  m ai n  s t e

p s  fo r  c o n d u c t i n g  d at a  m i n n g  i n  g e n o m i c s

 i

i nc ud ng l i
;  d at a  a c q u
i si ti on , 
i n t e g r at i o n ,  a n d  ap p l y i n g  d a t a  m i n i n g  a g o r i t hm s l .  T h ea c q u i siti on

of bio og ca
 l i l  d at a  e nt a i l s

i d t ab a s e s  a n d  we b
q u e ry n g  a p
l a t fo r m s .  Mach i n e  l e ar n i n g  a l g o r i t h m s

a r e  a  s ub f i e l d  o f  d at a  m i n i n g ,
t h e y  l e ar n  fr o m  d at a  w i t h o u t  e x p l i c i ti n struct i o n s .  M ac h i n e

e a rn i n
g  g e n e r a t e s  p r e d c t i v e  mo d e l s  b a s e d  o n  m a t h e m a t i c a  ru l e s  a n d  s t a t i s t i c a l  a s s o c i at i o n s


l i l

a m o n g  fe a t u r e s  fr o m  d at a s e t s . S i m i l ar
i t y  m e a s u r e  i n  m a c h i n e  l e a r n i n g  c o m p ut e s  c o s e n e s s

 l

b e t w e e n  e e m e n t s  n  a  d a t a s e t  t o d e s c r i b e  t h e  d e g r e e  o f  r e l a t i o n s h i p  b e t w e e n c o n c e p t s  o r
l i 

e n t i t i e s  i n  a  d at a s e t .  T h e  t h r e e  t yp e s  o f m a c hi n e   l e ar n i n
g  ar e  s u p e r v
i s ed , s e m i

s u p e rv i s e d , and

u n s up e r v i s ed .  I n  s u p e rv i sed  l e ar ni n g ,  g enera l i z ab l e  kn o w l e d g e  i se x t r a c t e d  fr o m  kn o w n



v a l ue so f  t h e  r e s p o n s e  v a r ab i l e  ( l ab e l e d  d a t a

.  T he m o de l
 p re d i c t sre sp o n s e v ar ab i l e sus in
g  t he

g e n e r a l i z e d  k n o w l e d g e  fr o m  t h e  l a b e l e d  d at a .  U n s up e r v i s ed  l em i i n g  d e n t i fi e s  h i d d e n
i 

s t r u c t u r e s  w i t h i n  u n l a b e l e d  d at a  . T h e  s up p o r t v e c t o r  m a c h i n e  ( S V M )  a n d  r a nd o m  fo r e s t  ( R F )

a r e  t h e  c o n v e n t i o n a l  m a c h i n e  l e ar i t hm s  R e c e n t l y  a  s u b s e t  o f  m a c h i n e  l e a r n n g
n i ngal go r 
 .

a gorl i t h m s  k n o wn  a s  d e e p  l e arn i n g

h av e  s h o wn  a  h i g h e r  s u c c e s s  r at e  n  t e r m s  o f p e r fo r m a n c e

 i

fo r  c o m p l e x  p r o b l e m s .  D e ep 
n e u r a l  n e t w o r k s  h a v e  m u l t i p l e  l ay e r s  o f a r t i f
i c i a l  n e uro n su s e dto

 

l e ar n  c o m p l e x  p att e rn s .  T h e  k e y  a dv a nt a g e  o f d e e p   l e ar n i n g  o v e r  t r a d i t i o n a l  m a c h i n e  l e ar n i n g

a go r
l i t hm s i s t he i rab i l i t
y  t o  a ut o m a t i c a l l y  e a r n  fe at u r e  r e p r e s e n t a t o n  D e e p  e a r n n g  ( D L )



i . l i

a l g o r i t hm s  a r e  t r e a t e d  a s  b l a c k  b o x e s  b e c a u s e  o f  t h e ir  c o m p l ex i ty .  Ano t he r l i m i t at o n  o fi  DL i 

t h e  n e e d  fo r  a  l a r g e  d a t a s e t  t o  l e a r n  g e n e r a l z a b l e  k no w e d g e  b e c a u s e  o f i l  t h e  a r g e  nu m b e r  o f
l 

d  H o w e v e r  i n the  e r a o f  b i  t h i s  i s  l e s s  o f  a  c o n c e r n ,  t hu s
p a r a m e t e r s  t h at  ar e  e a r n e gd a a
l t .

, , 

d e e p e arn i n gl i se m e r


g i n g  a s  t h e  f r o n t i e r  o f m a c h i n e  l e a r n n g  n  c o m p u t a t o n a l  b o o gy
 i i i i l 

T h e  e f fe c t i v e n e s s  o f  a  m ac h i n e  l e a r n i n g  a l g o r i t hm  i s  a r g e l y  d e p e n d e n t  o n  t h e  fe a t u r e s

 l

e x t r a c t e d  f r o m  t h e  d at a s e t .  T h e  m e t h o d s  fo r  p r e d i c t n g  R N A p r o t e i n  n t e r a c t o n  ( R P I )  a r e

 i

i i

d v d e di n t ot hr e e pre d i c t i ng RN A b i n di n g s i t e s  o n pro t e i n s ro t e i n b nd ngs e so n RN A


- -


p
i i : i i i
, 

a n d  nt e r a c t i n g  r e g o n s  o n  b o t h  R
i i N A  a nd  p r o te i n T h ep r e d i c t i o n o f RN A b i n d i n g s i t e s o n
. 
 -

p r o t e n  n v o v e s  t h e  d e n t f c a o n  o f  R NA  b i nd i n g  r e s d u e s  o n  p r o t e n s
t T he re d c ti o n o f


p
i i l i i i i i i . i

p r o t e n  b nd n g  s
i i i i te o nR N A i nv o l v e s  i d e nt i f
y n g  b nd n g  s
i i i i t e so f
 p r o t e i no nRN A T h e s e

 ,

m e t h o d s u s es e q u e nc e tr u c t ur e o r  p hy s i c o c h e m i c a l  c h a r a c t e r c s  S e q ue n c e b a s e d  m et h o d s



s s ti


, ,

a r e  d e v e o p e d  u s i n g  s e q u e n c e  fe at u r e s  f r o m  R
l N A s  an d  p r o te i ns .  T h e  s e q u e n c e  fe a t u r e s

i n c l u d e  h y d r o p h o b i c i t y  i n d e x  a n d  m o l e c u l a r  m a s s  T h e  p o p u a r  s e q u e n c e  fe a t u re  e x t r a c t o n

 . l i

m e t h o d s  fo r m o d e  tr a ni ng du rin
g  pr e d i c t i o ni n c l ud eA mer d nu c l e o t d e b a s e d

 -

l i r i i

2 


Da l i an  Un i v ers i t
y of
 T e chno l o gy 
Doc t o ra l  D is s er t at i on
 

a ut o c o v a r i a n c e  ( DAC ) ,  p s e ud o  d i n u c l e o t i d e  c o mp o s i t o n  ( P s e D N C ) i
,  p s e u d o  am n o  a c d

 i i

p o s i t o n  ( P s e AA C )  n d 
com i a b n a r y p r o f i l e  fe a t u r e s  ( B P F s ) ,
i .  S t ru c tur e b a s e d  m e t h o d s  u s e


fe a t u r e s  s u c h  a s
p ro t e n i l o c a l  c o n fo r m a t i o n s ,  a n d  R N A  l o c a  c o n fo r m at o n s  T h e s e  t w o

 l i .

re
p r e s e n t at i o n s  o f  t h e  s t r u c t u r e  o f  t h e  m o l e c u l e s  g i v e  d e t a i l e d  d e s c r i p t i o n s  o f  t h e  R
N A  an d

n s t r u c t u r e s  O n e o f h e  d r a wb a c k s  o f  m o d e  dev e o p e d  t o  p r e d i c t  L P I s  i s  th e


p ro e
t i . t l s l

p e c i e s T h i si sach al l en g es


c o n s tr uc t i o n o f  a m o de l t o redi c t  i n t e r a c t i o n s  i n  d i ffe r e n t  s nc e

 i
p

t h e r e  i s  a  hu g e  d i ffe r e n c e  b e t w e e n  n c R N A s  o f  d i ffe r e n t  s p e c e s  b e c a u s e  t h i s  g r o u p  o f

 I i

n c RN A s  h a s w e ak ho m o l o g y  S e v e r a . l c o m
p u t at i o n a l  m e t h o d s  h a v e  b e e n  d e d i c a t e d  t o 
L P I i 

h u m an s  s u c h  a s  H L P I e n s e m b l e  p r o p o s e d  b y  H u  e t  a l  [ 6 ]  I n  t h e  c a s e  o f  p l an t  s p e c i e s  n o


 .

co m p u t a t o n a l  t o o  i s  d e d i c at e d  t o  L P I  w h i c h 
i l

i s  th e  k e
y  m o t i v at i o n  b e h i n d  t h e  p r o p o s e d

mo de l s i nth i sd i s s e rt at i o n  S e c o n d l .

y , 
t h e  p r e di c t i o n  a c c u r a c y  o f p r e v i o u s  m e t h o d s  i s  n o t  h i g h


eno u
g h  b e c au s e  m o
st m e t h o d s  a p p l i e d  o n y  o n e  t y p e  o f fe a t u r e  fo r  I n c R N A  a n d p r o t e i n  T h i s

 l  .

s  th e  c o mp re h e n s v e n e s so f he p r e d i c t o n B e s i de s s e l e ct i n

p p ro ac h m g  o p t i m a l  fe a u r e s


l i i t i  t i . t

r e d u c e s  r e d un d a n t  o n e s 

S ever a l  s t at e

of

t h e a rt  m o d e

l s  s u c h  a s  r e c ur s i v e  e as t  s q u ar e

, 
mu lti k e r
n e l  l e ar n i n g

,  an


m a t r i x  fa c t o r z at i o n  h a v e  b e e n  e m p o y e d  t o  s p e c u l a t e p r o t e n p r o t e n  i nt e r a c t i o n s  ( P P I s )
i l i




I n c R NA d -

i s e as ea s s o c i at i o n s  ( L D A s )  d ru g ,

t ar
g eti n e racti o n s

,  an d  b i n d i n g  s i t e s  o f  I n c RN A s

an d  o th e r  b i o m o l e cu e s l . G i v e n  t h e  r e c e nt
 p r o g re s s  i n  R NA a s s o c i at e d  i nt e r a c t i o n s

, a

p r e h e n s i v e  RN A  n t e r a c t o m e  d a t ab a s e  ( R N A I n e r)  i n c l u d i n g  R N A  p r o t e i n  D
co m t i N A  an d

 , , ,

com
p o un d  w a s  b e e n  d e
ve o e d
p [


P RI
l . ME -

3 D 2 D i s  a  m o d e l  t h at
 pre d i c tsb i nd i n
gs ite s
of

p rot e i n

RN A  i n t e r a c t o n u s n g  s t r u c t u r a
i i l  c o mp l exe s
 [


.  S h e n e  a t l .  r e c e nt l y  p r o p o s e d

NP I

G NN  a  d e e p  g r a p h  n e u r a  n e

l t w o r k b a s e d  m e t h o d  fo r  p r e d i c t i n g  n c RN A p r o t e n


 -

i n t e r a c t i o n s  [ 9 ]  T h e  m e t h o d p r e d . i c t s  i nt e r a c t i o n s  u s i n
g  n e t w o r k  n fo r m a t i o n  a n d  s e q u e n c e
i 

i n fo r m a t i o n  O t h e r  m e t h o d s  fo r  L P I  p r e d
. i c t i o ni n c l ud e L P I

C NN C P  [
1 0
] 
a nd  L P I -

S KF[ 1 1



L P I C NN C P  u s e s  a  c o n v o u t o n a

l i l  n e ur a l  n e t w o rk  ( C N N )  w i t hac op y p ad d i ngtr i c kt op r e d c t



 i

p o t e nt a i l  LP Is . L P I

S K Fu s e ss m i i l a r i t y  k e r n e l  f u s i o n  a n d  L ap l a c i a n  r e g u l a r i z e d  l e a s t  s q u a r e s

al go ri t hm sb a s e d o ns i m i l ar i t i e st o



L I
p r e d ct P s i .  Da t a  i nt e g r at i o n  i s  t h e  a c c r u e m e nt  o f d at a s e t s

 

fr o m  m u l t i
p l es o u r c e st oe x tr ac tg e n e r a l i z e d  kn o w l e d
ge .  I n  th e  c o nt e x t  o f  LPI ,  fe at u r e s  fr o


I n c R N A  an d  p r o t e n  d at a  a r e  n t e g r at e d  t o  s o l v e  t h e  i nt e r a c t i o n  p r e d i c t i o n  p r o b l e m  I n  t h i s
i i 
 .

d i s s e r t at i o n  i n t e r a c t i o n  p r o b a b t  I n c R N A  a nd t e du s i n
l it
yb e w e e np a n  p r o e i n i s  c o m p u




i t l

d ee p  l e arn i n
g  an d  s h a l l o w  m a c h n e  e a rn i n g  c l a s s i fi e r s i l . F e a t u r e  s e l e c t i o n  a nd o t her

o p t i m i z a t i o n  t e c h n q u e s  a r e  m p e m e n t e d  t o  r e d u c e  t h e  t r a i n i n g  t i m e  fo r  d e e p  n e u r a l  n e t w o r k
i i l 

mo de l s  an d  i m
p r o v eg e ne ra l i z at i o n  a b i l i t y . C ro s s va -

l i d at i o n  ( C V )  a n d  j a c k k n i fe  e v a l u a t i o n

m e t h o d s  a r e  u s e d  t o  a s s e s s  t h e  p e r fo r m a n c e  o f  t h ep ro p o s e dm o de l s .  A  c o m p ar a ti v e  an a y s i s

 l

of  t h er e s u l t st oo t h e rc a s s f c at o na g o r


l i i i l i t hm s  a n d  p r e d i c t i o n  t o o l sw as
 p e r fo r m e d  t o  j u s t
i fy

t h es gn f i i i c a n c e  an d  c o n t r i b ut o n o f i  t he
 p ro p o s e
dm e t h o d s 

3




Pr e d i cti o n  o f
p l a nt  l o n
g nonco d ng



RN A s  i n t e r a c t o n s  w i t h p ro t e n s b

 y  e ep  e arn n g



i  l i

1 . 2 M o t i v a t i o n

I n  t h e  c e l l s  o f e u k ar y o t i c  o r g a n i s m s

, 
d i ffe r e n t  p r o t e n s  n t e r a c t  w i t h  t e n s  o f i i  t h o u s a nd s  o f

d i s t i n c t  R NA s .  T here su lti n g  R P I s  g e n e r at e  a  c o m p l e x  n e t w o rk  t h at
 g o v er
n sg e n ee x re s s i o n
p 

Ow i n g  t o  t h e  d e v e o p m e n t  o f b o t e c h n o o gy  t e c hn q u e s
l  i l i
, 
t h e re  h a s  b e e n  a n  e x p o n e n t i al  g ro w t h

o f  I n c R N A  a n d  p r o t e i n  r a w  s e q u e n c e  d a t a  T h e  m aj o r  c h a l e n g e  . l i s  t o  an a l
y z e  t h e  av a i l a b e

 l

d at a  s n c e  m o s t  o f i t h e  I n c R N A s  ar e  un c h ar a c t e r z e d  a n d  t h e i i r  fu n c t i o n s  a r e  u n k n o w n . T h e

t a s k  o f  a n a l y z i n g  t h e  d at a  i s  c o m p l i c at e d  b e c au s e  o f  t h e  d y n a m i c  a n d  c o m p l e x  n at ur e  o f  t he

L P I s  R e s e ar c h e r s  fr o m  b o i n fo r m at i c s  a n d  c o m p u t at o n a  b o o g y  f
. i e d sh e pt os o vet hi s
i 
 i l i l l l l

p r o b l e m  b y  a na l y z i n g  d a t a  i n  s i l i c o  a nd  u n v e i li n s i g h t s  t ha t  ar e  u s e f u l  t o  b o l o g i s t s  n  s o l v i n g


i i

b i o o g i c a l  a n d  m e d i c al  p r o b l e m s
l 

M ac h i n e  l e ar n i n g b as e d  m o d e l s  d e v e l o p e d  t o  p r e d

i c t L P I s  a r e  d e s i gn e dt o p r e d i ct

i n t e r a c t i o n s  i n  d i ffe r e nt  s p e c i e s . Th i s  i sac h a l l e n g e  du e  t o  t h e  b i


g  d i ffe r e n c e  b e w e e n
t 

I n c R N A s  o f d i ffe r e n t  s p e c i e s  b e c au s e  o f p o o r  c o n s e r v a t o n  a n d  w e a k  h o m o o g y


i l .  Un l i ke ot her


p e c e s i l i k e  h um a n s  [ 6 ] , 
t h e re  i s noc o m
p ut a t o n a l  t o o l  d e d i c at e d  t o  p r e d
i i ct i n
g  L P I  fo r  p l a nt


pec i es  . M ore o v e r ,  t he  p r e d
i c t i o n  ac c ur a c y  o f  p r e v i o u s  m e t h o d s  i sno t h i g h  e n o u g h  b e c au s e

m o s t  m e t h o d s  ap p l i e d  o n l y  o n e  t y p e  o f  fe at u r e  fo r  n c R N A  a n d  p r o t e i n  T h e  m e t h o d s  fo c u s

 I .

e i t h e r  o n  s e q u e n c e  i n fo r m at i o n  s e c o nd a r y  s t r u c t u r e s , , e x pr e s s i o n
p ro f
iles , o ro n
t h e  av a i l ab e

 l

an n o t a t i o n  d at a  t o  p e r fo r m  c l a s s i f i c at i o n  T h e s e  ap p ro a c h e s  l i m i t  t h e  c o m p r e h e n s v e n e s s  o f
. 
 i

t h e p re d i cti o n .  T he  m e th o d s  d o  n o t  c o n s i d e r  t h e  fa c t  t h a t  e a c h  n c R N A  m a y  n t e r a c t

 I i

d ffe r e nt l y  w
i i t h  d i ffe r e n t  s e t s  o f  p r o t e i n s  h e n c e  t h e  n e e d  fo r  n c o r p o r a t n g  o t h e r  i m p o r t ant

 i i

c o n t e x t ua l  i nfo r m at i o n 

M ot i v at e d  b y  t h e  p i v o t a l  g e n e  r e g u a t o r y  r o l e s  o f  I n c R N A s  n  d i v e r s e  b i o l o g i c a ll i

d c t s  L P I s F u r t h e r  t h e
p r o c e s s e s v i a  t h e r  i nt e r ac t i o n s  w i t h
p ro e n s  h i sd s s e r t at i o n
p re 

i t i t i i .
, ,

i n t e r a c t i o n s  a r e  a n a l y z e d  fo r  t h e  a nn o t a t i o n  o f  I n c R N A s  D e s p i t e  e x c e p t i o n a  e x p e r i m e n t a l . l

e ffo r t s , 
t h e re  i sl i m i t e d  kn o w l e d g e  o n  n c R N A s  d u e  t o  a  a c k  o f m o
I l  l e c u l a r  i n t e r a c t i o n  d at a  a n d

i e s  D at a  i n c o m p l e t e n e s s 
e x p re s s i o npro f l . l i m i t s  u nd e r s t a n d i n g  o f  m o e c u l a r  m e c h a n i s m s  o f

 l

f un c t i o n s  a n d  d i s e a s e s  r e l a t e d  t o l ant s  an d  o t h e r  s
p e c i e s  T h i s  d i s s e r at i o n  u s e s  d e e p  l e a r n i n g

p 
 .

mode l s  t o  a c c u r at e l y  p r e d i c t  i n t e r a c t i o n s  b e t w e e n  I n c R N A s  an d  p r o t e i n s .  T he  e ffe c t i ve n e s so f



t hep rop o s e da go r l it hm s  i s  l ar


g e l y  d e p e n d e n t  o n  t h e  fe a u r e s  e x r a c e d  fr o m h e  d a t a s e t
t t t t .  T hr e e

fe at u r e  e x t r a c t i o n  m e t h o d s  w e r e  e x p l o r e d  F i r s t  s e q u e n c e  fe a t u r e s  a r e  m a nu a .


l l
y e xtr ac te d 

S e c o nd l y  n o d e  e mb e dd i n g  fe at u r e s  a r e  e x
tract e d  u s i n g  g r ap h b a s e d  d e e p l e a r n i n g  T h i r d l y


, 

d  m an u a l y  a n d  b y  d e ep  e ar n i n g  T h e  c o n c e pt s
se
q u e n c e  a nd  s t r u c t u r e  fe a u r e s  a r e  e x r a c e
t t t 
 l l .

h gh i l i

h t e d  b y  t hi s  d i s s e r t a t i o n  p n p o i nt  t h a t  t h e r e  i i ssti l l ro o m t o mp ro v epre d i ct o n
i 
 i

p e r fo r m a n c e 

4 


Da l i an  Un i v er s it y  o f  Te chno l o gy 
D o ct o r a D l  i s s e r t at i on

1 . 3  R e s e ar c h  o bj e c t i v e s

D L m o d e  h a v e  b e e n u s e d  fo r  t h e  p r e d c t i o n a n d  a n a l
y s i s  o f RN A /n cRN A  p o
l s i r te i n

i nt e r ac t o n s  an d  R N A b i n d n g  p r o t e i n  ( R B P )  s i t e s  T h e  p u r p o s e  o f  t h i s  r e s e ar c h  w o r k  i s  t o

i 
 .

y  fe a t u r e s  a n d  a p p r o p r i a t e  o p t i m i z a t i o n  t e c h n i q u e s  t h at  e nab l e  d e e p  e a r n n g  m o d e s  o
i d e nt i f l t
 l i

a c c ur at e l
yp r e d i c t  i n t e r ac t i o n s  b e t w e e n  I n c R N A s  a nd  p r o t e i ns .  T h e  c o m p u t at i o na l  t oo l 

d e v e o p e d  t o  i n v e s t i g a t e  a n d  p r e d i c t  L P I s  e x p l o i t e d a v a i l a b e d at a  f r o m  t h e  P n c R N A D B
l 
 l l

d at a b a s e .  T h e  fo l l o w n g  sp e c i f i c  a i m s  h av e  b e e n  a c h i e v e d
i 



)
E x p o r e  fe a t u r e  e x t r a c t
l i o n  m e t h o d s  fo r  t h e  p r e d i c t i o n  o f  LPI .  E xt r a c t n g  b o o g i i l i c al l 

re l e v a nt  i n fo r m a t o n  i s  e s s e n t i a i l  fo r  t r a i n i n g  a  m o d e l  fo r  n t e r a c t i o n  p r e d i c t i o n  a c c u r a c y
i 


2 )  T h e  d e v e o p m e n t  o f e ffe c t i v e  a n d l   r ob u std e e
p  l e arn i n g  m o d e l s  fo r  t h e
 p re d i ct o no


f i

L P I np i l ants
pe
c i es 

3 I d e n t fy  t h e  o t i m i z at i o n te c hn i
q u e s  a nd  t h e i r  c o n t r i b u t i o n s  t o  t h e  p r e d i c t o n


( ) p i  i

p e r fo r m a n c e  o f d e e p 
e a r ni n
gm o de l s  l 



)
An a l
y z e  t h e  L P I  fo r  p o t e n t a l  u s e f u l n e s s  i n  e x p l o r i n g  m o e c u l ar  m e c h a n i s m s  t h a t  a r
i 

e l

re

u at e d  b

y  nc R I NA s 

1 . 4  T h e  d i s s e r t a t i o n  s i g n i fi c a n c e  a n d  c o n t r i b u t i o n s

Th e
Th sd d e e
p  l e a r n i n g  fo r  t h e  p r e d i c t i o n  o f  L P I  i n  p l a n t  s p e c e s
e rt a t i o n ro 

s s
p o ses

p
i i .

k e y  q u e s t o n  a d d r e s s e d  i s  t h e  d e s i g n o f  s c a l ab l e  o p t i m i z e d  d e e p  l e a r n i n g  m o d e l s  w i t h
i 
 ,

re du c e d m o d e s l i z e  t h r o u g h  c o m p r e s s i o n an d  c o m p ut at i o n a c c e l e r at i o n  t e c hn i q u e s . T he

m et ho d o o g l i es  i m p e m e n t e d  fo r  t h e  i d e n t i f i c a t i o n  o f  p r o t e i n  p a r t n e r s  o f  n c R N A s  a r e
l 
 I

c a n c e  o f  t h e  i d e n t i f i c at i o n o f  t h e s e d c t o no f
p r e s e nt e d  a n d  t h e  s i g n i f h
 p ar n e r s  n t e  p r e
i t i 
 i i

fu n c t o n s  fo r  o r a nn o t a t e d  I n c RN A s  i s d i s c u s s e d  T he  d e a t ha t t he c h o c eo f


p h a n a n d  u n
i . i i

pr
i a t e  fe a t u r e  e x t r a c t o n  a n d  s e l e c t i o n  m e t h o d s  t o g e t h e r  w
ap p r o i i t hs u i ta b e  p a r am e t e r  s e t t i n g s
l 

a n d  a  c o m b i n a t o n o f  d e e p e arn i n
g  m o d e l s  w i t h  s ha l l o w  m a c h n e  e a r n i n g  a g o r i hm s




 l i l l

e ffe c t v e i l
yp re d c t n c R i I NA -

p r o e n  p a r n e r s  a r e  d e m o n s r at e d
t it t . T ob et t e r u n d e r s t an d th e

d ffe r e n c e s  b e t w e e n  t h e

p
ro
p o s e dm o de l s , t
hee m b e dd i n g s  l n e d  b y  e a c h  o f  t h e m  fo r  t h e i r
e ar 

ap c at i o n  i n  d ffe r e n t  d a t a  fo r m s  i n c l u d i n g  g r a p h s t r u c t ur e d ,  s e
q u e n c e  an d  s t ru c tu r e  d a
ta



l i i

h a v e  b e e n  w e l  d e s c r b e d  T h e  c o n t r i b u t i o n s  o f  t h i s w o r k a r e  t h r e e fo l d F i r s t  a  r e c u r r e n t
l i .

 .

n e u r a n e t w o r k  ( R N N )  w i t h  i t e r at i v e  fe at u r e  s e l e ct i o n  fo r  p r e d i c t i o n  i s  i m p l e m e nt e d  T h e
l 
 .

s e
q u e n c e s  ar e  i n
tr o d u c e d t o  t h e m o d e l  t h r o u g h  fe at u r e  d e r
i v at i o n a n d  s e l e c t i o n .  F e at u r e

s e l e ct i o n  r e d u c e s  d at a  d i m e n s i o n a l it
y , d e cre as e sp re di c ti o nm o de lc o mp l e x i ty , an d ad dr e s s e s

t h ei s s ueo f n o  i s e  i n  d at a  C o m .

p a c t L S T M  an d  S
 VM -

re c u r s i v e  fe at u r e  e l i m i n a t o n  ( S V M i

RF E 

fe a t u r e  s e l e c t i o n  t e c hn i
q ue  w e r e  u s e
d  t o  fa c i l i t at e  i n t e r ac t i o n  p r e d i c t i o n .  S p ar s i t
ywas

i n t r o d u c e d  i n  t h e m o d e  t o  p r u n e  t h e  n e t w o r k l s  s tru ctu r a l  c o m p o n e n t s  S e c o n d l y  g r ap h

 .

re
pre s en a
t t o n  e a r n n g  v i a  g r a p h  a t t e n t o n  w a s  i m p l e m e n t e d  fo r  t h e  i nt e r p r e t a b
i l i i i lit
y o f  t h e

5 


P r ed i c t i on  o f l a nt  l o n
g n onc o
d n

RN A s  n t e r a c t o n s w
i i i  i t h r o t e in s b y d e e p  ear
 n in




 p    p 

d e e p  l e a r n i n g  m o d e l s  G r a p h b a s e d  n e u r a l  n e t w o r k s  ( G NN s )  fo l l o w  a  n e g h b o r  a g g r e g a t i o n


 i

s c he me .  A v a r i a nt  o f  G NN t hr o ug h g ra
p h  at e n t o n  i i s
 p ro p o s e d  w h ,
i ch ach i eved

s t at e

of -

t h e a r t  r e s ul t s  o n  t h e  L P I  p r e d

i c t i o ntas k There s u . l t s  s h o w  t h e  d i s c r i m i n at i v e
p
o wer

o f  t h e  G N N v a r i a n t w i t h  a  s m p e  g r a p h  s t r u c t u r e  T h i r d y  d e e p  e n s e mb
i l . l

l e  l e arn i n
g w
i t 

mu s c a l e  fe a t u re s  s  u s e d  fo r  i mpro v e dp re d ct i ve
 p e r fo r m a n c e  T h e  e n s e m b l e  s h a ow


l ti i i . l l

m a c h n e  e ar n i ng  a g o r
i l l i t h m s  a y  a  fo u nd a t o n  fo r  t h e  d e e p 
l i l e ar n i n
g  e x p e r m e n s  a nd  p r e s e n a
i t t

g o o d  y ard s t i ck  t o  m e a s u r e  t h e  e ffi c i e n c y  o f  t h e  p r o p o s e d  fr a m e w o rk . A n  i nt e g rat e d



fra m e wo rk i s  d e v e o p e d  t o  p re d ct
p
o t e n t i a  L P I  a n d  fo r m u l a t e  t h e  t a s k  a s  a n  o t m i z at i o n



l i l i

x e d  n o r m  r e g u l a r i z at i o n  c o n s t r a i n t s  a r e
p r o b e m  wi th  m u l t i ab e  e ar n i n  T h e m 

l l l l
g i

i n c o r p o r at e d  i n t o  t h e  a l g o r i t hm  t o  i m p r o v e  a c c u r a c y . S
p ar s i t
y p r o m o t i ng p e nal t i e s  b a s e d o n l 

a n d  h  n o r m  a l o n g  w i t h  a ut o m a t c  s t o p p i n g  c r e r i a  w e r e  i n t r o du c e d  i n t o  t h e d i c t o r  fo r
p e
i i t r 

fe at u r e  i nd u c t i o n .  T h e n t h e  a u t o e n c o d e r  ( A E )  d e e p  l e arn i n
g  m o d e l  w a s  i m p l e m e nt e d  t o

ca
p t u r e  c o m p l e x  c o rr e at o n s  n fe a u r e  r e p r e s e n t a t o n s  T h e r e fo r e  s t a c k e d 
t l i A E vi as p ar s e

 i i .

re
p r e s e n t at i o n s  e f
fe c t i v e l
y  o b t a n  d e s c r p t o r s  o f  d a t a  a s  l n e a r  p r oj e c t i o n s  t h at  m a x m i z e  t h e
i i 
 i i

c o rr e l at i o n  b e t w e e n  fe a t u r e s  I n  t h e  p r e d i c t i o n  p h a s e  a  h y b r i d  o f  e n s e m b l e  c l a s s i f i e r s  w a s
. 
 ,

emp l oye d . F unc ti o na l


p re d i c t i o n  c an b eac h i eved  fr o m  i nt e r a c t i o n  ne t w o r k s  t hr o u g h

n e i g hb o r ho o d  a n a l y s i s  T h e r e fo r e  a n a y s .

l i sof
p
red i c t e d  L P I s  fo r  fun c t i o n a l  a nn o t a t i o n i 

p e r fo r m e d  T h e  p r e d i c t e d  n t e r a c t o n s  a r e  a n a y z e d  t o  a s s e s s  t h e
. i i l i rs i
g n i fi c a n c e  i n  n c
RN A s

 I

f u n c t o n p r e d i ct o n


i .  The t h r e e  m aj o r  c o n t r i b u t i o n s  o f  t h i s  t h e s i s  a r e  s u m m a r i z e d  a s  fo l l o w s 

 Ac o m p ac t d e ep e a rn i n g  m o d e l  b a s e d  o n  s e
q u e n c e  fe a t u r e s  e x
tr ac t e dus ng A m e r


1 l i
( ) 

e m b e d d i n g  a n d  fe at u r e  s e l e c t i o n  i s  p r o p o s e d  t o  s o l v e  t h e  p r o b l e m  o f  I n c R NA -

p rot e n

 i

i n t e rac t i o n 

RNN  l i ke o n g sho rt



te r m m e m o r y  ( L S T M )  h a s  p r o d u c e d  s t at e o f - -

t h e a r t p r e d

i cti on

re s u l t si n v ar i o u s  a
pp
l i c at i o n  f i e l d s  . H o w ev er , t ra i n i ng R NN s  u s i n
g
hi gh d m ens o na

i i l i np u t s

i s  c o m p u t at o n a l l y  e x p e n s v e  d u e  t o  t h e  h u g e  n u m b e r  o f  m o d e  p a r a m e t e r s  T h
i i l . i s  i s a

b o tt e n e ck  t hat  n e v e l y  a ffe c t s  t h e  p r o b l e m vin hem o d e T oc o m b att h i s


ga
so
g  ab yo f s 

l ti l i l it  t l .

p ro b l e m  a c o mp a c t  a n d f e x i b l e  L S T

l M t h at
g
r e at l
y  r e d u c e s  t h e  nu m b e r  o f p a r a m e t e r s  o f 
 t he

L S T Mm o de l i s
p
ro v t
p o s e d  o  m p r o e r a n n g  e ff i c
t i i i i enc

.  T h e  R NN  l e am s  t he  d i s c r i m i n at v e

 i

fe a t u r e s  c h a r a c t e r i z n g t h e  o n g

i l

t e rm  d e
p e nd e n c i e s  b e w e e n  s e q u e n c e s
t .  Op ti ma l  fe a t ure sw e r e

s e l e c t e du s i n g S V M RF E an d  -

i mp o s e s
p a rs

 p r oj e c t o n o n t o  t h e  h i d d e n  s t at e s  o f  n p u t
i i

se
q u e n c e s  t h r o u g h  c o nn e c
ti o n  p ru ni n g .  T he  i t e rat i v e  fe a t u r e  s e l e c t i o n m e t h o d ,  we i

h t

c o nn e c t i o n s , 
an d  ne u r o n
 p ru n n g  r e
du c e  t h e  t r a i n i n g  e r r o r  a n d  s p e e d  u p  c o m p u t at o n
i i 


2)
 L e ar n i n g  n o d e  e m b e d d n g s  v a g r ap h a t t e n t i o n n e u ra  n e t w o r k fo r p r e d i c t i o n  o f
i 
 i l

i n t e r a c t i o n s  u s i n g  s e q u e n c e  a n d  s t r u c t u r e  fe at u r e s 

G r ap h  r e p r e s e nt a ti o n  e a rn n g l i
, d i st i nc t l
yno d ee m b e d di ngai m s t oo b t a n o w

 i l

d i m e n s o na i l fe a t u r e s  fo r  n o d e s .  T he  p u rp o s e  o f th e  e x p e r m e n t s  w a s  i t o  fu l l y  c a p t u r e  s e q u e n c e 

6 


Da l i an Un i ve r s i t y o f 
 T e c hn o l o gy 
Doc t o ra l  D i s s e r t at i on
  

p ac e s G r ap h b a s e
ds e q ue nc e
p o l o g i c a l  c h a r a c e r i s i c s  a nd  s r u c
o t t t u r e  i n fo r m a t i o n  o f  d a t a  s 
 -

t t .

fe a t u r e s  w e r e  e x t r a c t e d  u s i n g  c h a o s  g am e  r e p r e s e nt a ti o n( C G R )  G r ap h  a t t e n t
. i o n  w as

i m p e m e n t e d  t o  e n h a n c e  t h e  nt e r p r e t a b i l
l i i t
y  o f  t he  d e e p  l e arn i n
g m o de l .  T h e  at t e n t i on

m e c h an i s m ,  m a n i fo l d  r e g u l a r i z at i o n  a nd  /2 ,

n o rm  o b t a i n  d i s c ri m i n a nt  fe a t u r e  r e p r e s e n t a t o n s

 i

an d m i ti
g a e  o v e r fi t i n g
t t .  T h e  m o d e  c ap tu r e s  l l o c a l i t y  p r e s e r v i n g  an d  r e c o n s t r u c t i o n

c o n s t r a i n t s  t h at  l e a d  t o  b e t t e r
 g e ne r a
l i z at i o n  a b i l i t y .  G r ap h -

b a s e d  r e g u l a r i z at i o n  c o n s t r a i nt s  ar e

i n c o r p o r a t e d  i n t o  t h e  o p t i m i z at i o n  a l g o r i t h m  t o  i m p r o v e  a c c u r a c y 


 M ult fa c e t e d  s e qu e n c e d e r i v e d  fe a t u r e s  c o m b i n e d  w h  s t ru c t u r a  fe a t u r e s  a n d  a


i i t l
( )

h y b r d  d e e p  e n s e mb e  l e a r n i n g  fo r  i nt e r a c t i on  p r e d i c t i o n
i l 

A l t h o u g h  s e v e r a l  s t u d i e s  h av e  i n v e s t i g at e d  t h e  c o n c e t  o f c o m b i n n
p g  mu  i l ti
p l e  fe at u r e s  i n

t h e  d ffe r e n t  a
p p l c at i o n  a r e a s
i i
,  t h e  fo c u s  o f 
t h i swo r kw a so nt h emu l ti

fe a t u r e  fu s o n  i n  t h e

 i

a r e a  o f  nt e r a c t i o n i
p
re d i c t i o n  G e n e r a l l y  t h e  d i ffe r e n t  fe a t u r e s  a r e  c o n c a t e n a t e d  d i r e c t l y  o r



i n d i r e c t y[ l 1 2] .  I n  t h i s  w o r k ,  t h e  d i r e c t  fe at u r e  f u s i o n  t e c hn q u e  i i s  u s e d t o fu s e  d i ffe r e n t  t y p e s

of  A :

m e r  b a s e d  a n d  s t r u c t u r a l  fe at u r e s  C o n s i d e r i n g  t h e  d . i s t i nc tc h a r ac t e r i s ti c so f
 p r o t e n  an d
i 

n c R N A  s e q u e n c e s  ^ m e r  fe at u r e s  a nd  s t r u c t ur a  fe at u r e s  w e r e  c h o s e n  S e q u e n c e b a s e d


- -

I l .

p l o i t  s e qu e n c e  c o m p o s i t i o n  e x t r ac t e d  u s i n g  ^ m e r  p o s
fe at u r e s  w e r e  c o mb i n e d  t o  e x iti on

 -

i n fo r m a t i o n  e x t r a c t e d  u s i n g  B P F s  a nd  s t r u c t u r a ,
l  fe a t u r e s  . T h e  s e q u e n c e  p at t e r
n s  e n c o mp a s s

v i t a l  i n t r i n s i c  c o r r e l a t i o n  i n fo r m a t i o n  fo r  p r o t e i n s  an d  I n c R NA s .  T h e  s e c o n d a r y  s t r u c t u r a l

fe at u r e s  o f  I n c R N A s  w ere  p r e d i c t e d  b a s e d  o n  f i n d i n g  t h e  m i n i m u m  fr e e  e n e r g y .  Th e

p r e d c t o n  o f  t h e  p r o t e i n  s t r u c t ur e  s e q u e n c e
i i  h a s  t hr e e  s t at e s  n a m e
yc o i ( C ) h e l i x(
H )  a nd

 l l
? ,

 T h e  s t a n d ar d  s e l f a t t e n t i o n  w a s  i m
E) e m e nt e d  t o  e nh a n c e  t h e  i n t e r
p r etab yo f h ed e ep



p l i l i t

l e arn i n
gm o de l 

1 . 5  O r g an i z at i o n  o f  t h e  d i s s e r t at i o n

Th i s  d i s s e r t at i o ni sc om
p o s e d  o f  s i x  c h a p t e r s  a s  s u mm a r z e d  i n  F i g  1 i . . 1 .  C h ap t e r  1  i s  a

b r e f  o v e r v e w  o f  t h e  w o r k  d e s c r i b e d  i n  t h i s  d i s s e r t at i o n  C h a p t e r  2  i s  a  l i t e r a t u r e  r e v i e w  o f
i i 
 .

t h e  fu n d a m e n t a l  c o n c e p t s  t h i s  d i s s e r t a t i o n  i s  b u i l to n  a n d  t h e  d ffe r e n t  s t a t e o f i

t h e art  d e e p


e ar n i n g  a n d  o t h e r  m a c h i n e  l e a r n i n g m e t h o d s  fo r  L P
l I
p r e d i c t o n F i r s t  t h e  c a s s i fi c a t i o n
i .




b o g e n e s i s  a n d fu n c t i o n s  o f  p a n t  I n c R N A s  a r e d i s c u s s e d  A d d i t o n a l y  t h e  s t ru c t u r e  a n d


l 
 . i l

g e n e  e x p r e s s i o n  i n  r e l a t i o n  t o  t h e  i n t e r a c t o n  b e t w e e n  I n c R N A s  an d  p r o t e n s  i s  h i g h l i g h e d
t i i 

T h en th e d ffe r e n t  a s
p e c t s  c o n s i d e r e d  w h e n  b u i l d i n g  a  m o d e l  s u i t a b e  fo r  i n t e r a
i cti o n

 l

p red i c t i o n  ar e  d i s c u s s e d .  T he l i m i t at i o n s  o f  c u r r e n t  m e t h o d s  a nd  t h e  d i ffe r e n t  wa y s  o f



o v e r c o m i n g  t h e  c h a l l e n g e s  a r e  h i g h l g ht e d i .  C h a p t e r s  3  4  5  a nd  6 d e s c r b e  t h e  p r o p o s e d



, ,

m e t h o d s  d e v e o p e d  t o  s o l v e  th e  l l i m i t at i o n s  o f e x  i stin
g  m e th o
ds , 
w h c h  a r e  t h e  c o nt r i b u t i o n s  o f
i 

t h i s  d i s s e r t at i on .  E a c h  c h ap t e r p r e s e n t s  r e s u
l t si n  c o m p a r i s o n  t o  o t h e r  m e t h o d s  t o  h i gh l i g h t  t h e

C ha
s i
gn i f c an c eo f
i  t h e  p r o p o s e d  m e t h o d s  n  t e r m s  o f p e r fo r m an c e i

p t er7i s th ec o nc l u s i o no f




- 


P r e d c t o no f p a nt o n
i i
g n o n c o
d n
 g l l i


RN A s i n t er a c t o n s  w i i t h
 p
r ote n sb yd e ep


l e a rn n i



t h er e s u l t sa n dt h e ri nter re t at i o n  fr o m  t h e  p e r s p e c t v e  o f p r e v o u s  s t u d e i i i s T h i sc hap t e ra l s 





i .

p r e s e n t st h ef n d n g s i i
, 
t he i ri mp l i c at i o n sd i s c u s s e d i n c o n t e x t , an d  fu t u r e  r e s e a r c h  w o r k 

F u n c t o n a  n fe r e n c e  b a s e d  o n
i 
 l i

i n t e ra c t o n s  F u n c i t i on a l a na l
ys i 


Chap t e r6


 kN A
nc


 De e p

I t e r a t v e  fe a tu r e  s e e c t o n
i l i A  gra p
h atte n t o n n eu r a i l  n etwo r k 
e n s e m b e e ar n n l l i

o te n

r 
 i


w i t h RN N  b a s e d  o nse q u en c e -

s t ru c t u re  b a^d  o nmu l t i

fe a t u r e  fu s i o n
i n t e ra c t i on


C ha p t e r  j

) (
Chap t er 4 

) (
C hap ter5

d c on


        p re i t i

 L — i 

 — 
  L J   D fe i re n 

& e
m od s
 A  r^ 9^*
E &
 Ex t ra c t  se


u e n c e  s tr uctu r
eth 

  ^

Ex tr re s x tra c t  S e
a c t  S e q u e n c e  fe a tu
u e n c e  s t r u c t u re
q 
 广

r ^  ,  ,  ,  fe a d r e s m a n u a y a n d b v d e e p  o i
 l l
  

? 

man ua l l


】
f eat u re sb yd eev
: p e a rn n
g °
l i

  e x

, 一 

ra c
ea r
n n
 t t n




l i

 fe a

 

u es

t r 


/ 

 

B i o o g i c a l  p e r s p e c t i v e  an d  c o m p u t a t i o n a


l  a p p r o a c h e s  fo r  n c R I NA -

 

咖n
 



ro t e n n e r ac i C a p ter
o n  v(  i t t i h  2)
* f

 i n te ra c t i on

I nc RN A


I nc R N A seq ue n ce  产  P ro t e ns eq u e nc e a n d


r ot e n



. . A C U U A C G C U GA A . . .  . . .
M 〇S PY P M TQV A K . .

se u e n ce


F i

. 1 . 1 S t u d yo u t l i n e o f  t h ed i ss e rt a t i o n

8




Da l i an  Un i ve r s it
y of  T e ch n o l o g y  D o c t o r a l  D i s s e r t at o n

 i

2 B i olo
g i c a l  p e rs p e c t i v e  a
n d a
p p o a c h e s  fo r  i n fe r r i n g


n c RN A
p r o t e i n  i nt e r a c t o n s


I i

R N A  s e qu e n c n g  e x p e r i i m e n t s  e x t r a c t  R N A s  fr o m  fo u r  t i s s u e  t yp e s  i n c l u d i n g  l e a f 

p h l o e m  x y l e m  a n d r o o



.  C o n s d e r n g  t h e h g h  d e m a n d  fo r  fo o d  e ff c
i i i

i i e nt  d i s c o v e r y  o f

mo l e c u l ar  m e c h an i s m s b eh i nd  I n c R N A s  i n t e r a c t i o n s  w i t h  n c R N A c l a s s e s  a n d  c o d i n g

s e
q u e n c e s w i
ll i n i n g  n o v e l  fun c t i o n a  n e t w o r k s  T h e  p o t e n t i a l  t a r g e t  g e n e s  o f
h e l p  i n d e f 
 l .

I n c R N A s  ar e  p r e d i c t e d  a c c o r d i n g  t o  t h e i r s e
q u e n c e  a n d  s t r u c t u r a l  i n fo r m at i o n .  H er e t he

i n t r n s i c  an d  e x t r i n s i c  d e t e r m i n ant s  o f
i  t h e  i d e n t fi c a t i o n  o f L P I s  a r e  d
i  i s cus s e d 

2 . 1 C l a s s i fi c a t i o n ; , 
b i o g ene s i s  a n d  fu n c t i

o n so f  I n c RN A s

L n c R N A s  are  e n d o g e n o u s  s n g i l e

s t r an d e d
po l
y nu c e o t i d e s  n o n p r o t e i n c o d i n g



- -

tr an s c r i p t s  w i th  g r e at e r  t h a n  2 0 0  n u c l e o t i d e s  s e q u e n c e  l e n g t h  [ 1 3

.  T h i s  c l a s s o f  n c R N A s

i n c u d e s  c i r c u l ar  R N A s

 (
c i rc RN A s )  c ,
i rc u l ar  i ntr o n i c RN A s (
ci R N A s )  an d  ,
l o ng

nt e r v e n i n g / i nt e r g e n i c  n o n c o d i n g  R N A s  ( n c RN A s ) T h eI n c RN A s  ar ec a s s i f i e d  i nt o  s e v e n


i l i . l

c at e
go ri e s  i nc l ud i n g s e n s e ,  ntr o n
i i c ,  ant i s ens e ,  i nt e r v e n i n g , b d i i re c t i o n al ,  i nt e r g e n i c ,  an d

e nha n c e r  T h e  s e n s e  l i n c
. R NA s  a r e  tr a n s c r i b e d  f ro m  t h e  s e n s e  s t r an d  o f
 p r ot e i n

c o din
g g e n e s

a n d  o v e r l a pp i n g  t r a n s c r i p t s  I n t r o n i c  I n c R . N A s li e  w i t h i n  t h e  i nt r o n s  o f  a  c o d i n g  g e n e  t h a t

l ac k s  e x o n e x o n  o v e rl ap p i n g 

. An ti s e ns eInc RN A sar etr an s c r i b e d  fr o m  t h e  a n t i s e n s e  s t r an d



a n d  i n t e r s e c t  an y  e x o n  o f  a  p r o t e i n

cod i n
gl o c u so
nth eo p p o s i t e s tr an d L i nc R
. NA s  d o n o t

o v e r l ap  p r o t e i n c o d i n g  e x o n s  a n d  r e s d e  i n  t h e  g e n o m i c  i nt e r v a l  b e t w e e n  t w o g en e s

i 

B d i i re c ti o nal In c R N A s  ar e  e x p r e s s e d  w i t h n  1 0 0 0 b a s e

p a r so p ro
i f m ot e rsi ntheo p p o s i t e

d i r e c t i o n fr o m  t h e  n e g h b o r n g  p r o t e i n i i

c o d in
gg e n e .  E n h an c e r  n c R N A s  ( e n c R N A s )  a r e
I 
 l

th b e d  fr o m  e n h a n c e r  r e g i o n s  an d m i g ht  c o nt r i b ut e
g e n e r a l l y  e s s  h an  2 kb  n e n g  ar e tr a n s c r i
t  l i l
, ,

t o  e n h a n c e r  fu n c t i o n .  L n c RN A s  c an  b e  c l a s s i fi e d  b a s e d  o n  t h e i r  l o c a t i o n  a s  n u c l e a r 

 t h e y  c a n  b e  c ap p e d  s p ced
yt o p l a s m i c  o r  b o t h  a n d  a c c o r d n g  o
c i t th e i r  m at u r at i o np ro c e s s ,
l i



, ,

4 ]  T h e s e  n c R N A  m o l e c u e s  a r e  a s s o c a t e d  w i t h d i v e r s e  b i o l o g i c a l
or  p o y a d e n y l at e d  [
l 1 . I l i

pro c e s s e s ,  r e g u l at i o n  o f  t r a n s c r i p t i o n ,
a n d  i nt e r a c t  w i t h  m i R NA so rp rote i n s  L n c R N A s  ar e
. 

d i s t i n gu i s h e d  f r o m  m e s s e n g e r  R N A s  ( m R N A s )  b y  t h e i r  o w  e x p r e s s i o n  e v e l s  b i o g e n e s i s l l
, 

d e g r a d ati o n , a
n d  e p i g e n e t i c  r e g u l at o r y  fe a t u r e s  [ 1 5

.  Num ero us I nc RN A s h av e b e e n i d e nti f i e d

a n d  c h ar a c t e r
i ze d .  I n  e u k ar
y ote s , 
t h e y  a r e  t r a n s c r i b e d  b y  p o l y m e r a s e  I I  an d  I I I  at  s e v e r a l  l o c i

of  t heg e no me .  P ar t i c u l ar l y  i n
 p an s
l t
, 
t h e  n c R N A s  ar e  t r a n s c r b e d  b y  p o y m e r a s e  I I  a s  w e l
I i l l as

p e c i fi c  R N
Ap o y m e ras eI YandV Th e n c R N A s  tr an s c r i b e d  b y  R N A o y m e ras e 


p l an

t s l I
p
. l

p ar t i c p a
i te  i n  t h e  p r o c e s s  o f  R N A d i r e c t e d  D N A  m e t h y l at i o n  a n d  m o du l at e  t h e  l o c a l


- 


g RN A s  nte ra ct o n s
P re d w
p a nt  o n g n o n c o
d n
ct i on  o f p r ote n s  b y d e e p  e a r n n g
i l l i i i  i t h i l i
   
 

c h r o m at i n  l o o p  [ 1 6

.  C o m p r e h e n s i v e  w e b b a s e d  r e s o u r c e s  a nd  d a t a b a s e s  fo r  p l a n t  I n c R

N A s

ar e l i st e d i n T ab . 2 . 1 

T h e b i o gene s i s o fI nc R N A s  r e fe r s  t o  t h e i ro ri


g n a nd e v o l u t o n
i i .  T hep l a nt  I n c R NA

b o ge n e s s i s c e l t
y p ean ds t a g e p e c i f i c  wh i c h i s  c o n t r o l l e d  b y  n t e r n a  o r  e n v r o n m e n t a l

i i l s i l i

st i mu l i . T het he o r i e so fthe ori g n  o f  n c R N A s  a n d  o t h e r  n c R N A s  n c u d e  d up l i c at i o n


i I i l


e v o l u t i o n  fr o m  e x i s t i n e l e m e n t s  r a nd o m  h a i r i n  s t r u c t u r e s
g  t r a n s p o s ab l e  p ,
p s
e u d o g e n i z at i o n

 ,

o f p ro te i n c o d n gs e q u en c e s


, 
DN A r ep e a t s ,  r ep l i c a t i o n  o f 
R NA  v i ru s e s  a n d  d o u b l e

s t ra n d e d

R N A s  fr o m  h e t e r o c h r o m at i n  r e g i o n s  [
1 7

. T he I n c R N A s  a r e  c a s s f e d  n t o  c i s  a nd

 l i i i

/ T^m s

re
g u l at o r y  s y s t e m s . S m i i l ar  t o o t h e r  o r g a n i s m s ,
s t ud i e s h a v e  e s t a b l i s h e d  t h at l n
p a t

I n c R N A s  c a n  r e g u l a t e  t h e  e x p r e s s o n  o f  t h e i r  n e i g hb o r i n g  c o d i n g  g e n e s  ( c 5 i /

re
g u at i o n )  a s
l 

we l l  a s  g e n e  e x p r e s s o n o n  d i ffe r e n t  c h r o m o s o m e s  ( t r a m  r e g u
i l at o n ) i .  T h e c / ^

re
g u at o r y

 l

w t h  c e l d ffe r e nt a t i o n  a n d  c y c
a e r at i o n s  a c c o m
p a n y i n g  d i ffe r e n  g o n g  a ffe c t  m u p e


l t t r ,
l i i

l i l ti l

re
g u l at o r s  s m u
i l t an e o u s y  F o r  e x am p l e l .
, e l nc RN A sre gu l at e  c hr o m a t i n  t o
p o o gy y c nga s
b a t l 
 i

c hro mo s o m el o o p i n
gm e
d i a t o r s  b e t w e e n  e nh a n c e r  a n d  p r o m o t e r  r e g o n s i .  A l s o , e l n c RN A s  a c t

i n  c i s  a s  s c a f fo l d s  t o  r e c r u i t  c o a c t i v a t o r  c o m p e x e s  [ -

l 1 8



T ab . 2 . 1  R e s o ur c e  fo r p l a n t  I n c R

NA  an d  I n c R NA -

p r o t e i n  n t e r a c t o n  d at a

i i

D at a b a s e  T y p e  D e s c r i
pt o n

 i

P l an tC i rc Ne t
[
1 9] c i rc R NA  A  co l l e c t i o n  o f re p o rt e d  a n d  u n 

pub
l i s h e dc i r RN A s

P l a n t c i rc B as e  [ 2 0
]  o f f v ep antm o d e
 i l l s P red. i ct i o no f c  i rc RN A  s e r v i ces

i sa va i l ab e l 

P a n tN A T s D B [ 2
l 1
] N a t u ra l  ant i sen se A  w e b b a s e dp-

l a t fo r m  fo r  h i



t h ro u gh p u ts m a l 

tr an s c r pt s( i NA T s )  se

u enc i n g d at a
 , 
i n vest i
g a tet
h eb o o i l


i c a  fu l n ct o n

 i

of  N A Ts  i nt h e
 p
l a n tk i n gd om 

G re e n N C [
22
]  Ln c RN A s Ad a t a b a s eo f 3 7p a n t n c  l I RN A s  t h at  h a v e  b e e n

a n n o t a t e d  i n  s i l ic o  b a s e d  o n  r e fe r e n c e  t ra n s cr i

pt


En se m b l eP an t s[ 2 3

]  L n c RN A s  A n i nte
grate
d  n fo r m a t o n  r e s o u
i i rc e  fo r  3 

se
quenced p
a n ts p e c e s
l i 

C AN T A T A d b  [
24
]  Ln c RN A s A u s e r fr e n d y  d at a b a s e  o f  1 0  m o d e

i l l
p
l a n ts
pec es

 i

th at  h a v e  b e e n  c o m t o na d e nt f e du s n
pu a

y 


i l l i i i i

RN A -

S e q d a ta



P L n c D B[ 2 5 ]  Ln c RN A s  C o n t a i n s I nc RN A s  fr o m  8 0  p l a n ts
p ec e so t a n ed
b 
 i i

fr o m  d i v e r s e  r e s o u rc e s 

P LN n c R b a s e  [ 2 6 ] l
Mu l t i
p e n c R
l N A  A  r e s o u r c e  fo r
I  ex
pe r m e n ta
i l l
y
i d e n t f e dp a n t

 i i l

b o ty e s  e g
p i

NATs ,  I n c RN As 

i n te r g e n c i
, 
i nt ro n i 

P n c RN A D B [ 2 7

]  I ncR NA  an d  I nc RN A  s e q u e n c e  a n dL P I d a t a  fo r  fo u r
 p a
nt


I ncR NA -

p ro e n
t i s
pec e s
i 

i nte rac t o n

 i

1 0 


Da l i an  Un i ve rs it
y of Te c h n o l o gy Doc t ora l  D i s s er tat i on

 
 

I t h a s  b e e n  r e p o r t e d  t h a t  n  t h e  v a s t  m aj o r i t y  o f c a s e s i 
, t
h e  c i s  e ffe c t  d o e s  n o t  r e q u i r e  t h e

p r o d u c t i o n  o f  n c R N A  t r an s c r
i p t s  b u t  r a t h e r  t h e  p r o c e s s e s  s u c h  a s  t r a n s c r p t i o n  a nd  s p l i c i n g


 i

w h c h  a r e  a s s o c i at e d  w i t h  t h e i r  p r o du c t o n

[
28

i .  T h e  tra n s -

ac t i n
g  fa c t o r s  s u c h  a s  t r a n s c r p o n
ti 
 i

fa c t o r s  ( T F s )  a r e  r e
q u i r e d  fo r  g e n e  t r a n s c r i p t i o n  t o  o p e r a t e  t h r o u g h  s e q u e n c e s
p e c i fi c  D N A


b i nd i ng t ot he i ral l i e dc/5


ac t i n
ge e m e n s n
l t i  th e  l o c al i t
yo f ag e ne  .  A lt h o u g h  t h e  m e c h an i s m s

o fI nc R NA sb i o g e n e s i s  ar e  o b s c u r e  m o d e l s  h av e b e e n  p r o p o s e d  fo r  t h e i r  fo r m a t i o n

. For

R N A s  a r e  fo r m e d 

e x am
ple , c i r c t hr o u g h  b a c k -


p l i c i n g  fr o m  j
o n i n g  t h e  d o wn s t r e a m  3  d o n o r
i 

c es i t e s t o t heu


li
p s t re a m  a c c e p t o r  s p l i c es i t e s
[
29] 

L n c R NA s  c i s  an d  t r a n s -

ac t i ng
 f u n c t o n s  ar e  c a s s i l i fi e d  a s  th e  s i
g na l  d e c o y  g u,
i de s
, 

s c a ffo l d s  a n d  e n h a n c e r s  fo r  s ub n u c l e a r  d o m a i n s

,  t h e  fo r m at i o n  o f  p r o t e i n  c om p l e x e s , 
an d

g en e exp r e s s i o nre g u a o n[ 3 0 3


ti l



.  As i
gn a
l I n c RN A s erv e sa sam o l e c u l a r  s i g n a l  t o  r e g u l at e

tr a n s cri pti o ni nre sp o n s et ov ar i o u ss t i m u l i i n  a  s p at i o t e m p o r a l  wa y .  T h e r e fo r e , 


it s
 p r o du c
ti on

D ec oy RN A s
' 5

an d
p r e s e n c e  c a n  s e rv e  a s  a n  n a n s c r i p t i o n a l  ac t i v i t
d c at o r  o f I n c

i i  tr
y . 

o r s
p o nge 

g u a t o r y  fa c t o r s  b y  p r e s e n t i n g  d e c o y  b i nd n g  s i t e s  T h e y  m o u l a
l i m i t  th e  a v a i l ab i l i t
y o f  re l d te

 i .

tra i p t i o n  b y  s e q u e s t e r n g  r e g u l a t o r y  fa c t o r s  l i k e  T F s
ns cr i
,  c at a l y t i c  p r o t e i n s ,  s u b un i t s  o f  l ar g e r

c h r o m at i n

m o d i fy i n g  c o m p l e x e s  a n d  m ,
i RN A s t h e r e b y  r e du c i n g  t h e i r av ai l ab i l i t y . Gu i de

n c R NA s  i n t e r a c t  w i t h  r i b o nu c eo
p r o t e i n  ( R N P )  c o mp e x e s  an d  d i r e c t  th e m  t o  s
p e c i fi c  ar g e
I l l t 

gene s .  The s e I n c R N A s  a r e  e s s e n t a l  fo r  t h e  p r o p e r  l o c a i l i z at i o n  o f  RN P s .  H O TAIR i s  a  gui d e



I n cR N A  t h at  d i r e c t s  c hr o m at n  m o d i i fi e r  P o y c o m b  R ep r e s s i v e  C o m p l e x  2  t o  H O X D  l o c u s
l 

T r an s c r p t o n  fr o m  t h e  s c a ffo d  c a s s  o f  n c RN A s  p l a y s  a  s t r u c t u r a l  r o l e  b y  p r o v
i i l ding

l I i

p at fo r m s  fo r  t h e  t r an s
l i e n t  a s s e m b l y  o f m u l t i
p l e  e nz y m a t c  c o m p l e x e s  s u c h  a s R
NP si 

E n c R NA s  a r e  g e n e r at e d  fr o m  e n h a n c e r  r e g
l i o n s  a n d  a r e  i n v o l v e d  i n  c h r o m at i n  nt e r a c t i o n  b y

 i

i n fl u e nc i n g  th e  t h r e e d i m e n s o n a -

i l  a r r a n g e m e n  o f  D NA  t

3 2] .  T h e  e nh a n c e r  I n c RN A s

i n f l u e n c e  c h r o m at n  n t e r a c t o n s  a s  r e p o r t e d  b y  H o u e t  a l
i i i .  i n  a  s t u d y  th at  i d e n t i fi e d

i n t er a c t o n s  b e t w e e n  c hr o m a t n  l o o p s  an d  e nh a n c er p r o m o t e r  i n  t h e  G M
i i

1 2 8 7 8c e l ll i ne[ 3 3 ]




M o re o v e r , I nc R N A s  a r e  kn o w n  t o  e n c o d e  s h o r t p e p t i d e s  t h at  ar e  f un c t i o na l l y  r e l e v an t  s e r v e


 ,

a s  e n d o g e n o u s  t a r g e t  m i m i c s  c o m p e t i n g  fo r  v a r i o u s  m i R NA s ,  c an  b e p
r e c ur s o r so fm i R N A s

a nd  s i R N A s .  F o r  e x amp l e , 
t h e  s h o rt  re
g u a t o r y  p o l yp e p t i d e  o f a m i n o  a c i d  r e s p o n s e  ( S P A
l R )  i s 

a  9 0  a m no  a c i d  l o n g  m o e c u e  e n c o d e d  b y L E N C 0 0 9 6
i l l
,  a  n c R N A  t h at  p r o m o t e s  m u s c
I l 

re
g e n e r at i o n  [ 3
4] .  Th i s
 po y p ep t d ea
l i l so
 p a y s  a n  i m p o r t a n t  r o l e  i n  m o du l at i n g  t h e  a c t i v i y  o
l t 

t h e  m am m a l i a n  t a r g e t  o f  r ap a m y c i n  c o m p l e x  1  ( m T O RC l
) ,  w h i c h  i s  a  c ri t i c als e n s o r o f

i e nt  a v a i ab i l i t y  w i t h i n c e
nu t r l l l s .  I n  A ra b i dop s is  t h a l a n a  a nd  o t h e r  p a n t s i l
,  t he

T O R S 6 K RP S 6  ax- -

i so f t  he m T O R C l
p
at hw a y  i s hi g h l y  c o n s e r v e d  [ 3 5 ] .  D e sp it ethe i rc ri t i c a l

re
g u at o r y


ro l e si nb i o l o
g i c a l  p r o c e s s e s  an d  d i s e a s e s , 
r e s e ar c h o n n c RN A  I i si n  i t s  i n fa n c y 

1 1  


Pred i ct i o n  o f p a n t  o n g n o n c o d n g  RN A s  n t e ra c t o n s  w
l l

i i i i t h
 p ro t e n sb yd e e p
i l e a rn i n



C at e g o ry  I nc RN A


An 
t i s en s e
 f


j   ;  C OOLA R

 I

r/ .

NAT

? ?


 ̄  ̄

I ru r on i c r
C OLDA R

 1

Prom ote r    Po l  

r an sc r t 




^ ,

  
 -

n,e n C

1 E N O o
r e

l i

1 :
io

I PS 

B i d i re c t i o na 

F g i .
2 . 1 C l as s i i c at
f i o no f I n c RN A sa n de x a m p l e so fI nc RN A s  i ne a c hc a s s

 l

E m e r g n g e v d e n c e n d i i i i c at e st h atd e fe n s e  m e c h a n i s m sa g a n s tp at h o g e nat t a c k s np a n t s


i 
 i l

c o rr e l at ew i t h n c l RN A -

d e p e n d e n t m m u n es y s t e m s [ i 3 6

.  nt h ep o s t

gen om
i ce r a ,
p
ro v d n


g i i

d n c RN A s T he
a c c u r a t e  fu n c t i o n  a n n o t a t i o n s  fo r  o r
p ha nan du n an n o a e sac ha e n g n g t a s k 

t t I i l l i .

I nc RN A s  h a v e  a  h i

h y e v o v e d n at u r e  h e n c e  t h e
l l i r  l o w  s e q u e n c e  c o n s e r v a t o n  a n d  fe w

 i

p h y o g e n e t i cr e at o n s h p s I n
l l i i . i t h a s b e e n r e p o r t e dt h a t  l e s st h a n 2 %o f

I n c R N A s  w e r e  e vo u t i o n a r i l y  c o n s e r v e d  C o n s e r v a t o n  a n a y s l . i l i s  o n  o t h er  s p e c i e s  n c u d ng

 i l i

m o n o c o t a n d d c o t d e m o n s t r at eh g h s e q u e n c e c o n s e r v a t o na t  n t r a a n ds u b  eve


pec es




i i i i s i l l

wh i l ea tt h e i nt e r s p e c e s i l e ve l . I n c RN A sa r eh i


g h y d l i ve r
g e n ta tt
h en u c e o t d e e v e l i l l a n dh av e

yr o e s[ 3 7 ] O w n gt ot h ee x p o n e n t a


h o w nd v e r s ere u at o r wt h o f

g i
g
ro s e
q u e n c ed at ad u et o


i l l . i l 

a d v a n c e db i o techn o l o g y c o m p u t a t o n a m o d e

i l l sa r e
g r e a
t l
yn e e
d e d  fo r  e l u c i dat n
g n c
RNA

 i I

fu n c t o n s  b a s e d  o n  m a n

ys t r a e g e s T
t h e r e fo r e  m o s t  c o mi

u t a t o n a a
pp o ac
r . h e s  fo r  n c ,
i l I RN A

fu n c t o np r e d i c t o n n t e  d v e r s e  fe a t u e st ou n v e  fu n c o n s G e n e r a t h em e t h o d sr e y


gra e r
t t
i i
y 
 l
i i i l i .
l l ,

o nt h es e q u e n c e s t r u c ure a n d h y o ge net ro f e s T h es t at e e st h at h a v eb e e nd e v e o 




c r
pe

p

p g
l i i l . i
, ,

fo r  a s s i
g n n g  fu n c t o n s  t o  n c
i i I RN A s i n c u d eg e n ee x p r e s s o np a t t e r n
l i , w h i c h n v o v e sa n a y z n g


 l l i

g e n ee x p r e s s o np att e r n s P h y o g e n e t


i . l i c
p r o
f i l ew h e r e b
yt h ee
vo u t o nar
yh
l i i s t o r
yo f n c I R N A s

i sa n a yze d
l .  L n c R N A s e q u e n c e  p r e d ,
i cti o n  o f  fu n c t o n s i  fo  r I nc RN A s u s i n gs e q u e nc e

s i m i l ar i t
y m e a s u r e s p r m a r i i l
y b a s ed o n h o m o l og es i . L n c RN As t ru c t ure :

p r e d i c t i o no f

fu n c t i o n su s i n g
 I n c R N A s t r u c t u r e  b y  a n a y z n g  s e c o n d a r y  a n d  t e r t a r y  s t r u c t u r e s l i i 

P rote n i

l nc RN A i n t e r a c t o n s u s n g n c i :
i I RN A -

I n c RN A .

p
r ote n i

p ro t e n a n dL P i , I sb
ya
n a yz ng

 l i

n e g h b o r h o o d N e t w o r ka
i . l i
g n m e n t u s
n g  a n n o t a t o n  t r a n s fe r  t h r o u g h  n e t w o r k  a
: i i l i
g n m e n b y


a s s g n n g  fu n c t o n s  t o  u n a n n o t a t e d  m e m b e r s  o f  a  c T h e n t e o no f r e s u
i i i l u s t e r . i
gra
t i l t so f
 g ob a l 

a l i
g n m e n t m p r o v e sa c i c u rac y 

1 2 


Da l i an  Un i v e rs i t
y o f Te chn o o gy



D o ct o ra D l  i s s e r t at i o 

2 . 1 . 1 H i
gh

t h r o u g h p u t  t e c h n o l o g i e s  fo r  p r o b i n g  m e c h a n i s m s  o f I n c RN A s

 

Th eb i o l o g i c a l  r o l e s  o f  I n c R N A s  c a n  b e  o b t a i n e d  fr o m  un d e r s t a n d i n g  t h e i r  m e c h an i sm s

o f  f u n c t i o n  a t  t h e  m o l e c u l a r  l e v e l  I n  s p i t e  o f  t h e i r  s i g n i f i c a n c e  t h e  m o l e c u l ar  m e c ha n i s m s
. 
 ,

un d e r l y n g i
 I n c R N A s  f u n c t i o n s  ar e  o b s c u r e .  T h e  kn o w l ed
g e o
f s e que nc e ,
s t ru c t u r a l

o r g a n i z at i o n , e x p re s s o nl e v e l s c e i

l l u l ar  l o c a l i z at i o n  a nd  n t e r a c t i o n  fe a t u r e s  i n c r e a s e  t h e


 i

i dent i fi c at i o n  o f fu n c t o n a l  n c R
 i I N A s T h en a . t u r e  a n d  d y n a m i c s  o f L P I s  h a v e  b e e n  e l u c i d at e d

 

i n  v i v o  t h r o u g h  i m m u n o p r e c i p i t a t i o n b a s e d  ap p r o a c h e s  s u c h  a s  R I P  c r o s s l i n k i n g  I P  ( C L I P ) -

? 

an d  c a
p u r e  y b r d z a o n an a y s s  o
t h i i ti l i fR NA t ar
ge
ts
 ( C H AR T  ) [
3 8

.  B a s e d  o n s t a n d ar d

l ab o r at o r y  e
q u p me n
i t
,  t h e s e  m e t h o d s  t e s t  L P I s  T h e  m e t h o d s  a r e  ap p l i e d  t o m a t e r i a l s  fr o m

 .

c e l l st o
 p r o v d e  n s g h t  n t o  h o w  L P I s  a r e  a l t e r e d  b e t w e e n c e
i i i i l l  s t at e s  F u r t h e r m o r e  t h e
. 
 ,

p r e fe rr e d  b n d n g  s i e s  fo r 
t RB P  a n d  t h e
i i i r
 p r e c i s e  l o c at i o n  w i t h i n  t h e  c e l l  a r e  i d e n t i f i e d 
wh i c h

s ub s e q u e n t l y  fa c i l i t at e  t h e  i d e n t i f i c a t i o n  o f p o s s i b l e  m e c h a n i s m s  b y  w h i c h  I n c R N A s  fun c t o n

i 

T h e r e  a r e  fo u r  a r c h e t y p e s  o f m o  l e c u l ar  m e c h an i sms :  s i g n a l  d e c o y  g u i d e  a n d  s c a ffo
, , ,
l d T h e
. 

a r c h e t y p e s  d e m o n s t r a t e  fun c t i o n a l  c o m p l e x i t y . G i v e n t he  l o w s e q u en c e  c o n s e r v a t i o n o f

I n c R N A s  u n d e r s t a n d i n g  t h e  I n c R N A  fu n c t i o n s  i n  r e l at i o n  t o  t h e  s e q u e n c e s  a n d s t r u c t u r a



fe a t u r e s  i s
p
ar a m o u n t  . As t u d y  b y  K i rk et a l .  s h o w e d  th at  g r o u p s  o f  I n c R N A s  w i t hs im i l ar

k m Q r  c o n t e n t  h a v e  r e l at e d  fun c t i o n s  a n d  a r e  e n r i c h e d  w i t h
p r o t e n  b i n d i n g  m o t i fs  r e g a d e s s
r 

i l

of  t he i rl ac k o f l i n e ar  ho m o l o gy  [ 3 9 ] .  A cc o rd i n g  t o  th e  s t u d y ,  s e que nc e e l e m e nt s i nI n c RN A s



i n fl u e nc e  i n t e r a c t i o n s  w i t h  p r o t e i n s  an d  o t he r  m o l e c ul e s ,  t h er e b y  d et e rm n e  n c R N A

 i I

fu n c t i o n s 

2  丄 2 Th e  mo l e c u l ar  s t r u c t ur e  o f  I n c R NA s

T he l en
g t ho fIn c R NAs ,  w h c h  i s  r e p o r t e d  t o  b e  g r e at e r  t h a n  2 0 0  n u c e o t i d e s  a
i l

l l o ws

t h e m  t o  fo d  n t o
p o
t e nt a l i i l l
y  c o m p l e x  b u t  p o o r l y  un d e r s t o o d  s e c o n d a r y  an d  3 Ds t ru c t ur e s 

An a l o go u st op r o t e i n s , 
I n c R N A s  nt e r a c t  w i t h  o t h e r  R N A s  o r  p r o t e i n s  t h r o u g h  b a s e p a i r i n g  o r
i 

s tr uc t u ra l  r e co
gn i t i on . Iti sb e l i e v e d  t h a t  t h e  s t r u c t u r e s  a ffe c t  t h e  i n t e r a c t i o n  o f  I n c R N A sw i t 

DNA , m i R NA , m RN A ,  o th e r  I n c RN A s ,  an d  p r o t e i n s  [ 4 0 ]  F e at u r e s  o f  . RN A s t r u c t u r eh a v e

b e e n  u s e d  t o  c a s s fy  t h e m  a s  m i R N A s l i
, 
t RN A s , r
R NA s , 
I nc RN A s , e
t c 
. B es i de s , s e q ue n
c ean d

s tru c t u r a l  h o m o o g y  h a s  b e e n u t l i l i z e d  i n  t h e  i d e n t i f i c at i o n  a n d  fu n c t i o n a l  p r e d i c t i o n  o f

I nc RN A s 

L n c R N A  s t ru c t u r e s  ar e  c h ar a c t e r
i ze d b y c h e m i c a l  an d  e n z y m at i c
 p r o b n g  t hr o u g h
i 

p h e n o t y p c  n v e s t g at o n  o f
i i i i  t h e i r  kn o c k o u t s -

.  S t r u c t u r a l  s t ud i i e dt h e mi n t othre e


e s  h av e  c l a s s i f 

a s  d o c um e n t e d  n  a  r e c e n t  r e v i e w  a r t i c l e  b y  C h i l l o n  e t  a l 4 ]  T h e  fi r s t  c a s s  c o n s i st so 


i .

[ 1 . l

n c R N A s  w i t h  a  h i g h l y  c o m p a c t  t e rt i ary  c o r e  ak i n  t o  r i b o zy m e s  l i k e  s e f -

s cing n tr o n s  T h e



I l l i i .

s e c o nd c l a s s i s o f In c R N As  t h at  p o s s e s s s tr u c t u r e d  p r o t e i n  b n d n g  s i i i t e s p o s i t i o n e d  i n  a

d e c e n t r a l i z e d  s c a ffo l d  w i t h o ut a c o m p a ct c o r e T h i r d l y a g r o u po f n c RN A s e x h b .


I i i t sa n

3
- 


Pre d i c ti o n  o f p l ant  o n g l

n on c o d i n g 
RN A s i n t e r a c t on s  w i i t h
 p rot e n s
b
y de e p  l e arn i n g


 

u n s t r u c t ur e d  ar c h i t e c t u r e  w i t h  m i n m a i l
 p r o t e n  b nd n g  o m a n s  a nd  s e v e r a
d i i i i ll o n g  s tr et c h e s  o f

d i s o r de r e d  s i n g l e -

s t r an d e d  RN A .  T h e s e  t h r e e  h yp o t h e s e s  u s e d  t o  c l a s s i f
y  n c RN A  s t ru c tu r e s
I 

a re  n o t  m ut u a l l y  e x c l u s i v e  an d  f urt h e r  r e s e a r c h  i se x
pec e
t d  t o  un v e i l  a dv a n c e d  m o l e c u a r

 l

p r o p e r t i e s  fo r  c h a r a c t e r i z a t i o n  o f  t h e3 D s h ap e  a n d  t o p o o g y  o f l  fu l l

l en
g h  o rp h an n c
t I RN A s 

I n s i g h t s  n t o  t h e  b o g e n e s i s  a n d  fu n c t o n s  o f  n c R N A s  c a n  b e  d e r v e d  fr o m  t h e
i i 
 i I i

m e c h an fe r e n t  I n c R N A s  O n e  o f  t h e  m e c h a n i s m s  i s
i s m so fs
y nt h e s i s  an d  re g u l at i o n  o f  d f 
 i .

R NA  s t r u c t u r e  m a pp i n g  T h e  r o l e s  i n c l u d i n g  s i g n a l  s c a f fo d  d e c o y



, ,  an d  g u i d e s  d e p e n d  o n

t h e  s t r u c t u r e  a n d  e x p r e s s i o n  l e v e  o f  I n c R N A s  S n c e  n c R N A s  e x h b i t  l o w  e v o ut o n a r y

 l . i I i l i

s  t h at  s i m
se
q u e n c e  c o n s e r v a t o n  t h e  h yp o t h e s i

i i l a r  s e q u e n c e s  d e t e rm i n e  s i m i l ar  st ru c tur e s

wh i c h  i s  r e s p o n s i b l e  fo r  s i m i l a r  fu n c t o n s  i s  n o t  a p p l i c a b l e i .  T h e r e fo r e  ,
t he

se
quenc e

s t r u c t ur e

onc
f ti o n  p ar a d g m  h a s  e x c e p t i o n s  n o t  o n l y  i n  I n c R
i NA s  b ut  a l s o i n pr o t e i n s 


A sr ep o r t ed  b y  num e r o u s  s t udi es ,  t h e p re d i c t i o n o f  I n c R N A  fu n c t i o n s  re q u i re s  th e



i d e nt i f
i c at o n o f  t h e i r  m o e c u l a r  t a r g e t s  n  t h e  c e
i l i l l . I nt h i sre
g ar d  t h e  I n c R N A  s t r u c t u r e


g ua r a n t e e s  e ff i c i e n t  g e n e  e x p re s s i o n  r e g u at o n l i b yp ar ta k n g  i n  t h e  r e c o g n i t i o n o f
i 

I n c R N A p r o t e i n  i n t e r fa c e s

.  T h eya l so
 p r o v i d e  a p a t fo r m  fo r 
l t h e  a s s e mb y  o f R N P  c o m p l  l ex e s 

T o  e xp e r i m e n t a l l y  s u p p l e m e n t  t h e  d e t e r m n at i o n  o f i  t h e  m o l e c u l a r p r o p e r t i e s  t h at  fa c i 
l i t at e  t h e

s t ruc tu re f un c t i o n  r e l at i o n s h i
p  s t u d y n g  b o c h e m i c a  a n d  b o p h y s i c a l  p r o p e r t i e s  o f  s p e c i fi c


i i l i

I n c R NA s  i s  f u n d a m e n t a l .  T h ereares e ve r a l  ex
p e ri m e n a
t l  m e t h o d s  b a s e d  o n  d i ffe r e nt  c h e m i c a l

a nd  e n z y m at i c
p
robi n
g  o r  p an
f t s
p e c e s F o  e x am p
i r l l e
 A ra b .


i dop s is  t h a l i a n a  C O O L A I R  i 

pr o b e d w h  s ha p e  r e a g e n t s  a n d  1 c
y c l o h e x y l c ar b o d i i m d e  m e h o / o l u e n e  s ul fo n at e


- - - -

i t i t ? t


C M C T) 

T h e  s t ru c t u r e s  o f R N A s  a r e  n  a  d o  i t

b r a c k e t  fo r m a t  a l i
g n e d  t o  r e a d  p at t e r n s  T h e r e  a r e

 .

fo u r  s e c o n d ar y  s t r u c t u r e  e e m e n t s  n a m e y  s t e m  o o
p  n e r n a  o o p  an d  b u l g e s  T h e  s e m s


t l t l , l i l l .
, ,

 t h e  d o t b r a c k e t  n o t at o n  A  l o o
p e n n g  an d  c o s n g  b r a c k e s  i n
fo r m  t h e  o the
p  i s  fo r m e d  b y 


i t l i i .

u n p a i r e d  n u c e o t i d e s  at  t h e  e d g e  o f  a  s t e m
l .  B u g e sareu np a
l i r e dnu c l e o t i d e s  t h at  a
pp e a r  a t  t h e

e nd s  o f a  s t e m  .  P re d i c t i o n  m e t h o d s  fo r  RN A s tr u c t u re s nc l u d ea bin i tio i


, c ons ensus , s
t a t i s t i c a l

m o d e l b as e d  p r e d c t i o n ,  a nd  a l g nm e n t  T h e  a b  i n i t i o  s t r u c t u r e  p r e d c t o n  nv o l v e s  h y d r o g e n


i i . i i i

b o nd  e n e r g y  c o n t a n e d  n  m o i i l e cul e s .  T he s m a l l e r  t h e  fr e e  e n e r
g y i s  t h e  m o r e  s t a b l e  t h e

s t r u c t u r e  fo l d e d .  F o r  e x a mp e t h e c a no n c a b a s e  p a i r s  A


i l

U , C

G ,  an d  G U -

.  B a s e  p a i ri n g s

re d uc e t h e  a m o un t  o f  fr e e  e n e r
g yc o n a n e  n
t d t h em o ec ul e i i l .  M ax i m i z n g  t h e  n um b e r  o f b a s e
i 
 

pa i r s  w o u l d  m i n i m i z e  t h e  fr e e  e n e r
g yi n the m o e c u e l l .  Aw i d e l y  u s e d  s o ft w a r e  fo r  p r e d i c t n g

 i

R NA  s tr u c t ur e  i s  V i e nn a R N A  P a c k a g e  [ 4 1



S e v e ralc ha l l en
g e s  a r e  a s s o c i at e d  w i t h  n c R N A  s t r u c t u r a l  s t ud e s
I i .  F o r  e x am
p e l
, b e c au s e

of  t hes zeo f i I nc RN A s e q u e n c e s , t h e r e  a r e  n o  r o b u s t  c o mp ut at o n a i l a
p p r o a c h e s  fo r  a n a l y z n g

 i

t h e m nb o c h e m
i i i c alan db i o p hy s i c a  stu d i e s  l . M o r e o v er , t h eb i o l o gi c alc omp l e x i tyo f  I nc RN A

an d n c RN A  c e d ff c u  t h e m  a t  t h e  fun c t i o n a l  l e v e l  u s i n
I l l u arp at h w a y sm a k e s
l i t i i l tt o
pro b e 

 1 4 


Da l i an  Un i v e rs i t
y o f T e ch n o o gy



D o ct o ra D l i s s e r t at i on

h i gh -

t hr o u gh t h
p u  p e n o yp i c  a s s a y s
t . D e sp i te  t h e  num b e r  o f  n c R N A s  b e n g  s i g n i f
i c an t l y

 I i

h i g h e r  t h a n  t h at  o f  p r o t e i n c o d i n g  g e n e s -


t h e  n u m b e r  o f  an n o t a t e d  I n c R N A  s e q u e n c e s  i s

c o n s i de r ab l
y o w l .  C o n s e quen tl
y ,  s e que n c e a l i
g nm e n
t  i s  i mp ai re d . B e s i de s ,  he re
t i s n o

w e b b a s e d  r e s o u r c e  fo r  e x p e r i m e nt a y  m a p p e d  s e c o n d ary s tr u c tu r e s  T h i s  m a k e s  a b i n i t i o


l l .

c a l c u l at i o n s  o f  s e

u e n c e b a s e d  s e c o nd a r y  s t r u c t u r e s  d i ff

icu l t . E v a l u at i n g  t h e rm o d y n a m c

 i

fo l d i n
g  p a r a m e t e r s  an d  t r ai ni ng  m a c h i n e e arn i n
g  a l g o rit hm s  a r e  a r g e y  h n d e r e d

l l l i 

2 . 1 . 3  L n c RN A s  i n  t h e  p l ant  r e s p o n s e  t o  b o t i i c  an d  ab i o t i c  s t r e s s

B i o t i c  s t r e s s e s  r e fe rs  t o  n e g at i v e  fa c t o r s  t h at  a ffe c t  p l a nt s  d e v e o p m e n t  v i a  l i v i n g

 l

or
g ani s m ss u c
has  w e e d s ,  b ac t e r
i a  i n s e c t s ,  v i r u s e s  a n d  fun g i 

. A l t e r n at i v e l
y  a b i o t i c  s tr e s s e s


n a l  e n v i r o nm e n t  i n c l ud i n g  d r o u g h t  a n d  s a l i n i t y  P l an t s
a r e  n e g a t i v e  fa c t o r s  fr o m  e x t e r .

 po sse ss

ar e s t t t n a l  s t i mu l i  s u c h  a s  d r o u g h t
p o ns es y s e m oe x e r , 
h e at , c o ld , nut r i e nt d e fc i i e n c y  a n d  s o i l

s al init
y  t h at  s g n i i fi c an t l y  l i mi t
 p l an t  g r o w t h  an d  y i eld . N o nethe l ess ,
p l a nt s  m i t i g at e  t h e

n e g at i v e  m p a c t  o f  t h e  s t r e s s  c o n d i t i o n s  b y  c h a n g i n g  t h e i r  p h y s o o g y  a n d  m e t a b o l i s m  t o  a
i 
 i l

s ur v i v a l  s t a t e
[
42 43 ,

. I nc R N A s  ar e  v it a l  n  r e g u l at i n g  t h e  e x p r e s s o n  o f  g e n e s  u n d e r  v a r i o u s
i 
 i

b o t i c  an d  ab i o t i c  s t r e s s e s

,  und e r s t a n d i n g  m o
l e c u l a r  m e c h an s m s  d i i

s e a s e  r e s i s t a n c e  an d  t h e

 ,

i mmun i t y  o f  p l a n t s  [ 4 4 ]  T h e  I n c R N A s  r e g u l a t e  p l a n t  d e v e o p m e n t  d
. l

i s e a s ere s i s t an c e , an d

nut r i e n t  a c q u i s i t i o n t h r o u g h  c h r o m a t i n  r e m o d e l i n g  h i s t o n e m o d i f c a t o n  a c t i n g  a s  t a r g e t



i i

andp r m R N A  al t e r S evera an t n c RN A s a d i n
m i m i cr y ,

n at i v e  s p l i cin

. l
p l I l t e re 

st r e s s re s
p o n s v e  p at hw a y s  h av e  b e e n  fu n c t i o n a y  c h ar a c t e r i z e d  s u c h  a s  C O L D A I R

i l l


C O O LA I R ,  A t 4 /I P S l
,  n p c 4 8 ,  an d  np c 5 3 6  [ 4 5 ]
,  C O O L A I R  a n d  C O L D A I R  a r e  A r a b i dop s i s

t h a l i a n a  I n c R N A s  i nv o v e d  i n  t h e  r e p r e s s o n  o f l i  fl o we ri n g l o c us C ( F L C )
t ran s c ri
pt . F L C i sa


k e y  s up p r e s s o r  o f v e r
na  l i z at i o n , 
w h i c h  c o nt r o l s  f l o w e r i n
g n
i A r a b i d op s i s
 

A  col l e c t i o no f
 p ant  n c R N A  tr a n s c r p t s  a r e  av a i a b e  i n  P l a n t  n o n
l i l l

codi n g  R N A  d at a b a s e


PN RD )  [ 4 6 ] , 
R N A c e nt r a l
[
4 7] , 
C AN T A T A db  [
24] , an
dE n s e m b l eP l a n t s
[
2 3 ]  d a t ab a s e s .  Th e

p l a n t  n c R N A  d a t a  c u r at e d  b y  t h e s e  d a t a b a s e s  c o n t r i b u t e  t o  t h e  s u c c e s s  o f  c o m p u t a t i o n a l

me tho d sd e v e o d  fo r  I n e R N A  r e s e a r c h  S o m e  c o m p u t a t i o n a t o o ro d  fo r  p r e d i c t i n g
pe s
p po se 

l . l l

p l ant  n c R N A s  i n c u d e  P L n c R R O  [ 4 8 ]  P L I T  [ 4 9 ]  an d  P t L n c B X E 5 0 T h em o d e l s
pec es


I l . i
, [ ]

A r a b dop s i i s  t h a l i a n a  i s  a  fl o w e r i n
g  p l a nt  t h a t  h a s  b e e n  w i d e l y  a n d  c o m p r e h e n s i v e l y  s t u d i e d 

T o  d at e ,  s e v e r a l  s t u d i e s  h a v e  i d e nt i f i e d  A r a b dop s i i sI n c RN A s  t h a t  r e s p o n d  t o  ab i o t i c  s t r e s s e s

i n c l u di n
gp
h o s p h a t e  s t a r v at i o n  [ 5 1

53

.  Th e s es t ud i e s  fo u n d  t h a t  I n c R N A sare  as s o c i at e d  w i t 

s tr e s s  r e s
p o n s e s  w h i c h  i s  m p o r t a n t  n  c r o p  s p e c i e s  s u c h  a s  Z e a  m ay s  ( Ze a  m ay s )  b e c au s e

i i 

a b i o t i c  s t r e s s e s  a ffe c t  p r o d u c t i v i t y  a n d  q u a l i t
y H o we v e r

, re s e ar c honI n c RN A s  d u r n g  s tr e s s

 i

p o n s e  i n c r o p s  i s  l a r g e l y  un d e r e x p o r e d  A  fe w  e x a m p l e s  o f  s u c h  s t u d e s  i n c l u d e
re s th e

 l . i

d e nt i f i c at i o n  o f  6 3 7  n i t r o g e n re s
p o n s i v ean d 6 6 4dr o u g ht res
p o n s v e  n c RN A s i n m a i z e


- -

i i I

s eedl in
gs[ 5 4 ,
5 5

.  M o re o ver ,  a  s t ud y  b y  L v  e t  a l .  d e n t f e d  1 0 7 7  n c R N A s  t h a t  r e s p o nd  t o
i i i 
 I

a bi o t i c  s t r e s s e s  i n  m a i z e  [ 5 6 ] 

5
- 


P re d i ct i ono f
p ant
l l o n g n o n c o d ng


RN A s  i n te ract o n s w i  it h
 p rote n s
b
y d e e p  e arn i ng
i l

 

2 . 1 . 4  A s s o c a t i o n  o f n c R NA s  w i t h  o t h e r  b i o m o l e c u e s
i 
  I l

A c e l l
, 
t he b a s i cu ni t o f l i fe , 
i sc o m
pose
d  o f p ro te i n s

, 
RN A , 
an d  D NA  b i omo l ecu e s l .  T he

g e n e t i c  i n fo r m a t o n  s t o r e d  i n  t h e  D N A  f l o w s  t o  R N A  t o  s y n t h e s i z e  a  f un c t i o n a l  p r o t e i n
i .  Th i 

re l a t i o n s h i b e t w e e n  t h e  t hre e  b i o m o l e c u e s  s  r e fe rr e d  t o  a s  t h e  c e n t r a l  d o
p
l i
g m a  p r o c e s s  s h o wn

i n F i g . 2 . 2 . G eno me -

w d e  a s s o c at o n  s t u d e s

 p r o v i d e  a  p l a t fo r m  fo r  a  c o m p r e h e n s i v e
i i 
 i

u n d e r s t an d i n g  o f  g e n e t i c i nt e r ac t i o n s  T h e  r e s e a r c h  o n  i nt e r a c t i o n s  b e t w e e n  b i o m o e c u e s  i s
. 
 l l

i m p o r t a nt  b e c a u s e  t h e i r  fun c t i n e d  b a s e d  o n y  o n  t h e  c h ar a c t e r i s t i c s  o f
o n s  c a nn o t  b e  d i s c e r 
 l

i nd v dua i i l c o mp o ne nt s .  T h e  d i ve r s e  r e
g u l a t o r y  r o l e s  o f I n c R NA s  a r e  c a t e g o r
i ze db as e do nth e
 

i nt e r a c t i o n  p a r t n e r s  a s  I n c R N A -

DN A  ,
I n c R NA -

R NA  a n d  L P,
I s . T hedev e l o p m e nt  o f

hi gh -

t hr o u g hp u t  e x p e r m e n t a l  t e c hn i q u e s  h as  m a d e  l a rg e i

s c al e
 pre d i c ti on s
 poss b e i l .  M oreo ve r 

m a t h e m at i c a  a n d  c o m p u t a t o n a l  m e t h o d s
l i re d i c t  i n t e r a c t i o n  b
y  r e c o g n z n g  s e q u e n c e  an d
i i 

p

s e c o n d ar
y st r u c t u r a l  c o n t e xt s  . H o we v e r ,  fe w e r  b i o i n fo r m a t i c s  t o o l s  h a v e  b e e n  d e v e o p e d  fo r

 l

p r e d i c t i n g  i nt e r a c t o n  b e t w e e n  p a n t  n c R N A s  a n d  t h e  t h r e e  b i o m o e c u e s
i l I l l 

T h e  n c RN A I

re l a t e d  n t e r a c t i o n s  c a n  b e  s umm a r i z e d  a s  b e t w e e n  t h e  b i o m o l e c u l e s
i 

i n d e p e n d e n t y  a n d  s y n e r g i s t c  n t e r a c t o n s  o p e r a t i n g  a s  i n t e r c o nn e c t e d  m o l e c u a r  a s s o c i a t i o n
l i i 
 i l

n e t w o r k s  F i r s t  t h e  i n t e r a c t i o n s  w i t h  D N A  a n d  i t s  a s s o c i at i o n  i n  c h r o m a t i n  o r g a n i z a t i o n




S ec o nd ,  t h e  i nt e r a c t i o n s b e t we e n I nc RN A s w i t h  o t h e r  R NA s  s u c h  a s  m i R N A s . T hi r d l y th e

 ,

a s s o c i at i o n  b e t w e e n  n c R N A s  w i t h  p r o t e i n s I .  T he  d i st i but
r i ono f  R NA  b n d n g  p r o t e n  R B P )
i i i

s i t e s  c an  b e  a n a l
y ze dac r o s s
h e  c o d n g  t r a n s c r i t s  T h e  fr e u e n c s t r i bu t i o n  a c r o s s  t h e
yd 


p i
q . i

pro t e n codin
g  a n d  o n g  n o n c o d i n g  tr a n s c r
i p t s  c a n  b e  t e s t e d  t o  un d e r s t a n d  t h e  s g n c an c e  o f


i l i i fi

t h e  e nr i c hm e n t  s i t es . Las tl
y ,  a m o l e c u l a r  a s s o c i at i o n  n e t w o r k  c o m p o s e d o f

l n c RN A p ro t e n d -


i s e as e -

d r u g  c a n  b e  c o n s t r u c t e d  a n d  t h e i r  r e l at i o n s h i p  c o m
pr e he n s ve y

 i l

a n a y z e d  fr o m  a  g o b a c t i v e T h i sc o m
l l l
 persp e p l e x  n e t w o rk  o f
.  mu l ti
p e  a s s o c i at o n s  a m o n g  t h e
l 
 i

b i o m o e c u l e s n s d e
l i i l i v n gc e
i l l si si m p o r t a n t  n  b o o s t i n g  t h e  u nd e r s t a n d n g  o f
i i  ce l l ac t i v i ti e s  at

t he  m o l e c u l ar l e v e l 

Them a i n  o bj e c t v e  o f  l fe  s c i e n c e  r e s e a r c h  i s  t o  und e r s t a n d  t h e  i n t e r a c t i o n s b e t w e e n
i i 

b i o m o l e c u l e s nt h ec e i l l s o f o r g a n i s m s  fo r  b i o m e d i c a
 l  r e s e ar c h e s  i n c l u d i n ge x p o r ng d l i i s e as e

et i o o
gy an a yz n gd se ase s ,  an d  d e v e o n
g
d r u g s  a nd  v a c c i n e s  A c c u m u l a t i n e v i d e nc e


p g
l l i i l i .

s h o w s  t h at  c a p t u r n g  n c R N A s  n t e r a c t o n s  w i I i i i t h  o the r  b i o m o l e c u l e s  p r o v i d e s  c u e s  t o  t h e i r

 l

me c h an i s m so fa c t o n T h ead v an c e m e nt no m i . i i c s  m o l e c u l ar  b i o l o g y


, ,  an d  c o m p ut a t i o n a 

b i o o g y  i s  r e s o n s b e  fo r m a n y  v a l u a b e  k i n d s  o f  r e s e ar c h  T h e  i n c e -

l  e x p e r m e nt s  ar e



p i l l . l i

c o m p l e m e n t e d  b y  i n  s i l i c o  r e fe r e n c e

b a s e d  a n d  r e fe r e n c e

re eme
f t h o d s  d e v e o p e d  t o  p r e d i c t

h en o n c o di n
gn
a t u r e  o f  t r a n s c ri
p t s  a n d  a n a y z e  i nt e r a c t o n  d at a  R e fe r e n c e b a s e d  m e t h o d s



t l i .

re l
y o n g en o m e a l i
g n m e n t s  b y  a s s u m n g  t h at  t h e  r e fe r e n c e  a n d  t h e  a c t u a l  s a m p l e s  h a v e  a  h i g h
i 

y O n
 t h e  o t h e r  h a nd  r e fe r e n c e fr e e  m e t h o d s  d i r e c t l
p e rc e nt ag e o f  s m ar i t
y  an a y z  r a d s
e e

i i l .

 ,

b as e do nap p ro a c h e s l i k eA r


m e rs 

1 6 


Da l i an Un i ve rs i t
y of
 Te ch no l o gyD o c t o r a l  D i ss e t at
r i on

m i  i r i
m H i i
T i i
 f i i m i  i n m  i


DN AT A C G G C G T T A G A C AA G T G C G T G A G T A C A C A

a t g c c g c a a t c t g t t c a c g c a c t c a t g t g t

T ra n s c r t i on



A U G C C G C A A U C U G U U CA C G C A CUC AUG U G U


                   
 

rn a H i i  n nm m i i i n i m i  i m i i i

 AAA


Pr o t e i nc o d i n
g(
ni RN A )
a n dn on


r o t e nc o d n i
g(
m i i RN A 

I n c RN A 

T r an s l at i on

P r o te n  m i
 q  s  p  v  a  k  l m  t  c  y  p

F g
i . 2 . 2T h er e at o n s h
pa m o n g
DN l i i A RN A .

, 
an d
 pro te in s

 n c RN A p r o t e n  n t e r a c t o n

 -

1 I i i i
( )

N um e r o u sg e n ee x p r e s s i o n  r e g u a t o n  a n d  fu n c t o n a  a n n o t a t i o n s  d e p e n d  o n  i n t e r a c t i o n s
l i 
 i l

b e t w e e nR N Aa n dR B P s T h ea b . i l i t


yo f I nc RN A s  t o n t e r a c i t w i t h d v e r s e m a c r o m o e c u e s 
i l l i 

m e d a t e d  b y  RN P  c o m p
i l e x e sa s s o c i at e dw i t h  t h e  t a r g e t  p r o t e n s  S o m e  n c RN A s  fo r m  R i . I NP

m hs g n f u a rp at h way sb y n t e r a c t n gw h R B P E v e ryp r o t e n




co
p e x e sw t c a n tr o e s nc e s 
l i i i i l i l l l i i i t . i

ca
p ab eo f e s t a b l  l i s h n g n t e r a c t o n sw
i i i i t ha nRN A m o l ec u e l i sd e f n e da s R B P[ 5 7


.  T h e  RB P s

a r ei n v o v e d i nt h er e g u a t o no fRl l i N A  fa t e  fr o ms y nt h e s i s t o d e c ay [


5 8

.  T h e L P h a s

 I

p r o fo un d  e ffe c t s  o n  p r o t e n  s y n t h e s i s  v i

i r a lr e
p l i c at i o n  r e g u a t i o n  o f g e n e  e x


p re s s i o n l
, an d

ce l l u a r  d e fe n s e  m e c h a n
l i s m 

L n c R N A s  fu n c t i o na sm o l ec u a r  d e c o y s  a n d  s c a ffo d


l l st h r o u g hd i sti nct
p
r ote i nb n d n g

 i i

do ma ns i . Th i sr e
gu a
t o nm e c h a n i s m  o
l i
p e r at e s a t  e p g e n e t i i c ,  t r an s c r pt i o n al i
, an d

po s t

tr ans c r i

t i o nl e v e l s . B e c a u s e o f  h ed e v e o p m e n t o f d e e p t l l e arn i n
g m a n ys t u

d i e sh a v e

p r o v e n  o  b e  e ffe c t v e  n  R
t B P r e c o g n i i i t i on .  Z h o u e  a  p r e d t l . i c t e dL P I w i t h m i RN A s  a s

m e d at o rs m i . i RN A s  a r e  s h o r t  RN A  m o l ec u l e st h at c a nr e
g u a t e n c R N A sa n dp r o t e n s[ 5
l 9 I i



L n c RN A m RN A a n dp r o t e n m R N A  n t e r a c t o nd a t a s e t s w e r eu s e dt oc o n s t r u c t a n e t w o r k


i i

i i i 

T h eau t h o r s o b s e r v e dt h atL P sw e r es f h e d n n c RN A sa n d  t h a t


gn c ant
ye n r c
p r o e n s
I i i i l i t i i I

i nt e r a c t e d  w i t h t h e s a m e m i RN A s .  O t h e rs e q u e n c e

b a s e dc o m p u t at o n a i l m e t h o d s  fo r  I n c RN A

p r o t e n nt e r a c t o np r e d c t o na r eR P


i i i i i I S e q [ 6 0 ] , I P M i n e r[ 6 1
] , a n dR P I -

S AN [
62



2 )  n c RN A RN A  nt erac t o n


I i i

I t  h a s b e e nr e p o r t e dt h at  n c R N A s n I i t e r ac t s w i t hb o t hc o d n


ga n d n o n

co d n g RN A
i 


n c RN A s )  L n c R N . A s re
gu a
te l s t h e e x p r e s s o no fm RN A s  n t h e c a s e o f  n c RN A i i I

m RN A

i nt e r a c t o n L n c R N A i . sd i rec t l
y a r g tp r
t e e

m RN A t or e g u a t e l i t ss
p l i c i n g e d ,
i t i n g  a n d m RN A


s t ab i l i t
y .  Mo r e o v e r c o ,
m p e t n ge n d o g e n o u sR N A ( i ce RN A )  c a n  b e  fo r m e d  fr o m t h e c r o s st al 

7
- 


P re d i ct i o n  o f

p an t  o ng n o nc o
l d n
g l



RN A s  i n t e r ac t on s  w i t h p r o t e n s  b y d e e p  e a r n n g

 
 i

l i

b e t w e e n  n c R N A  a nd  m R N A  t h r o u g h  s h a r e d  m i R NA  r e s p o n s i v e  e l e m e n t s  I n  t h e  c a s e  o f
I 
 .

I n c R N A n c R N A  i n t e ra c t i o n

, 
I n c R N A s  a c t  a s  p r e c ur s o r s  o f  sm a l l nc RN A s i n c u di n g m i RN A s



p i R N A s  a nd  s n o R N A s 
, [
63

.  I nt e r a c t i o n  b e t w e e n  I n c R N A s  an d  m i R N A s  r e g u at e s  t h e

 l

ex d  s ta b i l i t y o f n c R NA s T h e s e  nt e r ac t o n s  a l s o  l e a d  t o  m i R N A  g e n e r a t o n  fr o m


p re s s i o n  a n I .  i i i

I n c R N A s  a n d  I n c R N A s  a c t i n g  a s  d e c o y s  fo r  m i R N A s .  L n c R NA s  n t e r a c t  w i i t ho t h e r nc RN A s

 I

fo r  e
p i g e n e t i c  r e g u at i o n l .  R e s e ar c h  h a s  i nd i c at e d  t h a t  I n c R NA s c a n  a c t v a t e  o t h e r  n c R NA s  t o
i 
 I

e stabl i s had t t F
y n a m i c  b a l a n c e  b e w e e n  a c i v at o r s  a nd  r e p r e s s o r s  o r  e x a m p e  n c
RN A s  ar e

 . l

ca
p ab l e  o f  s i m u l t an e o u s l
y  b i n d i n g  t o  p r o t e i n  a n d  mR N A  C o m p u t at i o n a l  a n d  e x p e r i m e n t a . 

m e t h o d s  h av e  b e e n  d e v e l o p e d  t o  u n v e i l  I n c R N A -

RN A i n t e r ac t i o n 


3 )
I n c RN A -

DN A i nt e r a c t i o n

L n c R N A s  c a n  b e  e n c o d e d  o n  t h e  s e n s e  o r  a n t i s e n s e  D N A  s t r a nd  S e v e r a . l  m e c h an i s m s

h a v e  d e m o n s t r a t e d  t h at  n c R N A I

DN A  i n t e r a c t i o n  o ffe r s  a  p o t e n t  m e c h a n i sm  fo r  g e n e

L n c RN A s  b n d o  D N A s  a c t i n g  a s  s c a ffo l d s  t o  e ff i c i e n t l y  a n d  s e e c t i v e y  i n r o d u c e
re
gul at i o n 

.  i t l l t

p r o t e n s  n t o  t h e  g e n e  o c i  F o r  e x am p l e r o t e i n s  t h a t  ar e  m e th
y l at i o n re at e d  e nz y m e s  c a n


i l l
p
i .

i n duc e
p
rom o t e r  C p G  m e t h y a t i o n  o r  d e m e t h y l at i o n  w h e n  t h e y  a r e  i n t r o d u c e d  b y  n c R N A s
l I 

T oe p g e n et i i c all
y  r e g u l a t e  g e n e  e x p r e s s i o n  I n c R N A s  b i nd  t o  D N A  a n d  r e c r u ,
i t  DNA  a n d

h stone mod y n g  e n z y m e s  s u c h  a s  D N A  m e t h y l t r a n s fe r a s e s  a n d  p o y c o m b  r e p r e s s i v e


i i f i l

p e x e s  W h e n  I n c R NA s  i nt r o du c e 
com l . h i s t o n e  m o d i f i e r  e n z y m e s  t h e  h i s t o n e  m o d i f i c at i o n s

 ,

re s u l t i n  g e n e  e x p r e s s i o n g e n o m i c  i mp r i n t i n g  t r a n s c r i p t i o n  s p l i c i n g  o r  D N A  r e p a
, , ,
i r . Th e

I n c R N A s  n t e r a c t  w i t h  c o m p l e m e nt ar y  s e q u e n c e s  w i t h i n  t h e  r b o s o m a l  D N A  ( r D N A )
i i

p r o m o t e r  t o  fo r m  t h e  R N A

DN A DN A  -

t i p l e x  T hi s  t r
r ip . l exi n du c e s  DNA  m e t h y l at i o n  a n d

t ran s c ri
pt o na i l s i l e nc i n g .  I d en t i fi c at i o n  o f  I n c RN A b i nd n g i
 D N A re
g o n sc an
i b e

ex
p e r m e n ta i l l
y  d e n t i f e d  u s i n g  C HA R T  b y  c o n du c t i n g  s e q u e n c n g  a f
i i te r  b e a d i m m o b i l i z at i o n

 i

of I n c R N A / DN A  c o m p l e x e s .  A l so , 
c h r o m a t i n  I s o l at i o n  b
y 
RN A  i c at o n  ( C h I RP S e q ) 
Pur f i i

i sa

we l l

e s tab l i s h e dh i
gh

t h r o u g h p u t  s e q u e n c i n g  t e c hn o o g y  u s e d  t o  s t u d y  n c R N A c h r o m a t i n

 l I

i n t e r a c t o n s  t h r o u g h  R N A / c h r o m at i n c r o s s
i l i nk i n g  an d pu r i f i c at i o nu s ng i
b i o t n y l at e d
i 

a nt i s en s eo l i
g o nu c e o t i d e sl . D om a i n -

s i c  C hI R P  ( d C hI R P )
pec f i

i a n t  o f  C h R P  c an
 a v ar 
 I

i n v e s t g a t e  n c R N A c h r o m at i n
i I

, I nc RN A RN A -

,  an d  LPIs .  O t h e r  m e t h o d s  i n c ud e  g o b a l l l  RN A

nte r act o n s w h  D N A  b y  d e e p  s e qu e n c n g  ( G R I D e
 a nd  M a pp n g RN A g eno m e


- -

t i s
q)
i i i i

n t e r ac t i o n s  ( M A R G I )  G RI D se
q  c a n  b e  ap p l i e d  t o  c ap t u r e  I n c R N A D N A nt e ra c t i o n s  u s i n g
- -

i . i

ab v a e nt
i l l i n k e r  c o n s i s t i n g  o f  d o ub l e

st r and e d  DNAan ds i ngl e -

s t r a nd e d  RN A .  MA R G Ii sa

h ghi

t h r o u g h p u t  i n  v i v o  t e c h n i q u e  t h a t  c a n  r e v e a l  D NA  t a r g e t  s i t e s  o f  I nc RN A s  by

i d e n t i fy i n g

c hr o m a t i n a s s o c i a t e d  R N A s  a n d  t h e i r  g e n o m i c  t a r g e t  o c i  fo r m i n g  R N A DN A  c h m er c


- -

l i i

se
q u e n c e swhi c
h  a r e  c o n v e r t e d  i n t o  a  s e q u e n c i n g  l i b r ar y  [ 6 4 ] 

T h e w os o f
t w ar e  fo r  n c RN A DNA nt e r a c t i o n  i s  L o n g T ar g e t  a n d  L o n g M a n

t I i 

L o n g T ar g e t sac r o s s
p e c i e s g e n o m e w i d e  d a t a b a s e  t h a
t  wa s  d e ve o
p e dt o p r e d c t DN A


- -

i s l i


- 


Da l i an Un i v ers i t
y of
 T e c hn o l o gy 
Doc t o ra l  D i ss e r t at i o n
 

i n g  r u l e s b et w e e n  R N A
b i n d i n g  m o t i fs  fo r  n c R N A s  an d b i n d n g  s i t e s  b a s e d  o n  b a s e p a i r
I 
 i

q u e n c e s  an d  d u p g  r u l e s  s u c h  as  丁 人 0 G G G a nd  人 丁 0  ar e  a
e x  Ti re  b a s e ri n 

se
pa
- 一
_ _

l . i
, ,

c o m b i n at i o n  o f  I n c R N A  a nd  D N A  s e q u e n c e s  u s e d  t o  i d e n t i f y p o t e n t i a 
l I nc RN A -

DN A  b i ndi n g 

L o n g M a n  i s  d e d i c at e d  t o  c o l l e c t i n g  o rt h o l o
g o us  I n c R N A s i nmult i
p es p e c i e san ds up p
l o rt s

I n c R NA -

DNA  b i nd i n gp re d i cti o n 



2 2  F e at u r e  e x t r a c t i o n  a n d  e n c o d i n g


2 2 . . 1 F ea t u r e  e xt r a c t i o n

I d e nt i f y i n g  c h ar a c t e r i s t c s  t h at  d i i st i n
g u i s h  g e n e  s e q u e nc e s  o r  s t r u c t u re s  i s  a  c r i ti c als tep

fo r  t h e  s u c c e s s  o f  a  m a c h i n e  e a r n n
gp re d i c t o r l i .  S e v e r a  at t r b ut l i i o n m e t h o d s  h av e  b e e n

de ve op e d t o pr o v i d e n uc
l l e o t i d ere s o l u t i o n  m ap s  fo r  e a c h  nu c l e o t i d e  v a r i an t  fo r  t h e

c o n s tru c t i o n  o f  m o d e l s wi th s t at e o f - -

t h e a r t  p e r fo r m a n c e  fo r  p r e d i c t i o n  t a s k s

.  T he s e  m e th o d s

i nc l u d e  de e p l i t
f , i n
te
g r at e d  g r a d e n t s i
, s a
l i en c
y  m ap s , an
d  i n  s i l i c o  mu t a g e n e s i s .  E xt r ac t i o no f

se
q ue n c e
 fe at u r e s  c a n  b e  b a s e d  o n  b i o l o g i c a l  p r o p e r t i e s  s u c h  a s  o p e n  r e a d i n g  fr a m e s  ( O RF ) 

phy s i c o c h e m i c al ,  G C  c o n t e n t  a n d  u s n g  t h e  fr e q u e n c y  o f  a dj o i n n g  nu c l e o t i d e  t r i p l e t s  o r

i 
 i

m at h e m a t i c al m o d e l s . Th e s ep rop e r


t i es  h a v e  b e e n u s e d  t o  e xtr ac t p hy s i c o ch e m i c al 

ev o l u ti o n al ,  a n d  nu c l e o t i d ec o m
po s i ti on  fe a t ur e s .  O R F  fe a t u r e s  a r e  e s s e nt i a l  fo r

di stin
gu
i s h n g  n c R N A s  fr o m  p r o t e n
i I i

co di n
g  RN A s .  Evo l u t i o n a r y  i n fo r m at i o n  o b t a i n e d  fr o m

g e n e s  fr o m  c o m m o n  a n c e s t r y  i s us e d  t o  p r e d i c t  n t e r a c t i o n s  a n d  fun c t i o n s  o f  no t  o n l y


I n c R N A s  b ut  a l s oo th e rm o l e c ul e s S e .


u e n c e  c o n s e r v at i o n  o f  tra n s c r i p t s  ha s  b e e n  s tu d i e d  t o

q u an
ti f
y  i t s  s gn i f i i c an c e  i n  m o l e c u l a r  fu n c t o n i 

T h e  m at h e m a t i c almo de l s  u s e d  t o  e x t r a c t  fe at u r e s  fr o m  b i o l o g i c al s e
q uenc e s
i nc ud e

 l

num eri c a l  m ap p n g i

F o ur i er ,
e nt r o
py ,
a n d c o mp l e x ne t w o r k s .  T he  m e t h o d  t h at  i sw i de l
y us e d

fo r  e x t r a c t i n
g  b o o g i c a  fe a t u r e s  i s
i l t h e
p o s i i o n
t l

s i c  s c o r n g  m atr i c e s  ( P S S M )  P S S M
pecif 
 i .

g e n e r at e s  m at r x b a s e d  n u m e r
i c  d e s c r p t o r s  c o n t a n i n g  b i o o g i c a l  e v o l u t i o n  n fo r m a t i o n  fr o m


i i i l i

mu l t i
p es e q u e c e a i g
l n l nm e n t . P S S M  m e t h o d  m e a s u r e s  m at c h i n g  w e g ht s  o f  am i n o  a c i d s  an d

 i

re c o rdsthei m
p o rt a n c e ,  r e l e v an c e ,  a n

p
os i ti o no f  res i d u e s  i n  t h e  s e q u e n c e  G i ve n  a  m at r i x  P

 .

w h  r  r o w s  a n d  2 0  c o l um n s P = =
2 r 

2 2〇 wh e r e  d en o t e s  t h e



t 1 1

i  z  “  . “ 
, , , , ” 5 , , ,

po s i ti o no fp ro t e i ns e qu enc ep s


 j
t h  a m i n o  a c i d  a t  t h e  i n  th e  z t h
p o s
i ti o n  P o s i t i o n  w e i g ht
. 

m a t r x  ( P W M )  e x t r ac t s  fe a t u r e s  fr o m  t h e  D / R N A  s e q u e n c e  a s  i ?  x  i  m at r i x  wh e r e  R 
i i st he

n um b e r  o f n u c l e o b a s e s  a n d  L   i st h el e n

t ho f  t h e  b i nd n g  s e q u e n c e s i . I nt h i s  w o rk , 
t h e  d i f fe r e n t

y p e s  o f  fe at u r e s  fe a t u r e  e x t r a c t o n  m e t h o d s  s u c h a s  A p e c t r um  a n d  d at a  e n c o d i n g  a r e


t i :

, ,

d i s c u s s e d nd et ai i l 

T h e  t w o  k n d s  o f  fe a t u r e s  e x t r a c t e d  fo r  p r e d i c t o n  m e t h o d s  d
i i i sc u s s e dar es e
que n c ea
nd

s t r u c t u r e  fe a t u r e s  a n d  t h e  fe a t u r e  e n c o d i n
g  m e h o d s  ar e  o n e h o
t t

, l ab e l en c o d i n
g ,  and l e ned
ar 


- 


Pr e d i ct i o n  o f
p l ant  l o n
g n o n co d n g



R N A s nt e r ac  i ti o n s  w i t h p r o te n s  b y d e e p  e a r n n




g 
l i

e m be dd i n
g  N o t a b l y  s e c o n d ar y  s t r u c u r e s  a r e  p r e d i c e d  fr o m  s e q u e n c e s  T h e r e  a r e  o n l i n e



t t .

d at a b a s e s  s
p e c i fi c a l l
y  bu i l t  fo r  e x t r a c t i n g  R N A  a nd  p r o t e i n  fe a t u r e s  s u c h  a s  R P I N B A S E .  A l s o 

re s e ar c he r s  h ave  p r op o s e d s o f
t w ar e  p r o g r a m s  s u c h  a s  B i o S e q -

A na l
ys i s,
py
fe a t  a n d  i F e a t u r e


w h i c hh aveb e e nd ev e l o


p e d  s p e c i f i c a l l y  fo n g  fe at u r e s  fr o m  s e q u e n c e s  a n d  s t r u c t u r e s
r  e x tr a c ti 



)  S e q u e n c e  fe at u r e s

A s e q ue n c e i s  n o t  a  r an d o m  s e r i e s  o f  n u c l e o t i d e s  I t  h a s  d i s t i n c t  fe at u r e s  t h a t  d e t e r m i n e
. 

w h e the r  i ti s a  g e n e  t h a t  c o d e s  fo r  a  p r o t e i n  o r  n o t .  T h e  fe a t u r e s  a r e  a t t r i b ut e s  o f  t hep ro te i nor



RN A o b t a i n e d  f r o m  t h e  p r i m ar y  s e q u e n c e , c o n s i d e ri n
g b o
t h  c o nt e n t  a n d  fo r m i n g  o f  t h e  am i n o

a c i d / n u c e o t i d e  E x t r a c t i n g  s e q u e n c e  fe a t u r e s  i n c l u d e  o b t a i n i n g  a m n o  a c i d  fr e u e n c y  c o do n



l . i

fr e q u e n c
y  c o d o n  a d ap t a t i o n  i n d e x  g e n e  en
gt h  g u an n e c
y t o s i n e  ( G C )  c o n t e nt  a n d  g e n e


l i
, , , ,

se
q u e n c e  l e n gt h .  T h e  fe a t u r e s  d i ffe r  fr o m  o n e  d o m a i n  t o  a n o th e r  a n d  fr o m  o n e  b o m o e c u i l l eto

a n o t h e r  F o r  i n s t a n c e  p r o t e i n  s e q u e n c e  fe a t u r e s  d e s c r b e  t h e  fa m


i i l
y i t b e o n gst o B e s i de s
l .



i dent i

f i n g  s i t e s  i n p r o t e in s  he l p s  t o  c l as s i fy a D N A  s e q u e nc e  a s  e i t h e r  c o d n g  o r  no n c o d n g
i i 

Thu s t h i s  i n fo r m a t i o n  i s  i m
p o rt ant t ob i o l o

i s t s  fo r  m a n
yb o l o g i c a
i l  an d  m e d c al  r e a s o n s
i 

S t u d i e s  h av e  b e e nde v o te d to b i o l o g i c a l  i n fo r m at o n e x t r a c t o n  fr o m  b i o l o g i c a l


i i

se
qu e nc e s .  S o f t w ar e  p r o g r am s  h a v e  b e e n  d e v e l o p e d  t o  i d e n t fy  c o d i n g  a n d  n o n c o d i n g



re
g o n s  b a s e d  o n  g e n e  l o c at i o n  F o r  e x a m p e
i . l
, ho m o l o g y  s e a r ch i n g  s o f
t w a r e  t e s t s  wh e t h e r  a

s e r i e s  o f  n u c l e o b a s e s  i s  a  r e a l  e x o n  o r  a  c h an c e  s e
q ue n c e . I fane wl
y  i d e n t i fi e d  s e q u e n c e  i s

s imi l ar  t o  a n  e x i s t i n
gone ,
t h e  t w o  s e q u e nc e s  a r e  h o m o l o g o u s  b e c au s e  t he y  ar e  c o n s d e r e d  t o

 i

h av e  a n  e v o u t i o n a r y  r e at i o n s h i p l l .  An a l
y z i n g  t h e  e v o l u t o n ar y  r e l at i o n s h i p  c an  p r o v i d e  v i t a
i 

i n fo r m a t o n  o n  t h e  f un c t i o n  o f  a  g e n e  S e q u e n c e  fe a t u r e s  a r e  e x t r a c t e d  a n d  r e p r e s e n t e d  a s  a
i 
.

n um e r i c  v e c t o r  t o  b e  i n p u t  i n  d e e p  l e a r n i n g  o r  c o n v e n t i o n a l  m a c h n e  l e a r n n g i i .  M an y 
m e tho d s

h a v e  b e e n  p r o p o se d  t o  d e c o d e  g e n o m e  s e q u e n c e s  b y  an a y z n g  t h e  s t at i s t l i i c a l  d i s t r i b ut i o n  o f

se
q u e n c e  s e g m e n t s  t o  o b t a i n  i n fo r m a
ti o n e n c o d e d  i n  t h e  s e
quenc e s . A t tr i b u t e  fe a t u r e s

c a l c u l a t e d  fr o m  t h e  s e f  b i o m o l e c u l e s  a r e  c o m b n e d  t o  t r ai n  a  m o d e  t o r e d i c t the
quen c e so p

 i l

i n t e r m o e c u l a r  a s s o c i at i o n s
l 

T a b  2 2  p r e s e n t s  d e s c r p t o r s  fo r  R N A  a n d  p r o t e n s e q u e n c e s  o f  d
. . i i i ffe r e nt  e n c o d i n


m e t h o d s  T h e  d e s c r i p t o r s  i n  T ab  2 2  a r e  fo r  s o m e  a v a
. . . i l ab l ei m
p o r t a n t  fe a t u r e  e x t r a c t i o n

m e t h o d s  fo r  s e q u e n c e  d at a  t h a t  h a v e  b e e n w i d e l y  u s e d  n  d e v e o p n g  m a c h i n e  l e a r n i n g

 i l i

a g o r i t hm s  H o w e v e r  t h e  p r e s e n t e d  l
l .

i s t  i s  o ut  o f  th e  s c o
peo ft h i s  d i s s e r t at i o n . T h eP S S M 

A> m e r , c o n o i nt  t r i ad b i n a ry  p ro f i l e ,  p s e ud o  nu c l e o t i d e  c o mp o s i t i o n  a ut o c o rre l at i o n
j , , 

AA i n d e x  andZ ,

s c al e  ar e  u s e d  t o  t r an s fe r  s e
q uen ce s
i n t o  nu m e r i c a l  v e c t o r s  T h e  l . i s te d

m e t h o d s  a r e  u s e d  a s  p r o o f  o f  t h e  c o n c e p t  o f  fe a t u r e  e x t r a c t i o n  S o m e  o f  t h e  d e s c r i p t o r s

 .

n c ud i ngA me r  c o nj o i n t  t r i ad a n d  b n ary  p r o f e  h av e  b e e n  i m
p e m e nt e d  i n  t h e  e x p e r
i m e nt s

i l :
, ,
i i l l 

i n  t h i s  d i s s e r t at o n  fo r i  t h e  p r e d c t o n  o f n t e r a c t o n s  b e t w e e n  n c R N A s  a nd  p r o t e n s
i i  i i I i 

20 


Da l i an  Un i v ers i t
y of
T e c hn o l o gy

Doc t ora l  D i s s e r t a t i on

T ab 2 2D e s c r
i r  f r  R NA  a nd ro te i nse
.  .

p o s o

p qu e n c e s

F e at u re Descr i
pt o n

 i

P S S M P o s i t i on -


pec f
i c  s c o r n g m atr x
i i

i .  n ^ 2 \ : n , 
n u m be ro f

p rot e n
re s i d u e si na i 

m e r  4 'A
= =
A :

:  1 ,
4  fe a t u r e s ;
众 2  1 6  fe a t u r e s
, ; 
A : 

 3 6 4

 ,

an d  k

fe at u r e s ; 
  4 , 
2 5 6  fe at u r e s 

G a p p e d A> m e r  f



4  l

 L e n gt h  o f  su bse
qu en ce s , 
k( k <  / )  

 non -

ga p



\ 

po s i t i o n s  an d  l 

 k g ap s

. 1 -

 G ap 

1 6  fe at u r e s ; 
2

 G a p s

3 2  fe a t u r e s ;  3 

 G ap s 

 4 8  fe a t u r e s ,
4 

 G ap s 

 64 , 


Gaps 

8 0 , 
6

 G ap s 

 96 , 
8

 Gaps 

1 2 8  fe a t u r e s 

2 k 2^ k
 ̄ -
_

m e r 2


Re v e r s ec o m p +2 R C


l e m e n t^

(
k 1

3 5
- - *

X 2 
(
k 

 2 4 5 5
. . .


:  1 



2

fe at u re s , 
2

 RC 

1 0  fe a t u r e s , 
3

 RC =
 3 2  fe a t u r e s , 
4 

RC =
1 3 6  fe a t u r e s 

C o nj o n i tt r i ad  C o nj o i nt  tri ad( C T r ad ) C o n o n t A



i i


p a c e dt a


d i


K S C Tr i ad )

B i n a ry  p r o f
i l e  2 0x f
t : 2 0x1

 2 0  fe a t u r e s , 
2 0x5

1 0 0  fe at u r e s , 
2 0x

2 0x1 6
= =
1 0  2 0 0  fe at u r e s , 
 3 2 0  fe a t u r e s 

P s e u d on u c l e ot i d ec o m
pos i t i on N 2 , 
N N 3 , 4 , 
N s ,
. . .

, 
NL


P s e KN C )

Au t o c o r r e at o n  l i Mo ra n  a u t o c o r r e l at i o n ,  M o re a u B r o t o -

 a u t o c o rr e a t o n

 l i

AA i n dex  AA i nd ex

Z -

sc a l e n d e x i  Z -

s ca e

 l

S u bseq uence  O c c u rr e n c e s  of k

 

① 灸 -


p e ctru me n c o d i n g

A A :


pec
tr um i st h ed i s t r i b ut i o n o f as et o f   t h e  d i s t i n c t  s u b s t r i n g  o f k  e n g t h  o b s e rv e d  n  a

  l i

a d s  n  a  s e q u e n c e  a l s o  kn o w n  a s  ^ m er  T h e  m e t h o d  c o un t s  t h e  o c c u rr e n c e  o f  a l
gr o up o f re

 i . 

c o nt i
g u o u sA :

l en
g t h  s t r i n g s  r e p r e s e nt e d  a s  a  v e c t o r  w i t h i n  t h e  s p e c t r u m  fe a t u r e  s p a c e
. T h e

A :

m e r  s p e c t r a  a r e  t h e  m o s t  u s e d  r e p r e s e nt at i o n  o f  t he  c o mp o s i ti o n pr o p e rt y o f  se
q ue n c e s .  The

I nc RN A s  w i th s m i l a r  A i :

m e r  p r o f i l e s  h a v e  r e at e d  f un c t i o n s  [ 3 9 ] l .  V ar i o u s v a l u e so fk

p s  T h e  num b e r  o f  fe a t u r e s  i n c r e a s e s  l i n e a r l y  w i t
ht h e
fo r m u l a t e  s e
qu e n c e s n o
t fe a t u r e  m a i 
 .

v al ueo f k  .  F e a t u r e s  fr o m  al l t h e  s am p l e s  ar e  o b t a i n e d  w i t h  th e  e
q u at i o n  L

 k+1 , w h e r e Li s

t h e  s e q u e n c e  e n gt h l .  T he c a l c u l a t i o n o f  n o rm a li z ed A :

nu c l e o t i d e  fr e q u e n c i e s  o f

6  d i m e n s i o n s )  tri 3 6 4


= =
d i

nu c e o t i d e  c o m p o s
l i t i o n ( k 2 , 1 ,

nu c l e o t d e  c o mp o s i t i o n  ( k  i

= 


n u c e o t d ec o m p o s i t i o n ( 众 4 2 5 6 di m en s i o n s )
d i m ens on s ) p e n t am e r  o c c u rr e n c e s  (
i t etra

l i A :

,  ,  ,

5 ,
1 0 2 4 d i m e n s i o n s ) ,  h e x am e r( k

6  4 0 9 6 d me n s

i i ons ) ,  an d  o c t a m e r  (
k

8 ,
6553 6

d m e n s o n s )  g e n e r a t e  u n i q u e  p r o p e rt i e s  o f
i i  I n c RN A s 

2 1 



Pre d cti o n  o f
p a nt  o n g n o n c o d n g R N A s n te r a c t o n s w t h  p r o t e i n s b y d e ep  e arni ng


i l l i i i  i  l

   


' 

T h e  am i n o  a c i d s  ar e  g r o u p e d  n t o  s e v e n g r o u p s  o f p hy s i
 
i c o c hemi c al
 p r o p e r t i e s  l on g , {


M N W R K D
‘ , £ , ‘ , , C , e , ‘ , ‘ , ‘ , ‘ , 6 , ‘ ,

T S } , {
H Q } , { } 5
{
E } ,
an d  { C } [ 6 5 ] . T he
g
rou
p s  h e lp  
t

3 3

r e d u c e  t he  d i m e n s i o n  o f  v e c t o r  s p a c e  fr o m  2 0 t o 7 ,  w h c h  r e d u c e s  c o m p u t at i o n a l  c o m p l e x i t y
i 

T h e  fe at u r e  v e c t o r o f p r o t e in 
i sc o m
p o s e d  o f c o m p ut i n g  t h e  c o un t  o f a l l  3 4 3  p o s s i b l e  t r i p e s
 t  l 

E ach  c om
p o n e nt  i sc o m p u t e d  u s i n g  t h e  fo l o w i n g  fo r m u l a l 


_





U ,


343 _

 (
2 . 1


m ax { p ) m n(p)

 i
 

Th e v e c to r i s  n o rm al i ze dt o
p re v e n t  p ro t e i n s  w i t h  o n g e r  s e q u e n c e s  fr o m  h av n g  a r g e r  c o u n t s
l i l 

p  d e no t e s t h e  nu m b e r  o f  r e s i d u e s  in  a
 p ro t e n s e que nc e
i 

?  Mu lti v a r i at e  M u t ua l  I n fo r m at i o n

Mu lti v a r i at e  mu t u a l  i n fo r m at i o n  ( MM I )  i sam e t h o d  u s e d  fo r  e x t r a c t i n
g  fe a t u r e s 
fr o m

nu c l e o t i d e  s e q u e n c e s . M M I

b as e d  fe a t uree n c o d ng a g o r i l i t hm s  c a l c u l at e  t h e  m u t u a 

i n fo r m at i o n  fo r  e e m e n t s  a s  a  fr e q u e n c y  o f n u c e o t d e s  i n  t h e  s e q u e n c e  c o n c e r n i n g  A
l  l i :

t up e l 

③B P F 

I n  t h i s  r e p r e s e n t a t i o nm e t h o d  p r o t e i n  r e s i du e s  a re  r e p r e s e n t e d  b y  a v e c t o r  o f  2 0

 ,

d i men s io n s .  Th ea l
g o r i t h m  c o nv e r t s  e a c h  n u c e o t i d e / r e s i d u e  n t o  a  b i n ar y  v e c o r
i t l .  Th e  b i na r y

p r o f i l e  e n c ap s u a e s 
l t thec o m
pos i tio n  an d  o r d e r  o f  re s i d u e s  i n fo r m a t i o n .  A  b i n ar y  p r o f i l e  o f 2 0

 

x b d i m en s i o n sc o m
p o s e d  o f  a  p r o t e i n  s e q u e n c e  o f  e n g t h  b  w a s  g e n e r at e d  A 
D / R NA

 l .

4xn
se
q u e n c e  w i t h  n  nu c l e o t i d e s  c a n  b e  r e p r e s e n t e d  a s


?P hy s i c o chem i cal



t a e d  fe a t u r e s
p r o p e r yb s

T h e s e  ar e  th e  p h y s i c a l  a n d  c h e m i c a  at t r i b u t e s  o f l  t h e  m o n o m e r i c  un i t  o f p r o t e i n 
.  T he y

i n c ud e

;  i n s t ab i l it
y  i ndex ,  i so el e ctri c
po i nt ,
 g r an d  av e r a g e  o f  h y d r o p a t hy , e xt i nc ti o n

c o e f fi c i e n t  s e c o nd a r y  s t r u c t u r e  fr a c t i o n  g r o u p e d  a m i n o  a c i d  c o m p o s i t i o n  ( G
, ,
AA C ) ,  M o r an

au t o c o rr e l at i o n , comp o s i
t i on ,  t r an s i t i o n  an d  d i s t r b ut o n  ( C T D )  C o m p o s i t i o n  ( C )
i i
, ?  Trans i t i on


T) ,  D i s t r i b ut i o n
(
D ) 5
i ad  ( C T r i a d )  [ 6 6 ]  T h e  p h y s i c o c h e m i c a l  p r o p e r t i e s  o f  R
 c o nj o i nt  t r . NA

n u c l e o t d e s  c a n  b e  e x t r a c t e d  fr o m  c o m b i n n g  p h y s
i i i c o c hem i c al
p
ro
p e rt i e s  w hi c h  i n c l u d e  r i s e 

ro l l , s hi f
t ti ,
l t
,  t w i s t  a n d s l d e  T h e  fe a t u r e  v e c t o r  i s g e n e r at e d  b y  c o l l e c t i v e l y  c r e at i n g  a

i . 

fe a t u r e  s
p ac eo f s tr i n
g s  b a s e d o n  t h e  s i x  p h y s c o c h e m c a  p ro p e rt e s
 l i i i 

⑤ S ub se
q u e n c e  fe at u r e s

T h e s e a r e  t h e  at t r b u t e s  c o r r e s p o n d i i n g  t o  t h e  l o c a l  s i m i l ar it y  w i th i n  a  g v e n  p r o t e n

 i i

se
q u e n c e  S u b s e q u e n c e b a s e d  fe a t u r e s  a r e  c o n s t r u c t e d  fo o w i n g t he e x i s t enc e o f sp e c i f c


. l l i

m o t i fs  i n  a  g i v e n  s e q u e n c e .  T o  g e n e r at e  a  fe a t u r e  v e c t o r , 
s i m i l a r i t y  s c o r e s  a r e  c a c u l at e d  b a s e d

 l

o n  p a i rw i s e  s i m i l ar i t i e s  T h e s e  fe a t u r e s  c a n  b e  d o wn o a d e d  fr o m  t h e  p r o t e n  d o m a n  d at a b a s e
. 
 l i i

c al l e dP R O S I T E  b y  c o un ti n g  e v o l u t i o n a r i l y  c o n s e r v e d  r e g o n s  w i t h  b i o l o g i c a  s i g n i fi c a n c e i l 

T he s e  m e t h o d s  i n c l u d e  s u b s e q u e n c e  p r o fi l e  fe at u r e  e x t r a c t i o n  m e t h o d 

22
- 


Da l i an  Un i v ers i t
y o f T ec h n o o g y

 l

D oc t o ra l  D i s s ertati o n

?  A nn o t at i o n  fe at u r e s

T h e  ann o t a t i o n  fe a t u r e s  i n c l u d e  s ub c e l l u l a r  l o c a l i z a t i o n  b i n d i n g  p r e fe r e n c e s  o f ,
 pr o t e n s

 i


i . e .  nu c l e o t d e i
,  D / R N A  o r m e t a ,

) ,  an d  t h e  p r e s e n c e  o f  t r a n s m e m b r an e  r e g i ons . T h e s e

fe a t u r e s  c a n  b e  a c
qu
i re d  f r o m  t h e  U n i P r o t K B  fo r  a l l  p r o t e i n  s a m p l es
[
66] 


2 )  S t r u c t u r e  fe a t u r e s

T he  R N A  s t r u c t u r a l  fe a t u r e s  a r e
p
r e di cte db as e do nm i ni m um  fr e e  e n e r g y  a n d  m u l t i p l 

s e
q u e n c e  a l i g nm e nt  m e t ho d s  T h e  m a i n  s t ru c t ur
a l  fe a t u r e s  n c u d e  b i o c h e m c a l  c o n t a c t s  a n d
. 
 i l i

c o n fo r m a t i o n a l .  B o c h e m i c a l  c o n t a c t s  i n c ud e  r e s i d u e  c o n t a c t s  a t o m  c o n t a c t s  s a
i l
, ,
l t bri d ge s 

an d hy dro g e n b o n d s .  C o n fo r m a ti o n a l  a s p e ct s  i n c ud e  m o l e c u l a r  v o l u m e  a n d  s e c o n d a r y


str u c t u r e  T h e  m a n  fa c t o r s  t h at  c o nt r i b ut e  t o  t h e  s p e c fi c i t y  a n d  a ff i n i t y  o f  nt e r a c t i o n s  a r e
. i 
 i i

s i z e  a n d  s ha
pe .  M o reo ve r , t
h e  3 D  s t r u c t u r e b a s e d  fe a t u r e s  s u c h  as  d e p t h  n d e x


,  B -

fa c t o r  a n d

 ,

s u r fa c e  c u r v a t u r e  c o n t r i b ut e  t o  p r e d i c t i o n m o d e l s  

F e a t u r e  r a n k n g  a n d  s e l e c t o n  a d d r e s s  t h e  p r o b e m  o f  s e a r c h n g  fo r  a  m n i m a l  s e t  o f
i i 
 l i i

fe a t u r e s  t h at  m a x i m i z e s  t h e  d i s c r i m i n at i o n  a m o n
g c l a s s e s  T h e  k e y  p u r p o s e  i s  t o  r e d u c e
. 

d m e n s i o na
i l i t
y  b y  c u t t i n g  d o w n  t h e  a m o un t  o
f  r e d un d a n t  a n d  n o i s
y  fe a t u r e s  w h i c h m a y

 ,

a l g o r i t hm s  T h e r e  i s  n o  s t a n d a r d  w a
 t h e  a c c ur a c
yo f c as s i f a i n
c t o
yo f cho o
de nga
g r ad e si 

l i .

fe a t u r e  s e l e c t i o n  m e t h o d  s i n c e  t h e r e  i s  n o  c l e a r b i o l o
g i c a l  un d e r s t a nd i n g  o f  w h y  c e r a i n


fe a t u r e s  h a v e
 g r e at e r  d i s c r i m i n at i n g  p o w e r .  I n  d e e p  l e ar n i n g ,  h e c o nv e n
t ti o n a l  fe at u r e

s e l e c t i o n  t e c hn i
q u e s  r e g u l a t e  t h e  e a r n i n g  p r o c e s s  b y  s mu l t a n e o u s l y  l e a r n n g  t h e  m o s t
l 
 i i

n fo r m at v e  fe a t u r e s re d u c e  r e d und a n c y  b y
prun in gn e ur o n s a n d  r e g u at i n g t h e  d r o p o u t



i i l
, ,

fa c t o r .  T h e s e  t h r e e p r o c e s s e s  h e p  t o  m p r o v e  t h e  p r e d l i i ct i o n
p
e r fo r m a n c e . G e n e r a l l
y t wo


s t r at e
g i e s  a r e  ap p l i e d  t o  c o m b i n e  a n d  s e l e c t  a  s u b s e t  o f  fe a t u r e s . F i rst ,  t h e  fe a t u r e s  ar e

c o mb i ne d ,  r an
k e d  an d t hen t h e  t o p  fe a t u r e s  a r e  s e l e c t e d  b a s e d  o n  a  t h r e s h o d l .  F o ri n s t an c e , an

i nc rem ent a l  fe a t ur e  s e l e c t i o n  s t r at e
gy n c l u d e s i
,  s o rt i n g  fe a t u r e s  a c c o r d i n g  t o  av e r a g e

p e r fo r m a n c e ,  i n t e g r at i n g  t h e m  u s i n g  i n c r e m e n t  fe a t u r e  s e e c t o n l i

and f i n a l y r e du c i n g


re d u n d an t  n fo r m at o n  u s n g  a m a c h n e  l e a r n i n g  c a s s f e r  T h e  c o m m o n y  u s e d  fe a t u r e
i i i 
 i l i i . l

s e l e c t i o nm e t h o d s  a r e  r e c u r s i v e  fe at u r e  e l i m i n a t i o n
( RF E  Th eRF E s e)
. l e c t s  fe a t u r e s  b


p e r fo r m i n
g  a  g r e e d y  s e a r c h  v a  a n  i t e r at i v e  i
p ro c e s s 

F e at ur e  h a s h n g  i s  an  a i l ter n at i v e  m e t h o d  t o  fe at u r e  s e l e c t i o n m e t h o d s  u s e d  fo r

d i m en s i o n al i t
y re ducti o n .  F e at u r e  h a s h n g  e f fe c t v e y  r e d u c e s  t h e  num b e r  o f
i i l  fe at u r e s  i n p u t  t o

 Th e o r
i g i na l  hi
a  m a c h i n e  e a rni n g  a l
go r hm gh d i me n s i o na  fe a t u r e  s
p a c e  i s  d e c re a s e d  t o a


l i t . l

l o w d i m e n s i o n al  s p a c e  b

y u s i ng a h as
hf
imc ti o n .  T h e  fe at u r e s  a r e  m a p p e d  t o  h a s h  k e y s  w h e r e

mu l ti
p e  fe at u r e s  a r e  a r b
l i tr ar i l t h
y  m ap p e d  o  t e  s a m e  h a s h  k e y  a n d  t h e i r  c o un t s  a r e  a g g r e g a t e d


H o weve r ,  h a s h n g  c an  r e s u i lt  i n  s i g n i f i c a n t  i n fo r m a t i o n  l o s s  w h e n  h a s h  c o l l i s i o n s h a
ppen

b etw e e nh i

h y  fr e q u e nt  fe at u r e s  w
l it h  s i g n i f c a n t l y  d ffe r e n t  c a s s  d
i i l i s t r i b ut i o n s  . Th i s  ap p r o ac h

2 3 


P re d i ct i o n  of p ant  ong n o n c o d n g

l l



RN A s i nt e r ac t on s  w i it h
 p ro t e n s b y d e e p 
i 

l e arn i n

 

h a s  b e e n  s u c c e s s fu l l
y  m p e m nt e d 
i l e n  p r o t e n  s e q u e n c e  c l as s i fi c at i o n  t a s k s  an d  o t h e r  r e a t e d
i 
 i l

s tu d i es

2 2 2 F e atu r ee n c o d i n g
. .


L n c RN A  s e q u e n c e s  a r e  n o r m a l l
y  s t o r e d  i n  t h e  fo r m  o f  l ett e r s .  T o  fa c i l i t at e  d e e p

l e a rn i n


a l g o r i t hm s  t o  e x t r a c t  a t e n t  a t t r i b u t e s  t h e  s e q u e n c e s  m u s t  b e  e n c o d e d  n t o  n u m e r c a  fo r m


i i l 

T h e r e  a r e  t h r e e m a i n  fe a t u r e  e n c o d i n g  t e c h n i q u e s  o n e h o t  e n c o d i n g  a b e  e n c o d i n g  a n d

 ,


l l

l n e de m b e d d i ng
e ar 



)
O ne -

h o t  e n c o d i ng

Th i s  i sa
popu l a r  d at a  en c o d i n g  m e t h o d  t h at  enc o d e s  s t r i n
g s int o
nu m e r i c a l da t 

s t r u c t u r e s  I t  t r a n s fo r m s  s e .

q u e n c e s  i nt o  a  m a t r
i x  d a t a  s t r u c t u r e  t h a t  c a n  b e  d i r e c t y  fe d  n t o  t h e

 l i

m ac h ne e ar n i n
g  a g o r i h m  o r  c a s s i fi c a i o n  a n d  p r e d i c i o n a s k s  T h e  a l p h a b e s  n h e  g e n e

l t fl t t t l t t 
 . i

se u e n c e  a r e  c o n v e r t e d n t o  b o o e a n v a r a b l e s w h e r e  1  o r  0  a r e  a s s g n e d  t o  n d i c a t e  t h e
i 
 l i i i

p r e s e n c e  o r  ab s e n c e  o f a m n o  ac d  o r  nu c  i i l e o b a s e  at  e a c h
 po s i ti on .  F o re x am p l e , 
i na n c RN A I


A i s d e no t e das
(

, 0 ,
0 ,  0) , 
C as( 0 , 1 , 0 ,0 ) ,  G  a s( 0 , 0 ? 1 , 0 ) , 
a nd  U a s
(
0 , 
0 , 
0 1 , )
.  E ac h  a m i n o

ac d  i n  a  p r o te i n  s e q u e n c e 
i i sr e
p r e s e nt e d  b y  a 
ve c to rc o m
p o s e do f o n ea n d1 9zero s  . A  i 

re
p r e s e nt e d  a s  ( 1

0 丨 ,
. . .

O 1 9 )
i n  p rot e n  s e q u e n c e  w h
i i l e  C  i s  r e p r e s e nt e d  a s  ( 0 丨 ,


. . .

〇 i 9 )
.  T he

p r o t e n  s e qu e n c e  v e c t o r s  t o g e th e r  m ak e  u p  a  P  b y  2 0  m at r
i x  F o r  a  h i g h e r o r d e r  o n e h o t - -

i .

enc o d n g o f i  RN A  se qu enc e ,
a  fe a t u r e  m a t r i x  1 6  x  V  □  l  c o rre sp o n d s  t o  a  d i

n uc e o t d e  whe r e

 l i

e a c h  c o l um n  n  a  r o w  w i t h  t h e  p o s i t o n  o f i i  t hed i

n u c e o t d e  c o nt a i n s  a  s i n g l e  o n e
l i .  E ac h  k r
n tr



4  fo r  e a c h  k  v a l u e  o f  o r d e r s  o n e  t wo  a n d  t h r e e  w h e r e  4 
p a t t e rn  i s  re p r e s e n t e d  as  ? , ,
i sthe

n um b e ro f  RN A s e

u e n c e  nu c l e o t i d e s 

2 )L ab e e n c o di n g



Labe l e n c o din
gi st h e
tra n s fo r m at i o n  o f  c at e
g o r c a l  d at a  n t o  n u m e r c a
i i i l  fo r m . E ac hl a b e 

i sa s s i
gn e dau n que n e ge r
t b as e do na h b t c a o r de r O r d i n ale nc o d n g
p a e i i l i l . i i sa ne x am
p eo f

 l

l a b e  e n c o d n g  u s e d  t o  t r a n s fo r m  d a t a  fr o m  a b e  s p a c e  t o  i n t e g e r  s p a c e  T h
l i l l . i s  d at a  e n c o d i ng

m eth o d i s  u s e d  t o  t r a n s fo r m  s t r i n
g s  n o  n um e r c a
t i i l  d at a  s t r uc t ur e s  s i m i l a r  t o  o n e h o t  e n c o d i n g -



It su b st i t ut e s  t h e  z -

t h  l e t t e r  w i t h  a  fi x e d v a u e  c o r r e s p o n d i n g  t o  a  un i q u e  a m i n o  a c d  o r

 l i

n uc l e o t d e i . T h i s  s ch e m e  h as  a  m e m o ry -

s a vin
g  a d van t a g e  s u c h  t h a t  i t  m n i m z e s  t h e

 i i

d me ns o ns
i i . I ns c i k i t

l e ar n , 
L a b e E n c o d e r ( )  fu n c t o n 
l i i s  u s e d t o
 p e r fo r m  l ab e le nc o d i n





)
L e a r n n g b as e d  e n c o d i n g

i

L e arn n g b a s e d  e n c o d i n g  c re at e s  a  q u a n t

i t at i v e  s e m a nt i c  r e
p r e s e nt at o n  o f d i  i s c r e t e  un i t s

o f  c o m p e x  s y s t e m s  T he  p u rp o s e  o f  c r e a t i n g  t h e  q u a nt
l . i t at i v e  r e p r e s e nt at i o n  o f  w o r d s  i st o

e a r n  t h e  s e m a n t i c s  o f  a w o r d  b y  m ap p i n g  t h e m  t o  v e c t o r s  i n a h i g h d m e ns o n  s
pac e

l i i 

W o rd 2 V e c  S e q u e n c e 2 V e c  s e q u e n c e , ,

t o

se
q u e nc e ( s e q
2 se
q)mo
d e l s  a r e  u s e d  t o  p e r fo r m

fe a t u r e  l e a r n i n
g .  W o r d2 v e c  i s awo rd e m b e d d i n
g  t e c hn i q u e , w h i ch i s u s e d t o r e
pre s en
t w o rd s

a s  v e c t o r s  t h at  d e s c r i b e  t h e  w o r d  b a s e d  o n  i t sc o nt e x t .  W o rd 2 v e c  m a p s  n fo r m a t o n  u n
i i i t ss uc h

24




Da l i an  Un i v er s i ty  o f 
T ec h n o l o gy  D o c t o r a l  D i s s e r t a t i on
  

a s  p hr a s e s  s e nt e n c e s ,  o r  d o c u m e nt s  t o  a  o w d i m e n s i o n a l  s p a c e  T h e  t w o  m a i n  t yp e s  o f w o r d


l . 

e m b e dd i n
g  w i t h  w o r d 2 v e c  a r e  s k i p g r a m  an d  t h e  c o n t i n u o u s  b a g  o f  w o r d s  ( C B

O W  The



s k p g r am  a g o r

l it hm  p r e d i c t s  t h e  c o nt e x t  u s i n g  t h e  w o r d  b a s e d  o n  t h e  s u r r o un d i n
g w o r d s 
t h at

s h ar e  a  s i m i l a r  c o n t e x t  t o  t h e  t a r g e t  wo r d  C B . O Wpre d i c t st h ew ordb


yu s n g i i t sc o n t e xt  e g . 

i v e n  a  s e q u e n c e  o f  w o r d s  t h e  n e x t  w o r d  i s  p r e d i c t e d  b a s e d o n  t h e  c o n t e x t  T h e s e  t wo


g ,

app r o a c h e s  h av e  b e e n  i m
p l e m e n t e d  fo
r  re
p r e s e n t a t i o n  l e a r n n g  fo r  P P I  R P I  p r e d i c t i o n  a nd
i 
 , ,

n g (N L P )  Y
p o s e dan L P Ip r e d med
n a ur at l a n gu a g e  p r o c e s si t as ks i e t al ro  c ti o nm e tho d t er 

p
l . . i

L P I P r e d wh

i c h  tr ai n e d  R N A 2 v e c  a nd  P r o t 2 v e c  m o d e l us i n
gwo r d 2 v e c[ 6 7 ] E ac hA .

me r i 

g ar d e d  a s  a  w o r d  a n d  a  s e q u e n c e  a s  a  s e nt e n c e  s u b s e q u e n t l y  u s n g  t h e  s k i p g r a m  w o r d 2 e c
re v  i

m o d e l  t o  e a r n  d i s t r i b ut i o n
l  re
p r e s e n t at i o n 

S e q 2 V e c  m a p s  t h e  n p ut  i n t o  a  n o n l i n e a r  fe a t u r e  s p a c e  a n d  u s e s  t h e  e m b e d d e d  fe at u r e s  t o
i 

bu i l dt he  p r e d i c t i v e  m o d e l  [ 6 8 ] . Th i s m e t h o d  e n ab e s  e n d l

t o e n d  e ar n i n g  o f  no n l i n e a r

l 

fe a t u r e s  d i r e c t l
y  a n d  s i m u l t an e o u s y  w l i t ht h ep re d i c t i v e m o d e l .  O n c e  t h e  p ar a m e t e r s  a r e

l n e d  i n  t h e  e mb e d d i n
e ar
g  o p e r at o r s  p o s ,
i ti on


pe c f i i c  n o n l i n e a r  fe a t u r e s  a r e  e x t r a c t e d  u s i ng

t h e  m e s s a g e  p a s s i n g  al g o r i t hm .  T he m e s s a g e p a s s i n g  a l g o r i t h m  u s e s  t h e  fo r w a r d  a n d

b a c kw a r d
p as so
f  me s s a
g e s  fr o m  o n e  n o d e  t o  a n o th e r  T h e  o u t p u t  o f  s e q u e n c e 2 v e c  i s  a

 .

c o l l e c t i o n o f p o s it i o n p e c i f i c  fe at u r e s  G e n e v e c  g e n e r a t e s  a  d i s t r i b u t e d  r e p r e s e n t at i o no f

s 2 . 

e ac h
 g e n e  b y  e m p l o yi n g  g e n e  c o

ex n s  I n s p i r e d  b y  w o r d 2 v e c  t h i s m o d e l
p r e s s o n  p at t e r
i .

p e r fo r m s  g e n e  e mb e dd i n g  t o  r e p r e s e n t  g e n e s  a s  v e c t o r s  i n  a  h i g h d i m e n s o n  s p a c e  P e a r s o n

 -

i .

c o r r e l a t i o n  c o e ff i c i e nt
(
P C C )  i s  u s e d  t o  m e a s ur e  g e n e  c o -

e x p re s s i o n  T h e n  t h e  c o .


e xp r e s s e d

d  a s  th e  t r a i n i n
g e n ep a r s  ar e  s e l e c t e d  a n d  s e r v e
g  d a t a  fo r  g e n e 2 v e c  t o  e a r n  t h e  ^ d i m e n s i o n a l

i l

ve c t o rre
p r e s e n t at i o n  o f e a c h  g e n e  .  T hep o s i ti v ean dn e
g a t i v e  n s t a n c e s  i n  t h e  t r a i n i n g  d at a s e
i 

a r e  r e p r e s e n t e d  b y  t h e  ^ d i m e n s i o n  v e c t o r s  ar e  u s e d  t o  t r a i n  t h e  p r e d i c t i o n  m o d e l s  T h e  m a i n


 .

h y p e r p ar a m e t e r s  t un e d  i n  a  g e n e 2 v e c  a g o r i t h m  a r e  t h e  nu m b e r  o f e r at i o n s  r e d  a s  /
p r e s e nt e
l  it

a nd  t h e  d i m e n s i o n a l i t y  o f  t h ee mb e d d ing 
re
p r e s e n e d  as  n
t 

T h ereare t hr e e  w i d e l y  u s e d  n e t w o r k  e m b e d d n g  m e t h o d s  n  m a c h i n e  l e arn i n
g i i :  de ep W a k l


no d e 2ve c ? a nd str u c 2 ve c .  D e ep W a l k i s am et ho du s e d t o l e a rn  n o d e  e m b e d d i n


g s  b y  t r av e r s n g

 i

a  n e t w o r k  t h r o u g h  r a n d o m  w a l k s  t o  i n fe r  l o c a l  s t r u c t u r e s  b y  n e i g h b o r h o o d  r e at i o n s  I t  u s e s

 l .

s ki
g s  S k i p  g r a m  e ffi c i e n t y  l e a r n s  h i g h q u a l i t y  d i s t r i b u t e d  v e c t o r
 t o  l e a r n  e mb e dd i n
p g r am


- -

. l

re
p r e s e nt at i o n s  t o m a x i m z e  s i m i l ar i t i e s  o f  w o r d  e m b e d d n g s  N o d e 2 v e c  i s  a n  e m b e d d i n g


 i .

m e t h o d  fo r  n o d e s  i n  a  n e t w o r k  c a p t u r i n g  t h e  n o d e sl o c a l  n e t w o rk  t o p o l o g y . I t b ui l d s o n

D eepWa l k an d u s e s  a b
   i as e d s e c o nd

o rde r  r and o m wa l k b a s e d  o n  d e p t h  o r b r e a d th f


 i r s t  s e arc h

 

t o  s t r i k e  a  b a l a n c e  b e t w e e n  l o c a  an d  g o b a l  n e t w o r k  p r o p e r t i e s l l .  N o d e 2 v e c i s  m o r e  fl e x i ble

b e c a u s e  w h e n  g e n e r at i n g  t h e  v e r t e x  c o n t e x t ,  i t  c ap tu r e s  b o t h  v e r t e x  h o m o p h i l y  an d  s t r u c t u r a l


qu v al e n c e
i . C ho o s i ng  l o ng e r  w a k l e n g t hs  i m p ro v e s  t h e  e m b e d d i n g  q ua l i t y
l . F o r l i nk

pre d i c t i o n H a d a m a r d  p r o d u c  p e r fo r m s  b e t tt e r  t h a n a v e r a g e  an d  w e g h t e d  / i

/ /2 . A n o t h er

2 5




P re d i ct i o no f p a n t o n gn o n c o d n gRN A
l l i si n t era c t o n sw i i t h  p r o t e n s  b y d e e p  e arn n g




l i

n e tw ork -

b a s e d e m b e d d i n g  m e t h o d  i s t h es t r u c 2 v e c S t r u c 2 v e c . i s  a  fr a m e w o r k  fo r  e a r n n g


l i

s


at e n tre n d e s b y an a y z n g s t r u c t u r a
p r e s e n at o n s o f o
l t i l i l i m i l ar it
y an dg e n e r at n g n o d e s i

s t r u c t ura l c ontext .  Th i s m e t h o d l e v e r a g e st h el o c a n e l t w o rks t r u c t u r e 



2 3 .
C o m p u t at i ona l a
pp
ro a c h e s  fo r  n c I RN A -


ro t e i n n t e r a c t o ni i
p
re d ct on

 i i

M a n yb i o l o g c a e x p e r m e nt a
i l i l m e t h o d s h a v eb e e nd e v e o
p e dt od l i s co ver
p
o t e n t a L P i l I s 

T h eh i


h -

t h r o u g h p u t s e q u e n c i n g  t ec hn o o g l i es h a v ep r o d u c e da l ar g ea m o u n t o f



I n c RN A -

re l a t e dd a t a n c i l u d n g  s e q u e n c e  s t r u c t u r e  fun c t o n  a n d  e x p r e s s o n  A

, ,


i . l t hou
g ht h e

met hod L P t he T oc o


sc a na c c u r a t e yu nv e s
yaret m e co n s u m n ga n de x p e n s v e m p e m e n t

l i l I i i i . l

e xp e r m enta i l m e t h o d s an d a l l e v i a t et h e i rl i m i t at i o n s , c o m p u t at o n i


b a s e da g o r l i t h m sh a v eb e e n



p r o p o s e d b e c a u s e t h e y d on o t r e q u i r e s o p h i st i c at e d  i n s t r u m e n t s T h ec o m p u t a t o n a . i l m e t h o d s

a r ec l as s i f e d n t o t w o m a nt y p e s  n e t w o r k b a s e da n dm a c h n e 


i i i

i l e arn i ng -

b a s e dm e t h o d s 

Ne t wo rk -

b a s e dm e t h o d su s eas m i i l a r i t yn e t w o r kt o


p
r e d i c tt h e nt e r a c t i i o nb e t w e e n n c I R N A s

and
p
ro t e i n s M ac h n e e arn n g
. i l i

b a s e dm e th o d sb u i l dam o d e b a s e do nt h et ra n n gd a t aa n d



 l i i

m a k e p r e d i c t i o n sw i t h o ut e x p l i c i t
 p r o g r a mm n g F i .


. 2 . 3 s h o w s d i ffe r e n t  c o m
p utat o na i 

appro a ch e s  fr o m 1 96 1 t o2 0 2 0
[
69



XL N e 

R o B E R Ta

DB N T re ? -

 L G BM  T e x G C N
L STM 
 i

Na n  e bav es
  C .
 N N C 4 5  S V ME x l r a  T ree s  M V -

R N N T
ex i R C N NWGA N B E RT 

嫩 
# # 
參 # 貘   
# 
1 t 广 、'

1 96 1  1 96 7  1 98 4  1 9 8 9  1 99 3  1 99 5  1 99 S  2 0 0 1  2 00 6  2 0 1  i 2 0 1 22 0 1 3 20 1 4 2 0 1 52


0 1 620
 ̄ 
1 72 u i 82 0 1 9  2 02 0
 :〉


^ ^ ^ ^ w  IF  ,




K N N  C A R T  L S TM  R F  R A E R N TN Te x C N N  H A N  G P T  S p a nB ER
 t

X G B  D G C N N  Te ML N G


Ca t b oo s i A L B E RT

F i

. 2 . 3S h a l l o w an dd e e pm a c h n e e a r n n ga g o r i l i l i t hm s  d e v e o p m e n t  t m l i e l i ne

2 3 . . 1 S h a l l o w m a c h n e e a r n n gap p r o a c h e s

 i l i

T h ed e v e l o p m e n t o fc l a s s i f e r sc a t e g o r


i i z e d a s k e r n e l

based , d i v de i

and

con

u er r u e

 . l

e a rne rs
 a zy earne rs a n d g r a p h c a l m e t h o d s h a s  b e e na c h i e v e dt h r o u hb a t c h e a r n ng



 l



l i 

T h e s e p a r a d i
gm so fm e t h o d sar eb o t h n c r e m e n t a i l  a n d  fa s t  T h e  m o r e  c o . mp l e xm o d e l sh av e

better
g
e n eral i z at i o na b i l i t
yb u th a v et h er i s k o f o v e r f i tt i n g T h em a n . i i s s u e nc a s i l s i f i c at i on

p r o b e m s t h ea b yo f
t h e c as s f c at o n m e t h o d s  t o  c o n t r o t h e ra de o ff  b e t w e e n  t h e


l i s i l i t l i i i l t

co mp ex l i t i e s  o f m o de l r epr e s e n t at o n an d t h e

 p a c e  o f  m o d e  u p d at e  S h a l . l l o wm a c h i ne

l e arn i n ga l g o r i t h m sr e



u i re  fe a t u r e  e x t r a c t o n  t o  d e n t fy  r e e v a n t  d a t a  c h a r a c t e r i i i l i st i c st ob e

d o n e  b e fo r e  t h e fi c a t i o n a n d  r e g r e s s o n  T h e s ea g o r hm  n c u d e
yp e r o rm c a s s
f l i i .
l i t s i l l og i s t i 

g re s s o n ( L R ) v eb a ^ n e a r e s tn e g h b o r B ay e s
y e sc a s s f

re r g e r e g r e s s o n n a er an


i i i i l i i i i
, , , ,

ne two rk s , a n d S V M 

T h e s e t rad i t i o na l a g o r l i t h m s a n dt h e i r d e r v a t v e sh av eb e e nap p


i i l i e dt o
p r e d i c t
g e n e

ex
p re ss i on ,
 g e n e  fu n c t i on s , s e c o n d ar ys t ru c t ur e s ,  a n d b i omo l ec ule  i nt er ac t o n s i . S V M . a

2 6




Da l i an  Un i v e rs i t
y o
f  T e c hn o l o gy  D o c t o r a l  D i s s e r t at i o n

non s t i c  c l a s s i fi e r  i s  t h e  m o s t  w i d e l y  u s e d  m e t h o d  fo r  R P I p r e d i c t i o n  i n  m e t h o d s
p r o b ab


i l i ,

s uc h a s  RB P P re d [
70] 

E n s emb l e  s h al l o w  m a c h i n e  e a r n i n g  m e t h o d s  ar e  c at e g o r i z e d  i n t o  t hr e e  c l a s s e s
l : b a
g gi n g 

b o o sti ng ,  an d  s ta c k i n g  . T h e y c o m b n es e v e ra i l  e ar n i n

g  m e t h o d s  t o  o b t ai n  a  p r e d c t i ve  m o d e l
i 

w i t h i m p r o v e d  p e r fo r m a n c e  T h e  b a g g n g  e n s e m b l e  m e t h o d s  d e c r e a s e  v a r i a n c e  b o o s t i n g


 i

mo d e l sd e c re a s eb i a s ,  an d  s t a c k i n g  m o d e l s  i m p r o v e  p r e d i c t i o n s  T h e y i n c l ud e  R F


,  A d ab o o s t


g  ( X G B )  a n d  g h  g r a d i e nt  b o o s t i n g  m a c h i n e  ( L G B M  G i v e n n


e xtr e m e
 gr a d e n t  b o o st i n
i li t .
, )

m o de l s,
^ , 
where i 

 l

2 ,
. . .
/7 , 
i s  av e r a
g e d  i nt o  a n  e n s e m b l e  e 

z,
丄 2 2)
啦 )






RF i s  a w i d e l y u s e den s e m b l es ha l l o w  m a c h i n e  l e a r n i n g  m e t ho d  t h at  c o m b i n e s  d e c i s i o n



tre e( DT ) p r e d i c t o r s  fo
l l o w n g  t h e  b a g g n g  t e c hn i q u e  I n  t hi s  m o d e
i i . l
,  t h e  c l a s s  t h at  r e c e i v e s

m aj o r i t
y  v o t e s  fr o m  t r e e s  i n  t h e  fo r e s t  i sc o n s i d e r e d  th e  o ut p u t  r e s u l t .  Th i s
 proto c o l re l i e so n

g  n  n umb e r  o f  m o d e g n g  p r e d i c i o n s  o f  a l  m o d e l s  fo r  a  fi n a  p r e
c r e at i n l s  an d  av e r a i t d ct i o n l l i 

O the r  p ar am e t e r s  i n  t h e  R
Fm o d e l ar e  DTs  w i t h  a  m i n i m um  l e a f  si z e  fo r  e a c h  t r e e 

B o o st n gs e q ue nti a i l l
y  app l e s  a  c l a s s i f c at i o n  a l g o r i t h m  t o  w e i g h t e d  d a t a  s a m p l e s  a n
i i 

u s e s  a  w e i gh t e d  m aj o r i t y  v o t e  t o  o b t a i n  t h e  o ut p u t .  B o o st i n g  a g o r i t hm s  ar e  b a s e d  o n  a d d i t i v e
l 

p r i n c i p l e s  T h e s e  a l g o r i t hm s  r e d u c e  b i a s
mo d e l i n g  a nd  m a x i m u m  l i k e l i h o o d  s t at i sti c al . b y

c o n v e rt i n n e r s  t o  s t r o n g  o n e s  t h r o u g h  t h e  i n t e g r at i o n  o f m o d e l s  w i t h  l o w e r  e r r o r s
g  w e ak  e a r l 
 

a n d  r e du c i n g  p i t fa l l so fi nd i v i d u a l  m o d e l s  A d a p t i v e  b o o s t i n g  ( A da B o o s t )  i s  a n e n s e m b l e
. 

m e t h o d  o fte n  u s e d  t o  o b t a n  s a t i i s fa c t o r
y  r e s u l t s  c o m p ar e d  w ith  o t h e r  m e t h o d s . I ta m sat

 i

c o nv e r t i n
gas e
to f  w e ak  c a s s l i fi e r s  i nt o  a  s t r o n
go n e .  I t  i s  a  fo r w a r d  s t a
g e w i s e  ad d i
ti v em o d e 

t h at  a s s g n s  w e i g h t s  t o  n s t a n c e s  a nd  p r e d
i i i ct s t hr o u
g h  a  m aj o r i t y  v o t e .  O ne  m a i n  p ar a m e t e r  n

 i

A daB o o s ti st h e n um b er o f  shal l o wD T s 



Grad i e nt b o o s ti ng i s a
pr i m a r y  m e t h o d  s u i t a b e  fo r  p r o b l e m s  w i t h  no i s y  d at a l


h e t e r o g e n e o u s  fe at u r e s nd c o m p l e xde p e nd e nc e s  T h e  c l a s s i fi e r s  re l
, a i .

y  o n  a  l o s s  f u n c t i o n  fo r

c l a s s i fi c at i o n  a n d  r e g r e s s i o n  t a s k s  T o  c a s s i f y  i n s t a n c e s  t h e y  u s e  o ar i t hm c  l o s s  a n d  u s e



. l l i


q u a r e d  e rr o r s  fo r  r e g r e s s o n i .  T h e s ea go r l i t h m s  h av e  tw o  p ar t s , a w e ak  e ar n e r  a n d  an  a d d i t i v e
l 

c om
p o ne n
t . S i m i l a r  t o  m o s t  p r e d i c t o n  a l g o r i t h m s  g r a d i e n t  b o o s t i n g  a l g o r i t hm s  c a n  e a s i l y


 ,

o v e r fi t  du r i n g  t r a i n i n g ,  t h e r e fo r e  d ,
i f fe r e n t  r e
g u a r z a o n m e t h o d s  ar e  i m p l e m e n t e
l i ti d .  F o r

e x am
ple ,  t r e e  c o n s tr a nt s  r an d o m i

i z e d  s am
p l ng i
,  an d  s hr i n k a g e  a r e  u t i l i z e d  t o c o m b a t

o ve rf
i t i r x g  an d  e n h an c e  p e r fo r m a n c e .  The s e c as s f
i e r s  n c ud e  g r a d l i i l i e nt  b o o s t i n g

D T G B D T) ( 

L GB M ,  X GB ,  an d  c at e g o r i c a l  b o o s t i n g  ( C a t b o o s t )  . GB D T i s  a  m a c h i n e  l e arn i n
g  t e c hn q u e

 i

c o mpr
i s e do fac o l l e c t i o no f D T s t o  fo r m  a  s t r o n
g erp r e
d i ct i o nm o de l . GB D T  b u i l d st h e

m o d e l  n  a  s t a g e w i s e  fa s h i o n  a n d  t r a i n s  i t  i t e r at v e y I  m p l e m e nt s  g e n e r a z at i o n  b y

i i l . t i l i

a l o w i n g  o p t i m z a t i o n  o f  a n  a r b i t r a r y  d ffe r e n t a b l e  l o s s  fun c t i o n  t h at  m a k e s  t h e m  e ff i c i e n t
l i i i


27
- 


Pr e d i cti on o f
p a n t  on g n o n c o d
l l

ii
^ RN A s 
 i n t e r ac t on s  w i i t h
 p ot
r e nsb
y  d e ep  e a rn ng



l i

a c c u r at e ,  a nd  i nt e r p r e t a b l e .  G B D T  c o m b n e s w e a k  i l n e r s  t o  fo r m a  s t r o n
e ar
g l e ar
n er . F o r

e x am
p e l
, 
t h e  G B D T  c an t r ai n  5 0 D T s de p end i n g  o n  t h e  n u m b e r  s e e c t e d  b y  th e  u s e r l 

L G B M i s  a  tr e e

b a s e d  e a r n n g  m e t h o d  t h at  m p e m e n t s  G B D T  It 
l i i l . i s  s u i t ab l e  fo r  t h e

l a r g e  s i z e  o f  d a t a  a nd  a  l ar g e  num b e r  o f  fe a t u r e s  I t  t r a i n s  fa s t  u t .

i l i z e sl o wm e m o r
y  an d  i t 

a c c u r ac y  i s  b e tt e r .  R e c e nt l y  Y o u  e t  a  m p ,
l . i l e m e nte d L G B M t o p r e d c t n c RN A p r o t e n

 i

n t e r a c t i o n  b a s e d  o n  s e q u e n c e  fe a t u r e s  e x t r a c t e d  u s i n g  p s e u d o Z e m i k e  M o m e n t s  a n d  s i n g u l a r


v a l u e  d e c o m p o s i t i o n m e t h o d  i nfo r m a t i o n  [ 7 1

. U n l i k e  o t h e r  m e t h o d s  t h a t  fo l o w  t h e

 l

l e ve l

w i s e  t r ai n n g  p at e r n i
, 
L G B M  a n d X G B  fo  ll o w t h e e af wi s etra n i n gapp r o ac h

i 

X GB i s  a n  a d v an c e d  G B D T  m eth o d  d e s i
gne
d  fo r  s p e e d ,  fl e x i b i l i t
y ,  a n d  a c c ur a c y  T hi s

 .

tre ee n s e m b l e  m o d e l  i s  t r a i n e d  a d ap t i v e l y  I t  h a s  b e e n  u s e d  t o  b u . i l da


 p re d i c t i o n  m o d e l  fo r

RP I  t e r m e d  X R P I  [ 7 2 ]  P a r a m e t e r s  a s s o c i at e d  w i t h  X G B  n c u d e  e a r n i n g  r a t e  n u m b e r  o f
. 
 i l l

i t er a t i o n s /t r e e s  a n d  t h e  t y p e  o f  b o o

ster e g  . . d a rt  o r g b tre e . X G B i s  an  e ff i c i e n t m a c h i n e

l e ar n i n
gc l as s i f er i  th at  h a s  b e e n  s u c c e s s f u l l
y  e m p o y e d  fo r p r e d i c t i o n a s  a  c l a s s i f i c a t i o n
l 

a l g o r i t hm  M o r e o v e r  i t 


i s  a l s o  u s e d  fo r  fe a t u r e  r a n k n g  b y  m p o rt a n c e  [ 7 3 ]
i i .  I t  c an  c o n s t ru c t

b o o s t e d  t r e e s  a nd  o b t a i n  fe a t u r e  s c o r e s  fo r  i nd i c a t i n g  t h e  s i g n f i i c a n c e  o f  e a c h  fe a t u r e . Th e

s c o r e s  are  o b t a n e d  b a s e d o n  t h e  n um b e r  o f  t i m e s  t h e y  a r e  u s e d  i n  k e y  d e c i s o n s  w i t h i n
i 
 i

b o o s t e d  t r e e s  t h at  i s  t h e  m o r e  a  fe at u r e 

i sus e d th e  h i

h e r  t h e  s c o r e  T h e r e fo r e  i r r e l e v a n t

 .

fe at u r e s  ar e  f
i l t e r e d  o u t  b a s e d  o n  a  t h r e s h o l d  fo r  m o d e l  t r a i n n g i 

C at b o o s t  i sa
g
e neral

p u rp o s e  a g o r l it h m  n  t h e  fa m i i l
y o f G
B D T  u s e d  fo r  a  w d e  v a r i i et


o f  a pp l i c a t i o n s  i n c l u d i n g  r e c o m m e nd a t i o n  s y s t e m s  w e a t h e r  p r e d ,
i cti on ,
p
e r s o nalas s i s t an c e 

a n d  m a n y  o t h e r s  [ 7 4 ]  I t  i s  w e l l  s u i t e d  fo r  t a s k s  t h a t  n v o v e  c at e g o r c a l  a n d  h e t e r o g e n e o u s
. 
 i l i

d a t a  T h e o b s e r v at i o n s  fo r  t h e  b o o s t n g  t r e e s  a r e  s a m p l e d  t o m a x i m z e  t h e  a c c u r a c y  T h
. i i . i 

a l g o r i t hm  i s  s e n s i t i v e  t o  h y p e r p a r a m e t e r s  s e t t n g s  I t  p r o c e s s e s  m ss n g  v a l u e s u s i n g  t h e


i . i i

m i n i m um  a nd  t h e  m a x i m u m  v a u e  o f a  fe a t u r e l  

2 3 2  D e e p l e a r n i n g  app r o a c h e s
. 

D L i s  a  s e t  o f  m a c h i n e  l e ar n i ngal g o r i t hm sth atm o d e h gh l i


l e v e l  a b s t r a c t i o n s  i n  d at a

u s i n g a r c h i t e c t u r e s  c o m p o s e d  o f  n o n l i n e a r  t r a n s fo r m a t i o n s  D L  a g o r . l i t hm s  a l s o k n o w n a s

d e e p  n e ur a l  n e t w o r k s  a r e  b a s e d  o n  t h e  hum a n  b r a i n  fo r  a n a l y t i c a  l e a r n i n g  T h e  n e t w o r k  i s

 l .

e d  n e u r o n s  t h at  a r e  d e n s e l y  i n t e r c o nn e c t e d  a n d  t r a n s m i t
com
p o s e d  o f  p o c e s s n g  un s  c a
r i it l l 

si
g n a l s  fr o m  o n e  l a y e r  t o  an o
t her .  D La l
g o r i hm s  p e r fo r m  fe at u r e  e n g n e e r n g  a u o n o m o u s y
t i i t

 l

t h r o u g h  a  r e p r e s e n t a t i o n  l e a r n n g  p r o c e s s  T h e  v a l u e s  o f  d e s c r p t o r s  fe d  n t o  t h e  i n p u t  a y e r
i . 
 i i l

a r e  fo r w a r d e d  t o  t h e  h i d d e n  l a y e r s .  T h e  c o m p ut a t i o n  s u c h  a s  a c t v a t o n  fu n c t i o n  i i i sa
pp l i e di n

t h e  n e u r o n s  o f t h e  h d d e n  ay e r s
 i l .  T h e  o u t p u t  fr o m  t h e  h i d d e n  l a y e r  c o m p u t at o n s  i i s  s e nt  t o  t h e

o u t p u t  l a y e r  w h i c h  a s s i g n s  a  c a s s  t o  t h e  o u t p u t  s a m p e s  b a s e d  o n  m a x m um  p r o b a b i
l l i l i t



D L h as s h o w n i m p r e s s i v e  p e r fo r m a n c e  i n  b o n fo r m a t i i i c s t hr o u

h  e ar n i n
gm u
l l ti

l evel

re
p r e s e nt at i o n s  a n d  a b s
tr a c t i o n s  fr o m  d a t a . D e ep B i i rs tD L
n d w as th e f -

b as e d a
pp r o a c h

28 


Da l i an  Un v e rs i i t
y of
 T e ch n o l o g y  D o c t o r a l  D i s s e r t at o n i

 

d e v e l o p e d  b y  i n t e g r a t i n g  s e q u e n c e  a n d  s t r u c t u r e  fo r  i d e n t i f y i n g  s e q u e n c e  s p e c i f
ic i ti e so f

D N A  an d  R N A  p r o t e i n b i nd i ng s i te s [ 7 5 ] .  A  C NN  wa s  t r a n e d  u s n g h i i i
gh

t hr o u gh p ut

p o e n
r t b n d i n g  m i c r o a r r a y  a nd  C h I P


se
q  ep g e
i n o m c  e x p e r i m e nt a
i l  d at a  . D e epM ot i f
[
7 6 ]i sa

mo de l t h ate x trac tsm o t i fs  an d  i s  t r a i n e d  t o  c l a s s i f y  t r a n s c r i p t i o n  fa c t o r  b i n d i n g  t o  a  s e q u e n c e 



I t ap

l i e sad e e p

C NN  M L P  fr a m e w o r k  t o  c l a s s i fy  g e n o m i c  s e q u e n c e s  o n  t h e  t r a n s c r i p t i o n

v a r i a nt  e fe c t  fr o m  c h r o m a t i n p r o f
g  D e e p S E A  [ 7 7 ] p r e d c e d  no n c o d i ng
fa c t o r  b i n d i n . i t i l i ng


- -

qu e nc e s  u s i n g  D L  B a s s e t  [ 7 8 ]  p e d c s  c h a n g e s
 i n  c h r o m at i n  a c c e s s i b i l
s e r i t . i t
yc o d eb e tw e e n

a l l e l e s  an d  l e a r n s  fun c t i o n a l  a c t i v i t i e s  o f  DNA  s e q u e n c e s  u s i n g  d e e p  C NN  D e e p C p G  [ 7 9 ] .

m o d e l s  t h e  D N A  m e t h y l a t i o n s t at e  o f  C p G  d i nu c e o t i d e  u s i n g  t o p o l o g i c a l  fe at u r e s  a n d

 l

s tac k e dd e n o i s i n g  A E s  U s i n g  an  e n s e m b l e  D E E P  p r e d i c t s  e nh an c e r s  o r  r e g i o n s  o f  D N A


 ;

tr a n s c r i p t i o n  fa c t o r  b i n d i n g 

T h e re i sawi d e b o d y o f l i t e r at u r e  o n  n e u r a l  n e t w o r k  c o mp r e s s i o n  a n d  a c c e l e r a t i o n  A

 .

c om
p re
he n s i v e  o v e rv i ew  sp ro v i i d e di n sur v e y s  [
8 0 -

82

. Th e tec hn i q u e s  n c u d e

 i l

l ow pre c

i s i o n  t r ai n n g i
,  q u an ti z at i o n ,  p r un i ng ,  l ow

r an k  fa c t o r z a t o n  a n d  k n o w
i i

l e d ge

d i s t i l l at i o n .  B n a r y w e g h t s  t e r t i a r y  w e i g ht s 
i i
, ,
l e a r n i n g  a  c o m b i n at i o n  o f  b i n a r
y b a s e s  a n


d ,

q u a n t i z i n g  t h e  a c t v a t i o n s  a r e  a p p r o a c h e s  t h at  t
r a i n  n et w o rk s  w i th  o w

p
r e c i s i o n w e i
ght s l .  T he

m e th o d s  r e p l a c e  m o s t  a r i t hm e t i c  o p e r at i o n s  w i t h  b i t w i s e  o p e r at i o n s  t h at  a s s u m e  t h e  p l a c e  o f

 -


p e c i a l i z e d h a r dw a r e  t o  s p e e d  u p  i n fe r e n c e  a i c i e n c y  V e c t o r  a n d  p r o d u c t
n d  i m p r o v e  e ff .

qu an
ti z at i o n  t e c h n i q u e s  h a v e  b e e n  e x t e n s i v e l y  s t ud i e d  i n  t h e  c o n t e x t  o f  t h e  n e a r e s t  n e i g h b o r

s e ar c h . T hec o n c ep be h t i nd
 q u an ti z at i o n  i s  th e  d e c o mp o s i ti o no f  t h e o r g i n a i 

h g h d m e ns o n a

i i l s
p a c e  n t o  a  c ar t e s a n  p r o d u c  o f  s ub s p a c e s  t ha t  a r e  q u a n t i z e d 
i t i w i thaj o n t

 i

c o de b o o k .  N e t w o r k  p r u n n g  n v o v e s  r e m o v n g  c o nn e c t o n s  a c c o r d n g  t o an  m p o r t a n c e
i i l 
 i i i i

c r i t e r i a  u n t i l  t h e  d e s i r e d  m o d e l  a c c ur a c sac h ev e d E n fo r c n g  c h a nn e e v e lo r
y  t r a d e o ff 


i i . i l l


f l t er

l e v e ls
pars i t
y  h e p s  t o  p r un e  t h e  n e t w o r k
l s  s t ru c tu r a l  c o mp o n e nt s 

Wh e n  d e s i g n i n g  an d  c o n f g u r i n g  a  n e u r a l  n e t w o r k  m o d e l  o n e 
i i sr e
q u i r e dt oc ho o s e a o s s

 l

fun c t i o n  A  l o s s  o r  c o s t  f u n c t i o n  i s  a  f u n c t i o n  t h a t  m a s  t h e  v a l u e s  o f  v a r i a b l e s  o n t o  a  r e a l

nu m b e r  r e p r e s e n t n g  t h e  l o s s  c o r r e s p o n d n g  t o  t h e  v a l u e s  I t  e v a l u a t e s  t h e  o bj e c t i v e  fu n c t i o n
i i .


T he l o s s  fun c t o n  s e e k s  t o  m a x m i z e  o r  m i n i m i z e  t h e  o bj e c t i v e  fun c t o n  t o  m i n i m z e  t h e  e r r o r


i i i i 

T h ee rro r i s c a l c ul at e d  d u r i n g  t h e  o p t i m i z at i o n  p r o c e s s .  T h e r e  ar e  a v ar  i e t yo f  l o s s  fun c t i o n s  t o



c h o o s e  fr o m  w h i c h  m a
y  b e  a  c h a l l e n g e  i n  d e c i d i n g  t h e  m o s t  a pp r o p r i a e  o n e  o  c h o o s e  o r
t t f a

p r e d c t i v e  m o d e l  p r o b l e m  C r o s s e n t r o p y  o r  l o g  l o s s  e s t i m a t e s  t h e  d ffe r e n c e  b e t w e e n
i .
t h e

 -

e s t i m at e d  a nd
 p re d i cte d
 p r o b ab i l i t
y di st r
i bu ti ons .  T h e p e n a lt
y , a s c o rec a l c u l at e d  t h at

p ena l i z e s  t h e  p r o b ab i l i t
y  b a s e d  o n  t h e  d i ffe r e n c e  f r o m  t h e  e x p e c t e d  v a l u e , i sl o g a r i thm c  s u c h

 i

h at  o ffe r s  a  s m a l  s c o r e  fo r  s m a l d i ffe r e n c e s  ( 0 2 )  an d  a  b
g  s c o r e  fo r  a r g e  d i ffe r n
t i t l l . 1 /0 . i e ces

 l

e rv al u e sd e n o teb e t er s a c h i e v e db



0 9/ . 1 . 0 ) S ma
. l l
 p e r fo r m a n c e  a nd  p e r fe c t  p e r fo r m a n c e  i
y a

p r o ba b i l i t
y v a ue o f0 0 l . .  M e an  s q u a r e d  e rr o r (
MS E )
i s  t h e  a v e ra
g eo f  t h es
q ua r e d 
d i ffe r e n c e s

29
- 


P re d i cti o no f
 p ant
l  l o n g n o n c o d n g  R N A s  n t e r ac t o n s  w

i i i i t h
 p ro e n s b y
t dee

p  e ar
n ng

 

l i

b e twe e n t he  p r e di c t e d  an d  ac t u a l v al ue s . T here su l to f M S E i sa


 p o s i t i v e  v a l u e  r e g a rdl e s s  o f

w h e t h e r  th e  p r e d i c t e d  a n d  a c t u a l  v a u e  i s  p o s i t i v e  o r  n e g a t v e l i .  The l o s s  v a l ue  i s  m i n i m i z e d

an d  a
p
e r fe c t  v a l u e  i s  z e r o  ( 0 0 ) . .  H u b e r  l o s s  i s  a  o s s  f un c t l i o n  t h at
p
ro v i d e s  t o l e r an c e  t o

o u t l i e r s  an d  p r o b ab i l i t y  e s t i m at e s  H i n g e  o s s  . l i sas o t m arg n
f i l o s s  t h a t  p e n a l i z e s  t h e  l i n e ar

S V M  m o d e l  fo r  n a c c u r a t e  p r e d i c t i o n s
i . I ti sa l s ou s e di n DL  m o de l s 

A m u l ti l a y e r  p e r c e p t r o n  ( M L P )  i s  a n a r t i fi c a  n e u r a l  n e t w o r k  w i t h  i n d i v i du a l  u n i t s

 i l

k n o wn  a s  n e u r o n s  t h at  a c c e p t  a n d  p r o c e s s  n p u t  a n d  p r o du c e  a n  o u t p u t i .  ML P s us e a

b a c k p r o p a g a t o n  al g o r i i t hm  an d  s t o c h a s t i c
g
r ad i e ntd e s c e nt
(
S G D )  o p t i m i z at i o n  t o  m i n i m i z e

t h e  e rro r .  B a c kpr o p a g a t i o n  m o d i f i e s  t h e  s t r e n g th  o f  t h e  c o n n e c t o n s  b et w e e n  t h e  c u rr e nt  an d
i 

p r e v i o u s  l a y e r s  b a s e d  o n  t h e  e rr o r  b e t w e e n  d e s i r e d  a n d  a c t u a  o ut p u t  I t  c a n  b e  ap p l l . i e dt o

o n e d i m e n s i o n al  o r  t w o

d i m e n s i o n a  d a t a  E a c h  l at e n t  l a y e r  n  a n  M L P  i s  e i t h e r  a  f u l l y
l .


 i

c o nn e c t e d  l a d r o p o u t  l a y e r  o r  b at c h  n o r m a z at i o n  T h e  d r o
yer a p o ut  l ay e r s  h e p  t o  p r e v e n
l i . 

t l
, ,

t h e  m o d e l  fr o m  m e m o r i z i n g  t h e  t r a i n i n g  d at a  t o  a r t i f
i c i a l l y  i n c r e a s e  t he  t r a i n i n g  a c c u r a c y 

M L P s  c an  b e  u s e d  t o  i n v e s t i g at e  n o n l n e ar  r e at i o n s h p s  b e t w e e n  p r o t e i n  o r  R
i l i N A  s e qu e n c e

an d  b i o c h e m i c a  p r o p e r t e s  A  n o n l i . l i n e a r  M L P  c a n  m o d e  AN D  an d  O R  l o g i c a l o p e r at o r s

 l

h e n c e  th e i r  l i ke l h o o do f
i  c ap t u r i n g  e p i s t a t i c  i n t e r a c t i o n s  b e t w e e n  g e n e s .  The i r  s t r en
gt h  l i e s  
i

t h e i r  c ap a b i l i t
y  o f  a c c u r a t e y  f i t n g  a n e x t e n s v e  v a r l i i i et
y  o f  s m o o th ,
n o n l n e a r  fu n c t o n s
i i 

L m i i ti n g  t h e  f l e x i b i l i t y  o f  M L P s  t o  a  s u ff i c i e n t  s t a t e du r i n i h
g tr a n i n g e s p e c i al l yw e n
 th e

n um b e r  o f  tr a i n i n g  s a m p l e s  i s  s m a l l  e n s u r e s  g o o d  g e n e r a l i z at i o n  c h a r a c t e r i s t i c s .  Th i sc an  b e

ac hi e ve db he  n e tw o rk T hi s
y  m i n i m i z i n g  t h e  nu m b e
ro f
 p e r c e p t r o n s i n  th e  h d d e n  l a ye r  o f i  t . 

h e p st o
l l i m i tt h e  r an g e  o f  f u n c t i o n s  t h a t  a r e  fi t t e d  i n  t h e  n e t wo r k  d u r i n
gth etrai n i n g p ro c e s s 

T h e  o u tp u t  o f  a n  M L P d e p e n d s  o n  t h e  n p u t  a n d  s t r e n g t h  o f  t h e  c o nn e c t i o n s  o f  t h e  un i t s
i 

T he ab y  o f  M L P s  t o  l e a r n t h e  i n p u t o u t p u t  r e a t o n s h p  t o  s o l v e  c o m p l e x  p r o b l e m s  i s

i li t 
 l i i

d e p e n d e n t  o n  s u ff i c i e n t  d at a  u s e d  t o  t r a i n  t h e m . I ti sne c e s s ar
y  t o  o p t m i z e  t h e  w e i g h t  an d  b i a s
i 

p ar a m e t e r s  o f 
t h e  n e t w o r k  t o  g u a r a n t e e  a c c u r at e  p r e d i c t o n i 

G e n e ra ti v e  m o d e l s  s u c h  a s  A E s  e a rn  d at a  d l i stri b ut i o n san d
 g e n e r a e  n e w  d at a  p o n s
t i t .  An

A E i s  a n  un s u
p e rv i s e d  e ar n n g  a r g e l i l

sc a en o n
l l i n e a r  s y s t e m  c o m p o s e d  o f m u l t i l ay e r  n e u r o n s  

Thema i n  o bj e c t i v e  o f  a n  A E  i s  t o  l e a r n  a  d i st n c t i v e  r e p r e s e n t a t i o n  o f  fe a t u r e s  n o i s e

 i

e l i m i n at i o n ,  an d d m e n s o n a i i l i t
y  r e d u c t i o n  F e a t u r e  r e c o n s tru c t o n 
. i i s
 p e r fo r m e d  a y e r w i s e l 

The f r s t i l a y e r  n t e g r at e s  o r i g i n a l  i n p u t  T h e  s e c o n d  l a y e r  e x t r a c t s  a nd  i n t e g r at e s  fe at u r e s
i 
 .

l n e d i n t he f
e ar i r s t  l ay e r .  S u c c e s s v e  a y e r s  p r o du c e  o w  d m e n s o n a l  o w  n o i s e  a n d  h g h
i l 
 l i i



c o h e s i o n  fe at u r e s .  G ene r a ll
y ,  an  A E  n e t w o r k  i smad eu
p o f  t w o  p ar t s , 
an  e n c o d e r , 
an d  a d e c o d e r  

T hee n c o d er c o mp r e s s e sh i
g h d m e n s o n a a r

tti i l i b ut e s  T h e
b u t e s  i n t o  l o w  d i m e n s i o n a l  at t r 
 i .

d e c o d e r  o n  t h e  o t h e r  h a n d  r e s t o r e s  t h e  o r g n a  np u t  a y e r  b y  a y e r  c r e a t ng  a  s y m m e t r i i l i l l i i c a l

s t r u c t ure  o f t  h e  e n c o d n g  p a rt i .  The  e n c o d e r  ( fu n c t i o n / )  i s  u s e d  fo r  m a
p p n g
i th e  i n
p u t  d a a  (x
t ,
 y )

i n t o  l a t e n t  r e p r e s e n t a t i o n  a n d  t h e  d e c o d e r  ( fu n c t o n g )  m a p s  t h e  e n c o d e d  fe a t u r e s  t o  r e c o n s t r u c t

 i

3 0
- 


Da l i an Un i v e rs i t
y o
f  Te c h n o l o gyD o c t o ra l  D i s s er
tat i on

i n p u t  d a t a  fr o m  t h e  a t e n t  r e p r e s e n t a t o n l i . I n t h i sw o r k  . LP I
 p red i c t i o n i s  fo r m u at e da sab n ar y


l i

c l a s s i f i c at i o n
p r o b l em . Ac o n s tr a n e ds t a c k e d
i AE C S A E n e ( )
t w o r k i su s e d  fo r  D L  a n d

c l as s i f i c at i o no f  t ra i n n gd at a s e ta ss h o wn nF g


i i i . 2 . 4 .  T h es p ar s i t
yc o n s t r a n t se x t r a c tt h em o si

i n fo r m a t v e  fe a t u r e s  fo r  o p t m a i i l s am p l es e l e c t i o n . S t ac k e dA E sh a v eg r e at e re x p r e s s v ep o w e r



 i

a n dt h es u c c e s s i v e a y e r so f


l  re
p re s e n a
t t o n sc a t u r eah e r a r c h
p i i i ca l

g
r o u p i n g o f  t h e np u ts m i i i l ar

n g  o p e r a t o n s  o n  C NN #

No

a t o n s fF

t oc o n v o l u t o n a n d p o o
i l i i .  t i

a n d办 {
6 

 }

2 n /

d e n o t et h eA E We ht m at r xW d e n o t e d a s W


at e d


b , 
. .
. . b }  p ar a m e t e r s .  i

u  i st h ew e g h ta s s o c i i




w hth ec o n n e c t o nb e t w e e nn e u r o nu n n ay e r /  1an dn e u r o nu n tii n a y e Lw h e r e/

i t i i t i l i l r
/


= =
a n d/ nl p r e s e n t s h eo u p u to f h ep r e v o u s a y e r
1 . 2  s i \

, i  \ ,
2 ,
. . .
, s
i 2

. . .


s i

 r e 1 t t  t 
 i l

B a sv e c t o ri s d e n o t e da s b





wh en lr e e s e n t st h en u m b e ro f ay e r s nt h e n e t w o r k  w h e r e 
pr 
i l  l i . i /

1 . 2 . . .  .
, 5 /an dI

 de no t e stheb i a so f  n e u r o nu n i t/i n a y e l r/  . T h et r a n n gs e t i i i sd e f ne d
i

2 2 " ”
d a m e n s o nA t h e
1 1

x as a m S t h e n d at a o f d
p ut
x x j of up
p o s e x s
as 

{ (

 j ) , ( ) ,
. . .


( , j ) }

p es l . i  i  i i

A Em ap s  xt o  y  a s  s h o w n  n  t h e  fo i l l o w n g  fo r m u a i l 



f Wx (
+ b )  (
2 3 .



t o n  a n d  Wx  xW t h a tm a p st h eo ut p u to f xt oa


gh
wh e re h ee n c o d n s a w e m at r i
/ g u n c
i st f i i i i t 
 

h d d e ns ac e A f e rm a t h eo ut p uto f h e e n c o d e r  (3 sm a p p e d  b a c k  t o  fo r m  z


p p n gxt oy t ;
p 
i . t i  i




wh i c h i st h e  t r a n s fo r m a t o n  o f x  w i  i t ht h es a m es h a p ea sx . T h er e c o n s t r u c t o n i i s  fo r m u at e da s


l 

fo l l ow 


2 4)
g( V y ^b

I l
( 

w h e r e g  h e  d e c o d n g  fu n c on n o n n e a r  fu n c t o n  W  s  hew e g h t n g m a r x
 fo r

i s t i t i

l i i i t i t i i

t r an s fo r m at o n  a n d  b i , i st h e  t r a n s fo r m a t o n  b a s  T h e  t r a n s fo r m a t o n  e r r o i i . i ri se s t i m a t e d u s n g



 i

e t w e e n x a n d z T o m


q u a e de n o
r rb  . i n m z ea n d o p t m z et h er e c o n s t ru c t o ne r r o r
i i i i i ,

 p a r a m e e r s
t 

a nd  b  a r e  a dj u s t e d  u s i n g  S G D [
8 3

.  C ro s s -

e nt rop y , t
h e  m o s t  c o mm o n  t y
p eo f l o s s  fu n c t i on , i s

u s e dt om n m i i i z e r e c o n s t r u c t i o n e r r o r b y

A E The .   n e u r o n so u t
put  /(
x ) i s m o d e e du s n gr e c t f e d
l 
 i i i

l i n e aru n i t
(
ReL U )
act i v a t o n  fu n c t o n
i i 

/ (
x) 

 m ax ( x ,
0 )  (
2 5)


斤  h、
三

 1

0 P 0  0  〇 ul
pu 

 CD  q  〇 
CD (


L o s s  fu n c
C3 
on


^ ^
t i




〇  人  〇 :

〇

l J

Fea






u r e  r e p re s e n at o n
 

t t i



\ n om i . n on n .  C ro ss

en ro

py

F g i . 2 . 4T h en e t w o r ks t r u c t u r eo f  C S AE



3 1  


P red i ct i o n  o f
 p an t l l o n g n on c o d n g



RN A s  i n t e r a c t on s w i  it h p r o t e n s b y d e ep 

i 

l e a rnin


AE s  ar e  tr ai n e d  b y  a d d i n g  d r o p o ut  l a y e r s .  D rop o u tl a y e r s  r e g u l a r i z e  t h e  m o d e l  t o  av o i d

t he r i sk  o f  o v e r fi t t i n g  b y  r a n d o m l y  l e av i n g  o ut  s o m e  n e u r o n un i t s .  E x am p l e s o fth e

se
q u e n c e b a s e d  m e t h o d  fo r  p r e d c t i n g  L P I s  b a s e d  o n  s t a c k e d  A E s  a r e  I P M i n e r  [ 6  an d


i 1

, ]

RP S AN
 [ 6 2 ]  T h e  C NN  s av ari a n t  o f  a  n e u r a l  n e t w o r k  t h at  p r o c e s s e s  d a t a  w i t h  g r i d


I . i

s t ru c t u r e .  C NN  i nvo l vesc on v o uti on l


,  ac t i v a ti o n ,  and p o o l i n g  o p e r at i o n s .  Th e  n e t w o rk

p r e s e r v e s  t h e  s p a t i a l  n fo r m a t o n  a n d o u t p u t s  fe a t u r e  m a p s  fo r  s u b s e q u e n t  p r o c e s s i n g  T h e
i i 
 .

po s i t i v e  at t r i b u t e  o f  C N N  i s  t h at  i t d o e sno ts e
p a r at e  fe at u r e  e x t r a c t i o n  a n d  m o d e l  l e arn i n g

i nt o  i n d e
p e nd e ntste p s l i k e trad i ti o n a l  s t at i s t i c a l  l e a r ni n g  al g o ri t hm s .  It s i m u l t an e o u s l y

e x t r a c t s  fe a t u r e s  a n d
 p e r fo r m s  c a s s i f
i c a t i o n  fr o m  o r g i n a l  i n p ut  h e n c e  r e du c i n g  t h e  p o t e n t a
l i i 

o f m i s m a t c h  e ffe c t  b e t w e e n  t h e  t w o  p r o c e s s e s
 .  T o  d at e ,  C NN  ha s  b e e n w d e y  u s e d  t o  p r e d  i l i ct

RB P s  o f D RN A  T h e  c o n v o  / . l u t i o n  l ay e r  c o n s i s t s  o f a  s e t  o f   fi lt e r s  E ac h  fi l t e r  s l i d e s  o v e r  t h e
. 

w i d t h  a nd  h e i g h t  o f  t h e  i n p u t  n fo r m a t i o n  t o  c o m p u t e  t h e  i nn e r  p r o du c t  o f i  t h e  fi l t e r  a nd  t h e

i np u t  d a t a  C N N  . i sw i d e l
y  u s e d  b e c au s e  t h e  f i l t e r  h a s  s t r o n g i n t e r p r e t ab i l i t y .  A c t v at i o n

 i

re
p r e s e n t s  t h e  r e s p o n s e  o f  t h e  o r i g i n al  s e q u e n c e  t o  t h e  f i l te r . P o o l i ngo p e r at o n si n c l u d e

 i

m ax i m u m oo n g  a nd  av e r a g e  p o o l i n g  fo l o w s  t h e  a c t i v a t i o n  a y e r  T h e  p o o l n g  o p e r at o n


p
l i l l . i i

a i m s  a t  r e d u c i n g  t h e  s p a t a l  d m e n s i o n  o f  t h e  m at r i x i i
,  wh i ch m i
gh
t  r et a i n t h e m o s t

re
p r e s e nt at v e  e e m e nt s  T h e  o u tp u t  o f  t h e o o l i n g  l a y e r  i s  fe d  i n t o  a  f u l l y  c o n n e c t e d  l a y e r
p
i l .



w h i c h  p r o du c e s  a  t r u e  v a l u e  s c o r e 

T h e  R NN s  a r e  s u i t a b e  fo r  e a r n n g  t m e  s e r i e s  d at a  T h e  t i m e s t e p  i s  a  c o n c e p t  u s e d  n
l l i i 
 . i

R NN  t o  s t o r e  m e m o r i e s  a n d  fo r w a r d  t h e m  t o  h i d d e n  c e l l s  . A lt h o u g h  R NN s  a r e  e ffe c t v e  at

 i

l e arn i n
g t e mp o ra l  c o rre l at i on s ,  t h e y  s u ffe r  fr o m  th e  v a n i s h i n g  g r a d i ent
prob l em ,  wh i ch

w o r s e n s  a s  t h e  s e q u e n c e  e n gt h  i n c r e a s e s T os o v et hi s b o t t e n e c k  the  L S T M  wa s d



p rop o s e
l . l l 


It  s t o r e s  n fo r m a t i i o n  i n m e m o r y  c e l l s  t o e x p l o i tl o ng

ter m  d e p e nd e n c i e s  i n  th e  d a t a 

B i d i re c t i o n al R NN s  e m e r g e  a s  a  r e s u l t o f
 p r o p a g at o n  d i i re cti o n a l l o w i n g  t h e  n e t w o rk  t o


a d u s t  t h e  c u rr e n t  s t a t e  b a s e d  o n  t h e  p a s t  a n d  f u t u r e  s t a t e s  A p a r t  fr o m  L S T M  a  g a t e d

 .

j ,

re c u r r e n t  u n i t
(
GRU )
w a s  p r o p o s e d  t o  m p r o v e  RNN i 

2 3 3 G r a
p h b a s e dan d n e g ra e d
 l e a rn n
gm eth o d s

. . t t 
 i i

C omp l ex
p a
tt e r n s c anb es m p i l i i e d  nt o  g r a p h s  ( n e t w o r k s )  w i t h  n o d e s  ( v e r t
f i i c e s )  an d

e d g e s  ( l i nk s )  F o r  e x a m p l e .
, th e
stud
yo f  s o ci a l i n t e r ac t i o n  n e t w o rk s  an d  m o l e c u l ar  i nt e r a c t i o n

n e t w o r k s  i s  d e s i g n e d  t o  s o l v e  c o m p e x  s y s t e m s  i n  s o c i a l  n e t w o rk s  a n d  b i o i n fo r m a t i c s  T h e

 l .

k e y  o bj e c t i v e  o f m o l e c u l a r  i n t e r a c t i o n  n e t wo rk s  i
 sto
 p r e d i c t  i nt er ac t i o n s  b e t w e e n  b o m e d i i c a l

e nt i t y
p
a i r s  s u c h  a s  p r o t e i n s  d r u g s  o r  d i s e a s e s  G r ap h  n e u r a  n e t w o rk s  ( G
, ,
. l NN ) ,  v a r i a t i o n a l

g r a p h  au t o e n c o d e r s  V GAE ( ) ,  a n d  g r ap h  att e nt i o n n e t w o r k s  G A T  ar e 
( )
t he e x i st i ng

g r a p h b a s e d  r e p r e s e n t a t o n  e a r n n g a g o r i t hm s  fo r  l i n k  p r e d i c t i o n  G NN s  a r e  m o d e s th at

i l i l . l 

ca
pt urec o m p l i c at e d
g
ra
p ht o p o o gy l .  A  GNN  o f Z 

l a y e r s  c a n  p r o p a g at e  i n fo r m a t i o n  o f n o d e s

 

i nt h eL h o p n e i gh b o rh o o d s

.  Re c en t ad v a nc e s n i G NN  i n c l u d e  t h e  d e s i gn  o f  ski
p  c o nn e c t o n s

 i

3 2 


Da l i an  Un i v ers i t
y of
 T e ch n o l o gy  D o c t o r a l  D i s s e r t at i o n
 

s uc h  a s  M x H o p  an d  J K i

Ne tt h at  c ap t u r e  h i g h e r o r d e r  g r a p h  s t r u c t ur e s  a n d  a dj a c e n c y  m a t r i x



84

. V GA E  i sa
 g e ner a ti v e  m o d e l  fo r  u n s u p e r v i s e d  l e a r n i n g . G A T s  o p e r a te on

g r ap h

s t r u c t u r e d  d at a  t o  l e v e r a
g em as
ke ds e l f at t e n t i o n  l a e r s  t o  a d d r e s s  t h e  s h o r t c o m i n g s  o f

y 

g r ap h  c o n v o u t o n s  S e f at t e n t o n  r e fe r s  t o  a p p y n g 
l i i an at t e n t i o n m e c h a n
. l

i l i smt oc o m
p ut e 
t he

re
p r e s e n t at i o n  o f  a  s i n g e  s e q u e n c e l .  G A T s h a v e  t h r e e  m a n  p r o p e r t i i es : it i s
 p ar a l e i z ab l e
l l 

ac ro s sn o d e n e i hb o r
g a i r s  i t  a pp l i e s  t o  g r a p h  n o d e s  b y a s s i g n i n g r a nd o m  w e i g h t s  t o  t h e



p ,

n e i g h b o r s  and  t h e y  app y  t o  i nd u c t
i v e  e ar n i n g l l 

T h e  g r ap h b a s e d  m e t h o d s  a r e  d

i v d e d  i n t o  t hr e e

, s t r u c t u r al  r e p r e s e n t at o n  i l e ar n i n g 

s im i l a r i t y b a s e d  l e ar n i n g

,  an d  n e t w o rk  r e l at i o n a l  l e a rn i n
g[ 8 4] . S tr u c t u r a l  r e p r e s e n tat i o n

e ar n i n g  u s e s  t h e  s t r u c t u r e  o f t h e  gr ap h  o f  t h e  e n t i t i e s  s u c h  a s  t h e  am n o  a c i d  s e u e n c eo fa



l  i

Th ee mbe d di n h e  t a r g e t  e n t i t e s  a r e  c o m b i n e d  a n d  fe d




p r o t e i n  t o  g e n e r a t e  e m b e dd i n g s

g so
.  t i

i n t o  t h e  m o d e l  fo r  p r e d i c t i o n  T h e  m o d e . l su s e dt o
p
r e d i c t  th e  b i nd i n g  o f p ro t e i n s  d ru g s  o r


 , ,

d i s e as e s to R N A i n c l ud e  t h e  g r a p h  C N N  ( G C N N )  a n d  C N N  t h at  a r e  i m p l e m e nt e d  o n  t h e

m o l e c u l a r  g r ap h  a nd  g e n e  s e q u e n c e  d a t a  G C N N  e v e r a g e s  n o n . l

l i n e a r i t y  o n  d e e p  e ar n i n g l 

S m i ar
i l i t
y b a s e d  e a r n n g  a s s um e s  t h at  e n t i t i e s  s h a r e  i n t e r a c t i o n  p ar t n e r s

l i .  T h e r e fo r e  t h e

 ,

m e t h o d s  i n  t h i s  c a t e g o r y  fo r m u l at e  a  s i m i l a r i t y  m e a s u r e  a n d  u s e  i tt o  p r e d i c t  i nt e r a c t i o n s 

S o m e  t e c h n i q u e s  u s e d  t o  r at e  i n t e r a c t i o n s  n  n e t w o r k s  n c l u d e  m a t r
i x  fa c t o r i z at i o n i i
, 
c l u s t e ri n g 

a nd  l ab e l  p r o p a g a t i o n  . N et w o rk -

b a s e d r e at i o n a  l e a r n n g  u s e s  n e t w o r k  s t r u c t u r e a n d  n o d e
l l 
 i

i n fo r m a t i o n  t o  p r e d i c t  i n t e r a c t i o n s 

nt e g r a t i o n b a s e d  m e t h o d s  a l s o  k n o w n  a s  e n s e m b ede e p g  c o m b i n e  a l g o r i thm s  
e arn i n t

I l l

a g g r e g at e  t h e i r  r e s u l t s  fo r  b e t t e r  p r e d i c t i o n  p e r fo r m a n c e .  Un l i k e  i n  t h e  c o n v e nt i o n a l  ( s h a l l o w ) 

i n t e g r at e d  m e t h o d s  s u c h  a s  R F ?  A d ab o o s t
,  an d  X GB ?


 e n s e m b l e  d e e p  l e a r n i n g  h av e  t i m e  a nd

T o
p a c e  o v e r h e a d  fr o m  t h e  man y  p a r a m e t e r s  u s e d  o r p e  b as e  d e e p  l e arn e r s
tra n n
s f
gm u i i l ti l 
 .

o v e r c o m e  t h e  d e fi c i e n c y  o f  s p a r s e n e s s  a n d  i n s u ff
i c e n c y  o f  c o n t e x t u a l  i n fo r m a t i o n i


c o mb i n i n
g  a  v ar e y  o f d at a  an d  a s s g n n g  w e g h s
t i  t t oe achc a s s i f e r  c an  b e  u s e d
i i i l i .  C NN L S T M

 -

i s  a  v ar i a nt  o f  t h e  d e e p l d l  u s e d fo r  L P I  p r e d c t o n  C NN  p r o c e s s e s  t h e  i n p u t
 e arn n g m o e i 
 i i .

se
qu e n c e s  an d  L S T M  e x t r a c t s  h g h i

l evel  fe a t u re s .  T o  av o i d o v e r f i tt i n g  a n d  sp e e d  up

p u t at i o n  C NN  p r e c e d e s  L S T M  a s  a  p r e p r o c e s s n g  s t e p  t o  c o n v e r t  l o n g  s e q u e n c e s  n o
com t
 -

i i

s h o rt e r  o n e s  b
y  d o w n s am p l i n g .  Th i sm o de l  ha sb e e n m p l em e n t e d i nst u d i e sl i keD L P RB [ 8 5




X i ao
p an  e
t al  de v e lo e di D e e

p p  a  s t at e o f ,
- -

t h e a r t  m o d e  fo r  t h e  p r e d c t o n o f  R B P s  b y



 i i

i n t e g r at i n g  C NN  a n d  d e e p  b e l i e f n e t w o r k s  ( D B N s )  .  T h e  m o d e l  w a s  t r a i n e d  a nd  e v a l u at e d  o n

t h e  C L I P  d at a s e t  o f  1 9  p r o t e i n s  t o  p r e d i c t  t h e  i n t e r a c t o n  s i t e  a n d  m o t i fs  o f  R B P s  o n  R N A

 i

d  o n  d i r e c t  s i m i ar e sb e t w e eni nt e r actin g


86  I nt e
g r a t i n g  d e e p  l e a r n i n g  o n  g r ap h s  sb a s e ti
[ ]
. i l i

n o d e s  t h at  h a s  d r a m a t i c a l y  a d v a n c e d  p r e d c t o n  p r o w e s s l i i .  H ua n g e ta l .

p
ro
p o s e ds k p G
i NN , a

g r a p h  n e u r a l  n e t w o r k  m e t h o d  p r o p o s e d  t o  p r e d c t  m o e c u a r  n t e r a c t i o n n e t w o r k s  [ 8 ]
4 i l l i 

Re cen tl
y , aW e b s e rve r t e rm e d  R B P s u  w a s  p u  fo r w a r d  t o  p r e d
i t t i ctci rc RN A -

prot e n

 i

3 3
- 


P re d i c t i on  o f
 p l ant  l o n
g n o n c o d n g R N A s  nte r a c t o n s w i t h p r o t e n s b y d e e p 



i i 

i 

l e arn i n g

i nt e ract o n[ 8 7 ] i .  RB P s u iti n t e g r at e s  t w o  d e e p  l e a r n n g  a g o r i t hm s  i D e e p S  a n d  C R I P  t o  d e t e c t




i l

m o t i fs  o n  t h e  b i n d i n g  s e g m e n t s  a nd  p r o v i d e s  b i n d i n g  s c o r e  d i st i b ut
r i on 

2 4 D a t a s e t s  a n d  e r fo r m a n c e  e v a l u a t i o n  m e t r i c s



2 4 . . 1 D a t as ets

Da ta
p
re
p ara
ti o n i s  an i m
p o rt a nt  s t e p  i n  m o d e l  d e v e l o pm e nt  T h e r e  a r e  hr e e  a sp e c s
t t
 .

c o n s i d e r e d  i n  th i s st ep F . i rst ,  t h e  t r a i n n g  and  v a i l i d at i o n  d a t a .  G e n e ra l l


y ,  m o r e  d at a  i 

p r e fe r r e d  w h e n  b u i d i n g  d e e p  l e ar n n g  m o d e l s l i .  H o we v e r ,  a  l ar g e r  a m o u n t  o f  d at a  r e q u i r e s  a

l o n g e r  t r a i n i n g t m e  T h e  d at a  s h o u l d  b e  o b t a i n e d  fr o m  a  t r u s t w o r t h y s o u r c e  c l e a n  a n d
i . 
 , ,

 S e c o n d  th e  t e s t n g  d at a  s h o u d  b e  p c k e d  at  t h e  b e g i n n i n
cons i s t e nt
g  o f  t h e d e v e o p m e n
. i l i 

t l

cyc l e . A l s o  s e l e c t i n g a  g o o d i n d e p e n d e n t  d at a s e t  r e q u i r e s  at t e n t i o n  T h i s d a t a 

. i su s e dt o

e v a l u at e  t h e
p ro p o
s e d m o d e l  i n  a  c o mp r e h e n s i v e  a n d  c o m p l e t e l y  i nd e p e n d e n t  a n d  r e l i a b e

 l

m a nn e r .  T h e  n d e p e n d e n t  d a t a s e t  c an b e  d o w n o a d e d  fr o m  a p r e v
i  l

i o usp ub l i c at i o no rd e s i gne d

y  t h e  m o d e  d e v e o p e r  T h i r d  s i m a t i e s  i n  t he  d a t a s e t  s ho u l d  b e  c h e c ke d  T h e  t a
b il ri r in in
l l .

g ,



v a l i d a t o n  a n d  t e s t i n g  d at a  s h o u l d  b e  f l t e r e d  t o  e n s u r e  t h at  t h e y  a r e  d i s s m


i i i l ar . B e s d e s i


p r e p r o c e s s n g  a n d  no r m a l z at o n o  fe a u r e s  o b t a n e d fr o m  h e  r a w  a t a  a r e  d o n e  e o r e
i i f i t t d b f 
 i

p ro c e s s n gb y t h e m o d e i l . T h i s
 p r o c e s s  nv o v e s  r e m o v in g  n o n i l

i n fo r m a t v e  fe a t u r e s  and


s e l e cti n
go pti m a l  fe at u r e s 

T h ed at as etc o n s s ti n
g  o f k n o w n  L P I s  t h at  w a s  u s e d  a s  a  g o l d s t a nd a r d o s i t i v e  s e t  w as


p
i 

d o w n o a d e d  fr o m  t h e  p l a nt  I n c R NA  D a t ab a s e  P l n c R NA D B  Ze a  m ays  d a t a s e t  c o n s i s t s  o f
l 
 .

1 1 0 7  n c RN A s  1 9 0  R B P s

, 5 andc o n s i st so f 2 2 

1 3 3  i nt e r a c t i v e
 p ai r s .  T h e A r a b dop s
 i i s  t h a l i an a

d at a s e t  c o n s i s tso f3 9 0I n c R NA s , 1 6 3RB P s ,  a nd  9 4 8  i n t e r a c t i v e  p a i r s  T h e  s a m e  nu m b e r  o f



 .

non -

i n t e rac t v ep ai r s 2 2 i
, ,
1 3 3  fo r  Ze a  m ays  a n d  9 4 8  fo x A r a b dop s  i i s  t h a l i a n a  w e r e  g e n e r at e d

t hr o u g h  r a n d o m y  p a l i rin
g  p r o t e i n s  w i t h  n c R N A s  a n d  f ur t h e r  r e m o v i n g  t h e  e x i s t i n g  p o s
I i ti ve

pa i rs
[ 6 0 ]
. F i n a l l
y , the Ze a  m ays  d at a s e t  c o n t a i ns4 4 2 6 6 , ,  a n d  A r a b i dop s i s  t h a l i a n a  c o n t a i n s

8 9 6 n c R NA p ro t e np a rsa ss ho w n nT a b 2 3  An  n d e p e n d e nt  d a t a s e t  o f e x p e r i m e n t a l y


1 I i i i . . . i

  l

v e r f e d  n t e r a c t o n s  o b t a i n e d  fr o m p r e v i o u s  s t u d i e s  w as  a l s o  u s e d  [ 6
i i i i 1

.  T h eN P I nt e r2 0

 .

d at a s e t  c o n s i s t so f1 0 4 ,
1 i s i ng  4 6 3 6  n c R N A s  a n d  4 4 9  p ro t e i n s
2  i nt e r ac t i o n  p a i r s  c o m p r . T h i s

d at a s e t  i s  fr o m  p h y s i c a  a s s o c i at i o n  am o n g  p r o t e i n s  an d  nc R N A s  fr o m  s i x  o r g an
l i s m swhi c h

ar e  C a e n o r h a b d i t i s  e l e g a n s  d r o s o p h i l a  m e l a no g a s t e r  E s c h e r i c h i a  c o l i  Ho m o  s ap i e n s  Mu s


 , , ,

m u s c u l u s  a n d  Sa c c h a r o my c e s  c e r e v is i a e



T ab . 2 . 3 n c R I NA ,  p r o te i n , 
a n d  i nt e r a c t i o n  d a t a s e t s  u s e d  i n  t h i s  s tu d


D at a s et I n c R NA s  P r o t e n  I n t e r a c t o n s

 i i

A r a b dop s i i s  th a l i a n a  3 9 0 1 63  94 8

Ze a  m ay s  1 1 07  1 90 22 ,
1 33

3 4 


Da l i an  Un i v ers i t
y of 
 T e chn o l o gy  D o c t o r a l  D i s s e r t at i on

2 4 2  E v a l u at i o n  m e t r i c s
. . 

C V  an d  l e av e

one

o u t a r e  w i d e y  u s e d  t e c h n i q u e s  fo r  e v a l u at i n g  t h e  p e r fo r m a n c e  o f
l 

m a c h n e  l e arn n g c a s s f e r s
i i l i i .  A^ -

fo l d  C V ran d o m l
y  d i v d e s  t h e  d at a s e t  i n t o  N  s ub s e t s  o f e q u a l
i 

s i z e  c a l l e d  fo l d s  T h e  c l a s s i f i e r  i
. s  tr a i ne do nN -

\  a n d  e v a u a t e d  o n e  s ub s e t  S p e c i f c a l l y
l . i
, th e


fo l d  C V m et h o dw as  u s e d to av o i d  o v e r f i t t n g  t h e  r e s u l t s  T h e  d at a s e t  i s  d i v i d e d  i n t o  f
i ive

 .


qu a l  s ub s e t s  o u t  o f  w h i c h  fo u r  s u b s e t s  a r e  u s e d  a s  t r a i n i n
, g  s e t s  an d  o n e  a s  t h e  t e s t  s e t  . Th i 

p r o c e s s  i s  r e p e a t e d  f v e  t m e s  un t i i i l a l l  t h e  s u b s e t s  ar e  u s e d  a s  t h e  t e s t  s e t  at  l e a s t  o n c e  T h e n

 .

t h e  av e r a g e  a nd  s t a n d a r d  d e v i a t i o n  o f  t h e  e x p e r i m e n t a l  r e s u l t s  a r e  t a k e n  a s  t h e  f i n a l  r e s u l t 

T he l e av e

o n e o ut  c r o s s
- -

v a l i d at i o n  ( L O OCV) , a n  e x a m p l e  o f a  b i a s v a r i a n c e  t r a d e o ff 
- -

, 
i s  al s o

u s e d  i n  th i s work .  Whe n t wop re d i c t i o n al g o r i t hm s  a r e  c o m p ar e d , t h e  nu l l h


yp o th e s i s  t e s t n g

 i

t h a t  th e  t w o  p r e d i c t o r s  h a v e  t h e  s a m e  m e a n  p e r fo r m a n c e  i s  u s u a l l y  d o n e  u s i n g  a  p a i r w i s e

M e s t  Th e  o v e r a
. l l c l ass i i c at
f i o n ac c ur a c y
 A C C p re c
( ) ,
i si on
 (
P RE ) , s e ns it i v i t y  ( S EN ) 

Ma MCC


p e c i fi c i t
y( S P E ) ,  t hew sc o rr e at l i o n  c o e ff
i c i e nt( ) ,  t h e  ar e a  un d e r  r e c e i v e r  o p e r a
t or

c h ar a c t e r i s t i c  c u rv e
 AU C  a n d 
( ) ,
t h e  a r e a  u nd e r  p r e c i s i o n / r e c a l l  c u r v e  ( AU P R C )  w e r e

c a l c u l at e d  a s  t h e  e v a l u a t i o n  m e t r i c s .  A c c u r a c y  r e fe r s  t o  t h e  r a t o  o f  c o r r e c t y  c i l l as s i f
ied

s am
p l e s  t o  t h e  t o t a  n um b e r  o f  s a m p l l es . P re c i s o n i i st h e p r o p o r t o n o f  p o s i t v e l y  l a b e l e d
i 
 i

s am
p l e s  i n  t h e  p o s i t i v e  e x am p l e s  t h a t  a r e  c o r r e c t l y  i d e n t i fi e d  S e n s i t i v i t y  i s  t h e  p r o p o r t i o n  o f

 .

p o s it i ve l y l a b e l e d  s a m p e s  t h a t  a r e  c o r r e c t y  d e n t i f i e d  w h i l e  s p e c i fi c i t y  i s  t h e  p r o p o r t i o n  o f
l l i 

c o rr e c t l y  i d e n t i fi e d  n e g a t i v e  s a m p l e s .  T h e yar ed e f ne d i  as 

舰 = 」^ (
2 6)


TP + FP

SEN :  TP  (
2 7)


TP + FN

SP E = ^ (
2 8)


Th + FP

TP + TN
A CC =  (
2 9)


TP + TN +  FP +  FN

TP x TN -

FP x FN
MC C =  

 (
2 . 1 0)

TP + FP ) { TP + FN ) { TN + FP TN + FN )

   
{ ){

wh e r e  T P , 
FP , 
TN , 
F N  r e p r e s e nt  t r u e  p o s i t i ve , 
fa l s e
 pos i ti ve , 
tr u e  ne g at i v e , 
a n d  fa l s e  n e g at i v e 

T h e  ar e a  un d e r  t h e  c h a r a c t e r i sti cc urv e( AUC )


m e a s u r e s  t h e  o v e r a l l  m o d e l  p e r fo r m a n c e  fo r

r an d o m
j
u d g n g  T h e  AU C  i s  a  t h r e s h o l d fr e e  e v a l u a t i o n  m e a s u r e  t h a t  i n c r e a s e s  i n d i r e c t
i . 

p r o p o r t i o n  t o  t h e  o v e r a l l  p r e d i c t o n  p e r fo r m a n c e i .  A U P R C  o ffe r s  a  g r a p h i c alre
pre s en a o no
t ti 

p e r fo r m a n c e  a c r o s s  m a n y  t h r e s h o d s l 

3 5
- 


P re d i c t i on  o f
p an
l t on
g n o n c o d ng




R N A s nt e r a c t
i i ons w i t h
 p ro t e
i n sb
y  d e ep  e arn n g
l i

 

2 5 .  S u m m ary

I n  t hi s  c h ap t e r ,  t h e  b a c k g r o un d  o f  t h e  b i o l o g i c a l  p e r s p e c t i v e  a b o u t  I n c R N A s  an d  t he i 

i n t e r a c t i o n s  w i t h  n o t  o n l y  p r o t e n  but  a l s o  o t h e r  m o l e c u e s 
i l l i k e  m RN A s ? m
i RN A s ,  an d  DN A

i s
g
i ve n T he i d ent
. i fi c a t i o n  o f  p l a nt  I n c R N A s  an d  RB P  s i t e s  a r e  h i g h l i g ht e d  a s  k e y  t o  t h e

a nn o t a t i o n  o f  I n c R NA  g e n e s  T h e d . i ffe r e n t  e x
p er m e nt a
i l  an dc o mp uta ti o na l
p re d i ct i o n

a pp r o a c h e s  h av e  b e e n  d i s c u s s e d . A d d it i o n a l l y  t h e  e x i s t i n g  m e t h o d o o g i e s  r e a t e d t o  t h i s


 l l

d i s s e r t a t i o n  h av e  b e e n  h i g h l i g ht e d . Th i s  d e m o n s t rat e s  t h e  s i i c an c e  a n d  b a c k g r o u n d
g ni f 

i n fo r m a t i o n  t h a t  i s  t h e  b a s i s  o f  t h i s  r e s e a r c h  w o r k  T h e  d e v e o p m e n t  s t e p s  fo r  t h e  d i ffe r e n t
. 
 l

m e t e rs  t u n e d  d u r n t h e  tra i n n
p r e d c t i o n  a l g o r i th m s  a n d  t h e  r e s p e c i v e  p a r a g  an  p r e
d d ct on


t i
g
i i i i

p r o c e s s  hav e  a l s o  b e e n  g i v e n .  T he  d i f fe r e nt  fe at u r e  e x t r a c t i o n an d e n c o d n g s c h e m e s  and t h e i r
i 

v e u s e i n the d e v e l o h m s  ar e  d e s c r i b e d
re s
pec p m e nt  o f  c o m p u a o n a  p r e d c t o nal
gor
ti t t i l i i i t 

L a s t y  t h e  d at a s et s  a n d  e v al u a t i o n  m etr


i c s  u s e d  t o d e v e l o
p  h e p r o p o s e d  m e h o d s  i n  t h i s
t t 

d i s s e rt at i o n  ar e  d e s c r i b e d 

36
- 


Da l i an  Un i ve r s it
y o f T e c hn o o gy



D oc tora D l i s s e r t at i o n

3  I t e r at i v e  fe a t u r e  s e l e c t i o n  w i t h  r e c u rr e n t  n e u r a l  n e t w o r k

fo r  I n c R NA -

p r o t e i n i nt e r a c t o n  p r e d c t i o n
i i 

3 . 1 I ntro du c ti on

T h e  k e y  fa c t o r s  t h a t  i n f l u e n c e  c o m p u t at i o n a l  p r e d i c t i o n  a l g o r i t hm s  a r e  t h e  c h o c e  o f

 i

fe at u r e  e x t r a c t i o n  m e t h o d  a n d  c l a s s i fi c a t i on  a l g o r i t h m  F e at u r e  e x t r a c t i o n  m e t h o d s  t r a n s fo r m

 .

i n p ut  d at a  i nt o  a  s e t  o f at t r i b u t e s  ( fe a t u r e  v e c t o r )  s u i t ab l e  fo r  p r o c e s s i n g  b y  m a c h i n e  l e ar n i n g


 F e at u r e  s e l
al
g o r i t hm s . e ct i o ni sa
 p r e p r o c e s s i n g  p r o c e d u r e  c o n s i d e r e d  a  p r e r e q u i s i t e  fo r  m o d e l

b u i l d i n g  I t  h e l p s  n  r e d u c i n g  o v e r f t t i n g  i d e n t i f i n g  c o rr e l at i o n  a m o n g  fe at u r e s  t o  r e d u c e



. i i

r e d u nd a n c
y , i n c r e a s e  c a s s  r e e v a n c e  n  fe a t u r e  s u b s e t
l l i
, a n d  u l t m a t e l y  i m p r o v e  t h e  p e r fo r m a n c e
i 

o f  th e  l e a rn i n g  a g o r t h m  E x i s t n g  fe a t u r e  s e l e c t i o n  m e t h o d s  c a n  b e  c at e o r i z e d a s  f i l t e r s

l i . i


w r ap p e r s  a n d  e m b e d d e d  F,
. i l t e rse xt r a c t  fe at ur e s  w i t h o u t  l e a r n i n g ,  w r ap p e r s  l e a r n  t o  e v a l u a t e

t h e  u s e f u n e s s  o f  fe a t u r e s

,  a n d  e m b e d d e d  t e c h n i q u e s  c o mb i n e  fe at u r e  s e l e c t i o n  a n d  c l a s s i f er

i

c o n st ru c t i o n  . Ac l as s i f
i c a t i o n b a s e d  a p p r o a c h  c an  b e  c o m b i n e d  w i t h  a  s e l e c t i o n

b a s e d  m et h o d

to  s e e c t  fe a t u r e s  w
l i t h  m a x m u m  c l a s s i f i c at i o n  b e n e fi t
i .  F o r  e x am p l e ,  mach i ne  l e a rn n g

 i

a l g o r i t hm s  l i k e  S VM a n d  R F  c a n  b e  c o m b n e d  w i t h  m i n i mx i m  r e dund a n c y  m a x i m u m  r e l e v a n c e
i 


M RM R ) an
d  RP E  a l g o r i t hm s  T h e  r e l e v a n c e  o f  a  s e t  o f  fe at u r e s  i s  m e a s u r e d  b y  t h e  m u t ua l

i n fo r m at i o n a m o n g  g e n e s  T h e  p r e d c t i o n o f  i n t e r a c t i o n  b e t w e e n g e n o m e  m o e c u l e s  u s n g


 i l i

com
p u t a t o n a l y  e ffi c e n t m o d e l s  t h at  i n c o r p o r a t e  fe at u r e  s e l e c t i o n  i s  an m p o r t a n t  t a s k  n


i l i i i

b i o n fo r m a t i c s
i 

T h e  n c RN A s  c o n s i sto f  t w o m a or  c a s s e s


, s h o rt  n c R N A s  ( < 2 0 0 nt )  a n d  n c R N A s  ( > 2 0 0 nt ) I 

S ma l l /s h o r t  n c RN A s  s u c h  a s  m i c r o R N A s , sm a  l l i nt e r fe r i n g  R N A s  ( s i R N A s ) ,  an d  p i w i

i nt e r a c t i n g R N A s  ( p i RN A s )  a r e  r i b o g e n e r at o r s  o f  g e n e  e x p r e s s i o n  [ 8 8 ]  T h e  I n c R N A s  a r e

 .

l o c al i z e d  n  t h e  r i b o s o m e i
,  e x o s o m e  nu c ,
l eus ,  an d/ o r  c yt o p l as m  [ 8 9 ] . A l t ho u gh th e y are

c o n s i de re dtob e
p
o o r y  c o n s e rv e d  I n c R


N A ss uc has c i rc R NA s , c i RNA s ,  a nd  l i n c R N A sare

m aj o r  p a y e r s  n  r e g u l a t i n g  fu n d a m e n t a l  b o l o g i c a l  p r o c e s s e s  at  g e n e  e x p r e s s i o n  s t a g e s  [ 9 0 ]
l i i 

S t u d i e s o n  L D A  a n d  L P I  p r e d i c t i o n  h a v e  b e e n  o n  t h e  r
i s e  i n  th e  r e c e n t a s t  In  m e d c i n e
p
. i


d i s c o v e r i n g  t h e  c o nn e c t i o n  b e t w e e n  I n c R NA s  a n d  d i s e a s e s  i s  i m p o r t a n t  t o  fa c i l it ate t h e

d i a g n o s i s  a n d  t r e at m e n t  o f  c om
p l e xd i s e a s e s  S t ud i e s  h a v e  fo un d  t h at  s i m i
. l ar  I n c RNA s i nt e r a c t

wi ths mi l a rd H i g h e c hn o l o g i e s  fo r  d e t e c t i n
seas e s
[ 9
hr o u g h
pu
tt
g  b i n d i ng  o f  p r o t e i n s  t o


i i 1 . t

RN A  i n c u d e  c ro s s

l i nk n g  i m m u n o p r e c i p
i i t at i o n  ( C L I P )  e n h a n c e d  C L I P  ( e C L I P )  a n d  i n
, ,

c e l l

protein
_

RN A  i n t e r a c t o n  ( n c P R IN T )  [ 9 2 ]  A
i i . l t h o u gh  t h e s e  w et -

l ab  e xp e r
i m e n t al  m e t h o d s  a r e

v a u ab el l
, 
t h ey aret m e c o n s um n gan de xp en s i ve

i 

3 7




Pr e d i ct i o n  o f
p ant o n g n o n c o
 l d i n g  R N A s  n t e r ac t o n s  w


i i i t h p ro t e n s b y d e e p

i 
 
l e arnin g


Re c en tl
y  a  s u r g e  o f  c o m p ut a t o n a  p r e d

i l i c t i o n m e t h o d s  fo r  R P  h a s  b e e n p r o p o s e d
I 

S i g n i f i c a nt  p r o gr e s s  h a s  b e e n m a d e  v a  p a t t e r n b a s e d i

,  fe a t ur e b as e d

,  an d  k e r
ne l

b as e d

com
p ut at o n a i l m e th o d s .  A  we b  s e r v e r f o r  p r e d i c t i ng  m utua l b i n d i n g  s i t e s  i n  R N A  an d  p ro t e i n

at  t h e  n u c l e o t i d e  a nd  r e s i d u e  l e v e  c a l e d  P R I d c t o r  ( P r o t e i n l l i

RN A  I nt eracti o np r e di ct o r) was



d e v e o p e d [ 9 3 ]  In  2 0 1 6  a  c o m ut at o n a  m e t h o d  c a l l e d  RJ B P P r e d  w a s  p r o p o s e d 7 0 ]  Th e y



p i
[
l .

c o mbine d  hy d r o p h o b i c it
y , p o l ari t y ,  no rm a l i ze d  v an  d e r  W aa l s  vo l um e ,
p o l ar i z a b i l i t y 

s e c o nd a r
y  s t ruc t ur e so v e nt  a c c e s s i b i l i t y s d e c h a i n s  c h ar e  a n d
 p o l ar i t y  P S S M  p r o fi 


l l


, , ,

fe a t u r e s  an d  u s e d  S V M  c a s s i f i e r  t o  d i s t i n g u i s h  b e t w e e n  b i n d i n g  a n d  n on R N A p r o t e 


l i

b i nd i n g  s i t e s .  R e c e nt l
y , a s e que nc e

b a s e d  g e n e r a t i v e  m e t h o d  fo r  c o n s t r u c t i n g  p r o t e i n  b i nd i n g

m o t i fs  wa s  p r o p o s e d  [ 9 4 ] .  F o r  n c RN A p r o t e i n

- -


pec f
i c  i n t e r a c t o n  p r e d ct i o n
i i i
, 
d at a  re
po s i t or
ies 

m o de l s,  an d  a l g o r i t i z e d  [ 5 ]  S F P E L L P I  a  s e q u e n c e b a s e d  fe at u r e
hm s  h av e  b e e n  s umm a r 
 ,


g  fr am e w o rk  w a s  p r o p o s e d  o  p r e d c  L P  [ 9 5 ]  N e w o
e c t i o n  e n s e mb l e  l e ar
ni n rk b a s e d


p r oj

t i t I t .

m e th o d s  p r o p o s e d  t o  p r e d i c t  L P I  b a s e d  o n  t h e  n t e g r a t i o n  o f h e t e r o g e n e o u s  n e t w o r k s  i n c l u d e

 i 

L P I HN , 
RWR , a nd  L P I -

N RL M F [
96

98] 

T h i s  c h a p t e r  p r e s e n t s  a n  e ff i c i e nt  d e e p
 e a r n i n g  m e h o d  b a s e d  o n  s e q u e n c e d a t a a nd
l t 

p act  L S T M A  m e th o d n am e d  L P I D L bed T heo pt m a p o s i t e  c o m b i na t i o n


com .  

i sd e s cri .  i l c o m 

of A n u c l e o t i d e  f r e q u e n c i e s  a n d  c o d o n b a s e d  e n c o d i n g  fe a t u r e s  a r e  u s e d  a s  n p ut  t o  t h e  m o d e l

 : i 

T h e R NN  l e a r n s  t h e  h i g h d i m e n s i o n a l  fe a t u r e s  c h a r a c t e r i z i n g  t h e  l o n g
- -

ter m d ep end e nc i e s

b e t w e e n  s e q u e n c e s  O p t i m a  fe a t ur e s  a r e  s e . l l e c t e d  u s i ng

SVM -

R F E  a nd  s p ar s e  p r oj e c ti o n i s

i m p o s e d  o n t o  t h e  h i d d e n  s t a t e s  o f  i n p u t  s e q u e n c e s  t h r o u g h  c o n n e c t i o n  p r un i n g  L P I .

DL

m o d e l  L P I s  b y  a d d r e s s i n g  t wo  m a n  c h a i l l e n ge s : da t asp a r s ene s s ,  wh i ch  l i m i tst he



g e n e r a l i z a t o n a b y  o f  t h e m o d e l  a n d  m o d e l  o v e r fi t t i n g  w h i c h  o c c u r s  i f  t h e  e ffe c t  o
i i l i t



n e g at i v e  s a m p l e s  i s  n o t  t a k e n  i n t o c o n s i d e r a t o n  T h e  p r o p o s e d  m e t h o d  d ffe r s  fr o m  o t h e r

 i . i

m e t h o d s  b a s e d  o n  t h e fo l l o w i n g  fa c t o r s  F i r s t  L P I .


D L e x tr act s  m o r e  e ffe c t v e g l o b a l  a n d

 i

mu l ti -

s i z e  l o c a l  fe at u r e s  fr o m  I n c R N A  an d  p r o t e i ns e
que n
c e s  S e c o n d l y  c o nn e c t i o n

p
run i n


g ,

i si m p l e m e n t e d  o n  c o m p a c t  L S T M  t o  r e d u c e  n e t w o rk  c o m p l e x i t y  a n d  m p r o v e  g e n e r a l i z a t i o n

 i

a b i l i t y  F e at ur e  s e l e c t i o n  i s  a l s o  i n c o r p o r at e d  n  t h
. i i s  w o rk  t o  i m p r o v e  p r e d i c t i o n  a c c u r ac y  a s

re c o mm e n d e db y C hen e t al [ 9 9

T hem o . . stre l e v a n t  fe a t u r e s  w e r e  s e l e c t e d  u s i n
g theS
VM 

RF E .  T he
p
ro
p o s e d  a l g o r i t hm  i s  i t e r a t i v e l y  e v al u a e d  b y  a  s e r i e s  o f  e x p e r
t i m ent st ore al zea

 i

b e t t e r  s e t t i n g  o f h y e r p a r am e t e r s  C o m p a r a t i v e  e x p e r i m e n t s  d e n o t e  t h at  t h e  p r o p o s e d  m e t h o d


p  .

a c h i e v e s  s t at e o f
- -

t h e a r t  p r e d i c t o n  p e r fo r m a n c e  L P I

i .

D L ac h i e ve d  a c c ur a c i e s  o f  0 8 8 . 1  an d

0 9 0 7  o n  A r a b i dop s i s  t h a l i a n a  a n d  Ze a  m ays  d a t a s e t s  r e s p e c t i v e l y  T h e  r e s u l t s  d e m o n s t r at e
. 
 .

t h at  L P I -

D L  o ut p e r fo r m e d  o t h e r  s t at e o f - -

t h e a r t  m e t h o d s  E v a l u a t i o n  o f  t wo  p a n t  dat a s e t s

. 
 l

c o rr o b o r at e s  t h at  t h e  p r o p o s e d  m e t h o d  i sm o rec o m
p e t i t v e  o v e r  o t h e r  m e t h o d s  T h e r e fo r e
i .


i t e r at i v e  fe at u r e  s e l e c t i o n u s i n g  S V M -

R F E w it h  c o m p a c t  L S T M  e ffe c t i v e l y  i m p r o v e s  t h e

p r e d i c t i o n  a c c u r a c y  a nd  a c h i e v e s  c o m p u t a
ti o n a l  e f fi c e n c y i 

3 8
- 


Da l i an  Un i v ersi t
y 
of  Te ch no l o gy 
D oc t o r a l  D i s s e r t at o n

 i

3 . 2 R e c u rr e n t n e u r a l  n e t w o r k s  fo r  fe at u r e  l e a r n i n g

R NN s  s u c h  a s  L S T M  a r e  se
q u e n c e  m o d e l i n g  t o o l s  w i t h  p o w e r fu l  l e ar n i n
g  c ap a c i t y .  Th ey

e a r n  fe at u r e s  c h a r a c t e r
i zi n m  d e p e nd e n c e s  b a c k  i n  t i m e  v i a  c o n n e c t i o n s  fr o m


g o ng ter

l l i

re c u r r e n t  a y e r s  t o  t h e i r  h i d d e n  l ay e r s  t h at a l l o w  p r o p a g at o n  o f  i n fo r m a t i o n  fr o m  t h e  p a s t
l 
 i

t h r o u g h t m e i .  H o w e v e r  tr a ,
i n i n g  R NN s  i s  c o m p u t at i o n a l l y  e x p e n s v e  b e c a u s e  o f  t h e  b i g

 i

n u mb e r  o f p a r a m e t e r s

.  Th i sa fe c t s  the i r
 p r e d i c t i o n  ab i l i t y  i n  d i ffe r e n t  t a s k s  s u c h  a s  c o m p u t e r

v i s i o n a n d  b i o i n fo r m a t i c s .  A n e ffe c t v e  s o ut i o n  t o  t h i l i s
p ro b l e m  s  t h e  i n t r o d u c t i o n o f  a
i 

p a c t  f l e x b l e  s ru c ur e  a n d  o h e r q u e s  T h e  k e y  p u r p o s e  o f  h e s e  t e c hn i q u e s  s 
com t t t i  t e c hn i t i to

 .

re d u c emo d e l
p
ar a m e t e r s  and  i m p r o v e  t r a i n i n g  e ffi c i e n c y  S t r a t e g e s  t h a t  h av e  b e e n  p r o p o s e d

 . i

oi m
p r o v e  t r a n i n g  R NN s  i n c l u d e  b a c k p r o p a g at i o n  t h r o u g h  t i m e  ( B P T T )  r e a m e  r e c u r r e nt


t i l ti

l e a rn i ng , 
an do
p t i m i z at i o n  t h r o u g h  e x p l i c i tl
y  l e ar n i n g  s t at e  v a r i a b l e s  i n  t h e  RN N  [ 1 00] 

A  v ar i ety o fc o m
p u a o n a l  m e h o d s  av e  b e e n  e v e o p e
t ti t h d l dt o
 p r e d i c t  t h e  p o t e nt i a l

i n t e r a c t o n s  b e t w e e n  I n c R NA  a n d  d i ffe r e nt  b i o m o e c u l e s  t o  a d  i n  I n c R N A  a nn o t at i o n  K a n g  e t
i 
 l i ,

a ro
p o s e d  a  m e t h o d  fo r  I n c R N A m i R N A  i n t e r a c t i o n  p r e d i c t i o n  b a s e d  o n  t h e  h y b r i d  m o d e l

p
l .

and  f u z zy dec i s i o n n a m e l
y Pm li Pre d  [
1 2] . A  I nc RN A -

RN A  i n t e r a c t i o n W e b s e r v e r 

L n c R R I s e a r c h  nt e g r a t e s  t ,
i i s s ue


p e ci f
i c  e x p r e s s i o n  a nd  s u b c e l l u l a r  l o c a ,
l i z at o n  d at a  [
i 1 0 1



B e s de s i
, 
t h e s tud y o f di s e a s e 

re l at e d  I n c R N A s  c an d i i o n b as e d o nd i s e as e
d at e  p r e d i c t -

l n c RN A

a s s o c i at i o n  h a s  r e c e i v e d  s i g n i f i c a n t  r e s e a r c h  i n t e r e s t  i n  t h e  r e c e n t  p a s t  . A ccumu l at i n g  e v i d e n c e

s u g g e s t s  t h at  I n c R N A s  ar e  i nv o l v e d  i n  di s e as e s  i n  b o t h  h u m an s  an d a n t s  T h e r e fo r e  t h e


p
l .

pre
d i c ti o no fas s o c a i ti o n b etw e e n I n c R NA s  a n d  d i s e as e s
p r o v d e s  i n s g h i i ts  n om oi t l e c u l ar

m e c h an i s m so fd i s e a s e  a n d  c l u e s  fo r  t h e  t r e at m e nt  o f  c o m p l e x  d i se a s e s Re c e n t l y ahyb r d


. 
 ,

co m p ut a t o n a  f r a m e w o rk fo r  L D A  p r e d i c t i o n  b a s e d  o n d e e p 
i l l e arn i n
g  a n d  s n g u l ar  v a l u e

 i

de c om
po s
iti o n  t e r m e d  S D L D A  w a s  p u t  fo r w a r d  [ 1 02] .  S h e n g  e t  a  p r o p o s e d  V AD L P  a n

 l .

at t e nt o n i

b a s e d  c o n vo l u t i o n a  a n d  v a r i a n c e  m o d e  fo r  I n c R N A d l l

i s e as e  a s s o c i at i o n
p
re d i c t i o n

by
 n e gra i n gm u
ti t l t i

l e v e lre
p re s e n a i o n s [
t t 1 03

.  i L n c R N A d i s F B w a s  d e v e l o p e d  t o i d e n t i fy


L D A s  b y  fu s n g  b i i o l o g i c a l  fe a t u r e  b l o c k s  t h r o u g h  d e e p  l e a r n i n g . A s tu d y b y G u o et a l 

c o n st ruc t e d  an d  an a l
y z e d  a  mu l t i m o l e c u l a r  a s s o c i at o n n e t w o r k  v i a  t h e


 i

I n c RN A m -

i RN A D -

i s e as e

D rug -

p r o t e i n  g r ap h  [
1 04] . B a s ed  o n a n  RP  c l a s s i fi e r ,  ne w

i n t e r a c t i o n s  w e r e  p r e d i c t e d  b et w e e n  t h e  b i o m o l e c ul e s .  The m e n t i o n e d  m et h o d s  t e s t  t h e

e ffe c t i v e n e s s  o f  s e
q uenc e ,  s t r u c t u r e  andn e t w o rk  s m i ar

i l i ti e s  n  s e a r c h n g  fo r  i n t e r a c t i o n
i i

art n e r s
p 

L S T M w a s u s e d  fo r  t r a n n g  t e s t  a n d  p r e d i i
, ,
i c t i o n  s i m i l a r  t o  o t h e r  r e c e n t  s t u d i e s  t h at

i m p e m e n t  C NN  a n d  R N N  m o d e l s  [
l 1 05

1 08

.  Y i  et  a l  [ . 1 0 6 ] p ro
pose
dA C P -

D L t op re di ct

p t d e s  u s i n g  L S T M  a nd  h g h e ff i c i e n c y  fe at u r e s  A o k i  e t  a 0 5 ] d e v e l op e da
ant i c a n c e r e

[ 1 

p
i i . l .

C NN  m o d e  t o  c l l a s s i fy  n c R N A  s e q u e n c e s  W an g  e  a  . t l .


1 0 7 ]  d e v e o p e d  a  m e t h o d  fo r
l 

dru g a r g e t  i nt e r a c t i o n
p r e d i c t i o n  b a s e d  o n  L S T M  n e u r a  n e t wo r k  G r 0nn n g  e t  a  [ 0 8 ]

t l . i l . 1

3 9
- 


P re d i ct i o n  o f p an t  o n g n o n c o d n g l l




RN A s  i n t era c t o n s  w i i t h
 p ro
t e n sb i
y dee p
l e a rn i n


p r o p o s e d  D e e p C L P  fo r  p r e d I i ct i n g  t h e  e ffe c t  o f m u t a t o n s  o n  p r o t e n  i i

RN A  b n d n gw
i i i t h  C NN

a n dL S TM 

3 . 3S e

u e n c e  fe a t u r e  e x t r a c t o n  b i
y
S V M RF E

 -

Th e p r e d i c t i o no ft h eI n c RN A p r o t e n  a s s o c -

i i at i o n  t a s k  i s  a  c l as s i f i c at o n i
p
ro b l e mb as e d

o n  t h e  fe a t u re r e p r e s e n t a t o no i fs e
que
nce s a n dac a s s f l i i c at i o na l
gor
i t h m L P . I

D L i sad ee


n e u r a n e t w o r km e t h o dt h a tu s e sL S


l T M l a
y e r s oe x r a c th g h
t t i

d m e n s o n a  s e u e n c e  fe a t u r e s

q 
 i l

and re d c tL P ro bab T h ei n u tt oL P I D L sar e


p re sen t a o no f h e n c RN Aa n d p r o t e n


p
i I
p
i l i t
y .


i t i  t

I i

s e u e n c e s  T h e  n t e r a c t o n  m a t r x  M  o f  n c RN i Aw t hR mn u c e o t i d e sa n da


 p r o e n w
t i t hP

i i I i l i



re s i d u e s i s d e f i n e d a s a nR m x P nb i n a rym a t r x  E a c he i . l e m en t MJ  t (


/ 

 an d j




2 ,
. . .


P , ; ) d e n o t e sw h e t h e rt h e r ee x i s t s  i n t e ra c t o nb e t w e e nt h e i /

t h n c I R N A a n d t he
y

t 

d ue F n c e  fe a t u r e s  fr o m  n c R N A  { A C G U a n d p r o t e n{ A C D E F G H
re s e
que
rst    

s   I
i I . . i . . . .

}
. 


. . .
, ,

K .  L , 
M N . . P .

 Q . R S T  . .

V .  W .  Y } c o n s
t i t u e n t s  a r e  e x t r a c t e d  u s n g ^ n u c e o t d e  fr e q u e n c


l i i es

a n dc o d o n b a s e d e n c o d n g s c h e m e s T h e n  t h e  fe a t u r e s  fo n n u a t e  n
p u t s  fo r
t h ed e e
p e a r
n ng

i .

l i

 l i

n e t w o r k N e x t t h e .

l earn i n gs t r at e g yan dm o d e a r c h l i t ec t u reo fL P I

D L t op r e d c t n t e r a c t o n

 i i i

par
t n e r sa r ea s s e s s e d . F i
g 3 . . 1  i l l u st r at e st hes t e
p s o
f l l o w e db yt h ep r o p o s e dm et h o d F e a t u r e s

 .

a r e  e x t r a c t e d  fr o m  s e q u e n c e su s i n g/ :

m e r  a n d  c o d o n  s c h e m e s  an d  o p t m a i l  fe at u r e sa r e s e e c t e d

 l

u s i n gS V M RF E -



F ea tui

e  e x tra c ti o n  a n d  s e l e c t i o n

( I n c RN A  k m cr :


c o don  N


 L S TM

— —

mm  mode 

, I

  .
A  




 n c RN A  s e


u en c e J  1

 cm  
  」 f
? ? ? 

 A C G UG A A r
^G p  _ 1   t J  t



F ea t ur e :


_



  


L 」
纖
1  ̄

U  e ec t i o n T
.  .

s i


I '
l : 



j j


!  !
!  Pi o t e i n : A

m e r  fe a t u r e s  S VM RF E
 {

j 

 [


 

—  K ern e


U
near  



l  l i .


U 丄


[ |

! 
P > 〇t e m s e qu e n c e
 J  ; c I     T tI t t 

m y p t q va k

^ k



, .

子

: ;

 

 Pr e d i c t e d I n c RN A -


rot e i n  nt er a c t o n
i 
 i

F g i . 3 . 1  F o w c h a rt  o f l  t h ep r o p o s e dm e t h o d

3 . 3 . 1  F e at u r e  e x t r a c t o n  a n d  s e e c t i o n

 i l

T h eA :

n u c e o t d e  fr e q u e n c e s  a n d  c o d o n b a s e d  e n c o d n g  s c h e m e s  a r e  u s e d  t o  n c o r p o r a t e
l i 


i i

con t e x t i n fo r m a t o n  a n d  o b t a n  a  m u i i l t i

sc a e  fe a t u r e  v e c t o r  s

p ac e .  Wh e n t h ev a u eo fk

 l

i n c r e a s e s  t h e  d m e n s o n  o f  fe a t u r e s  n c r e a s e s  T h e  4  a n d  3

i i i .
- -

m e rn u c l eo t i d ec o m
po s i t i o n i 

40 


Da l i an Un i v er s i ty  o f T e c hn o l o gy  D o ct oral  D i s s e r t at i on
 


u s e d  i n  t h i s  s t ud y  t o  e x t r a c t  fe at u r e s .  G i v ena nc R I NA R   o f m  s e q u e n c e  e n gt h
 l
, 
4  whe r e A : 

 

y e l d sa 5 6(
i 2

 4x 4x4 x 4 ) di m e n s i o na l  fe a t u r e  m ap .  T h e p r o t e n  s e q u e n c e s  ar e  r e p r e s e nt e d

i 

b y a 3 4 3 (

7
x7x7 d i m e n s i o n a l  fe a t u r e  v e c t o r  c o r r e s p o n d i n g  t o  3 m e r s  i n  t h e  7  g r o u p s  o f

 -

)

p h y s i c o c h e m c a l  p r o p e rt i e s i 

I n sp i re db y [ 1 09
] ,  n c R NA  nu c
I l e o t i d e s  a r e m a
p p e d  nt o  p s eu d o  a m n o  a c i d s  T r e e
i h 
 i .

c o n s e c u t i v e  nu c l e o t i d e  b a s e s  i n  t h e  I n c R N A  s e q u e n c e s  a r e  m ap p e d  i n t o  p s e u d o  am i n o  a c i d s

w i t h  s t o p  c o d o n s  n  th e  m i d d l e  o f  s e q u e n c e s  T h e  s t o p  c o d o n s  a r e  u s e d  a s  t h e  s t a r t  an d  s t o p


 .

si
g na
l s  i n  t h e  p r o c e s s  o f  am i n o  ac i d  t r a n s l at o n  i n t o  p r o t e n s i i .  S u b s e q u e n c e s  o f  thr e e

c o n s e c ut i v e  n u c l e o t i d e  b a s e s  s u c h  a s  a  s t a r t  c o d o n  A T G i st h e  s t ar t n g  s g n a  w h i e  T A A
i i l l


TAG , an
d  T GA  a r e  t h e  s t o pp i n g  s i g n a l s
[
1 1 0] .  T he  c o d o n  e n c o d n g  m e t h o d  i i s  a  v a r i an t  o f t  he

 3 )  m e t h o d  w i t h  6 4  c o m b n at i o n s  o f  3 m e r s  T h e r e fo r e  u s i n g  t h e  c o d o n b a s e d



A mer

k - -

(
i .

m etho d , 
a 2 1

d i m e n s i o n  fe a t u r e  v e c t o r  i s  o b t a i n e d  fr o m  2 0  a m i n o  a c d s  a n d  a  s t o p  c o d o n i .  The

4 3
i n p ut  t o  t h e  L S T M i sa6 2 0(

4 + 7 +2 1 )  d i m e n s i o n a l  fe a t u r e  v e c t o r  F e a t u r e  s e l e c t o n  s
i 
 . i

p r o v e  e ff c i e n c y  b y  r e m o v n g  r e u n a n  fe a u r e s  T o  m p r o v e  t h e  a c c u r a c y 
a pp l i e d  t o  i m i d d t t i i and

 .

re duc ethe c o m h ep ro p o s e dm o d e 2 0 0  m o s t  r e l e v a n t  fe a t u r e s  a r e  s e l e c t e d




p u t at i o n a l  t i m e  o f  t l
, 

us ngS V M i

R F E  o ut  of  t he6 2 0e xtracte d .  RF E s e e c t s  fe at u r e s  b



y  p e r fo r m i n g  a  g r e e d y  s e a r c


v a  a n i t e r at i v e  p r o c e s s  T h e  S V M
i .

R F E  fe a t u r e  s e l e c t i o n  m e t h o d  r a n k s  fe a t u r e s  a c c o r d i n g  t o

t h eo rd e ro f  i mp o rt an c e  o f  t h e fe a t u r e s
 .  T h e  m e t h o d  r e m o v e s  fe a t u r e s  fr o m t h e  o r g i na i l fe at u r e

s e t  t o  o b t ai n  t h e  o
p t i m um  fe a t u r e  s ub s e t .  T h e  c a s s f c a t o n  c o m p u t at o n a l  t m e 
l i i i i i i sre du c e d  an d

t h e  c l a s s i f i c a t i o n  a c c ur a c y  r a t e  i s  i m p r o v e d 

3 . 3 . 2M o d e ltrai n i n g

H o w t o  d e s i g n  c a s s i fi e r s  t o  p r e d i c t  a b e l s  o f  u n s e e n  s a m p e s  b a s e d  o n  a b e e d  t r a i n i n g



l l l l

p l e s  i s  an  i m p o r an  p r o b e m  w h e n  b u i d n g  a  p r e d i
am c t o r I nth sst ud ay e r  f u

y  a  tw o

t t l l i . i

l l l


c o nn e c t e d  L S T M  m ode l  w i t h  l o w  at e n c y  a n d  r e d u c e d  c o m p u t at i o n  t m e  i s  u s e d  fo r  p r e d c t i o n
l i i 

T hearc h it e c t ur e  o f c o m 
p ac
t L S T M  p r o v d e s  o w e r  at e n c y  a n d  a
i l l l s o  re d u c e s  c o m
p u t at i o n 
ti me

u s e d  fo r  p r e d i c t i o n .  F g i . 3 . 2  i s  an  i l l u s t r at o n  o f a  d e e p  L S T M  a r c h
i  i tec t ure . L S T M  i s  a  s p e c a l i


yp e o f  R NN  w it h  t h e  a b i l i t y  t o  l e arn  l o n g -

t e rm  d e
p e n d e n c i e s  a n d  p o s s e s s  a  p o w e r fu l  l e ar n n 


ca
p ac it y .  A c l a s s i c L S T M i s  d e p o ye dt o l l e arn t em
p o r a l  c o rr e l at i o n s  a n d  o v e r c o m e 
t he

DL

g r a d i e nt s  v ani s hi n g p r o b 
l em .  LP I -

i s  ab i nar
y c l as s i fi e r
t h at  i s  b a s e d  o n  s u p e rv i s e d  l e arn i n g

t o  d i s t i n g u i s h  b e t w e e n  i nt e r a c t i n g  an d  n o n

i nt e ra c t i n g  p art n e r s .  A tt h e  i n p u t  l ay e r , t h e  d at a  i 

re s h ap e d  a n d  c o n v e r t e d  fr o m  2 D  i nt o  3 D  d a t a  t h a t  m a t c h e s  t h e  np u t  o f i  t h e  L S T M  l ay e r  b y

a d d n g  t h e  t m e s t e p s  t h r o u g h  t h e  r e s ha p e  f un c t i o n
i i .  E ar y  s t o p p n g  an d
l i  D r o p C o nn e c t  [
1 1 1
]
wi t h

adro ut  o f  0 2 5  w e r e  i m p l e m e nt e d  t o  s p e e d  u p  t r a i n i n g  a n d  h  r e g u a r
i z e r  w i t h  th e  va l u e


po l

0 000 . 1  u s e d  t o  av o i d  o v e r f i t t i n g  T h e  A d a m  o p t i m i z e r  r e c t i f i e r  l i n e ar un i t  ( R e L U )

, ?  an d

s i

m o i d  a c t v a t i o n  f un c t i o n s  w e r e  m p l e m e n t e d  W h e n  p r e d c t i n g  t h e  L S T M  l a y e r s  i d e n t i f y
i i

 . i

s e
q u enc es e g m e n
t s  fo r  th e  c a s s l i fi c at i o n  t a s k  a n d
 g e n e r at e  n t e r a c t i i o n  p ar t n e r s .  T h e ke y

4 1 



Pred i ct i o no f p an t o ng n o n c o d n g

l l i


RN A s  i n t e ra c t o n sw i i t h
 p r o t e n sb yd e e p e a r
i n n



l i

o bj e c t v e  i i st o m i n m i z e  t h e  d i ffe r e n c e
i s  b e t w e e nt h em o d e l o u t p u t s an dt h e a c t u a t r a n n g


l i i

s am
p es l .  T h em o d e l w a s  t r a n e d  t o  m i n i m z e  t h e  fo
i i l l o w n g  o s s  fu n c t o n
i l i 

L L 3
Hu b e r y s f


. 1
、 ,
( 


h e  b n d n g  a ff n y  o f  t h e  n c RN A  ^  t o  a  g  /^ 
w h e re st ven rot e n st he re d c ed


 ys  i i i i i t
p
I i i .

/? ,




p
i t

i n t e r a c t o n n t e n i i s i t
y a nd L i st h e  H ub e r  o s s l

wh i c hi sd e f n e d  a s  fo
i l l o ws
Hu b e r
, 



LHu l, e , \y ^ f^ ) )

 \
   U2 i 

Ao

h w e r s e


卜 , ⑴
_ _
t i

| 

H u b e r l o s si sc h o s e nb e c a u s e i ti sl e s ss e n s i t i v e t oo ut l i e rd at a


 p o nt st a n
h i t h e  m e a n s a ed
qu r

e rr o r o s l s 1 1 2
[


回 回 图 固 图 


立 豆 豆 ¥ M互


In
p u t  l ay e r 〇 ^ Q^


j Q
〇  XL  〇  0  0 


E s S  s

r 〇l  l [ i l j l
o  i i 

L S TM l a
ye 1 ,

 ( O C X j ^ CX ^ O

 ^

L S TM l a ycr 2
Q Q  
? ? ?

 ?Q

^ 


L S TM l a
yer 3 

^

Fu dl
 J
o nn ec e
l l
yc t a
yer

F g i . 3 . 2D ee
pL S T Ma r c h i t ec t u re

3 3 3P a r a m e t e rs e tt ng
. . i

T h ep r o p o s e dm et h o d i si m p e m e nt e d nT h e an ou s n gt h eK e r a s


l i i l i b rar
ya n dc u s t o m z e d

 i

n e t w o r k  a y e r s  a n d  fu n c t o n s  T h e  h y p e r p a r a m e t e r s  a r e  t u n e d  t o  o b t a n  o p t m a  r e s u
l i . i i l l t s . T h e


fo l dc r o ss

va l i d at o n i i si m p e m e n t e d T h e  e x p e r m e n t 
l . i i s r e p e a t e dt w e n t yt m e s u n t i i l  he

 t

m o d e a c h e v e do p t m a r e s u
l i i l l t s .  T h e  t r a n n g  d at a s e  i i t i s d v d e d n t ob a t c h e s d e t e r m n e db y
i i


i i

p a r a m e t e r b a t c h  s z e  s p e c
f i i i e d  a s  6 4  T h e m o d e  . l i so
pt
i m z e d  fo r  t r a n n g  b y 
i i i 1 0 0e p o c hs 

Overf
i tt i ng
 i s ac o mm o n  p r o b e m  n  n e u r a l  n e t w o r k  m o d e l i l s .  T h e  D r o p C o nn e c t  a n d  e a r y

 l

s t o p p n g  w e r e  e m p o y e d  fo r  r e g u a r z a t o n
i l l i i , t os p e e du pt r a n n g i i , a n dt oa v o do v e r f i i tt i n g[ 1 1 3 

4 2 


Da l i an Un i v e rs i t
yo f  Te c h n o l o gy  D o c t o r a l  D i sse t at
r i on

D r o p C o nn e c ti si m p e m e n t e d  o n  t h e  fu
l l l
y  c o nn e c t e d  l a y e r  t o  p r u n e  c o nn e c t i o n s  r at h e r  h a n
t 

d r o p p i n g  o ut p u t  un i ts
[
1 1 1

.  A  r an d o m l
y  s e l e c t e d  s e t  o f w e i g h t s  w i t h i n  t h e  n e t w o r k  ar e  s e t  t o
 

z e r o  t h u s p r e v e n t i n g  o v e r fi t t n g  n  t h e  r e c u r r e n t  c o nn e c t o n s
, ,
i i i . A d d iti o nal l y  t he  c an d i d at e


we i
g h t  c o nn e c t i o n s  a n d  n e u r o n s  ar e  p r un e d  t o r e d u c e  t h e  t r a i n n g  e r r o r  a n d  s p e e d  u p

 i

com
p ut at i o n .  E ar y  s t o p p i n g  h a
l lt s  t r ai n n g  w h e n  v a l i d a t i o n  e rr o r  s t ar t s  i n c r e a s i n g
i .  T h e  d r o p o u t

r at i o  u s e d t o
 prom o e
t t he s
p ar s e  d i s t r i b ut i o no f  n e t wo r k  w e g h t s  i s  s e t  t o  0 2 5
i .
, 0 . 5 , a n d0 6 . .  Th e

i np u t , re c u r r e nt ,  an d  b i a s  w e i g h t s  ar e  r e g u l i z e d  u s i n g  a n  h  re g u l ar
ar i z e r  w i t h  th e  v a l u e  0 0 0 0 . 

t op e na l i z ewe i

h t  p ar a m e t e r s .  T h e  ac t i v a t i o n  f u n c t o n  c o n v e r t s  t h e  l i n e a r  s um  t o  n o n l i n e a r  t o
i 

p r o d u c e  t h e  d e s i r e d  o u t p u t  T h e  R e L U  a n d  s i g m o i d a c t i v a t i o n  f u n c t i o n s  a r e  i m p l e m e n t e d
. 

A d am ,  a n  a d ap t i v e  o p t i m z e r  s u i i t a b l e  fo r  r e c u rr e n t  n e t w o r k s  t o  t r a i n  t h e  m o d e l  du e  t o  i ts

ab i l i t y

t o  h a nd e  c o m p l e x  t r a i n i n g  d y n a m c s  w a s  u s e d  T h e n u m b e r  o f  n e u r o n s  fo r  L S T
l i . 

v a r i e d  fr o m  3 2 , 6 4 1 ,
28 ,  an d  2 5 6  T h e  d . i ffe r e n t  nu m b e r  o f  l a
y e rs i s us e dt o t e s t the

p e r fo r m an c e  o f  t h e  m o d e l  T h e  n u m b e r  o f  h i d d e n  a y e r s  v a r e s  f r o m  1  t o  4 . l i . L S T M  c o nt a i ns

o n l y  o n e  h i d d e n  l ay e r w  i t h  6 4  n e ur o n s 

3 . 4  E xp e r i m e n t a l r e s u l t san d d i s c u s s i o n

3 . 4 . 1  P re d i ct i on
 p er o m a n c e
f r 

T h e  m e t h o d s  w e r e  c o mp ar e d  u s n g  t h e  s a m e  d a t a s e t s  D i ffe r e n t a r a m e t e r  s e t t i n g s o n


p
i .

A r a b dop s i i s  th a l ia n a  an d  Z e a  m ay s  d at a s e t s  a r e  t e s t e d  an d  o b t a i n e d  t h e  ac c u r a c i e s  o f  L P I

DL

a s8 8 . 1 2 %  a nd  9 0 . 74 %  fo r  5 -

fo l d , 9 8 . 73 % ,  a n d  9 3 9 3 %  fo r  L O O C V  v a . l i d a t i o nm e t h o d s

re s
p e ct i v e l y .  There s u lt s  o f  t h e  m e t h o d  w i t h  th e  tw o  v a l i d at o n  m e t h o d s  a r e  l
i i st e di n T ab . 3 . 1 

T h e  p e r fo r m a n c e  o f t h e  p r o p o s e d  m e t ho d   i sc o m p a r e d  n  t e r m s  o f fe at u r e  s e l e c t i o n  d e n o t e d  a s
i 
 

W F S  a nd  w it h o u t  fe at u r e  s e e c t o n  d e n o t e d  a s  N F S  o n  A r a b i dop s i s  t h a l i an a  d a t a s e t  s h o w n  i n
l i 

F g i . 3 . 3 The . AU C  o f t h e 

 p r o p o s e d  m e t h o d  w i t h  fe a t u r e  s e e c t i o n  l i s0 . 9 4 9  an d  w i t h o u t  fe at u r e

8 9 9 T here s u lt s h e  p e r fo r m a n c e  b e n e f i t  o f t h e  fe at ur e  s e l e c t i o n
se l e cti o n s0
p ro v d e p r o o f o f 

i . . i   t 

m e t h o d  u s e d  i n t h e  p r o p o s e d m e t h o d T h e r e fore  t h e  c l a s s fi c at o n b e e n
 p e r o r m a n c e h a s
f 
 .

i i

s ub s t a nt i a l l
y  e n h an c e d  a n d  t h e  d m e n s i o n a i l i t
y o f  t he  d a t as e t  h a s  a l s ob e e nre d uc e d as d e s c r i b e d

i n  t h e  fe at u r e  e x t r a c t o n  a n d  s e l e c t i o n  s u b s e c t i o n i 

T ab . 3 . 1 P e r fo r m a n c e  o f  5

fo l d  c r o s s

v a l i d at o n  ( 尺 fo l d  C V )  a n d  L e a v e  o n e  o u t


cro s s

v al i d at i o n  ( L O O C V )  m e th o d s

V a d at o n  A C C  P R E  S E N  S P E

 l i i

Da t as et  M C C A U C 

m e h o d %  %  %  % t
( ) ( ) ( ) ( 


 ̄  ̄  ̄  ̄  ̄

A r a b dops i i s K -

fo d  C \ V 8 8 . 1 2 90 40 . 8 6 . 83 9 0 . 68 0 . 777 0 . 949

t h a li an a  L O O C V  9 8 7 3  9 9 3 9  9 8 0 7  9 9 . . . . 3 9 0 . 9 7 5 0 9 8 7

 .

 ̄  ̄

欠 -

fo l d  C V 9 0 . 74 9 1 . 4 8 8 9 8 6 9 . 1 . 62 0 . 8 1 5 0 . 970


Ze a m ay
ys
 

 LO O C V 9 3 . 9 3 9 4 . 5 6 93 . 24 94 . 63 0 . 879 0 . 93 8



4 3 


P re d i ct i o no f p an t  o n g n o n c o d n g

l l i

RN A s 
i n t e ra c t o n s  w i i t h


p r o t e n s  b y  e e p  e a rn n g



l i

1 〇





- 1

0



. 6
_

 J JH  y
, 

J  \











} /


i〇 4
 (
f y


y





,
p o s e d M e t h o d W F S A U C =
P ro 0 949


( 

, P o po se d M e t h o d N F S( AUC =
899

r 0 .




_

0 0 .
- I  ̄  ̄

^ 



  

0 0 0 2 0 4 0 6 0 8 1 0
. 
 . . . . .

Fa l s eP o s i t i v eR a t 

F g i . 3 . 3  P e r fo r m a n c e  c o mp a r i s o nb e t w e e np r o p o s e dm e t h o dw i t h  fe a t u r e  s e l ectio n a n d



w i t h o u t  fe a t u r e  s e l ect i on

3 . 4 2 C o m p a r
. i s o nw i t ho t h e rm e t h o d s

D e sp i t et h e
g
o o dr e s u l t sa c h e v e db yt h ep r o p o s e dm e t h o da sp r e s e n t e d nt h ep r e c e d n g


 i i

s u b s e c t o n ac o m p ar i s o nw i

i t ho t h e rc a s s f l i i c at o nm e t h o d s
i i s
p
e r fo r m e d  t o  v e r i f
yt h er e s u l t s 

T h e p r o p o s e dm e t h o d i s c o m p a r e d  w i t h  fo u r  c l a s s i f e r s  i n c i l u d n g i Mu l t i

l a
y e r
P e r c ep t ro n


MLP ) , R F Ex ,
tr a T re e  ET ( ) , a n d D T  u s i n g5 -

fo l d c ro s s

va l i d at o n i . T hec l ass i f i c at o n

 i

a go h m s  a r e  s e e c t e d  fo r  c o m a r o nw ht h e opo e dm e t h o db e c a u s et h e


yar ee n s e m b
r t s t r s 


p p
l i l i i l

c l ass i f i c at i o n  m e t h o d s  k n o w n  fo r  a c h e v n g  o u t s t a n d n g  p r e d i i i i ct i o nr e s u l t sn o t  o n y  n  d ffe r e n t



 l i i

c l ass i f i c at i o n  t a s k s  n  t h e  b i o n fo r m a t c
i i i s i e d L P
f l .

D L s
 p e r fo r m a n c e  i sc o m p a r a b et ot h e

 l

o t h e rm e t h o d s . T h em e a nr e s u l t sa r e


p
re s e n t e d nT a b 3 i . . 2 F . i
g . 3 . 4( a )a n d( b ) .  A m o n ga l l t h e

c l ass i f i e rs , L P I

D La c h i e v e d t h e h i
ghe s
t a c c u r a c yw i t ham e a no f8 8 . 1 2 % , a n d9 0 7 4 . % M C C

 ,

w i t ham e a no f  0 7 7 7an d0 8 . . 1 5  ,


A U C w i t ham e a no f0 9 4 9a n d0 9 7 . . 1 o nb o t hA rab i dop s i 

t h a l a n a  a n d  Z e a  m ays  d a t a s e t s  r e s p e c t v e y
i i l .  LP I

D Lh a d t h es e c o n d -

best
p
r ec i s i o nw i t h a m e an

o f 9 0 4 0 . % a n d9 1 . 4 8 %w h i l e RFa c h i e v e dt h eh i



hest
p
re c i s i o nw i t ham e a no f9 1 . 3 8 %o n

A r a b dop s i i st h a l i a n aa n dE T sh a dt h eh i



he s tp r e c i s i o n  o n  Z e a  m ays  w i t h am e a no f 9 1 . 5 9 % 

LP I

D Lh a d t h eh i

h e stre c a l l wi t ham e a no f  89 . 86 % o nt h e Z e a  m ays  d a t as e t 

T o  fu r h e r  e v a t l u at e  t h e  p r e d c t v e  a b i i i l i t
yo f h ep ro p o s e dm o d e
t l
,  i t s
 p e r fo r m a n c e  i s

co m p a r e dw t ho t h e rm e t h o d sd e v e o p e dt o e r fo r m  a  s m a rt a s k T h em e t h o d sa r e ub s hed




p p
i l i i l . l i

i nw e l l

kn o w n  j o u r n a l ss
pec a i l i z e d  n  t h e  b o n fo m i a t
i i i i c s  fi e d 
l . A l l t h em e t h o d sar ec o mp are d

u s n g  t h e  s a m e  d a t a s e t s  a n d  fe a t u r e s  T h e  p r o p o s e d  m e t h o d 
i . i sc o m p a r e dw i t ho t h e rm e t h o d s

i n c u d n g  X RP I [ 7 2 ]  a n d RP I
l i .

S E [
1 1 4 ] a n dL P


P r e d 6 7 ] L P [
. I

D Lo u t
per
o rm e d 
f t h eo t h e r

4 4
- 


Da l i an  Un i v ers i t
y o f T e c h n o o gy



D o c t o ra D l  i s s e r t at i 

on

m e t h o d s  u s i n g  t h e  s a m e  fe at u r e  s e t s , 
tr a i n e d  a n d  t e s t e d  und e r  t h e  s am e  e x p e r i m e n t a l  c o n d i t i o n s 

T h e  t h re e  m e t h o d s  w e r e  c h o s e n  b e c a u s e  t h e y  w e r e  d e s g n e d  t o  p r e d i i ct  n c R NA -

p ro t e 
i

i nt e r a c t i o n  T h e  5 .

fo l d  c r o s s -

va l i d a t i o n  r e s u l t s  a r e  p r e s e n t e d  i n  T ab  3 3  a nd  F i g  3 4  ( c )  a nd

 . , . .


d) 

T ab . 3 . 2  P e r fo r m a n c e  c o m p a r i s o n  o f  t h e  p r o p o s e d  m e t h o d  an d  f v e  c a s s f e r s

 i l i i

 AC C (
% )  P RE (
% )  S EN (
% )  S PE (
°
/〇 ) MCC


D at a s e t  M e t h o d


士 S D  土 S D  士 S D  土 S D 士 S D

 

 ̄  ̄  ̄  ̄  ̄
 ̄  ̄

LP I

DL 88 . 1 2±0 5 8 .
9 0 4 0± 0 6
. . 1 86 . 83 ± 1 . 1 5 9 0 6 8士0 6

. 1 0 7 7 7±0 0 2 4
. .

M L P 8 5 _ 92士  1 . 1 4 8 5 . 3 2士 2 2 0 . 8 6 . 6 7± 1 . 93 8 5 . 1 U3 . 02 0 . 7 1 8士0 0 2 2

 .

A r a b dop s i i s  R F 8 7 . 8 7士 0 . 79 9 1 . 3 8士  1 . 86 83 . 6 8土2 3 7 . 9 1 . 8 8± 1 . 9 7 0 7 6 0± 0 0 . . 1 



hal
t i an a  E T  8 7 7 . 1 土  1 . 4 4 8 3 6 8 士 .  1 . 9 1 8 0 . 95士  1 . 82 94 . 3 5 土2 . 06 0 . 76 1 
土0 0 2 . 

D T 8 6 . 92± 1 .
06 8 6 . 0 9士2 4 0 . 8 8 . 0 7士  1 . 7 1 85 . 73 土2 . 5 8 0 . 7 3 8±0 0 2 . 

SV M 8 5 . 8 6±0 3 3 . 8 7 . 4 8士  1 . 4 2 8 3 7 0土 2 . . 3 6 8 7 . 9 2士2 2 6 0 . . 7 1 8土0 0 . 1 




 ̄  ̄
 ̄  ̄  ̄  ̄

LP I

DL 9 0 7 4士 0 5 4

. 9 1 . 4 8士0 5 9 . 89 . 8 6i 0 . 89 9 1 . 6 2±0 7 . 1 0 8 . 1 5 士0 _ 0 1 

M L P 8 9 . 6 9土0 5 6 . 90 . 3 0土0 3 . 1 8 8 . 9 2士0 9 8 . 90 . 4 5 土 0 4 2 0 7 9 4土 0 0


. . . 1 

RF 8 9 . 5 2士0 . 3 3 90 . 2 7士0 2 7 . 8 8 . 4 5 土0 7 9 9 0 . . 5 9士 0 2 3 0 8 0 0士 0 0 0 6


. 
 . .

Ze a m ays  E T  8 8
 . 5 0± 0 . 4 9 9 1 . 5 9士0 3 7 . 84 . 7 8±0 8 6 . 92 . 2 2土 0 3 3 . 0 . 7 7 2土 0 0 0 9

 .

DT8 9 . 1 1 ±〇 . 3 8 8 9 . 0 5 士 0 4 9 8 9 . . 1 9士 0 3 0 8 9 0 3 ± 0. . . 5 7 0 7 8 2^0 0 0 . . 

S V M9 0 . 0 5 士 0 4 2 9 0 . . 7 7 ±0 2 7 8 9 . . 1 6± 0 . 7 9 9 0 94 ± 0 2 8 0 .
. . 80 1  士0 0 . 1 


S D r e
p re s e n t s  s t a n
d ardd e v at o n i i 

T ab . 3 . 3 C o m p ar i s o no f  LP I -

DL  w i t h  o th e r  t hr e e  e x i stin
g m e t h o d s

P RE ( % )± S


D at a s e  M e h o d  A C C ( /〇 ) ± S D
 ^ S E N ( % ) ± S D S P E ( % ) 土 S D  M C C士S D


°
t t

LP I

D L 8 8 . 1 2土0 5 8 . 9 0 4 0士0 6
. . 1 8 6 . 83 土  1 . 1 5 9 0 . 6 8士0 6 . 1 0 . 7 7 7土 0 0 . 1 


X RP  8 7 I . 0 2士0 3 9 . 9 1 . 5 9± 0 4 8 . 8 1 . 4 9± 0 8 0 9 2 4 9 土 0 4 6 0 7 4 5 士 0 0 0 8
. 
 . . .

m   〇p S
 RP
1 l S


S E 8 6 _ 5 5土0 . 2 1 92 . 23± 1 . 02 79 . 9 8土0 6 7 . 93 . 0 3 ±0 2 9 . 0 . 7 3 7土 0 0 0 3



 .

a mn a
LP I

P re d 8 7 7 . 1 
士0 4 6 8 8 . . 1 2士0 42 _ 8 7 . 0 4 士 0 6 0 8 8 3 2 土 0 4 0 0 7 5 4土 0 0 0 9
. 
 . . . .

LP I -

D L 9 0 . 74±0 ]4 9 1 . 4 8±0 5 9 .
^ 8 6士 0 .
89 9 1 . 6 2土 0 7 . 1 0 .
8 1 5 士0 0 . 1 

X RP  8 9 I . 1 2 土0 3 9 . 8 8 . 8 2土0 4 8 . 8 9 . 5 2士 0 . 80 8 8 . 7 3 土0 4 6 . 0 . 7 83 ±0 . 008

a  m ays  R P I
Zr -

S E 8 9 6 9± 0 . . 5 1 8 9 . 8 8土0 . 5 7 8 9 4 7土0 9 9 8 9 92 土 0
. . _ . 5 7 0 . 79牡0 0 . 1 

LP I

P re d9 0 . 3 3 士0 . 5 48 8 . 6 5 士0 . 5 7 9 2 . 5 1 
士0 . 5 9 8 8 . 1 5 士 0 6 3  0 8 0 7 土 0 0
. . . 1 

4 5 


Pre d i ct i o no f p a n t  o n
gn o n c o
d n
gRN
l l i As i nte ra ct i on sw i th
 p
ro t e i n sb
y
dee
p
l ea r n ng


r



0 4 .


f/

j



Z
 y

A 产 

Pro

p o s ed 
 r /


M e h od t { UC =
 0 94 9 ) k
so


 x

 //

 /  

 Pr o po sed M e hod A UC  t (

 0 97 0 .



  ^


/  
R F  ( AU C =
 0 .
903 ) II —

R F  AUC (
?  0 9 06.



’
z  E T  AUC =

   ET A UC

(  8 80 )

 (


 0 889 
/ 


0 2
    0 2



 OT

/ /

 ( AUC =
 0 864


I 
 DT  (
A UC *
 0 890 

r

M L P  {
AUC =0 . 8 7 2 )  I
 ,
, 

M L P  ( A UC =
 0 96 7 .




Z SVM ( AU C = 0 .
859 )  ’


Z SVM (
A U C ?  0 90 3 .



0 0 .
^ 







0 . 0









0 0

a 2 a 4 0 6 0 8

1 0 0 . 0 0 2 0 4 0 6 0 8 , . .
1 . 

F a se  Pos

i t i ve  R a t e F a se  P os
l i t i veRate


a )  (
b 

1

0   




o


^ 7 



I  /
〇 ,

f


T Z
 :




- 


r^
I  , S  ,


 / 〇 4
Z


0 4

5

1

Z  P r o p os e d  M e t h o d  Auc 0 9


 Pro p o se d M e h o d  t  (
a uc =
 0 94 9 .

)  {  . 7 


, AU C

2
X R P 0 9 6 4 )


 =


X RP l
 ( A UC =
 0 . 9 40 )  I  (  .

^ R P S E AU C ?
0 967
 ? ? -

RP AUC  
— I

0 92 2

SE 







 .

, 

L P

P r ed  AU C =
0 968
L P


Pr e d  A U C * (

0 9 38




 -

I (  .


〇 〇
〇 〇

 0 0 0 2 0 4 0 6 0 8
. . . .
1 .
0   〇 〇 0 2 0 4 0 . 6 0 8 L O

 .

F a { 5?  P os i t i veRa t e  F a l se  Po s i t i veRate



)  (
d 

F g i . 3 . 4R O Cc u rv e sc o m p a r i s o no f d  i ffe re n tm e t h o d s ,

(

)
a n d( c )
o n  A r a b i dop s i s  t h ci l i a n a 


b) . an d  ( d )  o n  Z e a  w ay s  d a t a s e t

T h e  p r o p o s e d  m e t h o d  h a d  t h e  b e s t  p e r fo r m a n c e  w i t hana c c u r ac y o f8 8 . 1 2 % a n d9 0 7 4 %



 .

o nA rab i dop s i st h a l i a n aa n d Ze a  m ay s  d a t as et s . L P I


D Lh a da na v e r a g er e c a l l o f8 6 . 83 %a n d



8 9 . 8 6 % . s l i

h t y o w e r t h a nt h a t o fL P
l l I

P r e d h a th a sam e a no f8 7 0 4


t .
%a n d9 2 . 5 1 %o n

A ra b i d op s i s  h a l i a n a  a n d  Z e a  m ay s  d a t a s e
t t s .  T h eA U C v a l u e so f L P I D La r eb e t-

t e rt h a na l l t he

o t h e rm e t h o d ss u g g e n gt h at  p e r fo r m a n c e  o n


s t i i t a c h e v e d t h eb e s t o v
i era l l t h e
p
re d i c t i o no f

LP I 

3 . 5  S u m m a ry

nt h sc h ap t e r  S V M R F E  a n e rat v e  fe a t u r e  s e e c t o n  m e t h o d  su s e dt oo b t a nt h e




I i . i t i l i i i


pt m a i l  fe a u r e  s e t  A  d e e p 
t . l e ar ni n

b a s e d  fr a m e w o r k  t e r m e d  L P I

D Lb a s e do ns e q u e n c e



i n fo r m at o n i i s
p
re s ent e d . T ot h eb e sto fm yk n o w l ed
ge 
t h ec o m
p ac
tL S
, T Mm o d e l t o
ge
t her

w i t ht h eS V M R F E  fe a -

t u r es e e c t o nm e h o d n h l i t i t i ss t u d


y i st h e  fi r s t  a
pp l i e dt o
p
re d i ct
p
l ant

LP I . T h ea l i
g nm e n

fr e e  fe a t u r e  e x t r ac t i o na
ppr
o ac h e s i m p e m e n t e db yL P I

D Lr e s u l t  n  fa s t
i 

a n da c c u r at e re d c t o n sb a s e do nt h ev e c t o rr e p r e s e n t a t o no fo p t m a s e q u e n c e s B e s d e i s t he




p
i i i l . i ,

4 6




Da l i an  Un i v er s i ty o f

 Te ch n o l o gy

Doc t o r a l  D i s s er t a t i o n


p ar s e
 R N N  e f fe ct v e y  c a p t u r e s  o n g
i l l

ra n g e  c on t e x t u a l  i n fo r m at i o n  T h e r e fo r e  t h e L S T M

 .

bas ed m o de w l i t h  t h e  o p t m z at i o n s  s u r p a s s e s  t h e  o t h e r  p r e d
i i i c t i o n t o o l s  i n  t e rm s  o f


e r fo r m a n c e  T h e  e x

p e r im e n a
t l  r e s u l t s  s h o w e d  t h at  t h e  L S T M b as e dm o de

l w i tha
pp ropr a e
i t


p t m z at o n 
i i i i s  a u s e ful
 p re d i c ti o n  t o o l . Po ss b i l e ext e n s i o n s o ft h i s m e th o d c an i n c ud e
l 

p o r i n g  t h e  a u g m e n t a t i o n  o f  d at a  a n d  n t e g r a t i n g  m o r e b i o o g c a  i n fo r m a t o n  i c
ex l i n u di ng

 l i l i l

s ub c e l l u l a r  l o c a l i z at i o n  a nd enee x r e s s i o n
g p 

47 


P re d i ct o n  o f

 p an t  o n g n o n c o d n g
l l



RN A s n te rac t  i i o n s  w i th p r o t e n s  b y d e e p  e a r n n g


 

l i

4A 
g r a p h  at t e n t i o n  n e u r a l  n e t w o r k  b a s e d  o n  s e q u e n c e  a n d

s t r u c t u r e  fe at u r e s  fo r  I n c RN A -

p ro t e n
i nt e r a c t i o n
p
re d i i cti on

4 . 1 I n tr o d u c t i o n

C o n t e mp o ra r y  m a c h i n e  e ar
n i n g  t a s k s  e n c o un t e r  m u l t i d m en s i o n a
l i l  da t a  r at h e r  t h a n

v e c t o rd at a A mul t i d i m en s i o na c a s s i f
i c a t i o n  p r o b l e m  c o n s i s t s  o f  fo u r  p a r a d i g m s  b i n a r y
. l l
; 

mu l ti c l as s ? m u l t i l ab e l ,  an d  m u l ti di m en s i o n a l .  T h e  d at a s e t  i n t h i s k n d o f  c l a s s i f i c at i o n  i i 

com
p o s e d  o f  i n d e p e n d e n t  an d  d e p e n d e n t  v a r i ab l e s  B i n a ry  c l a s s i f i c at i o n .
,  t h e  m o s t  c o mm o n

p ro b l e m  i n g e n o m e

w i d e  a s s o c i at i o n  s t u d e s i
,  r e fe r s  t o
t h e  p r o b l e m  w h e r e  an  n s t a n c e  h a s  t w o

 i

c l a s s  l ab e l s .  Mu l ti l a b e l  c a s s i f c at i o n 
l i i s  w h e r e  a n  i n s t an c e  m a
y
h a v e  m o r e  t ha n  o n e  a b e l l .  The

nu m b e r  o f  c a s s  l a b e s  an d  t h e  n u m b e r  o  th e  b a s i s  o f  c o m
l l f  t r ai n i n
g  e x a mp l e s  a r e p ut at o n a i 

com
p ex l i t
y  T h u s  c a s s fi c a t o n  a g o r i t h m s  fa c e  t h e  p r i m e  c h a l l e n g e o f  a  a r g e  num b e r  o f


l i i 
l l

fe a t u r e s  w h i l e  t h e  nu m b e r  o f  i n s t an c e s  i ss m al l .  As t h e num b e r  o f g e n e t i c  fa c t o r s  n c r e a s e s  t h e



 i

num b e r  o f  p o t e n t i a l  i n t e r a c t o n s  n c r e a s e s  i n  t h e  s a m e  p r o p o r t i o n  l e a d i n g  t o  t h e  c u r s e  o f
i 
 i

d i m e n s i o n a l it y  p r o b l e m .  T os o l v e  t h i s  p r o b l e m  r e l e v a n t  fe a t u r e s  c a n  b e  s e l e c t e d  at  t h e


p r e pr o c e s s ng p h as e i . T h i s w i l l  re d u c e t hed i m e ns i o n a l i t y o f  t h e  d at a  a n d  m p r o v e  t h e  a b
i i l i t


t o  d e t e c t  ge n o m e  m o e c u l ar  a s s o c i a t o n s l i 

Ad i v e r s e  p o o  o f  s t u d i e s  h a s  n v e s t g a t e d  t h e  e x t r a c t i o n  a n d  s e l e c t i o n  o f  fe a t u r e s  fo r
l i 
 i

s tu d
y n g  i n t e ra c t i o n  p r e d c t o n
i i i . F o r e x am p l e ,  l o c a l i ty
 p r e s e r v n g  p r oj e c t i o n s  ( L P P )  a n d
i 

ocal y c o n s t r a n e d  l i n e a r  c o d i n g  ( L L C )  ap p l y  t h e  l i n e a r i z at i o n  app r o a c h  t o  m ap  b e t w e e n


l i t i

i np ut  s p a c e  a n d  t h e  r e d u c e d  s p a c e  [ 1 1 5 ,
1 1 6 ]  R e c e n t y g r ap h  fe at u r e  l e a r n i n g  h a s  g a i n e d
. l


a t t e n t o n  a m o n g  b o i n fo r m a t c s  r e s e a r c h e r s  [
i i i 1 1 7 ,
1 1 8 ]  It  r e

p r e s e nt s  e a r n n g  b y  e n c o d n g  t o
l i 
 i

p re s e r v e  r e a t o n a l i l  i n fo r m a t i o n  fr o m  t h e
 g r ap
h  T h e  C G R  i s  a n  i t e r at i v e  m a pp n g  t e c h n i q u e
. 
 i

p r o p o s e d b y  J e ffe r y  fo r  t h e  a g n m e n t fr e e  r e p r e s e n t a t i o n  o f  R N A  s e q u e n c e s  [ 9 ] I ti sa




l i 1 1 .

g r ap h c a i l re
p r e s e n t at o n  o f a  s e q u e n c e  w h e r e  e a c h  p o nt  o f t h e  p o t  c o r r e s p o n d s  t o  o n e  b a s e  o f
i  
 i  l

t h e  s e q u e n c e  C G R  e xp o r e s  t h e  e v o u t o n a r y  re
. l l i l a t i o n s h i p s  o f  g e no m i c  s e q u e n c e s  b a s e d  o n

am i n o  a c d  o r  n u c l e o t i d e 

p ro p e r
ti es
 [
1 20] . Un li k e  fe a t u r e  s e e c t o n  a n d  d m e n s o n al i i i l it


re d uc t i o n  t e c hn q u e s  t h at  a i l ter  o r i g n a  r e p r e s e n t a t o n  fe a t u r e  e x t r a c t i o n a nd a g g r e g a t i o n
i l 
 i

hn q ue s s u c h as  s e r a e l  fe at u r e  fu s i o n  c o m b i n e  i n
tec i i l an d
 p ar a
l l
p u t  fe at u r e s  a nd  s e e c t  a  s u b s e t


1 2 1

.  T he a m i i s  t o  o b t a i n  d i s c r i m i n at i v e  fe a t u r e s  a n d  r e d u c e  c o m p u t at i o n a l  c o m p l e x i t y 

G r ap h -

b a s e dm o d e l sarea
pp
l i c ab l ei nre a l

w o r l d  ap p l c a t i o n s  s u c h  a s  s o c a l  a n a l y s i s
i i


fr a u d  d e t e c t i o n  c o m u t e r  v i s i o n  a n d  s o  o n  T h e h  r e p r e s e n t a t i o n  o f  d at a  c ap t u r e s  t h e
p  g r ap 
 .

, ,

s t ru c t u r a l  i n fo r m a t o n  a m o n g  e n t i t i e s  a n d  m i n e s  m o r e  i n s i gh t s  i n t o  t h e  d a t a
i .  F o r  s e q u e n c e  dat a 

nu m b e r s  a r e  d e v i s e d  t o  d e s c r i b e  t h e  i nn e r  s t r u c t u r a l  i n fo r m a t i o n  w h i c h  r e v e a l s  t h e  b i o l o g i c a l

48 


Da li an  Un i v ers i t
y of

T e c hn o l o gy  D o c t or a l  D i ss e r t at i o n
  

i n fo r m at i o n  h i d d e n  b e t w e e n  t h e  n u c l e o t i d e s  T h e  g r a p h i c a l  c u r v e  o b t a i n e d  fr o m  num e r i c a l .

c h ara ct e r
i z at i o n  i s  t r a n s fo r m e d  i n t o  a  m a t r i x  b y  m at h e m at i c a l i nv a r i a n t s  H o w e v e r .

t h e  g r ap h

s tru c t u re  sc o m ex T h ec o mp e x i ty  c an  b e  s o v e d b y  e ar n i n


 ow di mens o n a


p l . l l l
g l i 

p r e s e n t a t i o n s  i n  t h e  E u c l i d e a n  s p a c e  v i a  e m b e d d n g  m e t h o d s  i n c u d i n g  n o d e  a nd  s u b g r ap
re 

h i l

emb e dd i ng .  G r ap h -

b a s e dm o d e l si n c u d e  r an d o m  w a l k  w h c h  u s e s  t h e  s t at i s t c  n e i g h b o r h o o d s
l 
 i i


pp r o a c h  a n d  g r ap
h  c o nv o l u t i o n a l  n etw o r k s  G C N s )  w h (
i ch u s e it e r at i v e  n e i
ghb o r
hood

av e r a
g i n g  fo r
t h e  g r a p h  s t r u c t u r e  fo r  e n c o d n g  d a t a  r e p r e s e n t a t o n s i i .  T w o t ax o no m i e su s e dt o

g r o up  G C
Nne t w o r k  m o d e l s  ar e  sp e ct r a l

b a s e d  a n d  s p at al b a s e d  m o d e i

l s . S p e ctr a l

b ase d

g r a p h  n e u r a l  n e t w o r k s  s t u d y  t h e  c h a r a c t e r i s t i c s  o f  a  g r a p h  i n  r e a t i o n  t o  p o l y no
mi al l


ei
g e nv a l u e s ,  a n d  e i g e nv e c
t o r so f  t h e  a dj ac e n c y

m a t r i x  S p a t a l b a s e d  m o d e l s  fo r m u l a t e  g r ap h
. i 
 -

c o nv o l u t i o n s  b y  a g gr e g a ti n g  fe a t u r e  i n fo r m at o n  fr o m  n e g hb o r s i i .  T he m o de  u l ti l i ze s

f rs t o r d e rand s e c o nd o rd er re l at i o n s h i p s  i n  t h e  g r a p h  s t r u c t u r e
- -

i  

I n  t h i s  c h ap t e r ,  a  g r ap h  r e p r e s e nt at i o n  l e a rn i n g  m e t h o d  i s  p r o p o s e d  . A  GN N  fr a m e w o r k

t e rm e d  GP L PI i sd e v e l o p e d  fo r  L P I  p r e d c t i o n  A  g r ap h i .

b a s e d  fr a m e w o r k  h a s  t h e  a d v a n t a g e

o f  s i m u l t a n e o u s l y  i n c o r p o r at i n g s e q u e n c e  i n fo r m a t i o n  a n d  s t r u c t u r a l  r e l a t i o n s  am o n g d a t a

e ffe c t i v e l
y .  T h e  m e th o d  e mp l o y sL S T M AE   w i t h  g r ap h  att e nt i o n .
F r e
qu e n c yC G R( F C G
R )
i 

u s e d  t o  e x t r a c t  e v o l u t i o n a r y  s e q u e n c e  p a t t e r n  i n fo r m at i o n  o f  t h e  I n c R N A s  t h r o u g h  g r ap h i c a l

re
p re s e n a o n  o  s e q u e n c e s  [
t ti f 1 22

.  T o ful l y e x
p o
i t l A E  fo r  e n li a n c e d  fe a t u r e  l e a r n i n g  g r ap h

 ,

a t t e nt i o n  i s  c o n s t r u c t e d  s i m i l a r  t o  t h e  s t u d y
b y[ 1 23 ]
.  T h e g r a p h  a t t e n t i o n  h e p s  t o  o b t a i n

 l

i n t e r p r e t a b l e  r e p r e s e n t a t i o n s  o f  s e q u e n c e  an d  s t r u c t u r a l m ot i fs .  C o nt r ary  t o  t h e  s t an d a r d

at t e nt i o n  m e c h an i s m  t h at ui d e s  th e  m o d e t od er i v e  c o n t e x t u a  n fo r m a t i o n ra
p h  at t e n on


ti
g
l i
g

u s e s  at t e n t i o n  p a r a m e t e r s  t o  g u i d e  t h e  l e a r n i n g  a g o r l i t h m  t o  fo c u s  o n  t h e  p a r t  o f  d at a  t h a t

o p t i m i z e s  t h e  o bj e c t i v e  fun c ti on . Grap ha tt e n t i o na l s o  i m p ro v e s  i n t e rp r e t a b i l i t


y b y

un d e r s t a n d i n g  h o w  t o  a s s g n  at t e n t i o n  b y  c o n s d e r n g  t h e  v o u m e  o f  av a i l a b l e  d at a  a n d  th e
i 
 i i l

s t r u c t ur e .  M a n fo d  r e g u
i l l ar
i z at i o n a n d  /2 -

n o r m  a r e  a d o p t e d  t o  o b t a i n  d i s c r m i n a n t  fe a t u r e

 i

L o c al
re
p r e s e n a t i o n s  a n d  m i t i g at e  o v e r f i t t n g y p r e s e r v n g  p r oj e c t i o n  sad o
p e
dt oi mp ro ve


t i . i t i i t

e ffi c i e n c
y  a n d  e x t r a c t  t h e  m o s t  r e p r e s e n t a t i v e  i n fo r m a t o n i .  T h e m o d e c apt ure s l l o c al i t


p r e s e r v i n g  an d  r e c o n s t r u c t o n  c o n s t r a n t s  t h at  e a d  t o  b e t t e r  g e n e r a
i i l l i z at i o n  a b i l it
y . I ns
p i re db y

24 a  m it e d m e m o ry B ro
y den F et c he r Go d fa r b S h a nn o  L B FG S) op m i z at i o n


- - - - -

1 l i l l ti
[ ] , (

a l g o r i t hm  o n  t h e  L Rc l a s s fi e r  i s  i m p e m e n t e d  P o t e n t i a l  i n t e r a c t o n s  b e t w e e n  I n c R
i l . i N A s  an d

p r o t e n s  a r e p r e d
i i c t e d b
y  i n t e g r at n g C at b o o s t  a n d  r e g u l a r i z e d  L R b a s e d  o n  t h e  L

BF G S

i th m  T h e  c o n t r
o p t i m i z at i o n  a l g o r i b ut o n s  o f . i  t he p r o p o s e d m o d e l  a r e  t w o fo l d ( : 1
)
m u l t i s c al e

g( L L E )r
 d i v e r s e  i n fo r m a t i o n  a n d  o c a educe s
fe at u r e e n e r at i o n
pro v d e s n e a re m b e d d i n 

g y
i l l l l i

fe at u r e  r e d u n d a n c y , (
2)
g
ra
p h  at t e n t i o n  m e c h a n i s m  e a m s  a r b i t r a ry  c o n t e x t  d i s t r b u t i o n s  fo r
l 
 i

b e t t e r  nt e r r e t ab i t
p i l i



49 


P re d i cti on  o f p a nt
l  l o n g n o n c o d in g
 
RNA s nte r
a ct i i onsw i t h p ro te n s b y d e e
 p  e arn n g


 

l i

4 2 Gr a h b as e d  r e d i c t o n m o d e l s


p p i

End -

t o

end
p
re d i ct i o n  m o d e l s  a u t o m a t i c a l l y  e a r n  l a t e nt  fe a t u r e s  f r o m  r a w  n p u t  d a t a
l i 

S t u d i e s  h a v e  fo u n d  t h a t  a  g r a p h  a l s o  r e fe r r e d  t o  a s  a  n e t wo r k  i s  a n  m p o r t a n t  d a t a  fo r m  fo r

 i

e x  m o l e c u l ar  a s s o c i at i o n s  T h e h gh e r o rd e r nt e r ac t o n s a n d
re
p r e s e nt n g c o m p gr ap h  m o d e 

i l . l s i i i

t a k e  s t o c h a s t c i t y  n t o  c o n s i d e r at i o n  i n  a  m u l t m o d a l  c o n t e x t  I t 
i i i . i se m
p l o y edi nb o m e d c a i i 

t a s k s  s u c h  a s  d r u g d i s e a s e  i nt e r a c t i o n s -

,  P P I s  L P I s  a n d  f un c t
, ?
i o n p re d i ct o n s i .  N e t w o rk

re
p r e s e n t a t o n  e a r n i n g  t h r o u g h  L ap l a c i a n e i g e n m ap s  a nd  m a t ri x  fa c t o r z a t o n  a m  a t
i l i i i

p r e s e r v n g  n e t w o r k  e m b e d d i n g  fe at u r e s  s u c h  a s  d e g r e e

, p
o s i t i o n  an d  n e i g h b o r i n g  n o d e s  t o


a c c u r a t e l y  p r e d c t  i n t e r a c t i o n s  C l a s s i f i c at i o n  i s  p e r fo r m e d  u s i n g  s e q u e n c e  s i m i l a r
i . i t
yn e t
w o rk

a n d  n o d e  fe at u r e s  T h e  a s s u m p t i o n  i s  t h a t  n o d e s  w i t h  s i m i l a r  n e i g h b o r s  i n t e r a c t  a n d  h a v e
. 

s i m i l a r  f un c t i o n s  [ 1 1 7



A d v an c e s  i n  d e e p  l e ar n i n g

b a s e d  m o d e l s  fo r  n t e r a c t i o n  p r e d c t i o n  n r e c e n t  y e a r s
i 
 i i

i n c l u d eus i n
g  g r ap h s
.  GNN re
p r e s e nt s  t he  l e a r n i n g  o f b o t h  g r ap h 

s t ru c t u r e d  an d  s e
q u enc e
 d at a 

T h ed i ffe r e n t  G NN sm o d e l s  ar e


 g r ap h  G C N  G A T  a nd  m e s s a g e  p a s s n g  n e u r a  n e t w o r k s
, ,

 i l


M P NN )
.  G r ap h  c o n v o l u t i o n  i s  a  p o w e r f u l  a n d p o p u l a r  t e c hn i q u e  G r ap h  c o n v o u t o n b a s e d


 . l i

m o d e l s  a i m  a t  l e a r n n g  s p e c t r a l  fi i l terss up p o r t e d  b y  s p e c t r a l  g r ap h  t h e o r y .  Theme t h o d l e ar
ns

mo l e c u l ar  r e p r e s e n t a t i o n s  t h r o u g h  t h e  c o n v o l u t i o n s  o n  t h e h
 g r ap s
.  G A T  s p e c i f i e s  d i ffe r e n t

w e i g h t s  t o  d i ffe re n t  n o d e s  an d  t h e  w e i g h t e d  s um  o f  n e i g h b o r i n g  i n fo r m a t i o n  i s  a g g r e g a t e d 

M P N N  h a s  b e e n  ap p l i e d  i n  d i ffe r e n t  fi e l d s  i n c l u d i n g  NP L  ,
i m a g e  s e g m e n t at o n i
,  an d

m o e c u a r  a s s o c i a t o n  m a p s  T h e  m o d e l  h a s  t w o  p h a s e s ;  t h e  m e s s a g e  p a s s i n g  p h a s e  an d  t h e
l l i . 

re ad o u t
p h as e .  T h e  m e s s a g e  p a s s n g  p h a s e  t r a n s m i t s  n fo r m a t i o n  a c r o s s  t h e  g r a p h  t o  r e a d
i 
 i

embeddin
g s  T h e  r e a d o u t  p h a s e  c o m p ut e s  a  fe a t u r e  v e c t o r  fo r  t h e  g r a p h  u s i n g a  r e a d o ut
. 

fu n c t i o n  t o  m o d e l  t h e  fe a t u r e s  o f  i nt e r e s t 

S e ve ra l r e s e a rc h e r shavepro p o s e d pre di c t o nto o i l s  t h at  u s e


 g r ap h  r e p r e s e n t a t o n  e a r n n g i l i 

H u ange t a l .

p
ro
p o s e d  a  g ap
r h  c o nv o l ut i o n  fo r  I n c R N A m i R N A  n t e r a c t o n s  n a m e d  G C L M I -

i i


1 25

. G C L M I i sd e s i
g n e d  a s  a n  A E  w i t h  a n  e n c o d e r  a nd  d e c o d e r  fo r  p r o c e s s i n g  t h e  r a w

fe a t u r e s  o f  t h e  n o d e s  o n  t h e g r a p h  Z h o u  e t  a l p r o p o s e d  a  h e t e r o g e n e o u s ba s e d n e t w o r k

 . .

m e t h o d  fo r  L P I  [ 5 9 ] .  T h e  m e t h o d  u s e s  o n y  n e tw o rk  s m l i i l ar i t
y  and  n o t  s e q u e n c e  n fo r m a t i i on 

Y an g 
e ta l .

p
ro
p o s e d  a  g r a p h  e mb e d d i n g  m e h o d  fo r h e  p r e d i c t i o n  o f P P I s  [
t t  1 26] .  Them et ho d

em
p o y s  a  s i g n e d  v a r i a i o n  g r ap h  A E  b u i l t  u s i n g  p r o t e i n  s e q u e n c e  i n fo r m ati o n  T o ac hi e v e a


l t .

b e t t e r  e x p r e s s i v e  c ap a b i l i t
y  o f  n o d e s  i n  G N N s  at e nt i o n  m e c h an i s m  c an  b e  n c o rp o r at e d  b y
, 
 i

as s gn n
g  t r a i n a b e  w e g h t s  i n  t h e  a g g r e g at o n  o f
i i l i i  t h e  n o d e s  a s  i m p e m e nt e d  b y  G A T l .  Then t he

w e i g h t s c a n d i re ctl
y  b e  r e p r e s e n e db y at t e n t i o n c o e ff i c i e n t s  t o  g i v e  n t e r p r e t a b i
t i l i t
y  T he
. 

i n t e r p r e t a b i l i t y  i s  a  p r o p e r t y  s u i t a b l e  fo r  d e v e l o p m e n t  o f  m o d e l s t h at  c a n  b e  a p p l i c ab l e  t o

re a l w o r l d  s c e n a r o  T h e  at t e n t i o n  m e c h an i s m  l o w e r s  t h e  c o m p e x i t y  o f  t h e  m o d e  t h e r e b y

i .


 l l

a c h i e v n g n t e rp r e t a b
i i i l i t
y 

50
- 


Da l i an Un i v e rs ity  o f  Te ch no l o gy 
Doc t ora l  D i s s e r t at i o n
 

4 3  S e q u e n c e  a n d  s t r u c t u r e  fe at u r e s  e x t r a c t e d  b y  g r a p h  att e n t i o n n e u r a l

n e t w o rk

T h e p o t e n t i a l L P I sarec o m
p u t e d u s n g a  r e g u l a r z e d g r ap h  at t e nt i o n  n e u r a l  n e t w o r k
i 
 i

m o de l .  T r a n s fo r m a t i o n  m e th o d s  ar e  u s e d  t o  e n c o d e  I n c R N A  s e q u e n c e s  fr o m  nu c l e o ti de s{ A 

U  C G }  an d
, ,   p
ro t e i n  s e q u e n c e s  fr o m  2 0  t y p e s  o f a m i n o  a c d s  {  i A C D E, ,  ? , 
F ,  G H , , 

? 
K L ,  , 
M 

N , P Q R
? , , S 
T ? , V ,  W Y } ,
i n t o num er cve c t o r s  i . Bes i de s ,  str u ct u r a  fe at u r e s  f r o m

 p re di c t e d

sec o n d a r y  s t r u c t u r e s  fr o m  I n c R N A  a nd  p r o t e i n  s e q u e n c e s  a r e  i n c l u d e d .  T hepr op o s e d m e th o d

a s s u m e s  t h a t  f u n c t i o na l l y  s i m i l a r  p r o t e i n s  i nt e r a c t  w i t h  s i m i l a r  n c R N A s I .  B a s e d  o n  th i 

c o nc e
pt , t h e  t ar g e t  n c R N A p r o t e n  p a r t n e r s  a r e  p r e d c t e d

i i .  T h e  fe at u r e  v e c t o r  o f  m  I n c R N A s

an d  n  p r o t e n s  sd e n o t e da s I   an d  P T he ab e l  o f







/  
i i 
{ p

2 3
. . .


m ) { , /^ ,

, /^ ,

, /^ }
? l

i nt e r a c t i o n  b e t w e e n  I n c R N A  / ;  a nd  p r o t e i n  pj  d e n o t e d  a s y ( l h pj)   
i sas s i
g n e d  1  fo r  i n t e r a c
ti on

a n d  0  fo r  n o n

i nt e r a c t i o n  E a c h  I n c R N A p r o t e i n  s am p l e 

i sd e s c r i b e dasa5 22 -

d i m e n s i o n a l

v e c t o r  a s  fo l o w s l 

F 

(
L (l
J ,
P ( Pn ))  (
4 . 1


wh e r e  L ( lm )  i sav e c t o ro fa1 75 -

d i m e n s o n a  fe a t u r e  v e c t o r  a n d  P ip n )  i s  a  3 4 7
i l

dime ns i o na 

fe a t ur e  v e c t o r .  T h e  fe at u r e  v e c t o r  o f  n c R N A  ( L { l m ) )  I i sc o m
p o s e d o f  6 4

d i m e n s i o n  fr o m

FC GR , 1 0 6

d i m e n s o n  fr o m  k m ox  ( 6 4  fr o m  t r i n u c e o t d e

l i
, 
3 2  fr o m
 g ap p e d  A :

m er 5 
a nd  1 0  fr o m

reve rs at ur e s
ec o m
p l e m e nt ) , a n d  5  s t ru c t u r a l  fe 

1(
4 ,
)

(






“ " ,
1 7 5 )  (
4 2)


T h e  fe a t u r e  v e c t o r  o f p r o t e n  ( P (p 

f 1 ) )
i sc o m p o s e d  o f  3 2 0  B P F s  fr o m  p r o t e i n  s e q u e n c e s

an d  2 7  s t r u c t ur a l  fe a t u r e s  r e p r e s e n t e d  a s  fo l l o w s 

P P { n )

i Pv P2 ^

PM l )  (
4 - 3


T h e  m a n  p r o c e d u r e  foi l l o w e d  b y  t h e  p r o p o s e d  m e t h o d  i s  s um m a r i z e d  a s  fo l l o w s  f i r s t :


s e l e c ti n gp o s i ti v e  an d  n e g at i v e  e x a m p e s l
,  t h e n  e xtr ac t n gc o m p

i l e x  fe at u r e s ,  an d  f n a i l l


bu i l d n g  t h e  m o d e l  t o  p r e d i c t  L P I  p a
i i rse ffe c t i v e l y . F C G R A ,

m er ,  a n d  R N A F o d  ( fo r

 l

p r e d i cti n g  s tru c t u r a l  fe a t u r e s )  a r e  u s e d  t o  e x t r a c t  fe a t u r e s  fr o m  I n c R N A s  B P F  and  S S P r o  ( fo r


p r e d i c t i n g  s e c o n d a r y  s t r u c t u r e )  a r e u s e d  t o  e x t r a c t  fe a t u r e s  fr o m  p r o t e i n  s e q u e n c e s  G r ap


h .

at t e n t i o n  L S T M AE -

i s  u s e d  t o  l e a rn  h i
gh

l ev e l ab s tr actre
p r e s e nt a
ti ons . I nt hee n c o d e r , 
L S TM

i s  u s e d  t o  r e a d  th e  i n
pu
ta n d  e n c o de  i tt o  a  fi x e d  d i m e n s i o n a l  v e c t o r .  Ano t her L S T M de c o d e s

h e  o ut
pu
h e  v e ct o r Mu e r si n c l u d i n
g RF  c at b o LR  an d  XGB  ar e  ste d


of te
t 
p ec as s fi o st
t  t l ti l l i

, , , ,

 T oe x p p e  c l a s s i f i e r s  t h e L R  w
t o  f nd  t h e  m o s t  a c c u r at e
i . l o i t t he s t r e n g t h o fm u lti l i th

 ,

B ro y d en F -

l e t c he r

Go l d fa r b -

S h a nn o  ( L B F G S )a g o r

l i t hm  a n d  c a t b o o s t  a r e  c o m b i n e d  fo r

5 




P re d i ct i o n  o f
 p
l a nt  l o n
g n o nc o d ng



RN A s  i n t e r ac t o n s  w i i t h
 p ro
te i n sb
y
d ee
p  e a rn n g



pred i cti on .  T h ep re d i c t o n so ft h ei n d i v


i i dua l m o d e l sa r ec o m b n e db i
y  m aj o r i t
y
vot n i
g , a

non -

tr a n a b e  m e t h o d  t o  o u t p ut  L P
i l I m at r x  M i

.  T h e p r o p o s e d m e t h o d i ss h o w n nF g i i . 4 . 1 

Pr ed i c t i on



  

r  i



S   D 
ee e a r ni n mo de
mc
l l

I f e

uenc eS t t ura l  fe a t ur e s ! p g
| 

 
b c R NA  P ro t
on
 A


n c R NA

s e uenc e


q ;
 I

1  n  0

. . . 0 1


I !

上丄丄二丄   ^

A C W A C G C U G AA T

. . . …
+ :


[ J UU U C A C A A 

 




  I


C GC l: … C GCU D

^


 二 二 二 二 二  
 |

      m
? ?


Pro t e s e ue n c e 〇 〇 0 1
q |



斗
  
M M K …N  Q S PYP T
Q VA … 丨
I ncR A Pro t e i n



_
s tr u c ture
^  s tr uc u r e c t 

?  !




h / c h |

 j !
C l a c au on
 


J ;  !
a l
go
r i t hm
 

F g 4 F o w c h arto f h ep r o
p o s e dm e t h o d


i . . 1 l  t

4 3 1 G r a ha t t e n t o nn e t w o r k


p i
. .

D e e pn e u r a n e l t w o r k s n c re m e n t a i l l
y  l earn h i
gh

l e ve l a b s t rac t  fe a t u r e s a o n g w l i t 

mu l t i

l e a y e r s I nt h
l . i ss t u d y t heL S ,
T MA Ew i t h
g
ra
p hat t e n t o n i i si m p e m e n t e d( F g 4 2 )
l i . . 

B ys t a c k i n g a y e r s l
, t h en e t wo r k r a v e r s e st
t h e l en

t ho f t h ek e r n e t o l l e a r nm o r el o c a s p a t a l i 

i n fo r m a t o n  i . However , t h en e t w o r kc o m p l ex i t


y n c r e a s e sd u et om a n yp a r a m e t e r sg e n e r a t e d
i 

dur n
g r a n n g
t i i i
, c au s i n
g
t h e m o d e l  t o o v e r f i t an d h a v ep o o rg e n e r a l i z at i o na b i l i t
y . Th i 

b o t t e n e c k l i sm i t i
ga ed
t  b y i m p o s n g  c o n s t r a n t s  o n  t h e  n e t w o r k  t o  r e m o v e  r e d u n d a n t
i i

co n n e c t o n s an d u n n e c e s s a r yn e u r o n s  t h r o u g h re g u a r z a t o n
i l i i .  /

no r m  a n d  m a n fo d

 i l

re
g u a r z a t o na r e m p
l i i i l e m e n t e dt o p r o m o t e s p a r s i t
y  fo r  t h e  n e u r a l n e t w o r km o d e l .  T h e/2 n o r m

 -

c o n s t ra nt i i saw e i
gh t

d e c ayr e g u a r z a t o n m p o l i i i se do n t h em o d e l

p a ram e t ers . M a n i fo l 

re
g u a r z a o n
t l i i i s  i m p o s e do nt h eo u t p u to fth en e u r a l n e t w o rkm o d e l  t h ro u



l oca l i t


re s e rv n
g i
c o n s t ra i nt s . O t h e rr e g u l a r z at i i o nm e c h a n i sm s  i mp l e m e n t e d n c u d e

 i l

dro
p o u ta n
de a r l
ys t o p p n g
i . T h eL S T Ma r c h i t e c t u r ec o n s i s t so f r e c u rr e n t l
y c o n n e c t e dn e u r o n s

ca l l ed  m e m o r y c e l l s . A  m e m o r y  b l o c k i s  c o m p o s e d o f n p u t i
, o u t
p ut ,  a n d  fo r g e  g a t t 

mu c at i v eu n 2 7 ]  I n  t h e  L S T M  e n c o d e r  i n p u t  fr o m  t h e  e m b e d d n s  fe d nt o


g a ye
t t s 1 r
l i
p l i i
[


i l i i

a c k e d a y e r s t o o n s  t h a t  a r e  fo r w a r d e d  t o  t h e  g r a p h b a s e dat t e n t o n
st
g e n e r a t e r e p r e s e n t a t 

l i i

l ayer . T h i sr e
pre se n a
t t o n i i st h e nd e c o d e dt h r o u
g ha nL S T M l a y e r t o r e c o n s t r u c t t h e n
p ut

 i

A s e
g h /  c a nb e  re p r e s e n e d a s 
se
q uenc e q u e nc e
So f e n t . t S ={入  l
丨 丨

? ? ?

? }
, wh e re入 ,
i st he

52
- 


Da l i an Un i v ers i t
y of
 Te c h n o l o gy  D o c t o r a l  D i s s e rt a t o n

 i

tl hn u c l eoti d e T h em e m o r yb o c kc o m p u t e sah d d e nv e c t o rh


. l i
t atat i m es t e p t o ft h ei np uts 

a s  fo l l ows 


f 

ls t m{h





)  (
4 4 ) .

m e m o r y  n F g 4 2 W L S T Me n c o d e rwe g h ta n db


1 '

p res en
w h e r ec i st h ec e l l  . I i . .


. b r e t s i i as

a ° °


aram e t e rs ; b  fo r  t h ea t t e n t o n a y e r i l
, a n dW , 
b f o rth eL S T Md e c o d e r 

 G

h a ttenti on 

ra



p 



! 〇 ^ i !  Tn  s


〇 i  〇 

£ m b e d d ic
Q     Q

/ ■


  一





   丨
 J i

 : rr 

En co d er  D e c o d er

F i

. 4 . 2G r a
p h
A t t ent i o n Neu ra l  n e t w o r k a r c h i t ect ure

T h ee n c o d e r  i n m y  m o d e l  i s m u l t i l a y e r e d t o  n c r e a s e  l e a r n n
gc ap a b i i i l i t
y T h e  n u m b e r  o f


a y e r so f t h ed eco de ri ss m a rt ot h o s eo ft h ee n c o d e r T h eg r a h a tt e n t o n a i l a
ye rex p l i c i t l





 i i l . l

as
g n s
d ffe re n t m p o r t a n c et on o d e sw h nan e i g h b o r h o o d  t hu s  l e v era
g i n gs e f a t e n o na -

s i i i i t i ,
t t l i 

l a
y e r s I  nt e g r a e s g r a p h s r u
t .t ti c t u r ea n dn o d e

l eve l  fe a t u r e s  b y  w e g h t n g  n e g h b o r  fe a t u r e i i i 

w hn o rm a o n T h es e t u h  a t t e n t o n  m p e m e nt e d  n  t h u d y fo o w st h e


po f h eg r a p ss
t zat t i t 


i l i i . i l i i l l

w o r ko f  Ve l i c ko v i ce ta l .

[
1 2 8

. L e tas e

u e n c ese St h ath a sb e e n
p
a s s e dt h r o u
g ht
h eL S TM

l a y e r  b e  t h e  n fo i r m a t o n  fr o m  n e g h b o r s  o f  n o d e s  n  t h e  s e q u e n c e  A n  a t t e n t o n  m o d u e  A 
i i i . i l i 

u s e d t o g a t h e r o c a l l  i n fo r m a t o n  fr o m  t h e  n i e i
g hbo
rs  o f T h eg r a p h at t e n t o n a y e r

 i l

e e n t e d b
y  fo m u a4 5 su s e dt o o d u c e  t h e h i d d e n r e p r e e nt a t i o ns
p re
r s r r s
p
l . i 

k y

A =
 a t te n t i on^ x Wq ^
x W 9
x f V )  (
4 . 5


m e n s o n a  fe a t u r e  v e c t o r  r e p r e s e n t e d  b y  F  n  F o V  a n dW


w h e r ex i s  a  c/ 

d i i l i r m u a( 4l . 1
) , I ,

a r e t h e at t e n t i o nw e g h tm a t r i i c es  . A tt e n t o n  w e g h t  m e a s u r e s  t h e  a s s o c a t o n  o f a  r e a t o n  kn  t o
i i 
 i i  l i

h e n p utq na n do u t p utv D u r n the ar am e t e r s o f t h e n e u r o n s a r eu du s n g


gt r a n n g  p d at e 

t i
p
i . i i i

, 7

l o s s  c a c u a t e d  fr o m  t h e  d ffe r e n c e  b e t w e e n  t h e  t a r g e t  s e q u e n c e  a n d  t h e  p r e d c t e d  s e q u e n c e
l l i i 

G i v e n x  n p u t  a n d i  xe x p e c t ed o u t
pu

,  t h e  o b e c t v e  o fth e tr a n n
j g
i i i
 i s  t om n m i i i ze

r eco nstruc t i o ne rror


(
L )d e f n e da s i 

L ( x夕>




| 「  (
4 6)


5 3
- 


P re d i cti o n  o f
p l an t
l o n g n o ac o d n g



RN A s  i n tera c ti o n s  w i t h
 pro
te i ns  b y d e ep  
l e ar n i ng

T h e  hi n g e  o s s  l i s  u s e d  t o  m i n i m i z e  t h e  r e c o n s t r u c t i o n  e rr o r .  T h e  l o s s  f un c t i o n  p e n a l i z e s

i n c o rr e c t  a nd  l e s s  c on f i d e n t p r e d i c t o n s 

, 
i ti sd e i n e d  a s  fo
f l l ows 

o ss  y^ m ax 0
乂
*h
x  4 7)

l l

 ( ,
0 ( ,
) ) ( 

whe r e  i s  t h e l ab e l s sthei n p u t  fe a t u r e  v e c t o r  A pp he
, 
x t 

, h (
x / )
i sth e
 p re d c t i o n i .  l i c at i o n  o f  t 

at t e n t i o n m e c h a n i s m  fo r c e s  t h e  m o d e  t o  e a r n  t h e  m o s t  m e a n i n g fu l  i n fo r m a t i o n  i n  t h e

 l l

n e g h b o r s  a n d  o c a l  e nv i r o n m e n t
i l . Th i s  h a s  p e r fo r m a n c e  g a i ns  fo r  t h em o d e l .  The

h y p e r p a r a m e t e r s  t h a t  w e r e  o p t i m z e d  fo r  t h i s  t a s k  d u r
i ng  t he  t ra ni n g  o f i i  t h e  m o d e l  i n c l ud e  厶

re
g u a r z at i o n l i
,  l e a r n i n g  r at e ,  d i m e n s i o n  o f  t h eh i d d e nl ay ers ,  d i m e n s i o n  o f  th e  c l a s s i fi e r ,  an d

t h e  num b e r  o f a t t e n t i o n  h e a d s  

4 . 3 . 2  C l a s s i fi e r  c o n s t ru c t i o n

Too bta i n a c c u r at e  a n d  r e l a b e  e x p e r m e n t a i l i l re s u l t s ,  an e n s e m b l e  c l a s s i fi e r  i 



c o n s tru c t e d .  P ar am e t e r s  o f  t he c as s l i fi c at i o n  a l
gor i t h m s  ar e  o p t m z e d  a n d  t h e  p e r fo r m a n c e  o f
i 
 i

t h e  c a s s i f i e r s  a r e  c o mp a r e d  w
l it ho th era g o r l i t h m s  o n  t h e  s a m e  d at a s e t  T h e  n t e r m e d a t e

 . i i

re
p r e s e nt at i o n o f  d at a  i s  d o n e  t h r o u g h  fe a t u r e  e x t r a c t i o n m e t h o d s  t o  e n a b l e  c l a s s i f i c at i o n

a l g o r i th m s  t o  p r e d i c t  o u t c o m e s  A  fe a t u r e  v e c t o r  o b t a i n e d  f r o m  fe a t u r e  i n t e g r at i o n  p r o v i d e s
. 

c om
p l e m e nt a r y  i n fo r m at i o n t h at  n c r e as e s  a c c u r a c y  an d  r o b u s t n e s s
i .  F e a t ur e  f u s o n m ap p i n g  i  i 

a c h i e v e d  b y  m a th e m at i c a y c o mb i n i n g  F C G R k mer  b i n a r y  p r o f i l e ,  a n d  s t r u c t u r a l  fe a t u r e s

l l 

, ,

F C G R  e x t r a c t s  e v o l u t o n a r y  i n fo r m at o n  b y  c o un t n g  th e  A m e r s  i i i :

i . e . w -

t up l eo rw

g r am  o


n u c l e i c  a c i d  o r  am i n o  a c i d  s e q u e n c e s  [ 1 22

.  U n l i k e  o t h e r  s e q u e n c e  a n d s t ru c tu r e  e n c o d i n g

m e t h o d s  s u c h  a s  F o u r i e r  T r an s fo r m a t i o n , F C G R ge n e ra t e s fr ac t a l s  fo r  v i s u a l  e n c o d i n
g  The
. 

fo u r  R N A  n u c l e o t i d e s  ar e  r e p r e s e n t e d  b y  r e c t a n g u a r  c o o r d i n at e s  ( A l :




, C ;




,  G : l

l  an d

U : l



. T h eC GR  p l an e  i s  p ar t i t i o n e d  i n t o  a  p r o b a b i l i t
y  m at r i x  o f  8
><

g
r i d s  fr o m  w h i c h  t h e

a v e r a g e  c o o r d i n at e s  o f e a c h  g r i d  a r e  c a l c u a t e d  T h e  m at r
i x  l . i sre s ha
p e d toa 6 4

d i m en s i o n al

fe a t u r e  v e c t o r  T h e  L L E  i s  a d o T h ec o nc e

p t e d  t o  r e d u c e  t h e  fu s o n  m ap p n g  d m e n s o n i i i i .

pt o f

L L E a ,
l i n e a r  m a n i fo l d  l e a r n i n g  a g o r i t hm  l

i s  t o  e x t r a c t  r e l e va nt  c o r r e l a t i o n  i n  th e  fe a t u r e


p a c e  r e t ai n v ar i a b i l i t y  a n d  d i s r e g a r d 
, ,
i rre l e v a n t  fe a t u r e s .  I t  e x t r a c t s  nt r n s i i i c  s t ru c tu r e 

p r e s e r v e s  t h e  n e i g h b o r h o o d  c o r r e at i o n l
,  a n d  s y m b o l i z e s  a  l i n e a r  e s t i m at i o n  o f  t h e  n o n l i n e a r

L ap 2 9 ] L etamatri xXo fn o nv e c to r sb ed en o te dasX



a c i a n  e i g e nm a di m en s i x
p s[

l 1
[

i 

X2 ? 
. . .

? 
xn ] .  E a c h  t r a n n g  s am p i i l ei sd e n o te da sx , w herei

1 ,
2 5
. . .

? 5 s e ek^ ne a r e s t  n e i g h b o r s

an d  r e p r e s e nt  t h e m  a s  a  m a t r i x  j  o f  n ^ k  d i n e n s i o n s i .  T he  s e l e cte d  fe at u r e s  e n h a n c e


i c at i o n  T w o  c l a s s i f
c l as s i f i e rs .


L R  a n d  c a t b o o s t  a r e  n c o r p o r at e d i .  F o r  th e  L R  a g o r i t hm l

i ts

B F G So pt m
' 

i m p l e m e n t at i o n  w a s  d e p e n d e n t  o n  t h e  L -

i i z a t i o n  a l g o r i t h m  u s e d  a s  th e  so l ver

p a r a m e t e r  a n d  o t h e r u s e r d e f i n e d p a r am e t e r s  s u c h a s m u

l ti c l as s .  F o r  c a t b o o s t  a  g r a d i e n t ,

b o o s t i n g  a g o r i t h m  t h e  i m p l e m e n t a t i o n  w a s  b a s e d  o n  p ar a m e t e r s  s u c h  a s  i t e r a t i o n s  d e p t h

, , 

l e a rn i n
g  r at e ,  a n d  l o s s  fu n c t i o n  . Th em o d e l s  i t e r at i o n  p a r a m e t e r  i s  u s e d  fo r  i t e r a ti v e  tr a i n i n g

5 4 


Da l i an  U n ve r s ity o f


T e chn o l o gy  D o ct o r al  D i s s e r t at i on

o f  n  l e a r n e r s  t o  r e d u c e  p r e d i c t i o n  e rr o r  T h e  o u t p ut  fr o m  t h e  t w o  c l a s s i f i e r s  i s  c o m b i n e d  b y

 .

m aj o r i t y  v o t i n g  T h e  i m p l e m e n t at i o n  s t e p s  fo l l o w e d  b y  t h e  p r o p o s e d  m o d e l  a r e  s u m m a r z e d
. 
 i

i n  A l g o r i thm  4 . 1 

A l
gor i t hm  4 . 1
p
s e u d o c o deo f  G P L P I

In
put 

L { lm ) : s eto f m I nc R
 NA s e qu en c e s

P pn )
{  ; s eto f n 

 prot e i n s e que nc e s

T :  n um b e r  o f s t a c  ked  Au t o E nc o d e r s

R :  nu m b e r  o f  i t e r at i o n s  ( e p o c h)

Wa , 
ba \  at t e n ti o n  p ar am e t e r s

O u tp u t 

P re d i c t e d  L P I  m at r i x


S t e p1 I nit i al z e  t r a i n i n g  e x a m p l e s  l a b e l s  (y ( l b 0
: i
Pj ) ) 

F o r? =
1t o T do

For oRd o

 r lt 

M i n i m i z e  t h e  r e c o n s t r u c t i o n  e rr o r  u s i n g  fo r mu l a  ( 4 6 ) .

End

End

G e ne ra t eI n c R NA a nd  p r o t e i n  fe a t u r e  d e s c r i p t o r s

S t ep 2 :  F ne i

t un e  t h e  a r c h i t e c t u r e

d o

F o r/

1 t o7 

For oRd o

 r l t 

M i n m z e  t h e  h i n g e  l o s s  u s i n g  fo r m u l a  ( 4 7 )
i i .

E nd

C o m p u t e  fe a t u r e s  F   ̄

{
L Qm ) , 
P { pn ) )

E nd

U pda t etr ai n i n g  e x am
p e s  iy i l ^

pj) )

Step 3 :  P re d i c t  c l a s s  l ab e l s  o f  t h e  t e s t  d at a s e t  b a s e d  o n  e n s e m b e  v o t i n g

 l

4 3 3  I m l e m e nt at i o n  a n d a r am e t e r  s e t t i n g s


p p
. .

I n  t h i s  w o rk ,  a  d e ep  l e ar n i n g  m e t ho d  t e rm e d  G PL P I i s
 p r o p o s e d  a n d  u s e s  Z e a  m ay s  a n


油 似  d at a s e t s  fo r  e v a l u a t i o n S e q u e n c e  a n d  s t r u c t u r a  fe at u r e s  a r e  c o m b &
. 
 l

fo r  t h e
 p re
d c t o nt a s k
i i .  T h e  h gh i

l e v e l  a b s t r a c t  fe a t u r e s  a r e  e x t r a c t e d  u s i n g  t h e  DL  m o d e land

fe d  a s  t h e  i n p u t  fo r  t h e  c l a s s i f i e r  T e n s o r F l o w  l i b r a r y i s  u s e d  fo r  i m p l e m e nt a t i o n  F o r  t h e
. 
 .

ar c h i t e ct u re L S T ,
M i ss e l e c t e d  fo r  t h e  e n c o d e r  a n d  d e c o d e r  C h o o s i n g  p a r a m e t e r s  t h at  s e e k  t o
. 

i ndg o b a o p t m a
f l l i i sas i
g n i f c a n t  p a r t  o f  t h e  m o d e l  t r a n i n g  p r o c e s s  T h e  p a r am e t e r s an d
i i 
 .

5 5 


P re d i ct i o n  o f
 p
l antl o n
g n onc od ng



RN A s i nt e r ac t o n s  w i i t h
 p ro
te i n sb
y 
dee
p  earn n g


l i

h y p e r p a r a m e t e r s  fo r  t h e  p r o p o s e d  d e e p  l e a r n i n g  m o d e l ar e  s e l e ct e d  af
t e r  an  e x t e n s i v e  s e a r c h

fo r  o p t i m a l  c o m b i n at i o n s  o f
 p a r a m e t e r s  s u c h  a s  t h e  ac t v a t o n  f u n c t i o n i i
, 
t h e  n umb e r  o f h d d e n

  i

l a y e r s  a nd  t h e  o t i m i z e r  I n  t h i s  e x p e r m e n t

p . i
,  Re LU i s  u s e d a s  the  a c t i v at i o n  fu n c t o n i
,  A d am

a s  t h e  o p t i m z e r  a n d  h n g e  a s  t h e  c o s t  f u n c t i o n  T h e  R e L U  a c t i v at i o n  f un c t i o n  m a n t a i n s  a


i 
 . i

s tab l ec o n v ergen c es p e e do fth em o d e l .  O p t m za t o n  a m s  a t  f


i i n d i n g  p a r a m e t e r s  fo r  r o b u s t
i i i

tr a i n i n g  a n d  fa s t  c o nv e r g e n c e .  T om n m i i i z e  l o s s  e rro r ,  A d am opt i m i z e r  i s  s e l e c t e d  b e c au s e  i 



h a s  a n  m p r o v e d  ab i i l i t
y t o h and e  no l i s eb
y c o m
b nin
g ro o
i t  m e a n s
q u ar e  p r o p a g a t i o n


RM S P r o p )
o p t i m z at i o n  a s  a  g r a d i e n t  d e s c e n t  a n d 
i A d ap ti v e  G r ad i e nt  ( A d a gr a d )  a l g o r i t hm s


1 3 0] .  T he m o d e  l l e am s  t h e  w e i g h t  an d  b i a s  p ar am e t e r s  d u r
ing trai n i ng . Th e l i st o f

hy p e r p ar am e t e r s  r e p r e s e n t i n g  t h e  e x t e r
na l c o n fi g ur at o n s i
, s u c h  a s  t h e  n umb e r o f h d d e n  a y e r s

   i l

a n d  a c t v at i o n  f u n c t i o n  fo r  t h i s  p r e d i c t i o n  t a s k  s r e
p o r t e d  i n T a b  4  Th es c k e a rn


i i . . 1 . i i t l

p ac k ag e  w a s  u s e d  t o  m p l e m e nt  t h e  c l a s s i f c at o n  a g o r
i i i l i t hm s 

T ab .  4 . 1  P a r am e t e r  s e tt i n
g s  u s e d  fo r  G P L P I  m e t h o d

P a ra m ete rs R ange



Ac t i v at o n i ReLu

We i
gh t n i i t i a l i ze r G l o ro t n o rm a -



We i
g h tre g u a r ze r
l i
h

E p o c h 1 00

H i d d e nn e u ro n s  25 6 , 1 2 8an d6 4



B at c h  s i ze  50

D ro p o u  t 0 5 .
, 
0 6 .
, 
0 7

 .

Op t i m ze r i Ad am

L o s s  fu n c t o n  H i i n ge

L e a rn i n g  r at e  0 5 .

1 . 0 , 
2 0

 .

4 4 . .  E xp e r i m e nt a l re su l t s an dd i s c u s s i o n

T h e  p e r fo r m a n c e  o f G P L P  Ii s e v a l u a t e d  u s i n g  t w o  d at a s e t s  F i g .
. 4 3s ho w st h eo v e ra l
. 

fi ve fo l d  c r o s s v a l i d a t i o n  r e s u l t s  o f  G P L P I  o n  t h e  t wo  d a t a s e t s A r a b dop s s  t h a l i a n a  a n d  Ze a


- -

i i
, 

m ays .  GPLP I
 p e r fo r m e d  b e t t e r  o n  t h e  Ze a  m ays  d a t a s e t  b e c a u s e  t h e  s i z e  o f  t he  d at a  w a s  m o r e

h a n  t h a t  o f A r a b i dop s i s  t h a l i a n a Th e h o d  o b ta n e d  8 5 7 6 %  ac c u r a c y 42 %


ro
p o s e dm e 8 8
t t
p
 . i . .

p re c i s i o n , 8 2 4 . 1 %s e n s it i v i ty  8 8 9 7 % sp e c i f

. i cit
y , 7 1 . 7 1 %M C C , 
9 L 1 3 % A U C ? an
d9 3 4 * 1 

a ^o
A U P R C o n j r Z

^ 妨  d at a s e t ? 丁 hem e tho do bt a n e d9 i 1 . 97 % ac c ur a c y , 9 2 2 0 %

 .

prec i si o n 9 ,
1 . 70 %s e ns it i v i t
y 9 2 2 4 % sp e c i f c ity

. i
, 8 3 . 94 %M C C , 9 7 . 76 %A U C , a nd9 7 . 94 

A U P R C  o n Ze a  m ays  d a t a s e t  T h e  p r o p o s e d  m e t h o d o b t a n e d  a c c u r a c y  w i t h  a  s t a n d a r d
. 
 i

d e v i at i o n  o f  2 0 5  a nd  0 44  fo r  t h e  A r a b i dop s i s  t h a l i a n a  a n d  Ze a  m ay s  d a t a s e t  r e s p e c t v e y
. .


i l 

56 


Da l i an Un i ve rs i t
y  o f T e c h n o o gy  D o c t o r a
 l l  D i ss e rt at i on

F r o mt h er e s ult s ,  t h e  p r o p o s e d  m e t h o d  e ff i c i ent l


ye x t r a c
t sm e ani n g fu l  i n fo r m a t o n  fo r

 i

pre
d ct o n
i i .  Th i s  i n fo r m a t o n  w h e n  u s e d  fo r  c
i l ass i i c a t o n p r o d u c e d g o o d r e s u
f i l t s 

Zea  m ays  麗  Ar a b dop s s  th ai i i an a


i 

1 0 0

I  


| 
1 1

 I 

i r
 


f |

I 






J  m ?


o

A CC  P R E  S E N  S PE  M C C  ALX :

E va l u at i on  I vl e t r i c s

F g i . 4 . 3P e r fo r m a n c eo f  t h ep r o p o s e dm e t h o do nt w op a n ts p e c l i es



4 4 . . 1  Ab l at i o n  s t u d y

T h e p r o p o s e d m o d e l e xt r ac t se ffe c t v e  s e
q u e n c e  a n d  s r u c u r a  fe a u r e s  w h
i t t t l

i c h  a r e  fe d  a s

i n p u t  fo r  t h e  n e u r a  n e t w o r k  a g o r i t l l l i m  T o  v e r fy  t h e  c o n t r b u t o n  o f  t h e  fe a t u r e  e x t r a c t o n
. i 
 i i i

m e t h o d s  a n  a b at o n  s t u d y 
, l i i s
 p e r fo r m e d  b y  t e s t n g  d ffe r e n t  s e t t n g s  T h e  b a s e i i i . l i n ec l ass i f
i ers

o ft h eG P L P I m o d e  a r e  t e s t e d  o n  d ffe r e n t  s e t s  o f  fe a t u r e s  T h e  a m  w a s  t o  s t u d y  h o w  t h e


l i 
 . i

g r a p h b a s e d  fe a u r e  e x r a c

t t t o nm e t h o d i
, F
C GR , k

me i \s t ru c t ura l  fe atur e s


, a n dt h e i ri nt e gr at o n

 i

co n t r b u t e  t o  m o d e  e ffe c t v e n e s s  T a b  4 2  s h o w s  t h e  r e
i l i . . . s u l t so ft h ed i ffe r e n t  fe a t u r e
g r o up
s 

T h eh i

h e r  v a u e  r e p r e s e n t s  a  b e t t e r  p e r fo r m a n c e  fo r  t h e  e v a u a t o n  m e t r
l l i i c s 

Tab . 4 . 2  P e r fo r m a n c e  c o m
p a r i s o n s  o f d ffe r e n  p r e d
t  i i c t o r so n  d ffe r e n t  fe a t u r e  g r o u p s  o n  Z e a
i 

m ay s  d a t a s e t
 ̄  ̄ 

Fea  ACC S EN % % M C CA U C


°
Pre d i ctor t u re s

/〇 ) ( )
S P E ( )

L R F C G R 7 4 . 07 5 3 . 5 8 94 . 5 5 0 . 5 2 8 0 .
8 1 

C at b o o s t F C G R 7 4 . 02 5 2 . 79 9 5 . 2 6 0 . 5 3 3 0 . 843

D P LP F C G R I 7 4 0 7 5 3 . . 5 8  94 .
5 5 0 . 5 28 0 . 8 5 6

D P L P  F C G R + k m e r 9 2
I . 2 8  92 40 . 9 1 . 42 0 . 83 2  0 97 8
.

DPLP I  F C G R + k m e r+ S S 9 1 . 97 9 1 . 70  92 24 . 0 . 8 3 9 0 . 97 8

5 7
- 


Pre d i ct i o n  o f p ant  o ng n o n c o d i n g  RN A s  n t era c t i o n s  w i t h pro t e i n s  b y d e ep  e a rn n g
l l
 
 i
 
l i

F r o m  t h e  re s u l t s  in  T ab . 4 2  the
p
ro.

p o s e d  m e t h o d  y i e l d s  t h e  p e r fo r m a n c e  o f  a c c u r a c y
, 


A C C 9 )
1 . 97 % ,  w h e n  s t r u c t u r a  fe a t u r e s  a r e  n c u d e d  w h l i l i c h i s  s l i g h t l y  l o w e r  t h a n  w h e n

F C G R  a n d  ^ m e r  a r e  u s e d  Wh e n F C G R -


? A :

m e r  a n d  s e c o nd a r y  s t r u c t u r a l  fe a t u r e s  ( S S )  a r e


c o m b i ned ,  t h e  p e r fo r m a n c e  m p r o v e d  b y  a p p r o x m a t e y  1 i i l 7 % i n  t e rm s  o f  a c c u r a c y  a n d

1 6 %  n  t e rm s  o f  AU C  th an  w he n  o n F C G R sus e d T h er ew a sas ht



pp r o x m a e y 
t i l i l i 

i l
y g

n c r e m e n t  n  p e r fo r m a n c e  w h e n  s t r u c t u r a  fe a t u r e s  a r e  a d d e d  t o  F C G R  a n d ^ m e r  w ha n


i i l i t

a p p r o x m a t e l y  0 8 %  i n c r e a s e  i n  s p e c i f i c i t y  and  M C C  w h i l e  AU C  i n c r e a s e s  b y  a p p r o x i m a t e y
i .


 l

0 03 . % .  T h e  p e r fo r m a n c e  m p r o v e d  n  t e r m s  o f i i  e ff i c i e n c y  w h e n  t h e  m a n i fo l d  r e g u a r i z a t i o n  i s

 l

 O v era

p h  at e n t o n o s sf
em l oye d l l t h e p r o p o s e d  m e th o d s
g
ra i l ii n ct i o n an dre

u ar z at o n
l 
 i i
p  

, , ,

e ffe c t i v e l y  i m
p ro v e
t h e  m o d e l  p e r fo r m a n c e 

4 4 2  C o m p a r i s o n  o f d i ffe r e n t  c l a s s i f e r s
. . 
  i

S x  c a s s c  m ac hi n e
i l i

l e arn i n
g a go r
l i t hm s  a r e  t e s t e d  i n c u d i n g  L R l
, c at b o o s t , 
RF , 
XGB , a nd

DT R  an d  X G B  m o d e

.  T h e  m o d e l s  w e r e  t r a i n e d  o n  t h e  Z e a  m ays  d a t a s e t  L . l s o u t p u t w a s

o b s e r v e d  t o  b e  t h e  b e s t  p e r fo r m n g  m o d e i l  i n  t e rm s  o f  AU C . L R  wa s  c o m b i n e dw i t h  c at b o o s t

t o  c o n s t r u c t  t h e  pr o p o s e d  m o d e l .  GP LP I w a s  s g n fi c ant y  b e t t e r  t h a n
i i l t h e oth e r m et ho d s i na l l

t h em et r c s  a s  s h o wn  i n  T ab  4 3  T h e  v a l u e s  i n  t h e  t a b l e  r e r e s e n t  t h e  m e a n  a nd  s t a n d a r d



, p . . .

d e v i at o n  o b t a ne d  b y  th e  s i x  m e t h o d s  o n
i i t h e  Ze a  m ay s  d at a s et .  T he  m o d e l
 y i e l d e d  a n  av e r a g e

a c c u r a c y  o f a p p r o x i m at e l y  4  %  b et e r t h a n  t h e  o th e r  m e th o d s . F i
g 
4 4

p
re s e n t s  th e  f
. i ve -

fo d

 l

c ro s s

va l i d at o n  re s u i l t so f  G PLP I
, 
LR , c a
t bo o st , 
RF X G B ,  , a n d  D T  n  t h e  fo r m  o f b o x p o t s  fo r
i 
  l

t h e  Z e a  m ay s  d at a s e t  T h e  b e t t e r  p e r fo r m a n c e  . i s  a t t r i b ut e d  t o  th e  e n s e m b l e  o f  d i v e rs eb a s e

c l ass i f i e rs  . W h e n t h e  d i ffe r e n c e  b e t w e e n  t h e  p e r fo r m a n c e  o f  t he n d v d ua


i i i l c l as s i f
i e r s i sb i
g 

t h em a o r

i t
y
v ot i n g
 nt e g r a
i ti o n  i s  e ffe c t i v e . W h e n  t h e  d ffe r e n c e  b e t w e e n  t h e  c l a s s
i i f e r s
i i 

s ma  t h e  c l a s s i fi c at i o n  e rr o r  d e g r a d e s  t hu s  i n c r e a s i n g 
t he e r fo r m a n c e  T h i s  i n d i c a t e s  t h a t


p
l l .

, , ,

h e  c o r r e at o n  a m o n g  c l a s s e r s n c re as e sth eo vera fo r m a n c e


p er
t l i i fi i l l 

T ab .  4 3  P e r fo r m a n c e  o f
.  t i s o n  w i t h  o t h e r  m e t h o d s  o n  Ze a
he p r o p o s e d  m e t h o d i n c o m p ar 

m ays  d at a s e t

 ̄  ̄  ̄  ̄  ̄ 

Me t hod AC C % ( )
±S D P RE ( % )± S D S EN ( % >t S D S PE( % )± S D  M C C 士 S D  A U C 士 S D
 ̄  ̄

G P LP 9 I 1 . 9 7 士 0 4 4 9 2 2 0± 0 3 0
. . . 9 1 ?7 0 ± 0 6 9 . 92 . 2 4士 0 3 5 . 0 . 8 3 9± 0 0 0 9 . 0 9 7 9± 0 0 0 2
. .

L R 8 8 . 1 4 士0 . 5 8 8 8 . 4 2 土 0 7 2  8 7 7 9士 0 9 . . . 1 8 8 . 5 0± 0 7 3 . 0 . 7 63 ±0 0 . 1 2 0 . 9 5 8±0 003

 .

Ca t boost 8 8 . 2 2 士0 4 2 . 92 . 3 1 ±0 _ 49 92 . 5 9±0 6 9 . 92 . 2 8士0 5 9 . 0 . 8 4 9土 0 . 0 09 0 . 9 2 4± 0 0 0 4



 .

RF 8 5 . 4 3± 0 6 3 8 . L3 0± 1 . 1 8 8 6 . 5 0士 0 7 0 . 8 0 . 0 9± 1 . 4 6 0 6 6 7土 0 0 . . 1 2 0 . 9 1 2士 0 0 06

 .

X G B 8 8 . 5 4± 0 . 5 5 8 6 . 8 7± 0 6 7 _ 90 . 8 1 
士0 . 82 8 6 . 2 8 土0 7 0 . 0 . 7 72士0 0 . 1 1 0 . 96 1 
士0 . 003

D T 7 5 . 6 9土 0 8 4 . 7 5 . 7 0± 1 . 39 7 5 . 7 1 
士 0 4 8 7 5
. . 6 7士  1 . 68 0 . 5 1 4士 0 0 .
1 7 0 . 7 5 7士0 0 0 8

 .


S Dre re s e n t ss ta n d ardd ev i at o n

i 

5 8
- 


Da l i a n Un i v e rs i t
y o
f  T e c h no l o gy  Doc t ora l  D i ss e rt at i on

rx fffff



^  hi

40   K

i 







2 〇

D T  XG B R F  C a t b o o s  LR  G P L P t 

F g i . 4 . 4A c c u rac
yc o m p a r
i s o nb e t w e e nG P LP I a n do t h e rc l ass i f i e r s o nt h e Ze a  m ay s  d a t a s e t

4 4 3C o m ar s o n  o f d ffe r e n t  d e e p  e a r n n g  m e t h o d s


p i  i
. . l i

I nt h ep a s td e c a d e , m a n ys t u d i e s h av e e x



l o r e dt h ea s s oc i at i o nb e tw e e nR N A sa n d

pro
t e i ns . I n t h i s
p


er 
t he
propo s
e dm o d e i sc o l m p a r e dw i t hs t an d a r dd e e p l e a rn n g  m o d e
i l st 



 

ver f
y i i t sa d vant a
ge . G P L P  I i s a p p l i e dt o k n o w np a n t L P d at a t o
l I
ge
t h e rw i t ht hr e eo t h e r

m e t h o d sR P I S e

R F [
60

.  XRP I

 72] [
, a n d RP I

S E [
1 1 4

. T h et h r e em e t h o d s  a r e  s e e c t e d  fo r

 l

co mp ar i s o n b e c a u s e t h e y c a n p r e d i c t non -

c o d n gR P I F i v e
i .

fo l dc r o s s

va l i d at o nw a sa d o p t e d
i 

t oe v a l u at et h e i r e r fo r m a n c e s  T he e r fo r m an c e s w e r e e v a u a t e db yt h e m e t r c s  n t e r m s o f




p

p
. l i

t h e  m e a n a n d  s t a n d a r d  d e v a t o n  a s  p r e s e n t e d  n  T a b  4 4 i i i . . .
 I ng e n e r a l , t h eh g h e rv a u e s

 i l

re
pre s e n
t sab e tt er
p
e r fo r m a n c e  fo r  t h e  e v a u a t o n  m e t r l i i c s T .
h eR O C c u rv e sr e p r e s e nt i n gt h e

tr a d e o ffs  b e t w e e n  t r u e
p o s i t i v e s  a n d  fa l s e
p o s i t i v e s a n dt h e i ra s s o c a t e dA U
i C so fG P L P I


RP Se RF X R P a n dR P S E r e s p e c t ve y a r ep o t t e d nF g 4 5 F o rt h eA rab d op s 




- -

I I I i i
q . i l l i i . . .
, , ,

t h a l i an a  d a t a s e t  a ,
l l t h em e t h o d sw e r eato ra b o v e7 3 %o r0 . 7 3 nt e r m so fs e n s
i i ti v i t
y ,  AU C 

a n d AU P RC .  H o wever , a c c u ra c y ,
p
r ec i s i o n s
pec ,
i fi c i t
y , a n d M C C t h e  v a u e s  r a n g e  fr o m  0 2 6
l 
 .

t o 0 . 8 8  F o r  t h e Ze
. a  m ay s  d a t a s e t , a l l t h e m e t h o d s w e r e at o r a b o v e 8 0 %  nt e r m so f a c c u r a c y i 


s ens i t i vity ,  AUC , a n d AUPRC . H o w e v e r


p
re c , i s i o n s p e c ,
i f i c i t
y , an d M C Cv a l u e s  r a n g e  fr o m

0 6 2t o0 9 7
. . .  No t ab l
y , t
he
 p ro p o s e
d m e t h o d o u t
per
fo r m e d  o t h e r  m e t h o d s  I n  t e r m .
so f ac c ura cy


an ds p e c i fi c i t
y , a p p r o x m a t e ya2
i l % a n d3 % i n c r e a s e i so b t a n e dr e s
pec
i t ve ly i .  A s  fo r  M C C . a

s i
gn
i f i cant
 p e r o rm an c e
f  m
p o
r v e m e n to f i  a
p p r o x m a e y0 0 6( 6
t l i . % )
e nh an c e me nt i sn o t e d T h e

 .

at et h a t G
yb e t e rt h a nt h e o t h e rm e t h o d s  n
re s u l t s  i nd i c P L P I  p e r fo r m s  s g n f i i i c an t l t L P i 

pre d c t o n i i .  T h e  p e r fo r m a n c e  o f G P L P  I  sm o i r eo u t s t a n d n gb e c au s eo f i  t h e  e ffe c t v e n e s s  o f i  t he



s e
que
n c ea n ds t r u c t u r a l  fe at u r ee x t r a c t i o nm e t h o d st h a to b t a n e de i s s ent i a l i n fo r m a t o n i 

5 9
- 


P re d i c t i
o n  o f p a n t  o n g  n o n c o d n g  RN A s  n t e r a c t o n s  w

l l i i i i t h
 p rot e n s
i b
yd e e p e a r
n ng


l i

T ab . 4 . 4  P e r fo r m a n c e  c o m a r

i s o nb e t w e e n G P L P Ian do th e re x i s t i n gm e t h o d s

A C C %  P R E %  S EN %  S P E % ( ) ( ) ( ) ( 

D at a s e  M e t t hod  A U PRC土S D 

± S D 士 S D 士 S D 士 S D 
  

G PLP 8 5 I . 7 6士 2 . 0 5 8 8 . 4 2士3 . 2 1 8 2 . 4 1 
士3 . 92 8 8 . 9 7 土4 . 1 2 0 . 9 3 4士0 0 .
1 

A r a b dop s i i s R P I Seq -

R F6 1 . 2 8 士2 2 0 . 5 6 . 2 0± 1 .
8 1 9 1 . 43 土6 . 03 2 8 . 3 3 土9 .
09 0 . 783 士0 . 05 2

t h a l i an a  X R P I 6 5 . 3 5 土3 . 8 3 6 2 . 2 2士5 4 5 . 8 1 . 5 0士 7 . 26 4 9 . 3 5 士  1 0 2 0 . 0 . 8 0 8 士0 03 . 

RP I

S E 1 . 22士5 .
02 5 8 . 1 9 士4 0 6 8 4 5 3 . .
士7 . 79 3 9 . 3 0土 7 0 8 . 0 . 7 3 7土 0 . 0 8 2

G PLP I 9 1 . 9 7土0 4 4 . 9 2 . 2 0士 0 . 3 0 9 1 . 7 0± 〇 . 69 9 2 2 4土 0 3 5


0 .
97 8 进 002

Z e a  m ay s  R P I Se

R F8 5 . 1 8士0 . 8 6 8 3 . 3 6土  1 . 20 8 7 . 9 牡0 . 72 8 2 .
4 1 
土  1 . 6 7 0 . 9 3 6士 0 0 0 7

 .

X R P 8 5 I . 4 1 
土0 .
8 5 8 4 . 5 7土  1 . 02 8 6 . 6 6士 0 9 0 . 8 4 . 1 7士  1 . 2 8 0 . 942士0 00 . 

RP I

S E 8 0 . 9 8士0 .
5 9 7 7 . 2 4士 0 4 7 . 8 7 . 8 5 士0 . 7 0 7 4 . 1 0土 0 . 8 4 0 8 9 9 士 0 0 0 .
? 

 y  / G

G P LP I { AU C  0 .

9 19 )
PL PK A U O  0 9 . 7 8 


^ ^S eq ^  y

AU C

F  0 3 1 9
 R fH S eqJ WMJ C =0
J3 3


( )



/
X R P AUC =

 /

 0 7 2 3
X RP AUC =


0 9 3 9
I .





 .


t /

,


AU :

RP

i S E (  0 .
6 30 )

R P -

SE A UC =
0 90 3
一 1 


 K
  
   ̄


〇 〇
〇  —
 ̄  ̄ 
 ̄ — — —
1 ' — — -  


? 1 '

〇 , 

0 0
?  0 2 0 .

4 0 . 6 0 .
8  1 . 0
 〇 . 〇  0 2 0 .

4 0 6 0 . 8  1 . 

Fa s ePo eR a te

l i t h/

F a l seP o i t i v eR a t 


( )

 (



F g i . 4 . 5 R O Cc u r v e sc o m p a r i s o n sb e t w e e nG P L P I  a n d  h r e e  o t h e r  m e t h o d s  fo r  ( a )


A r a b dop s i s  h a l an a  a n d  ( b )  Z e a  m ay s
i 
 t i

4 5S u m m a r



T h ep ro p o s e dm e t h o de m p o y sag e n e rat v em o d e l i l u s i n


g
L S TMw i t hg r a

hatt e n t o n i 

E v o u t o n a r y  fe a t u r e s  a r e  e x t r a c
l i t e du s i n gF C G R  I n  t h e  fe a t u r e

l e arni ng
p h a s e  m a n , i fo l 

g u ar z at o nan d 2 no r mw e r eu s e d T h em o d e c ap  e rv n ga n d




re u re oca yp re s

l/ i i . l t s l l i t i

re c o n s t r u c t o n  c o n s t r a n t s  t h r o u g h  m a n fo d  r e g u a r z a t o n  a n d  / 2
i i i l l i i

no rm . T h em a n i fo l 

6 0
- 


Da l i an  Un i ve rs it
y of
 T e chn o l o g y  D o ct o r a l  D i s s e r t at i o n

re
g u l a r i z a t i o n  e a m s  a  o w  d m e n s i o n a  s p a c e  ( m an
l i l l i fo l d
)
a n d  p r e s e r v e s  t h e  l o c a l  g e o m e t r i c a l

s t r u c t ur e  o f  t h e  I n c R N A  a n d  p r o t e n  fe at u r e s i .  L L E  m a n i fo l d  l e ar n i n
gal g o r i t hm  w a s  u t i l i z e d 

T h e  /2 n o rm

r e g u l a r i z at i o n  p e n a l t y  r e s t r
i c t s  t h e  m o d e l  p a r am e t e r s  an d  l o w e r  v ar i a n c e .  T he t wo

re
g u l a r i z a t i o n  t e c hn q u e s  a r e  c r u c a
i i l  fa c t o r s  fo r  t h e  h g h  a c c u r a c y  a n d  o v e r a
i l l
go o d

p e r fo r m an c e  o f  t h e  p r o p o s e d  m e t h o d  C a b o o s
t t  a nd  re
g u l a r i z e d  L R  b as e d  o n  t h e  L

B FGS

o p t i m i z at i o n  a g o r t hm  w e r e  n t e r at e d  t o p r e d i c t p o t e n t i a l  n t e r a c t i o n s  b e t w e e n  I n c R N A s  a n d



l i i i
 

pr o te i ns . I n c o n c l u s i o n ,
g
ra
p h  att e n t i o n  i s
 p r o p o s e d  t o  l e a r n  c o nt e x t  d i s t r i b u t i o n  a n d  e n h a n c e

d i s c r i m i n at i v e  ab i l i t y  O n e  a d v a n t a g e  o f  a t t e nt i o n  m e c h a n i s m s  i s  t h at  t h e y c a n  d e a l  w i t h


v a r i a b l e  s i z e  n p u t  a n d  m a k e  a  d e c i s i o n  b y  fo c u s i n g  o n  t h e  m o s t  r e l e v a n t  p a r t  T h e  g r a p h
i 
 .

at t e nt i o n  m e c h an i s m  e m
p o ye
l d  n  t h e  p r o p o s e d  m e t h o d  i s  a  v a r i an t  o f g r a p h  n e u r a l  n e t w o r k
i 
 

m o d e l s T o g e t h e rw
. i t h  t h e  r e c u rr e n t  g e n e r at v e  d e e p  l e a r n n g  m e t h o d  t h e  g r ap h  at t e n t o n
i 
 i

m e t h o d  h a s  p r o v e n  t o  b e  u s e fu l i nthe
p
re di c ti o n  t a s k  T h e  e x p e r i m e nt a l  r e s u l t s  d e m o n s t r a t e
. 

t h a t  t h e  p r o p o s e d  m e t h o d  p r o d u c e s  r o b u s t  p e r fo r m a n c e  wh i c h  i s  at t r i b u t e d  t o t h e two

e n s e m b l e  c l a s s i fi c at i o n  a g o r i t h m s  t h a t  w e r e  i n t e g r a t e d  t o  g e t  t h e  m o d e l  o u t

p ut 

6 1  


P red i ct i o n  o f p an t l l on g no n c o d ing
 
RN A s i n te r a ct o n s w i  i t h
 p o
r te n s  b
y d e e p  e arn i n g





5 D e e p 
m u l t i m o d e le n s e m b -

l e l e a rn i n
gb a s e do n

mu l ti

fe at u r e  fu s i o n  fo r  I n c R NA -

p o t e n nt e r a ct
r i ion
p
re d i ct i o n

 i

5 . 1  In t ro du cti o n

Recen tl
y , 
t h e  r ap i d  d e v e o p m e n t  o f n e x t g e n e r a t o n  s e q u e n c i n g  t e c h n o o g i e s  h a s  b r o u g h t
l  

i l

fo r t h  t h e  a v a l a n c h e  o f  s e q u e n c e  d a t a  a n d  t r a n s c r i p t o m e

w d e  i n s i g h t s  nt o  R P I
i i . n c R NA s , t he

l a r g e s t  p o r t i o n  o f  t h e  e u k a r y o t i c g e n o m e  a r e  c l a s s ,
i fi e d  b a s e d  o n  t he i r
 g e no m co r g no
i i i 

m e c h an i s m  o f  act i o n  I n .

 p
a r t i c ul a r , I nc R N A s  a re  m o r e  e n r c h e d  i n  t h e  n u c l e u s  a n d  fun c t i o n  i n
i 

v ari o u sb i o o g i c al r o c e s s e s s u c hasc e l ro wt h  d i f fe r e n t i a t i on  an d  c hr o m at i n  m o d i f i c at i on




p g
l l
, ,


1 3 1

.  B as e d o n t h e  g e n o m i c  o r i g n  n c R N A s  c an  b e  c at e g o r i I i z e dasi nt e r
gen c i
, 
i nt r o n i c s ens e
, 

an d  a nt i s e n s e  [ 4 4 ] .  A s  a  k e y m e d i a t o r  o f  c e l l u a r  fun c t o n s l i
,  n c R N A s  p e r fo r m  e s s e n t
I i al

re
g u at o r y  r o l e s  i n  t h e  p a n t  c e
l l l l nuc l eu s b y i n t e ra ct n g wi t hp ro t e n s i i . F or i n s t anc e 

col d -

i ndu c e d  I n c RN A s ,  a n d C O C 7 L 4 /7 ?

ar etr an s c ri
p ts  t r a nsc r
i be db y

F l o w e r i ng  L o c u s  C  ( F L C )  a n t i s e n s e  t h a t  ,
i sr e
g u at e d  b y  t h e  c i s  [
l 1 32

.  S o  fa r  m a n y  p l a nt


I n c RNA s  h a v e  b e e n  i d e n t i f
i e d  an d  i m p l i c ate di nf o l w e r i n g  t i m e  c o n t r o l  b i o t i c  a n d  ab i o t i c

 ,

s t re s s  r e s
p o ns e s ,  a n d  r e p r o d uc
t on i .  M oreo ve r ,e m e r g n g  e v d e n c e  s h o w s  t h at  p
i i l ant
 p ro e c i o n
t t 


g a n s t  p at h o g e n  at a c k s  c o rr e a e  w h  I n c R N A d e p e n d e n t  m m u n e  s y s t e m s  [ 3 6 ]  T h e r e  ar e


i t l i t i .

t wo m o de s o f d e c o d i n g
in er
t a c t i o n s b e t w e e n  R N A s  an d  p r o t e i n s b yr e c o n i t i o n o f  RB P s
g,

d i r e c t  c o nt a c t  w i t h  RN A  b a s e s  o r i n d i r e c t y  b y  e x a m n n g R N A  s t r u c t u r e  a n d  t h e r m o d y n am i c



i i

a s p e c t s [ 1 3 3

.  C o m p u t at i o n a l m e t h o d s  b a s e d  o n  q u a n t i t a t i v e  o r  m a c h i n e  l e arn i n g  m o d e l s

com
p l e m e nte x
p e r i m e nt a
l  m e t h o d s  n u n c o v e r n g  n t e r a c t o n b e t w e e n  p r o t e n s  a n d  R N A s
i 
 i i i i


1 3 4] 

B a s e d  o n  t h e  a b u n d an t  s e q u e n c e  d a t a  c o m p u t a t i o n a l  t o o l s  p r o v i d e  a  m o r e  r ap i d  a n d


e ffe c t i v e  w a y  o f
 pre d i c t i ng  RP I s  . The i n t e r a c t o n  n fo r m a t o n 
i i i i se s s e nt a i l  fo r  t h e  a nn o t a t o n  o f

 i

I n c RN A s ,  un d e r s t a n d i ng  m o l e c u ar  m e c h a n l i sms ,  an d i m
p l i c at i o n s  i n d i s e as e s . Mac h i ne

l e a rn i n g
(
M L ) t e c hn i q u e s  h a v e  b e e n  e x t e n s i v e l y  u s e d  i n
g
e n o m i c s  t o  d e r i v e  n o v e l  b i o l o g i c a l

h yp o t h e s e s .  D L i sas u b i el do f ML c o m p o s e do f


f   n e u ra l ne t w or k sw i t hmu l ti
p e
lhi d d e nl ay er s

b e t w e e n  n p u t  a n d  o u t p u t  a y e r s  T h e  a y e r s  o f  n t e r c o nn e c t e d  n o d e s  r e fe rr e d  t o  a s  n e u r o n s
i l 
 . l i

tr an s m i t s gna i l s  fr o m  o n e  a y e r  t o  a n o t h e r  n  a m u l i l t i ste
p p r o c e s s  o f  e a r n i n g  c o mp l e x

 l

non -

l i n e a r  r e a t o n s h i p s  D L  h a s  g ar n e r e d  e x t e n s i v e  a t t e n t o n  d u e  t o  i t s  w i d e  u s e  c o n c e r n i n g
l i .


 i

c l ass i f c at o n
i i .  The  D L  m o d e l s  h a v e  t h e  fo l l o w n ga d v ant a ge s
i . F i r st l
y , t
he y  a u t o m at i c al l
y  l e arn

d a t a  r e p r e s e n t a t o n s  fr o m  r a w  d a t a  S e c o n d y  u n i . l

l i k e  t ra d i ti o n a  b o n fo rm a t c s  a g o ri t h m s
l i 
i i l

c u s t o m i z e d  fo r  s
p e c i fi c  t a s
ks ,  D Lm o d e l sa ref l ex i b e  a n d  m a k e  a c c u r at e  p r e d c t i o n s  d u e  t o
l 
 i

t h etr a n n gp ro c e s s  T h i i . i rd l
y  D L e v e ra g e s G P U sw

l i t h o u t  t h e  n e e d  fo r  a d d i t i o na c o de

 l

t hr o u g h  l i b r ar e s s u c ha s c o m p ut e u n
i i fi e d d e v c earc h i i t e ct u re
(
C U D A ) ha t t s up p o rt  N V I D I A 

62
- 


Da l i an  Un i ver s i t
y 
of  T e ch n o l o gy 
D oc t ora l  D i 

s s e r t a t i on

L S TM , a R NN  m o d e l s u i t ab l e  fo r  s e
q u e n c e  t o  s e q u e n c e  m a p p i n g  h a s  p e r fo r m e d  w e l l  i n 
NLP

T o  d at e p e db a s e do nD Lm o d e


1 35 .   s e v e r a l  g e n o m i c  ap p l i c at i o n s  h av e  b e e n  d e v e l o l ss u c h


[ ] ,

a sC NN a n d  R NN  [ 1 3 6] 

T o  fa c i l i t at e  n c R I N A  an d  L P I
p
re di c t i on , m an y  fe at u r e s  a r e  c o n s d e r e d  t h a t  d ffe r e n t at e

 i i i

h e  c o d i n g  an d  n o n codi n
g  s e q u e n c e s  T h e s e  fe a t u r e s  i n c l u d e  O R F c o d i n gs e q u e n c e re at e d



t . l

fe a t u r e s , t ran s cr i
pt

re l at e d  fe a t u r e s ,  an d  s tru c t ur e -

re l a t e d  fe at u r e s . M a n y  d e v e l o p e dM L

t e c hn i
qu e s  u
ti l i z e  t h e  d i ffe r e n t  fe a t u r e s . E x i sti n g mu l t i mo d a l D Lm e t h o d s  ut i l i zethe

mu l ti m o d al i t
y  o f  fe a t u r e s  t o  i m p r o v e  t h e i r  e ff i c i e n c y .  T h ep r o c e s s  o ftr a i n i n g t h eD L

e ffe c t i v e l
y  m n e s  e at ur e s  i n o l v e d  n 
f i v i the
p r e
d i c t i o n  t a s k  F u r t h e r  a  h y b r i d fr a m e w o r k o f

 .

e n e o u s  s o u r c e s  F o r  e x am p l e
redi c t i o na l
g o r i t hm s  c an  b e  u s e d  t o  i n t e g r a e  d a a  f r o m  h e t e r o
t t
p g



a  d e e p  l e a r n i n g  m o d e l  c a n  b e  c o m b i ne d  w i t h  s h al l o w  m a c h i ne  l e a r n i n g  a l g o r i t hm s  t o  p r e d i c t

i nt e r a c t i o n s .  O n  t h e  o t h e r h a nd  d ,
i ffe r e n t  D Lmo de l s  s u c h a s  L S T M  a n d  C N N  c a n  b e

combi n e d  s i m i l a r  t o  D e e p C L I P  an d D e e p L P I  [
1 08 ,
1 3 7

.  I n the c a s e w h e r e s e q ue n c e

i n fo r m at i o n  o n l y  i s  u s e d ,  C NN  i si m
p l e m e nt e d  b e fo r e
t he  L S T M  m o d e l . T heC N Nd i sc overs

t h e  o c a l  s t r u c t u r e  o f  t h e  n p u t  d at a
l i
, r e duc e s
t hes p e ctr a l  v ar i at i ons , an dm o d e l sc o rr e at i o n s l 

T h e  c o n v o ut o n a  l i l l ay e r so fC NN  e x t r a c t  c o n v o l u t i o n a l  fe at u r e  m a
p s A p o o. l i n g s t r a t e g y 

m ax p o o -

l i n g  i s  a d o p t e d  t o  a g g r e g at e  t h e  fe at u r e  m a p s  i n t o  a  s i n g l e  r e r e s e n t a t i

p o n h en c e, 

re du c i n g thed i m ens i o nal i tyo f  t h e  fe a t u r e  m a p  a n d  p a r a m e t e r s .  Then e xt l ay eri sth eL S TM 



m p l e m e n t n g  th e  C o n v o l ut i o n a l  l ay e r  a s  a  p r o c e s s n g  s t e L S T Mhe l
I i b f
p e o re p s  t o  s h o rt e n  t h e

 i

s e q u e n c e  a nd  e x t r a c t  u s e fu l  r e p r e s e n t at i o n s  b e c au s e  L S T M i sex
p e n s v e  fo r  p r o c e s s n g  o n g


 i l

se
q ue n
ces  . W h e nd i ffe r e n t  D Lm o de l s  ar e  u s e d t o g eth er b a c k
p r o p a g at i o n  i s  a p p l

i e dt otr a i n

a n d  t u n e  t h e  m o d e l  a n d  s h a r e  l a t e n t  fe at u r e s  a r e  c a p t u r e d  a c r o s s  t h e m  L S . T Mp ro c e s s e st h e

i n p u t  an d  s o v e s  t h e  v an i s h i n g  g r a d e nt  p r o b l e m
l i .  T h i s  m o d u l e  l e am s  t h e  r e l a t i o n s h p so ft h e
i

fe a t u r e s  t h at  a r e  m o r e  i n fo r m at i v e  fo r  r e
p r e s e nt i n g  I n c R N A s  an d  p r o t e n s T he b n d n g  p r o fi e
i .   i i 
 l

i s
g
e n e r at e d  b
yth eL S T M l ay e r  F o r  e x am

p l e I n

D eep C L I Pth eB L S T M ay e ra n a yz e st h e

 l l

h d d e n  s e q u e n c e  r e p r e s e n t at i o n s  n  a b d i r e c t o n a
i i  i i l m a nne r 

T hed e v e l o p m e n t  o f a  c o m p ut a t i o n a l  m e t h o d  fo r  L P I  p r e d i c t i o n  i s  m p e r a t i v e  t o  a v e r t  t h e

 i

i m p e n d i n g  s h o r t a g e  o f p l an t  I n c R N A  fu n c t i o n s 
. I nthi s c ha
pter ,  a n  i nt e g r a t i v e  d e e p  e n s e m b l e

fe a t u r e  fu s i o n  A  d e e
m o de l ro
posed  I t s  un i
q u e n e s s  i s  th at  i t  p re d i c t s  b y  m u re c urr e n t


s t

p
. l i
p .

A E  m o d e  fo r L P  l I te r m e dD RP L P I  i s  d ev e l op e d .  T o i m p r o v e  p r e d i c t o n  p e r fo r m a n c e i


h e t e r o g e n e o u s  s e q u e n c e  fe a t u r e s  g e n e r a t e d  u s n g  t r i i

nu c l e o t i d e  c o m p o s i t i o n  g a p p e d  A ,

m er 

re v e r s ec o m
p l e m e n t  a n d  B P F s  a n d  s t r u c t u r a l  fe a t u r e s  a r e  i n t e g r a t e d  D R P L P I  e m p o y s  a


 . l

S i a m e s e  L S T M  A E  t o  e x t r ac t t i v ehi h e v e lh i d d e n  c o m p e x  fe a t u r e s  T h e  S i am e s e
g ene r a

l 

g l .

n e ur a l ne t w o r k  ar c h i t e c tur e  c ap t ur e s  t h e  mu t u a l s i
g n i fi c a n c e  o f  s e q u e n c e

stru c tu r e

n fo r m at i o n f r o m  t h e  n c R N A p r o t e i n  p a i r  D R P L P I  n t e g r a t e s  h e t e r o g e n e o u s  fe a t u r e s  o
t

i I . i

c a p t u r e  n e w  un i
q u e  fe a t u r e s  mp e m e nt  a m u l t i he a d s e f att e nt o n m e c h a n sm  a n d  an


- -

i l l i i
, ,

6 3
- 



P re d i ct i ono f
 p an
lt on
g n o n c o d i n g  R N A s  n t e r a ct o n s w i t h  p r o t e n s  b y  d e e p  e a r n i n g


i i  i l



a d ap t i v e  l e ar n i ng  m e t h o d  ( AD AD E L T A ) 
fo r  t h e  a u t o m at i c  s e t t i n g  o f  t h e  l e a r n i n
g  r at e  T o

 .

o b t ai n  ro b u s t  r e s u l t s ,  th e  m o d e l  c o m b i n e s  C a t B o o s t  a n d  E T s  nt o  a  s n g i i l emeta

l e am e r  T h e

 .


e n s e m b l e  c l a s s i fi e r s  w e r e  i m
p l e m e n t e d  b y  u s n g  t h e  m aj o r i y  v o i n g  m e c h a n i s m  t o  d e e l o p
t t i

t h e p re d i c t o n  m o d e

i l .  T h e p ro p o s e d  m e t h o d  a c h

i e v e s  a  no t a b l e  s u c c e s s  r a t e 

5 . 2 H e t e r o g e n e o u s  fe a t u r e  n t e g r a t i o n

 i

I n t e g r a t i n g  h e t e r o g e n e o u s  fe at u r e s  t h a t  d e s c r b e  d ffe r e n t  a s p e c t s  o f i i  t h e  c h ar a c t e r
i st i c so f

a  d at a s e t  h e l
p s n o bta n n g
m o r e  a c c u r a t e  a n d  c o m p r e h e n s i v e  r e p r e s e nt at i o n s
i i i . Mu l ti
ple

i n fo r m at i o n  i n t e g r a t o n o f  n e t w o r k t o p o o g c a  p r o p e r t i e s  e x p r e s s o n p r o f i l e  i n fo r m at o n
i l i l

i i


se
q u e n c e  a n d  s t r u c t u r a l  fe a t u r e s  h a v e  b e e n  s u c c e s s fu l l y  i m p l e m e n t e d  fo r  t h e  p r e d i c t i o n  o f


S eq u enc e b a s e d  fe a t u r e  d e s c r i
LPI  [
1 37 ,
1 38


p o r s  us e  s e q u e nc e c o mp o s i o n a n d
t t 
 i

wh e r e a s  s t ru c t u r e b a s e d  m e th o d s  e x p l o i t  s h a h
e v o l u t i o n a r y  i n fo r m a t i o n  [ 7
p e  an d b o p y s c a l

1  i i
]

fe a t u r e s 39  F e at u r e  e n c o d i n a l g o r i t h m s  c a a b l e  o f c a t u r i n g ke y  c h a r a c t e r i s t i c s  o f a m i n o


[


g p p 
 

ac i d re s i d u e s  an d  n u c l e o t i d e s  c o n t r b ut e  t o  i m p r o v e d p re d i c t v e  a c c u r a c y i i . H o w e v e r 

c t i o n  i s  a  d i ff i c u l t  t a s k  S o m e  fe at u r e  e n g n e e r n g
g e n e r at i n g  t h e  a p p r o p r a t e  fe a u r e s  fo r  p r e d
t i i .


 i i

o o l shav e b e e np ro p o s e d n c u d n g L e am [ 4 0 ]  a n d  P y F e at  [ 4  T h e  s e qu e n c e b a s e d

 -

t i l i i 1 1 1 .

fe a t u r e s  t h at  h a v e  b e e n  c o m m o n l y  u t i l i z e db
ye xi s
ti ng  m e t h o d s  n c l u d e  P W M  A C  [


1 42] 


m er  [ 43  a nd  B P F s  [ 06 4 4 ]  P WM  n d c a t e s  t h e  s i g n i f i c a n c e  o f  e a c h o s i t i on  o f  t h e


p
i 1 1 1 . i i
] , ,

a m i n o a c i d s re s e n ti nt h e ro t e n  s e q u e n c e  A C  i s  u s e d  t o  o b ta i n  th e  a v e r ag e  c o rr e l at o n


p

p
. i

b e tw e e n a  p a i r  o f du e s o r n uc eo t d es ^ m e r  g e n e r at e s  s e q u e n c e  c o m o n  i n fo r m at o n
re s
pos

 i l i , i ti i 

B P F i ss i m i l art oo n e


h o t  e n c o d i n g  d a t a  t r a n s fo r m at i o n  u s e d  t o  e x t r a c t  p o s i t i o n a l  i n fo r m a t o n

 i

of  t h eam i n oac d s i 

Re c en t l
y ,  G ro o t e ta l .

(
20 1 9 )  p r e s e n t e d  a  s t u d y  o n  th e  r e l at i o n s h i p  b e t w e e n  th e  s t r u c t u r e

o f a n  RN A  a n d
 i t sab i l i t
yt o n e rac w
t t i i t h p ro t e n s
[
i 1 3 9] ,  RN A  s tr u c t u re  i s
 p re d i c te d b yp ari n g

s e
q uen
c en uc l e o t i d eb a s e s no n

c o v a e nt
y  b o u n d  t h r o u g h  h y d r o g e n  b o nd s 
l l . R NA  s tr u c tu ra 

c o n t e x t s  are e n e r at e d  b a s e d  o n
pa re dl o o p hai rp i nl oop  i nn e r  l oo m ul t i o op o re x
te r n a l

g 

, ,
p ,

re
gi ons[ 1 1 2] .  C o n v e rs e l
y , p
ro t e i n  s e c o n d ar
y  s t r u c t u r e s  a r e  p r e d i c t e d  fr o m  p r o t e i n  s e q u e n c e s

b a s e d  o n  o c a  c o n fo r m a t o n  p r o t e n s  p o y p e p t i d e  s t a t e s  i n c l u d i n g  a h e l i x  ( H )  p

l l i i l


she et
(
E) 

a n d c o i l  ( C ) . S e v e r a s t u d l i e sh av e i n t e g r a t e d  h e t e r o g e n e o u s  fe at u r e s  a nd  fe a t u r e  s e e c t o n

 l i

r e d i c t i o n  m e th o d s 45 4 7 ]  T h e  st r u c t ur a
p r o c e du r e s  t o  m p r o v e  t h e  p e r o r m a n c e  o
f fth e 1


p




[

fe a t u r e b a s e dp re d nm e th o d se x p o  2 D  a n d  3 D  s t r u c t u r e s  t o  l o c at e te nt i a l  b i n d n g


po
cti o

i l i t

 i

re
g i o n s  o r  n t e r a c t n g  p a r t n e r s  T h e s e  m e h o d s  a s s u m e  t ha  i n e r a c t i n g  p ar t n e r s  ha v e  s i m ar


i t ti t . i l

o v era l l s tr u ctu re s w h i l e t h e pro te i nan d n c R I N A  p ar t n e r s  m a y  h a v e  d i v e rs e  s t r u c t u r e s 



S e q u e n c e  fe a t u r e b a s e d  m e t h o d s  u t z e n u c l e o t i d e / am i no  ac i d c o m on unct o n d o m a n
pos

ti
f
i l i i i i
, 

s e c o n d ar ys tru c t u re , an d s o l ve nta c c e s s b i i l i t


y  n fo r m a t i o n
i .  I n t e g r at i n g  t h e  t w o  k n d s  o f

 i

fe a t u r e s  e ffe c t v e l y  c a i
pt u re s
t h e  nt e r a c t o n s  b e t w e e n  n c R
i i I N A s  a n d p r o t eins . D e s p i te the

6 4




Da l i an Un i v ers i t
y o f  Techn o l ogyD o ct o r a l  D i s s e rt a t i on

m a n ys t u d es u t  fo r w a r d  ti ss t u n c e arw h i c hd e e p e ar n i n g  ar c h te c t u r e  i s  t h e b e s t  i n




p
i ,
i i l l l l i

d n g  RP T hu s  n t h s c h a p t e r w ec o m b i n e dd e e p e ar n i n
g  a n d  e n s e m b e m a c
h ne


pre
i ct i I s .


i i

l l i

l e arni n ga g o r l i t h man dc o m p a r e dt h e i r


 p e r fo r m a n c e  t oo t h e r c l as s i f e r s an dd e e p


e arn n g b a s e dp r e d ct o nt o o


l i i i l s 

5 . 3 E x tr act i n
g
s e

u e n c e  a n d  s t r u c t u r e  fe a t u r e s  b
y d e e p e n s emb l e e a r n i n l


5 . 3 . 1  O v erv i e wo f  t h ep r e d i c t i o nm o d e l



D eve l o p n g  a  fr a m e w o r k  t h a t  c a n  fa c i
i l i t at et her e c o g n i t i o no fR P p a r t n e r si sa d a u nt i n g

 I

t as k .  D L i s u s e dt oa c h i e v et h i so bj e c t v e i .  T h e  s t e p s  fo l l o w e d nt h e d e v e o p m e n t o f t h e


i 
 l

r opo s e d m e t h o d ar e s u m m ar i z e d nF i
g 5 1

i . . 




Da t a
 |  RN A s e

u e n c e &s t ru c t u r e P ro t e i us e

u e n c e&s t ru c t u re

一 

F ea t ur e  v e c t o rs  o f 冬 i


 @ ? 0  ? 0 @ @)
kl nd

:=
- .
. …

 ( 
? ? ?


:二 : 1  T O O p iK

「 ::
_ ’ ”
( !
:)

〇 〇〇 


0〇 〇 〇 〇 〇 O O O O O O 


 丄^ — _ —

「 了
_ _ _ _
丄「 





  |


^E l \ 1

? h vn
 l  1


|  
c lr  _

> h En  1
CE

2 
— -

^ h sp i  

 i

_ _
^   

? % 

 

I  Ce ii l I

 // I 
£ m  


 I

 |


, 

  :


|  I   CE 1
l m  ? ^E  ^E 1


lm 1 一 .
 1

pn

L 」
 L
" —



二 
二 _
二    
一 


L S T Mau

t o e nc o d e r  I

 E n c od e d  F e a u re s t 
 w i t h  a t t e nt i o n  l a y e r
 |  



 p
 
 — —
   ̄

I   I


A t t


ent o n i  L av er


 i  I  

|  1
^ DJ \  1

?h n n   1 1
^ ^
D p l  

 
  
  
 


 C pp  1

^ h DJ i 1

^  ̄

 I

* hD
p2  

 I

  ;
: :

 

  p 



 1

? h


1 1
C U 1


jyu 1

pPJ 1



  







 ; 

 




 |

<^
Dh , [
? hD

i m 1 £ Dp n 

C o mp

 

e x  fe a t u r e s


j ^

n c R NA p r o t e i n    

〇f


f

/u /u 


? ?




, ,

 V




pa i

 : 

I  C a B oo st t a ndE x t ra T re es

 Pr e d c o n a s k   4 i ti 
 t ,


 


  O u



r o d c e d n c RN A 丨

t t

i t l


ro t e m  n t e ra c
i t i on

i 
 1

F g i . 5 . 1 T h ef o w c h a rt o f l  t h ep r o p o s e dm eth o 



D RP L P  I i s  c o m p o s e d  o f  fo u r  p h a s e s :  fe a t u r ee x t r a c t i on , t r a n n g c i i

l as s i f i c at i o n an d


e v a l u at i o n S e .

q u e n c ea n
d  s t r u c t u r a l  fe a t u r e s  a r e  n
pu
t n t ot h e
p
r e d c t i v em o d e i i i l .  nc I RN A / , i s

65
- 


P re d i ct i o n  o f
 p a nt o ng n o n c o
l  l d in g  
RN A s  i nt e r ac t i o n s w  i t h
 pr ot
e in s  by d e ep 

l e ar ni n g

a  s t r i n g  o f c h a r a c t e r s  fr o m   Q i 

{
A C G U }  a nd, , ,
 p ro t e i n 
ro m Q 2
巧f 


{
A C D E , , , ,
F ,
G H , ,



K , L M  , ,
N , P Q  , ,
R , S T V W Y
s , , ,

.  T he  s e t  o f  s e
q u e n c e s  h a s  a  c o rr e s p o n d i n g 
v e c t o ro f

 F e at u r e s  a r e  c a l c u l a t e d  v i a  d i ffe r e n t  k i n d s  o f  fe a t u r e  e x t r a c t i o n
l ab e l s  d e no t e d  a s
y

 {
0 1 ,

. 

m e t h o d s L o c al a n d g l o b a l s m . i i l a r i t i e s  a r e  t h e  s ub s t r i n g  a nd  o v e r a l  s i m l i l ar i t i e sa m o n gt h e

x x
q u e nc e s 4 4 4

se  6 4 d m e n s i o n s  f r o m  t r i nu c l e o t i d e  c o m p o s i t o n  1 2 8  fr o m  g ap p e d


. i i

A :

m e r  1 0  fr o m  t h e  r e v e r s e  c o m p l e m e n t
, ,  an d  1  x  3 2 0  fr o m  B P F s  a r e  e x t r a c t e d .  D RP L P I us e s

de ep
L S TM b a s e d  A E  a y e r s  t o  f i n d  a nd  e n h a n c e  fe a t u r e s  T h e  e x t r a c t e d  fe a t u r e s  a n d


l .

c o n t e x t u a l  i n fo r m at i o n  o f  th e  s e q u e n c e s  a n d  s t r u c t u r a l  i n fo r m at i o n  a r e  u s e d  t o  fi n d  a r e a s  o f

t h e  R N A s  a s s o c at e d  w i i t i x  F  w i th  m  ^  n  d m e n s o n  fe a t u r e
h  R B P s  A n  a dj a c e n c y  m at r . 
 i i

d FhJ  wh e r e < < n < < m  r e r e s e nt  t h e

e nc o d in
g e n o t e d a s   {fu \ ,  ,  l z


 j p

c o m p l e x  fe a t u r e s . T hec o m
p l e x  fe a t u r e s  fr o m  t h e  d e e p  l e a r n i n g  m o d e l  a r e  fe d  i n t o  C a t b o o s t

a n d  E T s  c l a s s i f i c a t i o n  a l g o r i t h m s  fo r  p r e d i c t i o n .  T h e L P I m at r x 
  i i s  t h e  o ut
p ut 

5 . 3 . 2  F e a t u r e  fu s i o n

An a g g r e g a ti o n  a p p r o a c h  fo r  e x t r a c t i n g  i n fo r m at i v e  fe a t u r e  r e p r e s e n t at o n s  o f  s e q u e n c e

 i

n s  e n c o mp a s s i n g  v
a n d  s t r u c t u r e  m o t i fs  w e r e  a d o p t e d  S e q u e n c e  p a t t e r . i t a l  i nt r i n s i c  c o r r e l a t o n

 i

i nfo r m a t i o n  fo r  p r o te i n s  an d  n c R NA s  a r e  g e n e r a I te d th r o u
gh  v ar o us  t e c hn qu e s i i .  F o r

I n c RN A s , 
tr i

nu c e o t d e  c o m p o s i t i o n
l i
,  g ap p e d  k m cr  [

1 48] ,  an
d  re v e r s e d  c o m p l e m e n t  m e th o d s

su s e dt oe n c o d e


q u e n c e s  T h e  i n t e g r at i o n  o
a r e u s e d  w h e r e a s b i n a r y r o fi l n g r o te in  s e 


p p
i i .

b a l  s i m i l ar
i ti e s  i n  t h e  s e q u en c e s
p l e  fe a t u r e s  h e l p s  t h e  m o d e l  o  c ap u r e  o c a
mu l  a nd
g o
l t i t t l l 

L oc a l  an d
g
l o b a s i m i l ar l i ti e s  a r e  t h e  s ub s t r i n g  a n d  o v e r a l l  s i m i l a r i t i e s  a m o n
g
t h es e qu e n c e s 

4 x4x4 6 4  d m e n s i o n s  fr o m  t r i nu c l e o t i d e  c o mp o s i t i o n  1 2 8  fr o m  g ap p e d  ^ m e r  1 0  fr o m  t h e



- -


, ,

re v e r s e c o m p l e m e nt , an d  1
><
3 2 0  fr o m  B P F s  a r e  e x t r a c t e d  a s  d e t a i l e d  i n  F g i . 5 . 2  (
a) 

Tr i

n u c e o t d e  c o m p o s i t o n  o b t a i n s  e vo ut i o n a r y  i n fo r m at i o n  u s e d  t o  c h a r a c t e r z e  n c R NA
l i i 
 l i I

se
qu e nc e s[ 1 49

.  G i v e nas e que n c eL  o f l en
gt h x 
, w h er e /  e ,
 A { ,
C G , ,
U }  and /

1 ,
2 ,
. . .

^ 

T oo b t a n  t h e  n u m e r c  s p a r s e  m a t r i x  fr o m  t h e  I n c R N A  s e q u e n c e a3 u p l e  l e t t e r  a r r a n g e m e n t


i i t

w asus e d 

S e q u e nt a we r es c ane dus i n g( 2 2 3 4) x 2  wh e r e  1


q ue nc e
i l l
y ,
t h es e 1
, ,

) , ( 5 5 ,
. . .
, (


, 
jc 

1 , 
jc
) , 

2 , 
3 , 
a n d  4  r e p r e s e n t  t h e  n c R NA  s e q u e n c e  n u c l e o t i d e s I 

G ap p e dA :

m e ru ti l i z e sA :

m e r s  w i t h  g ap s  t o  p r o v i d e  u s e f u l  l o c a l  an d
g
l o b a l  n fo r m a t o n
i i 

T h e  fe a t u r e  s e t  i sc h arac t e i z e d  b y p a r a m e t e r  l  r e p r e s e nt n g  t h e  s e q u e n c e 
r i l en
gt h  an d  k

re
p r e s e n t n g  t h e  n um b e r  o f no n g ap p e d p o s
i 


i ti o nsi n  t h e  s e qu e n c e  [ 1 4 1

,  The n um b e r  o f g ap s  g
 

* * * *


k .  F o re x amp l e , 
AC , 
A G , a nd  CG  c o nta i n s  1 

3 an d  ^ 

 2 , 
 re
p re s e ntsa
g
ap  [ 1 50



R e v e rs e c o mp l e m e nt s  o f
ge n o m e s e q
u e n c e s  h e l p  t o  c o n c e a l  h i d d e n  p a tt e r
ns w i th

i m p o r t a n t  r e g u a t o r y  n fo r m a t i o n  G i v e n  a  s e q u e n c e  Z  t h e  r e v e r s e  c o m p l e m e n t  o f 
l i .

l en
gt h  k

c o n t g u o u s  s ub s ei
q u e nc e saree l i m n at e d  a f
i t e r  g e n e r a t i n g  a n d  t h e n  a  fe a t u r e  v e c t o r  i 

c a l c u l a t e d  fr o m  t h e  o c c u r r e n c e  fr e q u e n c e s  o f t h e  r e m a ni n g  A e n gt h  s u b s e q u e n c e s  u s i n g  t h e


i  i : l

fo l l o w n ge q u at o n[
i i 1 5 1



66
- 


Da l i a n Un i v ers i t
yo f  Te c h n o l o gy  D o ct o r a l  D i s s e rt at i on
 

ua

2 k k

' '

2  {
k=  1

3 ,
. . .

), 
2  + 2 
 (
k= 2 4 , ,
. -

) (
5 . 1


A  b n a ryp r o f
i i l eo f 2 0x6d  i m e n s o n sc o m p o s e do f as e q u e n c eo f
i   l en
g hbwa sg
t e n e r at e d 

T h es e c o n d a r ys t r u c t u r eo f  RN A  i s kn o w n t o p o s i t v e y m p a c t p r o t e nb i n d n g s i l i i i i t es e l e cti o n



fo r  t a r
ge
t  R N A s  T h e r e fo r e  n c o r p o r a t n g  R N A  s e c o n d a r y  s t r u c t u r a  p r o p e r t


i i l i e s n c i r eas e s

p re
d i c t o n p o w e r
i . RN As e c o n d a r
ys
t r u c t u r ep r o f i l e swe re
p re d i cte d u s i n gad y n a m c

 i

p ro gram m i n g  t e c h n q u e  b a s e d  o n  f n d n g  t h e  m n m u m  fr e e  e n e r g y  k n o w n  a s  RN A fo d  [ 4
i i i i i l 1



L e tLs Js m ]  b e  s t r u c t u r e s  o f w d t h  o f  n c R N A  ^  fr o m  a  s e t  o f  m  n c RN A s  RN A


[

s \ Js 2 ,
- - -  i I l .

nu c e o t d eb a s e

pa ri n gc o n s t r a n t s ar e m p o s e d t om o d e l p a r so fn u c eot de o s t i o n s F v e



 i
p
l i i i i i l i i .




fe a t u r e s  a r e  o b t a i n e d  fr o m  h g h  p r o b a b i i l i t
ys tr u c t ur e s b yc o u nt n gt h eo c c ur r e n c eo fe a c i

u n q u es t ru c tu r eo f
i  t h e s a m p l e ds t r u c t u r e s 1 1 2 

[ ]

I nt h i s  s t u d y  t h e  n fo r m a t o n  c o n v e y e d  b y  t h e  p r o t e n  s t r u c t u r e 

i i i i sa l s oc o n s i d e r e d 

P r o t ei n  s e c o n d a r y  s tru c t u r e s  w e r e  p r e d i cte db as e do na h e -

l i x( H) ,
/

s h ee t
( E ) an
dc o ,
i l
( C )

c o n fo r m a t o n  p a r a m e t e r s  u s n g S S p r o

 [
i 1 5 2

.  T h e2 0a m n oa c d s ar ed v d e d nt ot h r e eg r o up s

 i i i i i

of
p hy s i coc hem i cal
p ro
p e rt i e s  o f  res i due s a h e :

l i x : E A L M Q K R H ,
. .

. .


 (

s heet 

V ,


Y C W , , ,
F T a n dc o

i l :  G N .

P S , ,
D . T h ec o n fo r m a t o n  p a r a m e t e r s  fo r  a  g i v e n  a m n o  a c d  a
i i i

; 

i sc al c u a t e d  u s n g  t h e  fo
l i l l o w i n g fo r m u l a



d t '

=

j 

a =
— —

w h e r e / 1 ,
2 . . . . 20 1 2 3 . 5 . 2)


, ;
 , (




w h e r e  t h e  n d e x  r e r e s e n t s  t h e  t w e n t y  a m n o  a c d s t h et h

s e e s e c o n d ar
ys t r u c
t ur e


j
i i i
p i
i /

l h
e l e m e n t sc o n t e nt( H ,  E , a n d C) ,  d j i st
h en u m b e ro f  t h e z a m i n oac i d n t h e p r o t e i n s e q u e n c e



t h h

a n dd re
p res ent st h en u m b e ro ft h e/ a m n oa c dw i i i t h  t h e  /  s e c o n d a r y s t r u c t u r e  3 .

me r


j

h e  s e c o n d a r y  s t r u c t u r e  g e n e r a t e d  2 7  fe a t u r e s  F g  5 2  ( b )  s h o w s

c o u nt s  o f  t h e  t l n e e  k i n d so f  t 
 . i . .

an i l l u s t r at o no f i  s e c on dary



fe a t u r e  e x t r a c t i o n 

I n c R NAS e u e n c e P r ote nS i e


qu e n c e
 I nc RNA  S e q u e nc e P r o e nS e
t i


uence


… A C U U A C G C I G AA  MQS 】

Y P \I TQVA K . . . 

A C U UA C G C U G A A  M Q S PY P M T Q VA K . . 

Tr
inu c l e o t i de .


mM e  R N A fo 
G ap p ed  kmcr  Bm ar
y p 
l d S S Pro

R ev er s e  c om
p l em ent

、  w  | T




 片 R
     


 、

A 00 
A A A I


 H  9






,
— 

 cL 
AA C   0  〇  1
. .

o  




 i .

 l

P ro t e i 

 ^ 

AAG 
D O  0  1
. . .
0 s t ru c t ur e

(i  T

 i

    '
 I n cR NA H N C H

 >

  

 G A st n i c t i u e

A U U Y〇〇〇 
. . .



( a)  ( b 

F g i . 5 . 2I l l u s t r a t o n  o f fe a t u r e  e x t r a c t o n
i  i ,

(
a ) Me t h o d s  u s e d  t o  e x t r a c t  s e q u e n c e  fe a t u r e s ,

(
b )

S e c o n d a r ys t r u c tu r e s
 p re
d c t e du s n

i i

R N A fo l da n dS S P r o

67
- 


P re d i ct i on  of
 p an
l t  on
g n on c o d n g




RN A s i nt e r a c t o n s w i  i t h  p ro t e i n s b y d e e p  l e a r
 n i ng
 

5 . 3 . 3  I m p l e m e nt at i o n  o f  t hem o d e 

Themu lti

l ay e r e d  r e c u r r e n t  A E  n e u r a l  n e t w o r k  m o d e l  wa s  a d o p t e d  a n d  i t  w a s  t r a i n e d  o n

I n c R N A  a n d  p r o t e i n  s e q u e n c e  a n d  s t r u c t u r e  d a t a  w i th  k n o w n  n t e r a c t i o n s  a s  l a b e l s i .  C o n t r ar


t o t h e  t yp i c a l  A E s  r e c u r r e n t  A E s  c a n  l e a r n  a  c o m p r e s s e d  r e p r e s e n t at i o n  o f  s e q u e n c e s  b y
, 

se
q u e n t i a l l y u p d a t i n g  a  h i d d e n s t at e  r e
p r e s e nt a t o n  T h e  L S T M  a r c h te c t u r e h a s  a  s p e c i a l

i . i 

n e u r o n  s t r u c t u r e  c a l l e d  th e  m e m o r y  c e 53 T hem e m o r s  s t o r e  i n fo r m at i o n  o v e r  a n


l l
[ 1

yc e l l

arb i trary  t i m e  al l o w i n g  t h e  n e t w o rk  t o  l e arn  l o n g -

ran
g ed ep end e nc i e s .  T hre e no n -

l i n e a r  g at i n g

un i t s  ( i n p u t , o u t p u t  a n d  fo r g e t )  c o n t r o l t h e  n fo r m at o n  f l o w
i i t hr o u gh  t h e  t i m e  s t ep s .  E a c h  g at e

g e t s  a  s i m i l a r  i np ut  a s  t h e  i np u t  n e u r o n .  M o re o v e r ,  e a c h  g at e  h a s  a n  a c t v at i o n  f
imcti o n
i .  The

p ro p o s e dm o d e  l i sc om
p o s e d  o f  t wo s e p a r a t e  n e t w o r k s  o n e  fo r  p r o t e i n s  a nd  t h e  o t h e r  fo r

I n c RN A s .  T h e  c o m b n at i i o no f  t h e  t w o  n e t w o r k s  h e p s  t o  i m p r o v e  t h e  c al c u l at i o n  o f l  s i m i l a r i ty

b e t w e e n  s e q u e n c e s  T h e  i np ut s  a r e  p r o t e i n  a n d  I n c R N A  s e q u e n c e

s t r u c t u r e  fe at u r e  v e c t o r s 

T hr e e  h dd e n  i l i n a l  o u t p u t  T h e  l ay e r s  ar e  f u
ay e r s  a r e  u s e d  t o  p r o d u c e  t h e  f . l l
y  c o n n e c t e d  an d

l i n e a r  t r a n s fo r m a t i o n  c a l c u l at i o n  i s  u s e d  w i t h  a n  a c t v a t i o n  f u n c t o n  T h e  n um b e r  o f  h i dd e n

 i i .

l a y e r s  r e p r e s e n t s  t h e  d e p t h  o f  t h e  n e t w o rk  w h i e  t h e n um b e r  o f  n e u r o n s  o f  e a c h  l a y e r

 l

re
p r e s e nt s  t h e  w d t h  [ i 1 54

,  T h e  R e L U  a c t v a t i o n  f u n c t i o n  i s  u s e d  i n  t h e  h i dd en  l a y e rs  T h e
i 
 .

si
g m o i d  a c t i v at i o n  f un c t i o n  i s  u s e d  o n t h e  o u t p u t  a y e r l . Un it n o rm  c o n s tr ai nt  i s  u s e d  t o

p e na l i z e  t h e  w e i g ht  m at r i c e s  o f n o d e s  i n  t h e  m o d e  l  t o  a v o i d  o v e r fi tt i n
g .  T h e  o bj e c t i ve o f  t he

tra i n i n g  i s  t o  m i n m i z e  r e c o n s t r u c t i o n  e rr o r  ( Z )  d e f
i i ne d a s 

L ( x x )= x x  5 3



( 


 | | | |

w h e r e  x  i s  t h e  i n p ut  a n d  x  i s  t h e  o u t p u t . S i a m e s e  n e t w o r k  a r c h i t e c t u r e  i s  i m p l e m e nt e d  T h i s

 .

n e t w o r k  a r c h i t e c t u r e  l e ar n s  r e p r e s e n t a t o n s  t h a t  r e a l i z e  t h e  i n v a r i a n c e  a n d  s e l e c t i v i t y

 i

i n d i s p e n s ab i l i ty s  t hr o u g h  d i s t i n c t  i n fo r m a t i o n  a b o u t  t h e  s m i i l ari t
y
b et w e e np ai rso f  se
q ue n c e s 

T heh n g e  l o s s  ( HL \  a  p r e d i c t i o n  e r r o r b a s e d o s s  fu n c t o n  w a s  u s e d  t o  t r a i n  t h e  S i a m e s e


i l i

ne t wo rk 

// L
 (
匕 ( 9
)

 X , 
m ax

〇 ,

! 

 乂 . 0

)  (
5 4 -


w h e r e  Y  a r e  l a b e l s  a n d  O  a r e  t h e  o u tp ut s  o f  L S T M  T h e  i n d e x  i  r e p r e s e n t  t h e  s a m p l e s  t h at

 .

n fr
i n g e  t h e  m ar g i n Th ehi n
g e  l o s s  i s  u s e d  i n s t e a d  o f c r o s s e n t r o p y  b e c a u s e  i t  h a s  a  s up e r i o r


i . 

re
g u l a r i z at i o n  e ffe c t  [ 1 5 5

.  T ra n ng s t o p s wh e n
i i t h e  m a x i mum  nu m b e r  o f  t he  e p o c h  i s  r e a c h e d 

AD AD E L T A  a l g o r i t h m  w i t h  a  m i n i b a t c h  s i z e  o f 6 4  wa s  u s e d  t o  m n i m i z e  t h e  o s s  f u n c t

ion  i l 

T hee m b e d d ng i l a y e r m ap s  n c R I N A  an d  p r o t e i nd e s c r i


p t o r s  t o  a  l o w d i m e n s i o n a l

v e c t o r  s p a c e  T h e  e m b e d d i n g  v e c t o r s  o f  n c R N A  a n d p r o t e n  d e s c r i p t o r s  a r e  fe d  i n t o  t h e

 I

. i

e nc o der l ay e r Th e e n c o d e r t ak e s t h e I nc R
. N A  an d  p r o te i n  e m b e d d n g s  an d  r u n s  e a c h  o n e
i 

t hr o u g h  an  L S T M .  G i v e n  i np ut  X ? 
t h e  h i d d e n  s t at e  o f  t h eL S TMe nc o de r i sde no te das  hE  a 

68
- 


Da l i an  Un i vers i t
yo
f  T e c hn o l o gy 
D o cto ra D l i s s e r t at i o n


fo r  e a c h  /   wh e r e R  c  i s  t h e  num b e r  o f  L S T M  un i t s  i n  t h e  h i d d e n


ti met f  ,
^ 
e ,

l a y e r  o f  t h e  e n c o d e r  T h e  fi n a l  s t at e  o f  t h e  en c o d e r  (. h^ )
i s  u s e d  a s  t h e  i n i t i a l  s t a t e  fo r  t he

de c o d er 

T heL S T Mde c o d er t a k e s  t h e  e n c o d e d  fe at u r e s  t o  r e c o n s t r u c t  t h e  i n
p ut .  T o  d y n am i c al ly

s t e e rt he r e c o n s t r uct o n p r o c e s s i


,  t h e  at t e n t i o n  l a y e r  i s  i m p l e m e n t e d  b e fo r e  t h e  d e c o d e r  T h e

 .

a t t e n t i o n  m e c h a n i s m  s e e c t i v e l y  c a p t u r e s  t h e  c o n t e x t  i n fo r m a t i o n  f r o m  I n c R
l N A s  a nd  pr o t e n s

 i

c o n c u rr e nt l
y  t o  e ff i c e n t y  p r e d i c t  n t e r a c t i o n s
i l i .  D ur i n g  tr a i n i n g , 
t hed e c o d er u s e sx t 
as  i n p ut  t o

 an d  co  T h e  o u t p u t

o b t a i n  t h e  s t at e p o n d i n g  t o  t ar g e t  x 厂

/z t he n p re d i ct s x -

rr e s
f (
f l
) 
1 .

s e ue n c e st h e  r e v e r s e  o f  t h e  n p u t  s e q u e n c e  R e v e r s n g  t h e  s e qu e n c e  m a k e s  o t m i z at o n
i 


i i i i

e as erb ye n ab l i n

g 
t h e m o d e l t o  e x a m i n e  o w  r a g e  c o rr e l a t i o n s  [ l 1 56

,  G i v e n  t h e  hi d d e n  s t at e  h h

t h e  d e c o d e r  g e n e r at e s  t h e  o u t p u t  b y  p r e d c t i n g i

t h e ne x t  s y m b o
 l
 y t


W he nd e s i
g n i n ga de ep l e ar n i n g
 pr e d i c t i o n m o d e l
, p r e d e f i n e d  h y p e r p a r am e t e r s


d e t e r m i n e d  b y  n u m e r o u s  o p t i m z at i o n  a t t e m p t s  ar e  a  k e y  i s s u e i .  T he  DNN  m o d e l
 p e r fo r m a n c e

i sc o nt r o l l e d  b y  t h e  e a r n i n g  r at e l
, 
t h e  nu mb e r  o f h i d d e n  l a y e r s 
,  t h e  e p o c h s ,  an d  r e g u l ari z at o


n i

t e c hn i
q u e s  P a r a m e t e r  v a u e s  fo r  l e a r n i n g  r at e  w e r e  ( 0 5  1
. l .


. 0  2 0 )  T h e  n u mb e r  o f  h i d d e n

. . 

l ay e r s  w a s  3  e ac h  c o n s i s t i n g  o f 2 5 6  1 2 8 
, , 
a nd  6 4  n e ur o n s  r e s
p e ct i v e l y .  D ro po u tre
g u l a r i za
ti on

r at e  a n d  t h e  n um b e r  o f  e p o c h s  we r e  ( 0 . 4 , 
0 5

, 
0 7 )  an d  ( 5 0


1 00 20 0) ,
.  D ro p o u ti s  u s e d  t o  av o i d

m o d e  o v e r f t t n g  b y  r a n d o m y  m a s k n g  s o m e  n e u r a l  un s  dur i n
g  t r a i n i n g  T h e  p a r am e e r


l i i l i it t.

comb i n at o n s  n  t h e  r a n g e  a b o v e  a r e  a d a p t e d  t o  e v a l u a t e  t h e  p e r fo r m a n c e  o f
i i  t h emo de l s T he

 .

ex d  t w e n t y  t i m e s  t o  a v o i d  t h e  nf l u e n c e  o f  i n i t a l ar a m e t e r  r an d o m n e s s
per m en
ti sre
pea e


p
i t i i

an d t og e t a n o
p t m i z e d  p e r fo r m a n c e
i .  Th ep re d i c t ona go r i l i t hm  i s  s h o w n  n  A g o r i l i t hm  5 . 1 

A l
gor i t hm  5 . 1
p
s e udo -

co d eo f  D RP L P 

In
put 

S i

s eto f  I n c RN A  s e q u e n c e , 

p

s eto f
 pr o t e n s e qu en c e i
, 
num b e r  o f  s t ac k e d AE s =
 T 





num b e r o f  i t e r at i o n s  ( e
p o c h ) 

O u tp u t 

L P I m atr xM i


Wh il et

lt oT d o 


I niti a l i z e  t r a i n i n g  e x am
p l e s  l a b e l s  (y 〇 h Pj) )   〇 

R e p e a t

M i n i m i z e  t h e  r e c o n s t r u c t o n  e rr o r  i n  fo r m u l a  ( 4 i . 3


Unt i lt h en um b e ro f e p o c h  i s 



Genera t eI n c 腹 A  a nd  p r o t e i n  fe at u r e  d e s c r i p t o r s 

F ne i

t un et h ea r c h i t e c tu re

69
- 


P re d i ct i o n  o f p a n t  o n g  n o n c o d n g  RN A s  n t e r a c t o n s  w

l l i i i i
t h
 p ro t
e n i
sb
y
dee
p e ar
n n



You might also like