Professional Documents
Culture Documents
基于深度学习的植物lncRNA protein相互作用预测研究
基于深度学习的植物lncRNA protein相互作用预测研究
DA L I A N U N V E R S T Y O F T E C H N O L OG Y
I I
擴 士字 位论 文
D O C T O R A L D S S E R T AT
I I ON
^
P r e d i c t i o n o f p l a n t l o n g n o n c o d i n g RN A s i n t e r a c t i o n s
w i t h p r o t e i n s b yd e e p l e arn i n g
C o mp u t e r App l c at i o n T e c h n c
学科专 业
i
^
o gy
作者姓名 _
J a e lS an y an d a W ek e s a
指导教 师
答辩 日 期
_ _ _
2〇2 1
^
_ _
6
_
^ _
5 0
_
Pr e di c t i o n ofp l an t l o n g n o n c o di n g
RNA s i n t e r a c t i o n s w i th
p r o te i n s by de ep l e a r n i n g
基于 深度学 习 的 植物 I n c RNA
-
by
J ae l S an y a n d a W e ke s a
(
1 1 709 0 72 )
t
o
S c h o o l of C o mp u t e r Sc
i e n c e a n d Te c h n o l o gy
i n p a r t i a l fu l f i l l m e n t o f
t he re q u i r e m e nt s
fo r t h e d e g r e e o f
Doc t o ro f P h i l o s op hy
i
n
C o mp u te r App li c a t i on Te c h n o l o
gy
on
Ju ly 2 02 1
D i s s e rt at i o n S up erv i s o r
P r ofe s s o r Me n g Ju n
大 l理 i 工 大#
Da l i an Un i ve r s it
yo f T e c hn o l o gy
Da l i an Un i v e r s i ty o f T e c hn o l o g y D i s s e r t at i o n
Or i
gi
nal it
y D e c l a r at i o n
I d e c ar e t h a t
l t h i sd i s s e r t at i o n i s t h e r e s u l t o f i n d e p e nd e n t r e s e a r c h I h a v e m a d e u n d e r t h e
su
p e rv i s i o n o f my s u p e r v i s o r . I t d o e s n o t c o n t a i n an y p u b l i s he do ru np u b l i s h e d w o r k s o r
a r c h r e s u l t s b y o t h e r i n d i v i d u a l s o r i n s t i t ut i o n s a h o s e t h a t h a v e b e e n r e fe r e n c e d
re s e
p a r t fr o m t
i n t h e fo r m o f r e fe r e n c e s o r n o t e s . A ll i n d i v i d u a l s a n d i n s t i t u t i o n s t h at h a v e m a d e
c o n t r i b ut i o n s t o m
y r e s e a r c h h av e b e e n a c k n o w l e d g e d i n t h e A c kn o w l e d g e m e nt
.
I a m fu l l
y aw a r e t h at I w i l l b e ar a l l t h e l e g a l r e s
p o n s i b i l i t y a r i s n g fr o m t h e v o a t i o n o
i
f i l
t h e a b o v e d e c a r at o n l i
.
D i s s e rt at i o nT i t e l : P red i c ti o n o f
p l an
tl o n g n o nc o d n g RN i A s i nt e r ac t i o n s w i t h p r o t e n s b y
i
de e
p e arn n g
l i
Au t h o r S g n at u r e
i : J Af
c LJ A H ^ Ac hl bA D at e :
I〇 _
/
_
6 _
/2 02 1
大连理工 大学 学位论文独创 性 声 明
作者郑重 声 明 :
所呈 交 的 学位论文 ,
是 本人在 导 师 的 指 导 下 进 行研 究
工 作 所 取得 的 成果 。 尽我所知 ,
除文 中 已 经注 明 引 用 内 容和 致谢 的 地方 外
,
本论 文 不 包 含其他 个 人或 集体 已 经发表 的 研 究 成果 ,
也 不 包 含其他 已 申
请
学 位或 其他 用 途使用 过 的 成 果 。 与 我
一
同 工 作的 同 志 对本研 究 所做 的 贡 献
均 已 在论 文 中 做 了 明确 的 说 明 并表 示 了 谢意
。
若有不 实之处 ,
本人 愿 意 承担相 关 法 律 责 任
。
目 :
l
p r o t e i
作 者 签 名 : 1 A&L 日 期 :
2 0 2 1 年 _ _
[ 月 1 0 日
Da l i an Un i ve r s i t
y of
Te ch no l o gy D o c t o r a l D i s s e r tat i on
A b s tr a c
t
I d e n t i fy i n g R N A b i n d n g p r o t e i n s i t e s -
po st
-
tr a n s c ri
p
ti o n a l t r a n s l at i o n a l a n d p o s t
, ,
-
tr a n s l at i o n a l l evel s . S t u d e s h a v e r e v e a l e d t h at
i
I n c R N A s e x e r t r e g u l at o r y e ffe c t s o n v a r i o u s b i o c h e m i c a l
p
a t h w a y s p a r t l y t hr o u g h i nt e r a c t i n g
w i t h D N A R N A a n d p r o t e i n s N o t ab l y p r e d i c t i n g t h e n t e r a c t o n b e t w e e n n c R N A s and
, ?
.
,
i i I
y i n g m o e c u l a r m e c h a n i s m s u n d e r s t a n d i n g t h e p at h o g e n e s i s o
s e s s e n t i a l fo r s t u d
f
pro e n s
t i i l
,
d i s e as e s and d e c i
, p h e ri n g Inc R N A fu n c ti o n s T h e r e fo r e b u i l d i n g a h i g h
.
,
-
p e r fo r m i n g s y s t e m
fo r
p r e d i c t i ng l nc RN
A -
p r o t e i n i n t e r a c t i o n a n d s ub s e q u e n t fun c t i o n a l a nno t a t i o n fo r I n c RN A s
a r e c r u c i a l fo r c r o d e v e l o p m e n t a n d r e l at e d r e s e a r c h
p
.
T h i s d i s s e rt at i o n a i m s t o i n v e s t i g a t e t h e i nt e r s e c t i o n o f p l a n t g e n o m i c s a n d d e e p l e a r n i n g
F o r v e r s a t i l i t y an d t o e x lde s i
c on sider i n
g d i ffe r e n t k i n d s o f d at a fo r m s p o r e d ffe r e n t m o d e gn
. l i
p r i n c p e s bi o o g i c a
i l
,
l l nfo r m at
i i o n b a s e d o n a v a r i a nt o f fe at u r e e x t r a c t i o n a n d s e l e c t i o n
m e t h o d s a r e u s e d t o d e v e l o p
n c R N A p r o t e n n t e r a c t o n p r e d c t i o n a l
g o r i t hm s F un ct on
-
l i i i i . i
i n fe r e n c e b a s e d o n t h e i n t e r a c t i o n s i s p e r fo r m e d . T he e xp e r i m e nt s w e r e p e r fo r m e d o n
m eth o ds . T he c e nt r a l h
yp o th e s i s i s t h a t I n c R N A s w i t h n o kn o wn f un c t i o n s th a t i n t e r a c t w i th
s i m i l ar
p
ro t e i n sma l n e d fr o m t h e a n a l y s i s o f
y d i s p l a y s i m i a r f un c t i o n s w h c h c o u d b e e a r ,
i l l
t h e i r n t e r a c t i o n p a r t ne r s
i . T h e m a i n c h a l l en
ge s i n c l u d e fe a t u r e e n g n e e r n g an d t h e
i i
n t e r p r e t at i o n o f r e p r e s e nt at i o n s l e a r n e d b y d e e p e a r n i n g m o d e s al i
g n e d fo r t h e t a r g
i l l et
d o m a i n / g e n o m e kn o w l e d g e
.
t o
p
re d i c t i nt e r a c t i o n s b e tw e e n I n c RN A s an d p r o t e i ns . A r e c ur re n t n e ur a l n etwo rki sa
pp l i ed
g e i n fo r m at i o n d e p e n d e n c i e s s i n c e n c R N A s a r e c h a r a c t e r i z e
d
p u r e c o n e x u a l o ng
oc a ran
-
t t t t l I
b yl o ngs e qu e n c e s . T he n , fe at u r e s e
l e c t i o nu s i n
g a r e c u r s i v e fe at u r e e l i m n a t i o n a g o r i t hm
i l i
s
em
pl o y e dt oach ev eopti m a i l
p e r fo r m a n c e . T h emo d e l ac h i e v e d 8 8 . 1 2 % an d 9 0 7 4 . % ac c ur ac y
fo r t w o
p a nt s p e c i e s
l
.
S e c o nd l y a gr a p h b a s e d d e e p l e a r n i n g m o d e l t h a t u s e s g r a p h r e p r e s e n t at i o n e a r n i n g a nd
- -
l
,
s t r u c t ur a l fe a t u r e s i s p r o p o s e d fo r t h e p r e d i c t i o n o f n c R N A p r o t e i n i nt e r a c t i o n l
-
. The
e ffe c t i v e n e s s o f us n g c ha o s g am e r e p r e s e nt at i o n t o g e t h e r w i t h g ra
p h a t t e nt i o n
s
i i
d e m o n s t r a t e d i n th e m o d e l . A c c ur a c i e so f 8 5 . 76 % an d9 1 . 97 % w e r e o b t ai n e d b y t h e m o d e l
.
Th i rd l
y , a m u l ti
-
mo de l e n s emb l e de ep l e ar n i n
g m e t h o d t h a t i nt e g r at e s
se
qu
enc e s t r u c t ur a l fe a u r e s a nd i m p l e m e n t s s e f at t e n t o n m e c h a n i s m s p r o p o s e d
o
-
s
-
t l i i t
d e m o n s t r at e s c a l a b i l i t y an d n t e r p r e t a b i y n t h e p r e d i c t i o n o f n c R N A p r o t e i n i nt e r a c t i o n
-
i l it i l
.
T h e t e c hn q u e s e m p o y e d r e s u i l l ti i c a n t y h g h p e r fo r m a n c e w i t h 8 9 5 0 % a nd 9 2 3 2 %
n s i gn i f l i
. .
a c c u r a c y fo r t w o p l an t s p e c i e s
.
-
-
I
P re d i c ti on of
p an
lt on
g nonc od ng
l
i
RN A s nt e ra c ti i on s w i t h
p ro t e n s b y d e e p e a r n i n g
i l
L as t y ah
y b r i d m e h o d h a i n e g r a e s a d e e p n e u r a l n e w o r k an d e n s e m b e l a r n i n g
t t t t t t e
l
,
l
hm s d Th e m e th o d p r e d i c t s n c RN A h
al g o r ro
pose p r o t e i n i nt e r a c t o n s a n d a n a l y z e s t e
-
t s
p
i i I i
.
se
q u e n c e n fo r m a t i o no n l y p o d c s
i r u e a r e l i a b l e p r e d i c t o n o f i n t e r a c t i o n
p a r t n e r s b e c a u s e
i
I n c R N A p r o t e n nt e r a c t o n i s l a rg e l y i nf u e n c e d b y s e q u e n c e c o m p l e m e nt a r
-
i i i l i t
y . A c c ur a c i e so f
89 98 . %an d9 3 . 44 % fo r t w o p l an t s p e c i e s w e r e a c h i e v e d T h e k e y fa c t o r s t h a t i n f u e n c e t h e
.
l
p e r fo r m a n c e o f t h e d e e p e ar n i n g b a s e d
p re d i c t i o nm e t h o d s a r e i n v e s t i
ga e
d hu s
-
l t t
,
d e m o n s t r at i n g t h e r e s e a r c h v a u e o f l t h i s d i s s e r t at i o n o n i mpr o v i n g i n t e rac t i o n p r e d i ct i o n T h e
.
fr a m e w o r k c o n t a i n s m e t h o d s fo r t h e i n t e g r at i v e a na l y s i s o f l a r g e
-
s c a l eI nc RN A andp ro te n
i
d a t a fo r n t e r a c t o n p r e d i c t o n a n d fu n c t o n a l a n a l y s i s I t
i i i i . i s a nt i c i
p a e d t h at t h e p r o p o s e d
t
m e t h o d s h o l d g r e at p r o m i s e t o b r o a d e n o u r kn o w l e d g e o f p l a nt I n c R N A p r o t e i n n t e r a c t o n
-
i i
andI n c R NA fu n c t i o na l r e s e ar c h
.
K e yw o r d s : L o n
gn o n c o
d i n g R NA
-
; Pr ote i n ; I nt e r a c t i on ;
D e ep
l e arn i n g ;
Pre d i ction
-
-
I I
Da li an Un i v e rs i t
y
of Te c hn o l o g y D o c t or a l D i s s ertat i o n
摘 要
RN A 结合蛋 白 位 点 的 鉴 定 对细 胞生 物 学在 转录 、
转录 后 、 翻 译和 翻译 后 水平 至 关
重要 。
研 宄表 明 , I n c RN A 可与 D NA 、 RN A 和蛋 白 质 相 互 作 用 从而 调 节 各 种 生化过程
。
值 得注意 的 是 ,
I n c R NA 与 蛋 白 质 相 互 作 用 的 预测 对 于 研 宄 分子机制 、 了 解疾病 的 发病
机 理 以 及 解释 nc RN A 的功能是必要的 因此 构建 个 高 性 能 的 系 统来预测 nc RN A
一
I 。 , I
与 蛋 白 质 相 互作 用 , 对其功 能进行注释 ,
对农作 物发展和 相 关研 宄具有重要 意义
。
本文 旨 在 基于 不 同 的 数据 形 式探讨 植 物 基 因 组 学 与 深 度 学 习 的 交叉 。
为 了 通用 性和
蛋 白 相 互 作 用 预测 算法 ,
并基于 互 作 关系 进行功 能推测 。
在拟南芥和 玉 米数据
集上 进 行 了 实验 , 验证所提 出 方法 的 性 能 。 中 心 假设是指 未知 功 能 的 I n c RN A 可能与相
似蛋 白 相互作用 并展现 出 相 似的 功 能 , 这可 以 通过 分析 它 们 的 相 互 作 用 得 以 了 解 。 其主
要 的 挑 战包 括特 征 工 程 以 及 针 对 目 标域 基 因 组 知 识 的深度学 习 模型 学 习 到 的 表征解释
/
。
首先 ,
提出 了 基于 最优序 列 特征 的 高 效深度 学 习 模型 来预测 I nc RN A 与蛋 白 质 的相
互作用 。 由于 I nc RN A 序 列 较长 , 因 此使用 循 环神 经 网 络来 捕 获上 下 文长程信 息 依赖 性
。
其次 , 提出 了 使 用 图 表示 学 习 和 结 构 特 征 的 深度 学 习 模型 来 预测 I n c RN A 和蛋 白
质
的 相 互作 用 。 该模 型 证 明 了 混沌 博弈 表 征 和 图 注 意 力 相 结 合 的 有 效性 , 在两个植物物种
数据 集上 的 准 确 率 分 别 达 85 . 76 %和 9 1 . 97 %
。
第三 , 提 出 了 融 合序 列 及 结 构 特 征 和 采用 自 注 意 力 机制 的 多 模 态 集 成 学 习 方 法 ,
证
明 了 模型 在 I n c RN A 和 蛋 白 质 相 互 作 用 预 测 中 的 可 扩 展 性 和 可 解释 性 。 所采用 的 技术显
作用 ,
并分析相 互作 用 对 I nc RN A 进行 功 能注 释 。 实验结 果表 明 , 由于 I n c RN A -
蛋 白
质
相 互 作 用 很 大 程度 上 受 序 列 互 补 性 影 响 ,
序 列 信 息 只 能可靠预测相 互作 用 。 在 两种植物
物种 上预测 的 准确 率 分别 为 89 98. %和 93 . 44 % 。 又研 究 了 影 响 深度 学 习 预测 性 能 的 关键
因素 , 证 明 了 提 出 方法对 相 互 作 用 预测 改进 的 研 究 价值 本 文 框 架 包 含 了 大规模 。 I n c RN A
和 蛋 白 质 数据 的 综合分析 方法 ,
以 用 于 相 互作用 预测 和 功 能分析 。
期 望所提 出 的 方法具
有广 阔 的前 景 , 以 扩展对植物 I n c RN A 与 蛋 白 相互作 用 以及 I n c RN A 功 能研 究 的 认识
。
关键词 :
长链 非编码 R NA ; 蛋 白质 ; 相互作 用 ; 深度学 习 ; 预测
-
-
I I I
P re d i ct i ono f
p l ant o n l
g n on c o
d n
g R N A s i n t er a c t o n s w i t h p r o t e n s b y d e e p e a r n i n g
i i
i l
TA B L E O F C O N T E N T S
Ab s tr ac t
I
m 胃 h
i
T A B L E O F C O N T E N T S I
V
L i sto f F i gur e s V II
L i st o f T ab l es V I I I
Ab b rev i at i o n . . I
X
1I nt r o d u c t i o n
1
1 . 1 O v e rv i ew
1
1 . 2 M o t i v at i o n
4
1 . 3 R e s e ar c h o bj e c t i v e s
5
1 . 4T he d i ss e rt a t i o n s i
gn i f i c a n c e a n d c o nt r i b u t i o ns
5
1 . 5 O r g an i z at o n o f
i t h e d i s s e r t at o n i 7
2 B i o l o g i c a l p e r s p e c t v e a n d a p p r o a c h e s fo r i n fe r r i n g l n c R
i NA -
p r o e n i nt e r a c i o
t i t ns . . . . .
9
2 . 1 C l a s s i fi c a t i o n ,
b o g e ne s i s
i
, a n d fu n c t i o n s o f I n c R NA s
9
2 . 1 . 1 H i
gh
-
t hr o u g h
pu
tt e c hn o l o
g e s fo r p r o b i n g m e c h a n i s m s o f
i I nc RN A s . . 1
3
2 . 1 . 2 T h e m o l e c u ar s t r u c tu r e o f l I n c RN A s . . 1
3
2 . 1 . 3 L n c RN A s i n t h e p a nt r e s p o n s e t o b i o t i c an d a b i o t i c s t r e s s
l . 1
5
2 . 1 . 4 A s s o c at o n o f i i I n c RN A s w i t h o t he r b i o m o l e c u l e s 1
6
2 2 . F e a t u r e e x tr a c ti o n a n d e n c o d i n g 1
9
2 . 1 . 1 F ea t u r e e x tr a c t i o n 1
9
2 2 2 F e at u r e e n c o d i n g
. . 24
2 3 . C ompu t at o n a
i l a
pp r o a c h e s fo r l n c
R N A p ro t e n
-
i i nte r act o n p re d c t o n
i i i 26
2 . 3 . 1 S ha l l o w m a c h n e l e ar n i n g a
pp r o a c h e s
i 26
2 . 3 . 2 D e ep
l e arn i n
g ap p r o a c h e s 28
2 . 3 . 3 G r ap h -
b a s e d a n d i nt e g r at e d l e a r n i n g m e t h o d s 32
2 4 . D a t a s e t s a n d p e r fo r m a n c e e v a u a t i o n m e t r i c s l . . . . 3
4
2 4 . . 1 D at a s e ts
3
4
2 4 2 E v a l u at i o n m e tr c s
. . i 3 5
2 5 . S umm a r y 3 6
3 I t e r at i v e fe a t u r e s e l e c t i o n w i t h r e c u r r e nt n e u r a l ne t w o r k fo r n c R N A p r o t e i n
l
-
i nt e r a c t i o n p r e d i c t i o n 3 7
3 . 1 I ntro du c ti o n 3 7
3 2 R e c u r r e n t n e u r a l n e t w o r k s fo r fe a t u r e l e a r n i n 3 9
.
g
3 . 3S e
que
n c e fe at u r e e x t r a c t i o n b y S V M -
RF E 40
I V
-
Da l i an Un i ve rs i t
y of
Te c h n o l o gy
D o c to ra Dl i s s e r t at i on
3 . 3 . 1 F e a t u r e e x t r ac t o n a n d s e i l e ct i o n 40
3 . 3 2 . M o de lt rai n i n
g 4
1
3 . 3 . 3 P a r am e t e r s e t t i n g 42
3 . 4E xp e r
i m e nt a l re s ul t sa nddi s c u s s i o n 43
3 . 4 . 1 P re d i c t i o n p e r fo r m a n c e 43
3 . 4 2 . C o mp ar
i so n w i th o t h e r m e t h o d s 44
3 . 5 S umm a r y 46
4 A g r ap h a tt e n t i o nn e u r a l n e wo r k b a s e d o n s e q u e n c e a n d s t r u c t u r e fe at u r e s fo r
t
l n c R N A p r ot e i n i nt e r a c t i o n p r e d i c t i o n
-
48
4 . 1I nt r o d u c t o n i . . 48
4 2 Gra h b as e d p re d
-
i ct i o n m o d e l s 50
p
.
4 3 S e u e n c e a n d s t r u c t u re fe a t u r e s e x t r a c t e d b y g r a p h a t t e n t i o n n e u r a l n e t w o r k 5
1
q
. . .
4 3 . . 1 G r ap h at t e nt o n n e t w o r k
i . . 52
4 . 3 . 2 C l a s s i fi e r c o n s t r uc t i o n 54
4 . 3 . 3 Im
p e m e n a i o n a n d p a r am e t e r s et n g s
l t t t i 55
4 4 . . E xp e r i m e nt a l r e s ul t s a n d d i s c u s s i o n 56
4 4 . . 1 Ab l a t i o n s t ud y 57
4 4 2 C o m p a r i s o n o f d ffe r e n t c l a s s f e r s
. . i i i 5 8
4 4 3C o m d i ffe r e n t d e e p
. .
p ar i s o no f
l e ar n i n
g m e th o d s 59
4 5 S um m ar y
. 60
5 D e epmu lti
-
fe at u r e fu s i on fo r
l n c RN A p r o t e n i nt e r a c ti o n p r e d i c t i o n
-
i 62
5 . 1 I nt r o d u c t i o n 62
5 . 2 H e t e r o g e n e o u s fe a t u r e i n t e g r a t i o n 64
5 . 3 Ex tr ac t n i
gs
e
q
u e n c e a n d s t r u c t u r e fe a t u r e s b y d e e p e n s e m b e e a r n n g l l i 65
5 . 3 . 2 F e at u r e f u s i o n 66
5 3 . . 3I m
p l e m e n t at i o n o f t h em o d e l 68
5 . 4 E x p e r i m e nt a l r e s u l t san dd i s c us s i on 70
5 . 4 . 1 Pre d i c t i o n p e r fo r m a n c e 70
5 . 4 2C o mp ar
. i s o nw i t h o t h e r m e th o d s 7
1
5 . 5 S umm ar y 74
6 F un c ti o n a l i n fe r e n c e b a s e d o n l n c R NA -
p r o t e ni nt e rac t o n s
i i 76
6 . 1 I nt r o du c t o n i 76
6 2 . F unct i on so f I n c RN A s b a s e d o n t he i r i nt e r a c t o n s w i t h p ro t e i ns i 78
. l l i
v
-
P re d i ct i o n o f p an t o n g n o n c o d n g R
l l
i NAs i n t e r ac t o n s w i t h p r o t e n s b y d e e p l e a r n n g
i i i
6 4 . Au to e n c o d e r fo r r e p r e s e nt at i o n l e a r n i n g
79
6 4
. . 1 I nt e r a c t i o n b e t w e e n I nc R N A an d p r o t e i n 80
6 4 2
. . S e qu e n c e fe at u r e e n c o d i n g 8
1
6 4 3
. . T ra i n i ngw i t h m x e d n o r m c o n s t r a nt
i i
82
6 4 4
. . C l a s s i fi e r c o n s t r u ct i o n 8 3
6 4 5
. . I m p l e m e n t a t i o n a n d o p t i m i z at i o n 84
6 5 . E x p er i m e nt a l re s u lt s a n d d i s c u s s i o n 86
6 5
. . 1 P re d i ction
p e r fo r m a n c e 86
6 5 2 C o m p ar
. . i s o n w i th o t h e r m eth o d s 8 7
6 5
. . 3 F un c ti o n an a l y s i s 90
6 6 . S u mm a r y 92
7 C o nc l u s i o n an d p e r sp e c t v e i . 94
7 . 1 C o nc l usi o n 94
7 2 . F ut u r e w o rk 96
Abs tr ac t o f I nn o v a t o n P o nt s i i 98
R e fe r e n c e s 1 00
P ub l i c a t i o n s d ur i n
gP h D P er o d i . 1 1
1
论 文 内 容概述 1 1
3
A c kn o w l e d gm e nt 1 1
9
Abou tt h e A ut ho r 1 20
Da l i a n U n i v e r s it y o f T e c hn o l o g y D o c t o r a l D i s s e rt at i o n C o p y r g ht U s e A u t h o r i z a t i o n 1 2
i
1
大 连理 工 大 学 学 位 论 文 版权使 用 授权 书 1 22
V I
-
Da l i an U n ve rs i t
yof i T e c hn o l o gy
D o ctora D l i s s e r t at i on
L i s to fF i
gu e s
r
F ig . 1 . 1 S t ud y o u t l i n e o f t hed i s s e rt at i on
8
F g
i . 2 . 1 C l as s i f c ati o n o f i I n c RN A s a n d e x am p l e s o f I n c RN A s ine a c h c l a s s 1
2
F g
i . 2 . 2 T h e r e l at o n s h i p am o n g D N A i
,
RN A ,
an d p r o te i n s
1
7
F g
i . 2 3 S h a l l o w an d d e e p m a c h i n e e a r n i n g a l g o r
. l i t hm s d e v e l o
p m e nt ti me l i ne 26
F g
i . 2 . 4 T h e n e t w o rk s t ru c t u r e o f C S A E 3
1
Fi g . 3 . 1 F l o w c h ar t o f t h e p r o p o s e d m e t h o d 40
Fi g . 3 . 2D e ep
L S T M ar c h i t e c t u re 42
F g 3
i . . 3 P e r fo r m a n c e c o m
p a r i s o n b e t w e e n p r o p o s e d m e t h o d w i t h fe at u r e s e l e c t i o n a n d
w i t h o u t fe at u r e s e l e c t i o n . . 44
F i g 3 4 R O C c ur v e s c o m p a r
. . i s o n o f d ffe r e n t m e t h o d s
i ,
( a ) a n d ( c ) o n A r a b dop s i s
i
t h a l i an a ^
(
b) , a n d ( d ) o n Z e a m ay s d a t a s e t 46
Fi g . 4 . 1 F o w c h art o f t h e p r o p o s e d m e t h o d
l 52
Fig . 4 2 G r ap h A t t e n t i o n N e u r a
. l n e t w o rk ar c h i t e c t u r e . . . 5 3
F g
i . 4 3 P e r fo r m an c e o f
. t h e p rop o s e d m e t h o do n
t w o p ant s p e c i e s l 57
F g 4 4 A c c u r a c y c o m p ar
i . . i so n b e t w e e n G P L P I a nd o t h e r c l a s s i fi e r s o n t h e Ze a m ays
d at a s e t . . . . . 59
F g 4
i . . 5 R O C c ur ve s c o m p ar i s o n s b e tw e e n G P L P I a nd t h r e e o t h e r m e t h o d s fo r ( a )
A r a b dop s i i s t h a l i a n a a nd ( b ) Ze a m ay s 60
F g
i . 5 . 1 T h e f o w c h art o f
l t hep r o p o s e dm e th o d 65
Fig . 5 2 I l l u s t r a t i o n o f fe a t u r e e x t r a c t o n
. a
( )
i , Me t h o d s u s e d t o e x t r a c t s e q u e n c e fe a t u r e s
.
(
b ) S e c o n d a r y s t r u c t u r e s p r e d i c t e d u s i n g R N A fo l d a n d S S P r o 67
F g
i . 5 . 3 C o mp ar i s o n o f
p e r fo r m a n c e o f d i ffe r e n t i nt e g r a t i o n o f s e q u e n c e fe at u r e
e x t r a c t i o n m e t h o d s o n Z e a m ay s d a t a s e t 70
F g
i . 5 . 4 P r e d i c t i o n r e s u l t so n Ze a m ay s d a t a s e t ( a ) P r e d i c t v e p e r fo r m a n c e u s n g
, i i
s e
q u e n c e o n y a nd s e q u n
l e ce
p
l u s s t r u c t u r a l fe at u r e s ,
(
b ) A U P R C c urv e s o f D RP L P
I
a n d f i v e c l a s s i fi e r s 72
F g 5
i . . 5 A U P R C c urv e so fd i ffe r e n t m e t h o d s ,
( a ) O n Ze a m ay s ( b ) O n A r a b i dop s is
,
t h a li a n a 73
F g
i . 6 . 1 Th e w o rk f o w o f l t h e P L RP I M m o d e l 80
F g 6 2 E x p e r m e n t a l s e t u p fo r t e s t i n g t h e p r o o s e d m e t h o d 85
i . . i
p
F g 6
i . . 3 R O C c u r v e s fo r P L R P M a n d f v e o I i t i e r s o n ( a ) A r a b i dop s i s t h a l i a n a
h e rc as s i f l
d a t a s e t a n d ( b ) Z e a m ay s d a t a s e t 88
F g
i . 6 . 4 R O C c u r v e s fo r P L R P I M , an do th e rm e t h o d s o n ( a ) A r a b i dop s i s t h a l i a n a a n d ( b )
Ze a m ay s d at a s e t s 89
V I I
-
Pre d i ct i o n o f
p ant
l l o n g n o n c o d n g RN A s n t e r a c t on s w i t h p r o t e n s b y d e e p e a r n i n g
i i
i i l
L i s to f Ta b l es
T ab . 2 . 1 R e s o ur c e fo r
p a
l nt I n c R NA a nd l n c R NA -
p r o t e i n i nt e r a c t o n d a t a i 1
0
T ab . 2 . 2D e s c ri
p t o r s fo r R
NA an d p ro t e i n s e q u e n c e s
2
1
T ab . 2 . 3I n c R NA , pro e n
t i
,
an d i n t e r a c t i o n d a t a s e t s u s e d i n th i s s tu d
y 3
4
T ab . 3 . 1 P e r fo r m a n c e o f 5 -
fo l d c r o s s
-
va l i d a t o n ( A T fo l d C V
i
-
) a n d L e av e o n e o ut
c ro s s
-
v a l i d at i o n ( L O OCV )
m e th o d s
43
T ab . 3 . 2 P e r fo r m a n c e c o m p a r i s o n o f t he p r o p o s e d m e th o d an d f v e c i l a s s i fi e r s 4 5
T ab . 3 . 3 C o m p ar i s o no f LPI -
DL w it h o t h e r t hr e e e x i s t i n g m e t h o d s 45
T ab . 4 . 1 P a r a m e t e r s e t t n g s u s e d fo r G P L P I m e t h o d
i 56
T ab . 4 . 2 P e r fo r m a n c e c o m
p a r i s o n s o f d ffe r e nt p r e d c t o r s o n d i ffe r e n t fe a t u r e g r o u p s o
i
n i
Z e a m ays d at a s e t 57
m ays d at a s e t 58
T ab . 4 . 4 P e r fo r m a n c e c o m
p ar i s o n b et we e n GP LP I an do t h e r e x i s t i n gm eth o d s 60
T ab . 5 . 1 P r e di ct i o n
p e r fo r m a n c e fo r d i ffe r e n t c l a s s i fi e rso n Z e a m a y s d at a s e t
7
1
T ab . 5 2 P e r fo r m an c e o f
. D RP L P I n c o m ar i s o n w
i
p i t h o th e r m e t h o d s o n t h e Z e a m ay s
d at a s e t * 72
T ab . 5 . 3 P e r fo r m a n c e o f D RP L P Ii n c o m p a r i s o n w i t h o t h e r m e t h o d s o n t h e A r a b i dop s i s
t h a l i a n a d at a s e t 72
Tab . 5 . 4 5 -
fo l d c r o s s
-
v a l i d at i o n r e s u l ts o f t hr e e p r o p o s e d m e t h o d s b a s e d o n t h e
NP I n t e r d at a s e t 74
T ab . 6 . 1 H y p e p ar a m e
r t e rs e tt i ng s 8 5
T ab . 6 . 2 P e r fo r m a n c e of 5
-
fo l d c r o s s
-
v a l d at i o ni 8
6
T ab . 6 . 3 P e r fo r m a n c e o f
p r o p o s e d m e th o d c o mp a r e d
w i t h o t h e r c a s s f
iers l i 8 7
T ab . 6 . 4 P e r fo r m a n c e o f t he p r o p o s e d m e t h o d c o m p ar e d w i t h o th e rm e t h o d s 8 9
T ab . 6 6P r e d i c te d
. G O a nn o t at i o n s ( b i o l o g c a p r o c e s s ( B P ) m o l e c u a r fun c t i o n (
i l
,
l MF )
,
a n d c e l l u l a r c o m p o n e n t ( C C ) ) fo r I n c R N A s 92
V I I I
-
Da l i an U n v ers i ty o f
i Te ch n o l ogy
Doc t or a l D i s s e r t a t i on
A b b re v i at i o n
S ym b o l Fu l l N am e
AE A u t o enc o d e r
A L B E RT AL i t e B i d i re c t i o na l E n c o d e r R e p r e s e n t at o n s fr o m T r a n s fo r m e r s
i
B E RT B d i ir e c t i o n al E n c o d e r Re
p r e s e nt at i o n s f
r o m T r a n s fo r m e r s
C at b o o s t C a t e g o r i c a l b o o s t i ng
F C G R F r e q u e n c y c h ao s g a m e r e p r e s e nt at o n
i
GC c o n t e nt G u an i n e c y t o s i n e c o nt e n t
-
G -
km e r G ap p e d A :
-
mer
G NN G r a p h n e u r a l ne t w o r k
H AN H i e r a r c h i c a l a tt e n t i o n n e tw o rk
L B F G S L m
-
i i t ed -
m e m o ry B ro yd en F l et c he r - -
Go l d fa r b S h a nn o
-
L L E L o c a l l
y l i n e are mb ed d i n g
L n c R N A L o n g n o n c o d n g r b o nu c
i i l e i cac id
L o n g M a n L n c R N A m a mm a l s a n no t a t i o n s
L o n g T a r g e t L n c R N A t a r g e t
L O O C V L e a v e o n e o u t c r o s s v a -
li d at i o n
L P I L n c R N A p r o t e i n nt e r ac t o n
-
i i
L R L o g i sti c r e g re s s i on
L S T M L o n g s h o rt -
t e rm m e m o r y
NP I nt e r N o n p ro t e i n - -
c o din
g n t e r act i o n
i
O RF O p e n r e a d i n g fr a m e
P n c R N A D B P a n t n c R N A d a t ab a s e
l l
I
P S S M Po s on f cs c o r n g m atr x
pec
-
i t i s i i i i
P W M P o s i t i o n w e i g ht m a t r x
i
RB P RN A b i nd i n gpro tei n
S V M R F E S up p o r
-
t v e c t o r m ac h i ne -
r e c u r s i v e fe at ur e e l i m i n at i o n
R N N R e c u r r e n t n e ur a l n e tw o r k
RP RN A I
-
p r o t e n nt e r a c t o n
i
i i
S W S m h Wa e rm an
-
i t t
I X
-
Da l i an Un i v e rs ity o f T e c hn o l o gy D o c t o r a l D i s s e r t at i on
1I n t r o du c t i o n
1 . 1 O v e rv i ew
Ac c ord i n g to t h e c e nt r a l d o g m a n m o l e c u l a r b o o g y p an t s a r e s e s s i l e s p e c i e s w h i c h
i
i l
,
l
li k e o t h e r l i fe fo r m s c a n b e v i e w e d a s a f o w o f n fo r m a t o n fr o m d e o x y r
,
i b o nu c e i c a c d
l i i l i
(
DN A ) t o p h e n o t yp e s / c r o p s p e c i e s a n d a g r o n o m i c t r a i t s . Ri b o n uc l e i cac i d( R NA ) c a rr i e s
g e n e t i c i n fo r m a
ti o n i n t h e fo r m o f n u c e o t i d e s e q u e n c e an d p e r fo r m s b i o c h e m i c a l fu n c t i o n s
l
d u e t o i t s a b i l i t y t o fo l d i n t o c om p l e x t e r t a r y s t r u c t u r e s i . L o n gno n -
c o di n
gRN A s( I n c
RN A s
)
h av e l i tt l e o r n o p r o t e i n c o di n
g c ap a c w e r e t r an s c r i b e d fr o m n o n fun c t i o n a l en ere g i o n s
- -
i t
y ,
g
,
D N A e l e m e nt s ( E N C ODE ) , f un c t i o n a a nn o t a t o n o f t h e m a m m a l i a n g e n o m e ( F AN T O M )
l i
,
g e no t yp e
-
ti s s u e e x t e n s i o n ( G T E x ) an d G E N E C ,
O D E h av ep r e d i c t e do v e r5 0 ,
0 0 0 I n c R NA s
a nd a n n o t a t e d t h e m t h r o u
g h m a n u al an d a u t o m a ca
p p r o a c h e s T o d at e m a n y s t u d i e s o n
t i .
,
I n c R N A s i n m i i m a l s h av e b e e n c o n d u c t e d . C o nv e r s e l
y , t h e nu m b e r o f fun c t i o n a l y
l
c h ar a c t e r
i ze d p l ant I n c R N A s i s m ed P a n t I n c R NA s a r e i nv o l v e d i n e n c i ng
l i i t . l
g e ne s i l
,
g u l at i o n o f f l o w e r i n g t i m e r o o o r g a n o g e n e s s r e p r o d u c t o n a n d d e fe n s e ag a i n s
t fun
re t i
, g a l ,
i
,
i n fe c t i o n s [ 1
]
. T h e n c R NA s ar e n o t o n y e n r
I l i c he d i n t h e n u c l e u s b u t a l s o l o c a l i z e a n d
,
f u n c t i o n n t h e c yt o p l a s m
i . O ther c h ar a c t e r i s t i c s t h at d i s t i n
gu i s hI n c RN A s fr o m p r o t e i n
-
c o di ng
m o l e c u l e s i n c u d e v e r y l o w y e x p r e s s e d c o n t a n i n g c a n o n i c a p o l y a d e n y l at i o n s i g n a l an d
l l
,
i l
,
t he y ar e p o o r y c o n s e r v e d am o n g s p e c
l i es
[
2
]
. T h e y p l a y i m p o r t a n t r o l e s i n e p i g e n e t i c
m o d i fi c at i o n ,
tr a ns c r
i p t o na i l
,
RN A s p l i cin
g ,
an d p o s t
-
tr an s c ri
p t o n a l r e g u l at i o n p
i
]
. The
I nc R N A s p ar t a k e n a n a rr a y o f m o i l e c u l ar
pro
c e s s e sth r o u
g hd i re c t i nt e r a c t i o n w i t h DN A
,
o t her R NAs ,
o rp ro te i n s
.
R e c e nt y t h e s t u d y o f n c RN A p r o t e i n nt e r a c t o n ( L P I ) h a s g a i n e d i n t er e s t am o n g
-
l
,
I
i i
b i o i n fo r m a t i c s e nt h u s a s t s T h i s i . i s d e r i v e d fr o m t h e kn o w l e d g e t h at n c R N A s a c h i e v e t h e i r
I
d i v e r s e fu n c t o n s b y n t e r a c t n g w
i i i i t h m u l t p e p r o t e n s h e n c e t h e i r i nv o l v e m e n t i n t h e
i l
i
re
g u l at i o n o f m u l t p e c e i l l l u l a r p r o c e s s e s s u c h a s c e l l g r o w t h a n d c hr o m at i n m o d i f
i c at i o n
.
T h e r e fo r e e x p e r
i m e nt a a n d c o m p u t a t
,
l i o n al p r e d c t o no f L P I s i i i s e s s e nt i a l fo r fa c i l i t at i n g
I nc RN A -
re l at e d a c t v i t i e s i . We t
-
m a s s s p e c t r o m e t r y h av e s u c c e s s fu l l
y p r e d c t e d a n d v a l i d at e d L P I s [ 4 ]
i
. H o w ev e r ,
ti m e an d c o s t
re n de r th e m u n s u i t ab l e fo r l ar
ge
-
sc a l e a
pp
l i c at i o n s . T h e r e fo r e , d i ffe r e n t
m a c hi ne e ar n i n
g b a s e d c o m p u t at i o n a mo de sar e e x p o r e d t o n fe r p o t e nt i a L P I s a s
- -
l l l l i l
d i s c u s s e d i n a r e c e nt l y p u b l i s he d rev i ew
[
5
]
. A l be i t t h e a d v a n c e m e nt o f s e q u e n c n g
i
tec hn o l o g i e s ,
t h e r e are n um e r o u s u n e x p l o r e d I n c R N A s n p u b c r e p o s i t o r
ies i i . P art i c u l ar l y , L P I
1
-
P re d i ct i o n o f
p an t
l l o n g no n c o d in
g
RN A s n t e ra c t i i on sw i t h
p r o te n s b y de ep
i
l e arn i ng
i n p l a n t s h a s r e c e i v e d l i t t e a t t e nt i o n l
,
wh i c h m a k e s it a s ubj e c t o f i n t e r e s t fo r t h e i d e n t i f c a t i o n
i
o f n e w a s s o c i at i o n s
.
Da t a m i n n g a l g o r i t h m s a r e ap p l i e d t o d i s c o v e r kn o w e d g e a n d a d d r e s s b i o o g i c a
i l l
l
q u e s t o n s T h e d e m a nd fo r d a a m i n i n g i n g e n o m e r e s e a r c h i s g r o w i n g p r o p o r t i o n a y t o th e
i . t l l
a m o u n t o f d a t a b e i n g g e n e r a t e d T h e d at a m i n i n g a l g o r i t h m s d i s c o v e r p a t t e r n s a n d e s t ab . l i sh
re l at i o n s h i T
p s i n d at a h e r e a r e
t hr e e m ai n s t e
.
p s fo r c o n d u c t i n g d at a m i n n g i n g e n o m i c s
i
i nc ud ng l i
; d at a a c q u
i si ti on ,
i n t e g r at i o n , a n d ap p l y i n g d a t a m i n i n g a g o r i t hm s l . T h ea c q u i siti on
of bio og ca
l i l d at a e nt a i l s
i d t ab a s e s a n d we b
q u e ry n g a p
l a t fo r m s . Mach i n e l e ar n i n g a l g o r i t h m s
a r e a s ub f i e l d o f d at a m i n i n g ,
t h e y l e ar n fr o m d at a w i t h o u t e x p l i c i ti n struct i o n s . M ac h i n e
e a rn i n
g g e n e r a t e s p r e d c t i v e mo d e l s b a s e d o n m a t h e m a t i c a ru l e s a n d s t a t i s t i c a l a s s o c i at i o n s
l i l
a m o n g fe a t u r e s fr o m d at a s e t s . S i m i l ar
i t y m e a s u r e i n m a c h i n e l e a r n i n g c o m p ut e s c o s e n e s s
l
b e t w e e n e e m e n t s n a d a t a s e t t o d e s c r i b e t h e d e g r e e o f r e l a t i o n s h i p b e t w e e n c o n c e p t s o r
l i
e n t i t i e s i n a d at a s e t . T h e t h r e e t yp e s o f m a c hi n e l e ar n i n
g ar e s u p e r v
i s ed , s e m i
-
s u p e rv i s e d , and
v a l ue so f t h e r e s p o n s e v a r ab i l e ( l ab e l e d d a t a
)
. T he m o de l
p re d i c t sre sp o n s e v ar ab i l e sus in
g t he
g e n e r a l i z e d k n o w l e d g e fr o m t h e l a b e l e d d at a . U n s up e r v i s ed l em i i n g d e n t i fi e s h i d d e n
i
s t r u c t u r e s w i t h i n u n l a b e l e d d at a . T h e s up p o r t v e c t o r m a c h i n e ( S V M ) a n d r a nd o m fo r e s t ( R F )
a r e t h e c o n v e n t i o n a l m a c h i n e l e ar i t hm s R e c e n t l y a s u b s e t o f m a c h i n e l e a r n n g
n i ngal go r
.
,
i
a gorl i t h m s k n o wn a s d e e p l e arn i n g
h av e s h o wn a h i g h e r s u c c e s s r at e n t e r m s o f p e r fo r m a n c e
i
fo r c o m p l e x p r o b l e m s . D e ep
n e u r a l n e t w o r k s h a v e m u l t i p l e l ay e r s o f a r t i f
i c i a l n e uro n su s e dto
l e ar n c o m p l e x p att e rn s . T h e k e y a dv a nt a g e o f d e e p l e ar n i n g o v e r t r a d i t i o n a l m a c h i n e l e ar n i n g
a go r
l i t hm s i s t he i rab i l i t
y t o a ut o m a t i c a l l y e a r n fe at u r e r e p r e s e n t a t o n D e e p e a r n n g ( D L )
l
i . l i
a l g o r i t hm s a r e t r e a t e d a s b l a c k b o x e s b e c a u s e o f t h e ir c o m p l ex i ty . Ano t he r l i m i t at o n o fi DL i
s
t h e n e e d fo r a l a r g e d a t a s e t t o l e a r n g e n e r a l z a b l e k no w e d g e b e c a u s e o f i l t h e a r g e nu m b e r o f
l
d H o w e v e r i n the e r a o f b i t h i s i s l e s s o f a c o n c e r n , t hu s
p a r a m e t e r s t h at ar e e a r n e gd a a
l t .
, ,
,
T h e e f fe c t i v e n e s s o f a m ac h i n e l e a r n i n g a l g o r i t hm i s a r g e l y d e p e n d e n t o n t h e fe a t u r e s
l
e x t r a c t e d f r o m t h e d at a s e t . T h e m e t h o d s fo r p r e d i c t n g R N A p r o t e i n n t e r a c t o n ( R P I ) a r e
i
-
i i
t
p
i i : i i i
,
,
a n d nt e r a c t i n g r e g o n s o n b o t h R
i i N A a nd p r o te i n T h ep r e d i c t i o n o f RN A b i n d i n g s i t e s o n
.
-
p r o t e n n v o v e s t h e d e n t f c a o n o f R NA b i nd i n g r e s d u e s o n p r o t e n s
t T he re d c ti o n o f
p
i i l i i i i i i . i
p r o t e n b nd n g s
i i i i te o nR N A i nv o l v e s i d e nt i f
y n g b nd n g s
i i i i t e so f
p r o t e i no nRN A T h e s e
,
m e t h o d s u s es e q u e nc e tr u c t ur e o r p hy s i c o c h e m i c a l c h a r a c t e r c s S e q ue n c e b a s e d m et h o d s
-
s s ti
i
.
, ,
a r e d e v e o p e d u s i n g s e q u e n c e fe at u r e s f r o m R
l N A s an d p r o te i ns . T h e s e q u e n c e fe a t u r e s
i n c l u d e h y d r o p h o b i c i t y i n d e x a n d m o l e c u l a r m a s s T h e p o p u a r s e q u e n c e fe a t u re e x t r a c t o n
. l i
m e t h o d s fo r m o d e tr a ni ng du rin
g pr e d i c t i o ni n c l ud eA mer d nu c l e o t d e b a s e d
-
-
l i r i i
,
2
-
Da l i an Un i v ers i t
y of
T e chno l o gy
Doc t o ra l D is s er t at i on
a ut o c o v a r i a n c e ( DAC ) , p s e ud o d i n u c l e o t i d e c o mp o s i t o n ( P s e D N C ) i
, p s e u d o am n o a c d
i i
p o s i t o n ( P s e AA C ) n d
com i a b n a r y p r o f i l e fe a t u r e s ( B P F s ) ,
i . S t ru c tur e b a s e d m e t h o d s u s e
-
fe a t u r e s s u c h a s
p ro t e n i l o c a l c o n fo r m a t i o n s , a n d R N A l o c a c o n fo r m at o n s T h e s e t w o
l i .
re
p r e s e n t at i o n s o f t h e s t r u c t u r e o f t h e m o l e c u l e s g i v e d e t a i l e d d e s c r i p t i o n s o f t h e R
N A an d
n s t r u c t u r e s O n e o f h e d r a wb a c k s o f m o d e dev e o p e d t o p r e d i c t L P I s i s th e
p ro e
t i . t l s l
t h e r e i s a hu g e d i ffe r e n c e b e t w e e n n c R N A s o f d i ffe r e n t s p e c e s b e c a u s e t h i s g r o u p o f
I i
n c RN A s h a s w e ak ho m o l o g y S e v e r a . l c o m
p u t at i o n a l m e t h o d s h a v e b e e n d e d i c a t e d t o
L P I i
n
h u m an s s u c h a s H L P I e n s e m b l e p r o p o s e d b y H u e t a l [ 6 ] I n t h e c a s e o f p l an t s p e c i e s n o
-
.
,
co m p u t a t o n a l t o o i s d e d i c at e d t o L P I w h i c h
i l
,
i s th e k e
y m o t i v at i o n b e h i n d t h e p r o p o s e d
mo de l s i nth i sd i s s e rt at i o n S e c o n d l .
y ,
t h e p r e di c t i o n a c c u r a c y o f p r e v i o u s m e t h o d s i s n o t h i g h
eno u
g h b e c au s e m o
st m e t h o d s a p p l i e d o n y o n e t y p e o f fe a t u r e fo r I n c R N A a n d p r o t e i n T h i s
l .
s th e c o mp re h e n s v e n e s so f he p r e d i c t o n B e s i de s s e l e ct i n
a
p p ro ac h m g o p t i m a l fe a u r e s
l i i t i t i . t
,
r e d u c e s r e d un d a n t o n e s
.
S ever a l s t at e
-
of
-
t h e a rt m o d e
-
l s s u c h a s r e c ur s i v e e as t s q u ar e
l
,
mu lti k e r
n e l l e ar n i n g
-
, an
d
m a t r i x fa c t o r z at i o n h a v e b e e n e m p o y e d t o s p e c u l a t e p r o t e n p r o t e n i nt e r a c t i o n s ( P P I s )
i l i
-
i
5
I n c R NA d -
i s e as ea s s o c i at i o n s ( L D A s ) d ru g ,
-
t ar
g eti n e racti o n s
t
, an d b i n d i n g s i t e s o f I n c RN A s
an d o th e r b i o m o l e cu e s l . G i v e n t h e r e c e nt
p r o g re s s i n R NA a s s o c i at e d i nt e r a c t i o n s
-
, a
p r e h e n s i v e RN A n t e r a c t o m e d a t ab a s e ( R N A I n e r) i n c l u d i n g R N A p r o t e i n D
co m t i N A an d
, , ,
com
p o un d w a s b e e n d e
ve o e d
p [
7
]
P RI
l . ME -
3 D 2 D i s a m o d e l t h at
pre d i c tsb i nd i n
gs ite s
of
p rot e i n
-
RN A i n t e r a c t o n u s n g s t r u c t u r a
i i l c o mp l exe s
[
8
]
. S h e n e a t l . r e c e nt l y p r o p o s e d
NP I
-
G NN a d e e p g r a p h n e u r a n e
,
l t w o r k b a s e d m e t h o d fo r p r e d i c t i n g n c RN A p r o t e n
-
-
i n t e r a c t i o n s [ 9 ] T h e m e t h o d p r e d . i c t s i nt e r a c t i o n s u s i n
g n e t w o r k n fo r m a t i o n a n d s e q u e n c e
i
i n fo r m a t i o n O t h e r m e t h o d s fo r L P I p r e d
. i c t i o ni n c l ud e L P I
-
C NN C P [
1 0
]
a nd L P I -
S KF[ 1 1
]
.
L P I C NN C P u s e s a c o n v o u t o n a
-
i
p o t e nt a i l LP Is . L P I
-
S K Fu s e ss m i i l a r i t y k e r n e l f u s i o n a n d L ap l a c i a n r e g u l a r i z e d l e a s t s q u a r e s
fr o m m u l t i
p l es o u r c e st oe x tr ac tg e n e r a l i z e d kn o w l e d
ge . I n th e c o nt e x t o f LPI , fe at u r e s fr o
m
I n c R N A an d p r o t e n d at a a r e n t e g r at e d t o s o l v e t h e i nt e r a c t i o n p r e d i c t i o n p r o b l e m I n t h i s
i i
.
d i s s e r t at i o n i n t e r a c t i o n p r o b a b t I n c R N A a nd t e du s i n
l it
yb e w e e np a n p r o e i n i s c o m p u
t
g
i t l
,
d ee p l e arn i n
g an d s h a l l o w m a c h n e e a rn i n g c l a s s i fi e r s i l . F e a t u r e s e l e c t i o n a nd o t her
o p t i m i z a t i o n t e c h n q u e s a r e m p e m e n t e d t o r e d u c e t h e t r a i n i n g t i m e fo r d e e p n e u r a l n e t w o r k
i i l
mo de l s an d i m
p r o v eg e ne ra l i z at i o n a b i l i t y . C ro s s va -
l i d at i o n ( C V ) a n d j a c k k n i fe e v a l u a t i o n
m e t h o d s a r e u s e d t o a s s e s s t h e p e r fo r m a n c e o f t h ep ro p o s e dm o de l s . A c o m p ar a ti v e an a y s i s
l
t h es gn f i i i c a n c e an d c o n t r i b ut o n o f i t he
p ro p o s e
dm e t h o d s
.
3
-
-
Pr e d i cti o n o f
p l a nt l o n
g nonco d ng
i
RN A s i n t e r a c t o n s w i t h p ro t e n s b
i
y e ep e arn n g
d
i l i
1 . 2 M o t i v a t i o n
I n t h e c e l l s o f e u k ar y o t i c o r g a n i s m s
,
d i ffe r e n t p r o t e n s n t e r a c t w i t h t e n s o f i i t h o u s a nd s o f
d i s t i n c t R NA s . T here su lti n g R P I s g e n e r at e a c o m p l e x n e t w o rk t h at
g o v er
n sg e n ee x re s s i o n
p
.
Ow i n g t o t h e d e v e o p m e n t o f b o t e c h n o o gy t e c hn q u e s
l i l i
,
t h e re h a s b e e n a n e x p o n e n t i al g ro w t h
o f I n c R N A a n d p r o t e i n r a w s e q u e n c e d a t a T h e m aj o r c h a l e n g e . l i s t o an a l
y z e t h e av a i l a b e
l
d at a s n c e m o s t o f i t h e I n c R N A s ar e un c h ar a c t e r z e d a n d t h e i i r fu n c t i o n s a r e u n k n o w n . T h e
t a s k o f a n a l y z i n g t h e d at a i s c o m p l i c at e d b e c au s e o f t h e d y n a m i c a n d c o m p l e x n at ur e o f t he
L P I s R e s e ar c h e r s fr o m b o i n fo r m at i c s a n d c o m p u t at o n a b o o g y f
. i e d sh e pt os o vet hi s
i
i l i l l l l
p r o b l e m b y a na l y z i n g d a t a i n s i l i c o a nd u n v e i li n s i g h t s t ha t ar e u s e f u l t o b o l o g i s t s n s o l v i n g
i i
b i o o g i c a l a n d m e d i c al p r o b l e m s
l
.
M ac h i n e l e ar n i n g b as e d m o d e l s d e v e l o p e d t o p r e d
-
i c t L P I s a r e d e s i gn e dt o p r e d i ct
I n c R N A s o f d i ffe r e n t s p e c i e s b e c au s e o f p o o r c o n s e r v a t o n a n d w e a k h o m o o g y
i l . Un l i ke ot her
s
p e c e s i l i k e h um a n s [ 6 ] ,
t h e re i s noc o m
p ut a t o n a l t o o l d e d i c at e d t o p r e d
i i ct i n
g L P I fo r p l a nt
s
pec i es . M ore o v e r , t he p r e d
i c t i o n ac c ur a c y o f p r e v i o u s m e t h o d s i sno t h i g h e n o u g h b e c au s e
m o s t m e t h o d s ap p l i e d o n l y o n e t y p e o f fe at u r e fo r n c R N A a n d p r o t e i n T h e m e t h o d s fo c u s
I .
e i t h e r o n s e q u e n c e i n fo r m at i o n s e c o nd a r y s t r u c t u r e s , , e x pr e s s i o n
p ro f
iles , o ro n
t h e av a i l ab e
l
an n o t a t i o n d at a t o p e r fo r m c l a s s i f i c at i o n T h e s e ap p ro a c h e s l i m i t t h e c o m p r e h e n s v e n e s s o f
.
i
t h e p re d i cti o n . T he m e th o d s d o n o t c o n s i d e r t h e fa c t t h a t e a c h n c R N A m a y n t e r a c t
I i
d ffe r e nt l y w
i i t h d i ffe r e n t s e t s o f p r o t e i n s h e n c e t h e n e e d fo r n c o r p o r a t n g o t h e r i m p o r t ant
i i
c o n t e x t ua l i nfo r m at i o n
.
M ot i v at e d b y t h e p i v o t a l g e n e r e g u a t o r y r o l e s o f I n c R N A s n d i v e r s e b i o l o g i c a ll i
d c t s L P I s F u r t h e r t h e
p r o c e s s e s v i a t h e r i nt e r ac t i o n s w i t h
p ro e n s h i sd s s e r t at i o n
p re
i t i t i i .
, ,
i n t e r a c t i o n s a r e a n a l y z e d fo r t h e a nn o t a t i o n o f I n c R N A s D e s p i t e e x c e p t i o n a e x p e r i m e n t a l . l
e ffo r t s ,
t h e re i sl i m i t e d kn o w l e d g e o n n c R N A s d u e t o a a c k o f m o
I l l e c u l a r i n t e r a c t i o n d at a a n d
i e s D at a i n c o m p l e t e n e s s
e x p re s s i o npro f l . l i m i t s u nd e r s t a n d i n g o f m o e c u l a r m e c h a n i s m s o f
l
f un c t i o n s a n d d i s e a s e s r e l a t e d t o l ant s an d o t h e r s
p e c i e s T h i s d i s s e r at i o n u s e s d e e p l e a r n i n g
t
p
.
fe at u r e e x t r a c t i o n m e t h o d s w e r e e x p l o r e d F i r s t s e q u e n c e fe a t u r e s a r e m a nu a .
,
l l
y e xtr ac te d
.
S e c o nd l y n o d e e mb e dd i n g fe at u r e s a r e e x
tract e d u s i n g g r ap h b a s e d d e e p l e a r n i n g T h i r d l y
-
.
,
,
d m an u a l y a n d b y d e ep e ar n i n g T h e c o n c e pt s
se
q u e n c e a nd s t r u c t u r e fe a u r e s a r e e x r a c e
t t t
l l .
h gh i l i
g
h t e d b y t hi s d i s s e r t a t i o n p n p o i nt t h a t t h e r e i i ssti l l ro o m t o mp ro v epre d i ct o n
i
i
p e r fo r m a n c e
.
4
-
Da l i an Un i v er s it y o f Te chno l o gy
D o ct o r a D l i s s e r t at i on
1 . 3 R e s e ar c h o bj e c t i v e s
D L m o d e h a v e b e e n u s e d fo r t h e p r e d c t i o n a n d a n a l
y s i s o f RN A /n cRN A p o
l s i r te i n
i nt e r ac t o n s an d R N A b i n d n g p r o t e i n ( R B P ) s i t e s T h e p u r p o s e o f t h i s r e s e ar c h w o r k i s t o
i
-
i
.
y fe a t u r e s a n d a p p r o p r i a t e o p t i m i z a t i o n t e c h n i q u e s t h at e nab l e d e e p e a r n n g m o d e s o
i d e nt i f l t
l i
a c c ur at e l
yp r e d i c t i n t e r ac t i o n s b e t w e e n I n c R N A s a nd p r o t e i ns . T h e c o m p u t at i o na l t oo l
s
d e v e o p e d t o i n v e s t i g a t e a n d p r e d i c t L P I s e x p l o i t e d a v a i l a b e d at a f r o m t h e P n c R N A D B
l
l l
d at a b a s e . T h e fo l l o w n g sp e c i f i c a i m s h av e b e e n a c h i e v e d
i
:
(
1
)
E x p o r e fe a t u r e e x t r a c t
l i o n m e t h o d s fo r t h e p r e d i c t i o n o f LPI . E xt r a c t n g b o o g i i l i c al l
y
re l e v a nt i n fo r m a t o n i s e s s e n t i a i l fo r t r a i n i n g a m o d e l fo r n t e r a c t i o n p r e d i c t i o n a c c u r a c y
i
.
(
2 ) T h e d e v e o p m e n t o f e ffe c t i v e a n d l r ob u std e e
p l e arn i n g m o d e l s fo r t h e
p re d i ct o no
f i
L P I np i l ants
pe
c i es
.
3 I d e n t fy t h e o t i m i z at i o n te c hn i
q u e s a nd t h e i r c o n t r i b u t i o n s t o t h e p r e d i c t o n
( ) p i i
p e r fo r m a n c e o f d e e p
e a r ni n
gm o de l s l
.
(
4
)
An a l
y z e t h e L P I fo r p o t e n t a l u s e f u l n e s s i n e x p l o r i n g m o e c u l ar m e c h a n i s m s t h a t a r
i
e l
re
g
u at e d b
l
y nc R I NA s
.
1 . 4 T h e d i s s e r t a t i o n s i g n i fi c a n c e a n d c o n t r i b u t i o n s
Th e
Th sd d e e
p l e a r n i n g fo r t h e p r e d i c t i o n o f L P I i n p l a n t s p e c e s
e rt a t i o n ro
s s
p o ses
i
p
i i .
k e y q u e s t o n a d d r e s s e d i s t h e d e s i g n o f s c a l ab l e o p t i m i z e d d e e p l e a r n i n g m o d e l s w i t h
i
,
re du c e d m o d e s l i z e t h r o u g h c o m p r e s s i o n an d c o m p ut at i o n a c c e l e r at i o n t e c hn i q u e s . T he
m et ho d o o g l i es i m p e m e n t e d fo r t h e i d e n t i f i c a t i o n o f p r o t e i n p a r t n e r s o f n c R N A s a r e
l
I
c a n c e o f t h e i d e n t i f i c at i o n o f t h e s e d c t o no f
p r e s e nt e d a n d t h e s i g n i f h
p ar n e r s n t e p r e
i t i
i i
fu n c t o n s fo r o r a nn o t a t e d I n c RN A s i s d i s c u s s e d T he d e a t ha t t he c h o c eo f
p h a n a n d u n
i . i i
pr
i a t e fe a t u r e e x t r a c t o n a n d s e l e c t i o n m e t h o d s t o g e t h e r w
ap p r o i i t hs u i ta b e p a r am e t e r s e t t i n g s
l
a n d a c o m b i n a t o n o f d e e p e arn i n
g m o d e l s w i t h s ha l l o w m a c h n e e a r n i n g a g o r i hm s
t
i
l i l l
e ffe c t v e i l
yp re d c t n c R i I NA -
p r o e n p a r n e r s a r e d e m o n s r at e d
t it t . T ob et t e r u n d e r s t an d th e
d ffe r e n c e s b e t w e e n t h e
i
p
ro
p o s e dm o de l s , t
hee m b e dd i n g s l n e d b y e a c h o f t h e m fo r t h e i r
e ar
ap c at i o n i n d ffe r e n t d a t a fo r m s i n c l u d i n g g r a p h s t r u c t ur e d , s e
q u e n c e an d s t ru c tu r e d a
ta
-
p
l i i
,
h a v e b e e n w e l d e s c r b e d T h e c o n t r i b u t i o n s o f t h i s w o r k a r e t h r e e fo l d F i r s t a r e c u r r e n t
l i .
.
,
n e u r a n e t w o r k ( R N N ) w i t h i t e r at i v e fe at u r e s e l e ct i o n fo r p r e d i c t i o n i s i m p l e m e nt e d T h e
l
.
s e
q u e n c e s ar e i n
tr o d u c e d t o t h e m o d e l t h r o u g h fe at u r e d e r
i v at i o n a n d s e l e c t i o n . F e at u r e
s e l e ct i o n r e d u c e s d at a d i m e n s i o n a l it
y , d e cre as e sp re di c ti o nm o de lc o mp l e x i ty , an d ad dr e s s e s
t h ei s s ueo f n o i s e i n d at a C o m .
p a c t L S T M an d S
VM -
re c u r s i v e fe at u r e e l i m i n a t o n ( S V M i
-
RF E
)
fe a t u r e s e l e c t i o n t e c hn i
q ue w e r e u s e
d t o fa c i l i t at e i n t e r ac t i o n p r e d i c t i o n . S p ar s i t
ywas
i n t r o d u c e d i n t h e m o d e t o p r u n e t h e n e t w o r k l s s tru ctu r a l c o m p o n e n t s S e c o n d l y g r ap h
.
re
pre s en a
t t o n e a r n n g v i a g r a p h a t t e n t o n w a s i m p l e m e n t e d fo r t h e i nt e r p r e t a b
i l i i i lit
y o f t h e
5
-
P r ed i c t i on o f l a nt l o n
g n onc o
d n
g
RN A s n t e r a c t o n s w
i i i i t h r o t e in s b y d e e p ear
n in
g
l
p p
d e e p l e a r n i n g m o d e l s G r a p h b a s e d n e u r a l n e t w o r k s ( G NN s ) fo l l o w a n e g h b o r a g g r e g a t i o n
.
-
i
s c he me . A v a r i a nt o f G NN t hr o ug h g ra
p h at e n t o n i i s
p ro p o s e d w h ,
i ch ach i eved
s t at e
-
of -
t h e a r t r e s ul t s o n t h e L P I p r e d
-
i c t i o ntas k There s u . l t s s h o w t h e d i s c r i m i n at i v e
p
o wer
o f t h e G N N v a r i a n t w i t h a s m p e g r a p h s t r u c t u r e T h i r d y d e e p e n s e mb
i l . l
,
l e l e arn i n
g w
i t
h
mu s c a l e fe a t u re s s u s e d fo r i mpro v e dp re d ct i ve
p e r fo r m a n c e T h e e n s e m b l e s h a ow
-
l ti i i . l l
m a c h n e e ar n i ng a g o r
i l l i t h m s a y a fo u nd a t o n fo r t h e d e e p
l i l e ar n i n
g e x p e r m e n s a nd p r e s e n a
i t t
fra m e wo rk i s d e v e o p e d t o p re d ct
p
o t e n t i a L P I a n d fo r m u l a t e t h e t a s k a s a n o t m i z at i o n
p
l i l i
x e d n o r m r e g u l a r i z at i o n c o n s t r a i n t s a r e
p r o b e m wi th m u l t i ab e e ar n i n T h e m
-
l l l l
g i
.
i n c o r p o r at e d i n t o t h e a l g o r i t hm t o i m p r o v e a c c u r a c y . S
p ar s i t
y p r o m o t i ng p e nal t i e s b a s e d o n l
\
a n d h n o r m a l o n g w i t h a ut o m a t c s t o p p i n g c r e r i a w e r e i n t r o du c e d i n t o t h e d i c t o r fo r
p e
i i t r
fe at u r e i nd u c t i o n . T h e n t h e a u t o e n c o d e r ( A E ) d e e p l e arn i n
g m o d e l w a s i m p l e m e nt e d t o
ca
p t u r e c o m p l e x c o rr e at o n s n fe a u r e r e p r e s e n t a t o n s T h e r e fo r e s t a c k e d
t l i A E vi as p ar s e
i i .
,
re
p r e s e n t at i o n s e f
fe c t i v e l
y o b t a n d e s c r p t o r s o f d a t a a s l n e a r p r oj e c t i o n s t h at m a x m i z e t h e
i i
i i
c o rr e l at i o n b e t w e e n fe a t u r e s I n t h e p r e d i c t i o n p h a s e a h y b r i d o f e n s e m b l e c l a s s i f i e r s w a s
.
,
n e i g hb o r ho o d a n a l y s i s T h e r e fo r e a n a y s .
,
l i sof
p
red i c t e d L P I s fo r fun c t i o n a l a nn o t a t i o n i
s
p e r fo r m e d T h e p r e d i c t e d n t e r a c t o n s a r e a n a y z e d t o a s s e s s t h e
. i i l i rs i
g n i fi c a n c e i n n c
RN A s
I
f u n c t o n p r e d i ct o n
i
i . The t h r e e m aj o r c o n t r i b u t i o n s o f t h i s t h e s i s a r e s u m m a r i z e d a s fo l l o w s
:
Ac o m p ac t d e ep e a rn i n g m o d e l b a s e d o n s e
q u e n c e fe a t u r e s e x
tr ac t e dus ng A m e r
-
1 l i
( )
e m b e d d i n g a n d fe at u r e s e l e c t i o n i s p r o p o s e d t o s o l v e t h e p r o b l e m o f I n c R NA -
p rot e n
i
i n t e rac t i o n
.
te r m m e m o r y ( L S T M ) h a s p r o d u c e d s t at e o f - -
t h e a r t p r e d
-
i cti on
re s u l t si n v ar i o u s a
pp
l i c at i o n f i e l d s . H o w ev er , t ra i n i ng R NN s u s i n
g
hi gh d m ens o na
-
i i l i np u t s
i s c o m p u t at o n a l l y e x p e n s v e d u e t o t h e h u g e n u m b e r o f m o d e p a r a m e t e r s T h
i i l . i s i s a
l ti l i l it t l .
p ro b l e m a c o mp a c t a n d f e x i b l e L S T
,
l M t h at
g
r e at l
y r e d u c e s t h e nu m b e r o f p a r a m e t e r s o f
t he
L S T Mm o de l i s
p
ro v t
p o s e d o m p r o e r a n n g e ff i c
t i i i i enc
y
. T h e R NN l e am s t he d i s c r i m i n at v e
i
fe a t u r e s c h a r a c t e r i z n g t h e o n g
i l
-
t e rm d e
p e nd e n c i e s b e w e e n s e q u e n c e s
t . Op ti ma l fe a t ure sw e r e
s e l e c t e du s i n g S V M RF E an d -
i mp o s e s
p a rs
e
p r oj e c t o n o n t o t h e h i d d e n s t at e s o f n p u t
i i
se
q u e n c e s t h r o u g h c o nn e c
ti o n p ru ni n g . T he i t e rat i v e fe a t u r e s e l e c t i o n m e t h o d , we i
g
h t
c o nn e c t i o n s ,
an d ne u r o n
p ru n n g r e
du c e t h e t r a i n i n g e r r o r a n d s p e e d u p c o m p u t at o n
i i
.
(
2)
L e ar n i n g n o d e e m b e d d n g s v a g r ap h a t t e n t i o n n e u ra n e t w o r k fo r p r e d i c t i o n o f
i
i l
i n t e r a c t i o n s u s i n g s e q u e n c e a n d s t r u c t u r e fe at u r e s
.
G r ap h r e p r e s e nt a ti o n e a rn n g l i
, d i st i nc t l
yno d ee m b e d di ngai m s t oo b t a n o w
i l
d i m e n s o na i l fe a t u r e s fo r n o d e s . T he p u rp o s e o f th e e x p e r m e n t s w a s i t o fu l l y c a p t u r e s e q u e n c e
,
6
-
Da l i an Un i ve r s i t y o f
T e c hn o l o gy
Doc t o ra l D i s s e r t at i on
p ac e s G r ap h b a s e
ds e q ue nc e
p o l o g i c a l c h a r a c e r i s i c s a nd s r u c
o t t t u r e i n fo r m a t i o n o f d a t a s
-
t t .
fe a t u r e s w e r e e x t r a c t e d u s i n g c h a o s g am e r e p r e s e nt a ti o n( C G R ) G r ap h a t t e n t
. i o n w as
i m p e m e n t e d t o e n h a n c e t h e nt e r p r e t a b i l
l i i t
y o f t he d e e p l e arn i n
g m o de l . T h e at t e n t i on
m e c h an i s m , m a n i fo l d r e g u l a r i z at i o n a nd /2 ,
-
n o rm o b t a i n d i s c ri m i n a nt fe a t u r e r e p r e s e n t a t o n s
i
an d m i ti
g a e o v e r fi t i n g
t t . T h e m o d e c ap tu r e s l l o c a l i t y p r e s e r v i n g an d r e c o n s t r u c t i o n
c o n s t r a i n t s t h at l e a d t o b e t t e r
g e ne r a
l i z at i o n a b i l i t y . G r ap h -
b a s e d r e g u l a r i z at i o n c o n s t r a i nt s ar e
i n c o r p o r a t e d i n t o t h e o p t i m i z at i o n a l g o r i t h m t o i m p r o v e a c c u r a c y
.
3
M ult fa c e t e d s e qu e n c e d e r i v e d fe a t u r e s c o m b i n e d w h s t ru c t u r a fe a t u r e s a n d a
-
i i t l
( )
h y b r d d e e p e n s e mb e l e a r n i n g fo r i nt e r a c t i on p r e d i c t i o n
i l
.
A l t h o u g h s e v e r a l s t u d i e s h av e i n v e s t i g at e d t h e c o n c e t o f c o m b i n n
p g mu i l ti
p l e fe at u r e s i n
t h e d ffe r e n t a
p p l c at i o n a r e a s
i i
, t h e fo c u s o f
t h i swo r kw a so nt h emu l ti
-
fe a t u r e fu s o n i n t h e
i
a r e a o f nt e r a c t i o n i
p
re d i c t i o n G e n e r a l l y t h e d i ffe r e n t fe a t u r e s a r e c o n c a t e n a t e d d i r e c t l y o r
.
,
i n d i r e c t y[ l 1 2] . I n t h i s w o r k , t h e d i r e c t fe at u r e f u s i o n t e c hn q u e i i s u s e d t o fu s e d i ffe r e n t t y p e s
of A :
-
m e r b a s e d a n d s t r u c t u r a l fe at u r e s C o n s i d e r i n g t h e d . i s t i nc tc h a r ac t e r i s ti c so f
p r o t e n an d
i
n c R N A s e q u e n c e s ^ m e r fe at u r e s a nd s t r u c t ur a fe at u r e s w e r e c h o s e n S e q u e n c e b a s e d
- -
I l .
,
p l o i t s e qu e n c e c o m p o s i t i o n e x t r ac t e d u s i n g ^ m e r p o s
fe at u r e s w e r e c o mb i n e d t o e x iti on
-
i n fo r m a t i o n e x t r a c t e d u s i n g B P F s a nd s t r u c t u r a ,
l fe a t u r e s . T h e s e q u e n c e p at t e r
n s e n c o mp a s s
v i t a l i n t r i n s i c c o r r e l a t i o n i n fo r m a t i o n fo r p r o t e i n s an d I n c R NA s . T h e s e c o n d a r y s t r u c t u r a l
fe at u r e s o f I n c R N A s w ere p r e d i c t e d b a s e d o n f i n d i n g t h e m i n i m u m fr e e e n e r g y . Th e
p r e d c t o n o f t h e p r o t e i n s t r u c t ur e s e q u e n c e
i i h a s t hr e e s t at e s n a m e
yc o i ( C ) h e l i x(
H ) a nd
l l
? ,
T h e s t a n d ar d s e l f a t t e n t i o n w a s i m
E) e m e nt e d t o e nh a n c e t h e i n t e r
p r etab yo f h ed e ep
-
t
(
.
p l i l i t
l e arn i n
gm o de l
.
1 . 5 O r g an i z at i o n o f t h e d i s s e r t at i o n
Th i s d i s s e r t at i o ni sc om
p o s e d o f s i x c h a p t e r s a s s u mm a r z e d i n F i g 1 i . . 1 . C h ap t e r 1 i s a
b r e f o v e r v e w o f t h e w o r k d e s c r i b e d i n t h i s d i s s e r t at i o n C h a p t e r 2 i s a l i t e r a t u r e r e v i e w o f
i i
.
t h e fu n d a m e n t a l c o n c e p t s t h i s d i s s e r t a t i o n i s b u i l to n a n d t h e d ffe r e n t s t a t e o f i
-
-
t h e art d e e p
-
e ar n i n g a n d o t h e r m a c h i n e l e a r n i n g m e t h o d s fo r L P
l I
p r e d i c t o n F i r s t t h e c a s s i fi c a t i o n
i .
,
l
,
b o g e n e s i s a n d fu n c t i o n s o f p a n t I n c R N A s a r e d i s c u s s e d A d d i t o n a l y t h e s t ru c t u r e a n d
i
,
l
. i l
,
g e n e e x p r e s s i o n i n r e l a t i o n t o t h e i n t e r a c t o n b e t w e e n I n c R N A s an d p r o t e n s i s h i g h l i g h e d
t i i
.
T h en th e d ffe r e n t a s
p e c t s c o n s i d e r e d w h e n b u i l d i n g a m o d e l s u i t a b e fo r i n t e r a
i cti o n
l
o v e r c o m i n g t h e c h a l l e n g e s a r e h i g h l g ht e d i . C h a p t e r s 3 4 5 a nd 6 d e s c r b e t h e p r o p o s e d
,
, ,
i
m e t h o d s d e v e o p e d t o s o l v e th e l l i m i t at i o n s o f e x i stin
g m e th o
ds ,
w h c h a r e t h e c o nt r i b u t i o n s o f
i
t h i s d i s s e r t at i on . E a c h c h ap t e r p r e s e n t s r e s u
l t si n c o m p a r i s o n t o o t h e r m e t h o d s t o h i gh l i g h t t h e
C ha
s i
gn i f c an c eo f
i t h e p r o p o s e d m e t h o d s n t e r m s o f p e r fo r m an c e i
.
7
-
-
P r e d c t o no f p a nt o n
i i
g n o n c o
d n
g l l i
RN A s i n t er a c t o n s w i i t h
p
r ote n sb yd e ep
i
l e a rn n i
g
p r e s e n t st h ef n d n g s i i
,
t he i ri mp l i c at i o n sd i s c u s s e d i n c o n t e x t , an d fu t u r e r e s e a r c h w o r k
.
F u n c t o n a n fe r e n c e b a s e d o n
i
l i
i n t e ra c t o n s F u n c i t i on a l a na l
ys i
s
(
Chap t e r6
)
kN A
nc
-
De e p
I
I t e r a t v e fe a tu r e s e e c t o n
i l i A gra p
h atte n t o n n eu r a i l n etwo r k
e n s e m b e e ar n n l l i
g
o te n
r
i
P
w i t h RN N b a s e d o nse q u en c e -
s t ru c t u re b a^d o nmu l t i
-
fe a t u r e fu s i o n
i n t e ra c t i on
(
C ha p t e r j
) (
Chap t er 4
) (
C hap ter5
)
d c on
p re i t i
L — i
—
L J D fe i re n
t
& e
m od s
A r^ 9^*
E &
Ex t ra c t se
q
^
u e n c e s tr uctu r
eth
^
^
Ex tr re s x tra c t S e
a c t S e q u e n c e fe a tu
u e n c e s t r u c t u re
q
广
r ^ , , , fe a d r e s m a n u a y a n d b v d e e p o i
l l
t
?
r
man ua l l
y
】
f eat u re sb yd eev
: p e a rn n
g °
l i
e x
, 一
一
ra c
ea r
n n
t t n
g
i
g
l i
fe a
u es
t r
'
/
、
B i o o g i c a l p e r s p e c t i v e an d c o m p u t a t i o n a
l
^
l a p p r o a c h e s fo r n c R I NA -
?
咖n
p
ro t e n n e r ac i C a p ter
o n v( i t t i h 2)
* f
i n te ra c t i on
I nc RN A
I nc R N A seq ue n ce 产 P ro t e ns eq u e nc e a n d
i
r ot e n
p
i
. . A C U U A C G C U GA A . . . . . .
M 〇S PY P M TQV A K . .
.
se u e n ce
q
F i
g
. 1 . 1 S t u d yo u t l i n e o f t h ed i ss e rt a t i o n
8
-
-
Da l i an Un i ve r s it
y of T e ch n o l o g y D o c t o r a l D i s s e r t at o n
i
2 B i olo
g i c a l p e rs p e c t i v e a
n d a
p p o a c h e s fo r i n fe r r i n g
r
n c RN A
p r o t e i n i nt e r a c t o n s
-
I i
R N A s e qu e n c n g e x p e r i i m e n t s e x t r a c t R N A s fr o m fo u r t i s s u e t yp e s i n c l u d i n g l e a f
,
p h l o e m x y l e m a n d r o o
,
t
,
. C o n s d e r n g t h e h g h d e m a n d fo r fo o d e ff c
i i i
,
i i e nt d i s c o v e r y o f
mo l e c u l ar m e c h an i s m s b eh i nd I n c R N A s i n t e r a c t i o n s w i t h n c R N A c l a s s e s a n d c o d i n g
s e
q u e n c e s w i
ll i n i n g n o v e l fun c t i o n a n e t w o r k s T h e p o t e n t i a l t a r g e t g e n e s o f
h e l p i n d e f
l .
I n c R N A s ar e p r e d i c t e d a c c o r d i n g t o t h e i r s e
q u e n c e a n d s t r u c t u r a l i n fo r m at i o n . H er e t he
i n t r n s i c an d e x t r i n s i c d e t e r m i n ant s o f
i t h e i d e n t fi c a t i o n o f L P I s a r e d
i i s cus s e d
.
2 . 1 C l a s s i fi c a t i o n ; ,
b i o g ene s i s a n d fu n c t i
,
o n so f I n c RN A s
L n c R N A s are e n d o g e n o u s s n g i l e
-
s t r an d e d
po l
y nu c e o t i d e s n o n p r o t e i n c o d i n g
l
- -
tr an s c r i p t s w i th g r e at e r t h a n 2 0 0 n u c l e o t i d e s s e q u e n c e l e n g t h [ 1 3
]
. T h i s c l a s s o f n c R N A s
i n c u d e s c i r c u l ar R N A s
l
(
c i rc RN A s ) c ,
i rc u l ar i ntr o n i c RN A s (
ci R N A s ) an d ,
l o ng
nt e r v e n i n g / i nt e r g e n i c n o n c o d i n g R N A s ( n c RN A s ) T h eI n c RN A s ar ec a s s i f i e d i nt o s e v e n
-
i l i . l
c at e
go ri e s i nc l ud i n g s e n s e , ntr o n
i i c , ant i s ens e , i nt e r v e n i n g , b d i i re c t i o n al , i nt e r g e n i c , an d
e nha n c e r T h e s e n s e l i n c
. R NA s a r e tr a n s c r i b e d f ro m t h e s e n s e s t r an d o f
p r ot e i n
-
c o din
g g e n e s
a n d o v e r l a pp i n g t r a n s c r i p t s I n t r o n i c I n c R . N A s li e w i t h i n t h e i nt r o n s o f a c o d i n g g e n e t h a t
l ac k s e x o n e x o n o v e rl ap p i n g
-
a n d i n t e r s e c t an y e x o n o f a p r o t e i n
-
cod i n
gl o c u so
nth eo p p o s i t e s tr an d L i nc R
. NA s d o n o t
o v e r l ap p r o t e i n c o d i n g e x o n s a n d r e s d e i n t h e g e n o m i c i nt e r v a l b e t w e e n t w o g en e s
-
i
.
B d i i re c ti o nal In c R N A s ar e e x p r e s s e d w i t h n 1 0 0 0 b a s e
i
p a r so p ro
i f m ot e rsi ntheo p p o s i t e
d i r e c t i o n fr o m t h e n e g h b o r n g p r o t e i n i i
-
c o d in
gg e n e . E n h an c e r n c R N A s ( e n c R N A s ) a r e
I
l
th b e d fr o m e n h a n c e r r e g i o n s an d m i g ht c o nt r i b ut e
g e n e r a l l y e s s h an 2 kb n e n g ar e tr a n s c r i
t l i l
, ,
t o e n h a n c e r fu n c t i o n . L n c RN A s c an b e c l a s s i fi e d b a s e d o n t h e i r l o c a t i o n a s n u c l e a r
,
t h e y c a n b e c ap p e d s p ced
yt o p l a s m i c o r b o t h a n d a c c o r d n g o
c i t th e i r m at u r at i o np ro c e s s ,
l i
,
, ,
4 ] T h e s e n c R N A m o l e c u e s a r e a s s o c a t e d w i t h d i v e r s e b i o l o g i c a l
or p o y a d e n y l at e d [
l 1 . I l i
pro c e s s e s , r e g u l at i o n o f t r a n s c r i p t i o n ,
a n d i nt e r a c t w i t h m i R NA so rp rote i n s L n c R N A s ar e
.
d i s t i n gu i s h e d f r o m m e s s e n g e r R N A s ( m R N A s ) b y t h e i r o w e x p r e s s i o n e v e l s b i o g e n e s i s l l
,
,
d e g r a d ati o n , a
n d e p i g e n e t i c r e g u l at o r y fe a t u r e s [ 1 5
]
. Num ero us I nc RN A s h av e b e e n i d e nti f i e d
a n d c h ar a c t e r
i ze d . I n e u k ar
y ote s ,
t h e y a r e t r a n s c r i b e d b y p o l y m e r a s e I I an d I I I at s e v e r a l l o c i
of t heg e no me . P ar t i c u l ar l y i n
p an s
l t
,
t h e n c R N A s ar e t r a n s c r b e d b y p o y m e r a s e I I a s w e l
I i l l as
p e c i fi c R N
Ap o y m e ras eI YandV Th e n c R N A s tr an s c r i b e d b y R N A o y m e ras e
V
p l an
-
t s l I
p
. l
p ar t i c p a
i te i n t h e p r o c e s s o f R N A d i r e c t e d D N A m e t h y l at i o n a n d m o du l at e t h e l o c a l
-
9
-
-
g RN A s nte ra ct o n s
P re d w
p a nt o n g n o n c o
d n
ct i on o f p r ote n s b y d e e p e a r n n g
i l l i i i i t h i l i
c h r o m at i n l o o p [ 1 6
]
. C o m p r e h e n s i v e w e b b a s e d r e s o u r c e s a nd d a t a b a s e s fo r p l a n t I n c R
-
N A s
ar e l i st e d i n T ab . 2 . 1
.
b o ge n e s s i s c e l t
y p ean ds t a g e p e c i f i c wh i c h i s c o n t r o l l e d b y n t e r n a o r e n v r o n m e n t a l
-
i i l s i l i
e v o l u t i o n fr o m e x i s t i n e l e m e n t s r a nd o m h a i r i n s t r u c t u r e s
g t r a n s p o s ab l e p ,
p s
e u d o g e n i z at i o n
,
o f p ro te i n c o d n gs e q u en c e s
-
i
,
DN A r ep e a t s , r ep l i c a t i o n o f
R NA v i ru s e s a n d d o u b l e
,
-
s t ra n d e d
R N A s fr o m h e t e r o c h r o m at i n r e g i o n s [
1 7
]
. T he I n c R N A s a r e c a s s f e d n t o c i s a nd
l i i i
-
/ T^m s
-
re
g u l at o r y s y s t e m s . S m i i l ar t o o t h e r o r g a n i s m s ,
s t ud i e s h a v e e s t a b l i s h e d t h at l n
p a t
I n c R N A s c a n r e g u l a t e t h e e x p r e s s o n o f t h e i r n e i g hb o r i n g c o d i n g g e n e s ( c 5 i /
-
re
g u at i o n ) a s
l
we l l a s g e n e e x p r e s s o n o n d i ffe r e n t c h r o m o s o m e s ( t r a m r e g u
i l at o n ) i . T h e c / ^
-
re
g u at o r y
l
w t h c e l d ffe r e nt a t i o n a n d c y c
a e r at i o n s a c c o m
p a n y i n g d i ffe r e n g o n g a ffe c t m u p e
l t t r ,
l i i
,
l i l ti l
re
g u l at o r s s m u
i l t an e o u s y F o r e x am p l e l .
, e l nc RN A sre gu l at e c hr o m a t i n t o
p o o gy y c nga s
b a t l
i
c hro mo s o m el o o p i n
gm e
d i a t o r s b e t w e e n e nh a n c e r a n d p r o m o t e r r e g o n s i . A l s o , e l n c RN A s a c t
i n c i s a s s c a f fo l d s t o r e c r u i t c o a c t i v a t o r c o m p e x e s [ -
l 1 8
]
.
T ab . 2 . 1 R e s o ur c e fo r p l a n t I n c R
NA an d I n c R NA -
p r o t e i n n t e r a c t o n d at a
i i
D at a b a s e T y p e D e s c r i
pt o n
i
P l an tC i rc Ne t
[
1 9] c i rc R NA A co l l e c t i o n o f re p o rt e d a n d u n
pub
l i s h e dc i r RN A s
P l a n t c i rc B as e [ 2 0
] o f f v ep antm o d e
i l l s P red. i ct i o no f c i rc RN A s e r v i ces
i sa va i l ab e l
.
P a n tN A T s D B [ 2
l 1
] N a t u ra l ant i sen se A w e b b a s e dp-
l a t fo r m fo r h i
g
h
-
t h ro u gh p u ts m a l
l
tr an s c r pt s( i NA T s ) se
q
u enc i n g d at a
,
i n vest i
g a tet
h eb o o i l
g
i c a fu l n ct o n
i
of N A Ts i nt h e
p
l a n tk i n gd om
.
G re e n N C [
22
] Ln c RN A s Ad a t a b a s eo f 3 7p a n t n c l I RN A s t h at h a v e b e e n
a n n o t a t e d i n s i l ic o b a s e d o n r e fe r e n c e t ra n s cr i
pt
.
En se m b l eP an t s[ 2 3
l
] L n c RN A s A n i nte
grate
d n fo r m a t o n r e s o u
i i rc e fo r 3
9
se
quenced p
a n ts p e c e s
l i
.
C AN T A T A d b [
24
] Ln c RN A s A u s e r fr e n d y d at a b a s e o f 1 0 m o d e
-
i l l
p
l a n ts
pec es
i
th at h a v e b e e n c o m t o na d e nt f e du s n
pu a
t
y
g
i l l i i i i
RN A -
S e q d a ta
.
P L n c D B[ 2 5 ] Ln c RN A s C o n t a i n s I nc RN A s fr o m 8 0 p l a n ts
p ec e so t a n ed
b
i i
fr o m d i v e r s e r e s o u rc e s
.
P LN n c R b a s e [ 2 6 ] l
Mu l t i
p e n c R
l N A A r e s o u r c e fo r
I ex
pe r m e n ta
i l l
y
i d e n t f e dp a n t
i i l
b o ty e s e g
p i
NATs , I n c RN As
.
i n te r g e n c i
,
i nt ro n i
c
P n c RN A D B [ 2 7
l
] I ncR NA an d I nc RN A s e q u e n c e a n dL P I d a t a fo r fo u r
p a
nt
l
I ncR NA -
p ro e n
t i s
pec e s
i
,
i nte rac t o n
i
1 0
-
Da l i an Un i ve rs it
y of Te c h n o l o gy Doc t ora l D i s s er tat i on
I t h a s b e e n r e p o r t e d t h a t n t h e v a s t m aj o r i t y o f c a s e s i
, t
h e c i s e ffe c t d o e s n o t r e q u i r e t h e
p r o d u c t i o n o f n c R N A t r an s c r
i p t s b u t r a t h e r t h e p r o c e s s e s s u c h a s t r a n s c r p t i o n a nd s p l i c i n g
I
i
w h c h a r e a s s o c i at e d w i t h t h e i r p r o du c t o n
i
[
28
]
i . T h e tra n s -
ac t i n
g fa c t o r s s u c h a s t r a n s c r p o n
ti
i
fa c t o r s ( T F s ) a r e r e
q u i r e d fo r g e n e t r a n s c r i p t i o n t o o p e r a t e t h r o u g h s e q u e n c e s
p e c i fi c D N A
-
ac t i n
ge e m e n s n
l t i th e l o c al i t
yo f ag e ne . A lt h o u g h t h e m e c h an i s m s
o fI nc R NA sb i o g e n e s i s ar e o b s c u r e m o d e l s h av e b e e n p r o p o s e d fo r t h e i r fo r m a t i o n
,
. For
R N A s a r e fo r m e d
5
e x am
ple , c i r c t hr o u g h b a c k -
s
p l i c i n g fr o m j
o n i n g t h e d o wn s t r e a m 3 d o n o r
i
c es i t e s t o t heu
s
p
li
p s t re a m a c c e p t o r s p l i c es i t e s
[
29]
.
L n c R NA s c i s an d t r a n s -
ac t i ng
f u n c t o n s ar e c a s s i l i fi e d a s th e s i
g na l d e c o y g u,
i de s
,
,
s c a ffo l d s a n d e n h a n c e r s fo r s ub n u c l e a r d o m a i n s
,
-
, t h e fo r m at i o n o f p r o t e i n c om p l e x e s ,
an d
D ec oy RN A s
' 5
an d
p r e s e n c e c a n s e rv e a s a n n a n s c r i p t i o n a l ac t i v i t
d c at o r o f I n c
i i tr
y .
o r s
p o nge
g u a t o r y fa c t o r s b y p r e s e n t i n g d e c o y b i nd n g s i t e s T h e y m o u l a
l i m i t th e a v a i l ab i l i t
y o f re l d te
i .
tra i p t i o n b y s e q u e s t e r n g r e g u l a t o r y fa c t o r s l i k e T F s
ns cr i
, c at a l y t i c p r o t e i n s , s u b un i t s o f l ar g e r
c h r o m at i n
-
m o d i fy i n g c o m p l e x e s a n d m ,
i RN A s t h e r e b y r e du c i n g t h e i r av ai l ab i l i t y . Gu i de
n c R NA s i n t e r a c t w i t h r i b o nu c eo
p r o t e i n ( R N P ) c o mp e x e s an d d i r e c t th e m t o s
p e c i fi c ar g e
I l l t
t
I n cR N A t h at d i r e c t s c hr o m at n m o d i i fi e r P o y c o m b R ep r e s s i v e C o m p l e x 2 t o H O X D l o c u s
l
.
T r an s c r p t o n fr o m t h e s c a ffo d c a s s o f n c RN A s p l a y s a s t r u c t u r a l r o l e b y p r o v
i i l ding
l I i
p at fo r m s fo r t h e t r an s
l i e n t a s s e m b l y o f m u l t i
p l e e nz y m a t c c o m p l e x e s s u c h a s R
NP si
.
E n c R NA s a r e g e n e r at e d fr o m e n h a n c e r r e g
l i o n s a n d a r e i n v o l v e d i n c h r o m at i n nt e r a c t i o n b y
i
i n fl u e nc i n g th e t h r e e d i m e n s o n a -
i l a r r a n g e m e n o f D NA t
[
3 2] . T h e e nh a n c e r I n c RN A s
i n f l u e n c e c h r o m at n n t e r a c t o n s a s r e p o r t e d b y H o u e t a l
i i i . i n a s t u d y th at i d e n t i fi e d
i n t er a c t o n s b e t w e e n c hr o m a t n l o o p s an d e nh a n c er p r o m o t e r i n t h e G M
i i
-
M o re o v e r , I nc R N A s a r e kn o w n t o e n c o d e s h o r t p e p t i d e s t h at ar e f un c t i o na l l y r e l e v an t s e r v e
,
a s e n d o g e n o u s t a r g e t m i m i c s c o m p e t i n g fo r v a r i o u s m i R NA s , c an b e p
r e c ur s o r so fm i R N A s
a nd s i R N A s . F o r e x amp l e ,
t h e s h o rt re
g u a t o r y p o l yp e p t i d e o f a m i n o a c i d r e s p o n s e ( S P A
l R ) i s
a 9 0 a m no a c i d l o n g m o e c u e e n c o d e d b y L E N C 0 0 9 6
i l l
, a n c R N A t h at p r o m o t e s m u s c
I l
e
re
g e n e r at i o n [ 3
4] . Th i s
po y p ep t d ea
l i l so
p a y s a n i m p o r t a n t r o l e i n m o du l at i n g t h e a c t i v i y o
l t
f
t h e m am m a l i a n t a r g e t o f r ap a m y c i n c o m p l e x 1 ( m T O RC l
) , w h i c h i s a c ri t i c als e n s o r o f
i e nt a v a i ab i l i t y w i t h i n c e
nu t r l l l s . I n A ra b i dop s is t h a l a n a a nd o t h e r p a n t s i l
, t he
T O R S 6 K RP S 6 ax- -
i so f t he m T O R C l
p
at hw a y i s hi g h l y c o n s e r v e d [ 3 5 ] . D e sp it ethe i rc ri t i c a l
re
g u at o r y
l
ro l e si nb i o l o
g i c a l p r o c e s s e s an d d i s e a s e s ,
r e s e ar c h o n n c RN A I i si n i t s i n fa n c y
.
1 1
-
Pred i ct i o n o f p a n t o n g n o n c o d n g RN A s n t e ra c t o n s w
l l
i i i i t h
p ro t e n sb yd e e p
i l e a rn i n
g
C at e g o ry I nc RN A
…
An
t i s en s e
f
;
V
j ; C OOLA R
I
r/ .
v
-
NAT
? ?
 ̄  ̄
I ru r on i c r
C OLDA R
1
Prom ote r Po l
V
r an sc r t
s
t
p
i
^ ,
-
n,e n C
1 E N O o
r e
g
l i
1 :
io
I PS
1
B i d i re c t i o na
l
F g i .
2 . 1 C l as s i i c at
f i o no f I n c RN A sa n de x a m p l e so fI nc RN A s i ne a c hc a s s
l
c o rr e l at ew i t h n c l RN A -
d e p e n d e n t m m u n es y s t e m s [ i 3 6
]
. nt h ep o s t
I
-
gen om
i ce r a ,
p
ro v d n
g i i
d n c RN A s T he
a c c u r a t e fu n c t i o n a n n o t a t i o n s fo r o r
p ha nan du n an n o a e sac ha e n g n g t a s k
t t I i l l i .
I nc RN A s h a v e a h i
g
h y e v o v e d n at u r e h e n c e t h e
l l i r l o w s e q u e n c e c o n s e r v a t o n a n d fe w
i
p h y o g e n e t i cr e at o n s h p s I n
l l i i . i t h a s b e e n r e p o r t e dt h a t l e s st h a n 2 %o f
I n c R N A s w e r e e vo u t i o n a r i l y c o n s e r v e d C o n s e r v a t o n a n a y s l . i l i s o n o t h er s p e c i e s n c u d ng
i l i
s
-
i i i i s i l l
a d v a n c e db i o techn o l o g y c o m p u t a t o n a m o d e
,
i l l sa r e
g r e a
t l
yn e e
d e d fo r e l u c i dat n
g n c
RNA
i I
fu n c t o n s b a s e d o n m a n
i
ys t r a e g e s T
t h e r e fo r e m o s t c o mi
p
u t a t o n a a
pp o ac
r . h e s fo r n c ,
i l I RN A
fo r a s s i
g n n g fu n c t o n s t o n c
i i I RN A s i n c u d eg e n ee x p r e s s o np a t t e r n
l i , w h i c h n v o v e sa n a y z n g
i
l l i
i sa n a yze d
l . L n c R N A s e q u e n c e p r e d ,
i cti o n o f fu n c t o n s i fo r I nc RN A s u s i n gs e q u e nc e
s i m i l ar i t
y m e a s u r e s p r m a r i i l
y b a s ed o n h o m o l og es i . L n c RN As t ru c t ure :
p r e d i c t i o no f
fu n c t i o n su s i n g
I n c R N A s t r u c t u r e b y a n a y z n g s e c o n d a r y a n d t e r t a r y s t r u c t u r e s l i i
.
P rote n i
-
l nc RN A i n t e r a c t o n s u s n g n c i :
i I RN A -
I n c RN A .
p
r ote n i
-
p ro t e n a n dL P i , I sb
ya
n a yz ng
l i
n e g h b o r h o o d N e t w o r ka
i . l i
g n m e n t u s
n g a n n o t a t o n t r a n s fe r t h r o u g h n e t w o r k a
: i i l i
g n m e n b y
t
a s s g n n g fu n c t o n s t o u n a n n o t a t e d m e m b e r s o f a c T h e n t e o no f r e s u
i i i l u s t e r . i
gra
t i l t so f
g ob a l
l
a l i
g n m e n t m p r o v e sa c i c u rac y
.
1 2
-
Da l i an Un i v e rs i t
y o f Te chn o o gy
l
D o ct o ra D l i s s e r t at i o
n
2 . 1 . 1 H i
gh
-
t h r o u g h p u t t e c h n o l o g i e s fo r p r o b i n g m e c h a n i s m s o f I n c RN A s
Th eb i o l o g i c a l r o l e s o f I n c R N A s c a n b e o b t a i n e d fr o m un d e r s t a n d i n g t h e i r m e c h an i sm s
o f f u n c t i o n a t t h e m o l e c u l a r l e v e l I n s p i t e o f t h e i r s i g n i f i c a n c e t h e m o l e c u l ar m e c ha n i s m s
.
,
un d e r l y n g i
I n c R N A s f u n c t i o n s ar e o b s c u r e . T h e kn o w l ed
g e o
f s e que nc e ,
s t ru c t u r a l
o r g a n i z at i o n , e x p re s s o nl e v e l s c e i
,
l l u l ar l o c a l i z at i o n a nd n t e r a c t i o n fe a t u r e s i n c r e a s e t h e
,
i
i dent i fi c at i o n o f fu n c t o n a l n c R
i I N A s T h en a . t u r e a n d d y n a m i c s o f L P I s h a v e b e e n e l u c i d at e d
i n v i v o t h r o u g h i m m u n o p r e c i p i t a t i o n b a s e d ap p r o a c h e s s u c h a s R I P c r o s s l i n k i n g I P ( C L I P ) -
?
,
an d c a
p u r e y b r d z a o n an a y s s o
t h i i ti l i fR NA t ar
ge
ts
( C H AR T ) [
3 8
]
. B a s e d o n s t a n d ar d
l ab o r at o r y e
q u p me n
i t
, t h e s e m e t h o d s t e s t L P I s T h e m e t h o d s a r e ap p l i e d t o m a t e r i a l s fr o m
.
c e l l st o
p r o v d e n s g h t n t o h o w L P I s a r e a l t e r e d b e t w e e n c e
i i i i l l s t at e s F u r t h e r m o r e t h e
.
,
p r e fe rr e d b n d n g s i e s fo r
t RB P a n d t h e
i i i r
p r e c i s e l o c at i o n w i t h i n t h e c e l l a r e i d e n t i f i e d
wh i c h
s ub s e q u e n t l y fa c i l i t at e t h e i d e n t i f i c a t i o n o f p o s s i b l e m e c h a n i s m s b y w h i c h I n c R N A s fun c t o n
i
.
T h e r e a r e fo u r a r c h e t y p e s o f m o l e c u l ar m e c h an i sms : s i g n a l d e c o y g u i d e a n d s c a ffo
, , ,
l d T h e
.
a r c h e t y p e s d e m o n s t r a t e fun c t i o n a l c o m p l e x i t y . G i v e n t he l o w s e q u en c e c o n s e r v a t i o n o f
I n c R N A s u n d e r s t a n d i n g t h e I n c R N A fu n c t i o n s i n r e l at i o n t o t h e s e q u e n c e s a n d s t r u c t u r a
,
l
fe a t u r e s i s
p
ar a m o u n t . As t u d y b y K i rk et a l . s h o w e d th at g r o u p s o f I n c R N A s w i t hs im i l ar
k m Q r c o n t e n t h a v e r e l at e d fun c t i o n s a n d a r e e n r i c h e d w i t h
p r o t e n b i n d i n g m o t i fs r e g a d e s s
r
-
i l
i n fl u e nc e i n t e r a c t i o n s w i t h p r o t e i n s an d o t he r m o l e c ul e s , t h er e b y d et e rm n e n c R N A
i I
fu n c t i o n s
.
2 丄 2 Th e mo l e c u l ar s t r u c t ur e o f I n c R NA s
T he l en
g t ho fIn c R NAs , w h c h i s r e p o r t e d t o b e g r e at e r t h a n 2 0 0 n u c e o t i d e s a
i l
,
l l o ws
t h e m t o fo d n t o
p o
t e nt a l i i l l
y c o m p l e x b u t p o o r l y un d e r s t o o d s e c o n d a r y an d 3 Ds t ru c t ur e s
.
An a l o go u st op r o t e i n s ,
I n c R N A s nt e r a c t w i t h o t h e r R N A s o r p r o t e i n s t h r o u g h b a s e p a i r i n g o r
i
-
s tr uc t u ra l r e co
gn i t i on . Iti sb e l i e v e d t h a t t h e s t r u c t u r e s a ffe c t t h e i n t e r a c t i o n o f I n c R N A sw i t
h
DNA , m i R NA , m RN A , o th e r I n c RN A s , an d p r o t e i n s [ 4 0 ] F e at u r e s o f . RN A s t r u c t u r eh a v e
b e e n u s e d t o c a s s fy t h e m a s m i R N A s l i
,
t RN A s , r
R NA s ,
I nc RN A s , e
t c
. B es i de s , s e q ue n
c ean d
s tru c t u r a l h o m o o g y h a s b e e n u t l i l i z e d i n t h e i d e n t i f i c at i o n a n d fu n c t i o n a l p r e d i c t i o n o f
I nc RN A s
.
L n c R N A s t ru c t u r e s ar e c h ar a c t e r
i ze d b y c h e m i c a l an d e n z y m at i c
p r o b n g t hr o u g h
i
p h e n o t y p c n v e s t g at o n o f
i i i i t h e i r kn o c k o u t s -
a s d o c um e n t e d n a r e c e n t r e v i e w a r t i c l e b y C h i l l o n e t a l 4 ] T h e fi r s t c a s s c o n s i st so
f
i .
[ 1 . l
n c R N A s w i t h a h i g h l y c o m p a c t t e rt i ary c o r e ak i n t o r i b o zy m e s l i k e s e f -
s cing n tr o n s T h e
p
I l l i i .
s e c o nd c l a s s i s o f In c R N As t h at p o s s e s s s tr u c t u r e d p r o t e i n b n d n g s i i i t e s p o s i t i o n e d i n a
,
I i i t sa n
3
-
-
1
Pre d i c ti o n o f p l ant o n g l
n on c o d i n g
RN A s i n t e r a c t on s w i i t h
p rot e n s
b
y de e p l e arn i n g
i
u n s t r u c t ur e d ar c h i t e c t u r e w i t h m i n m a i l
p r o t e n b nd n g o m a n s a nd s e v e r a
d i i i i ll o n g s tr et c h e s o f
d i s o r de r e d s i n g l e -
s t r an d e d RN A . T h e s e t h r e e h yp o t h e s e s u s e d t o c l a s s i f
y n c RN A s t ru c tu r e s
I
a re n o t m ut u a l l y e x c l u s i v e an d f urt h e r r e s e a r c h i se x
pec e
t d t o un v e i l a dv a n c e d m o l e c u a r
l
p r o p e r t i e s fo r c h a r a c t e r i z a t i o n o f t h e3 D s h ap e a n d t o p o o g y o f l fu l l
-
l en
g h o rp h an n c
t I RN A s
.
I n s i g h t s n t o t h e b o g e n e s i s a n d fu n c t o n s o f n c R N A s c a n b e d e r v e d fr o m t h e
i i
i I i
m e c h an fe r e n t I n c R N A s O n e o f t h e m e c h a n i s m s i s
i s m so fs
y nt h e s i s an d re g u l at i o n o f d f
i .
R NA s t r u c t u r e m a pp i n g T h e r o l e s i n c l u d i n g s i g n a l s c a f fo d d e c o y
.
,
l
, , an d g u i d e s d e p e n d o n
t h e s t r u c t u r e a n d e x p r e s s i o n l e v e o f I n c R N A s S n c e n c R N A s e x h b i t l o w e v o ut o n a r y
l . i I i l i
s t h at s i m
se
q u e n c e c o n s e r v a t o n t h e h yp o t h e s i
,
i i l a r s e q u e n c e s d e t e rm i n e s i m i l ar st ru c tur e s
wh i c h i s r e s p o n s i b l e fo r s i m i l a r fu n c t o n s i s n o t a p p l i c a b l e i . T h e r e fo r e ,
t he
se
quenc e
-
s t r u c t ur e
-
onc
f ti o n p ar a d g m h a s e x c e p t i o n s n o t o n l y i n I n c R
i NA s b ut a l s o i n pr o t e i n s
.
i d e nt i f
i c at o n o f t h e i r m o e c u l a r t a r g e t s n t h e c e
i l i l l . I nt h i sre
g ar d t h e I n c R N A s t r u c t u r e
,
g ua r a n t e e s e ff i c i e n t g e n e e x p re s s i o n r e g u at o n l i b yp ar ta k n g i n t h e r e c o g n i t i o n o f
i
I n c R N A p r o t e i n i n t e r fa c e s
-
. T h eya l so
p r o v i d e a p a t fo r m fo r
l t h e a s s e mb y o f R N P c o m p l l ex e s
.
T o e xp e r i m e n t a l l y s u p p l e m e n t t h e d e t e r m n at i o n o f i t h e m o l e c u l a r p r o p e r t i e s t h at fa c i
l i t at e t h e
s t ruc tu re f un c t i o n r e l at i o n s h i
p s t u d y n g b o c h e m i c a a n d b o p h y s i c a l p r o p e r t i e s o f s p e c i fi c
-
i i l i
,
I n c R NA s i s f u n d a m e n t a l . T h ereares e ve r a l ex
p e ri m e n a
t l m e t h o d s b a s e d o n d i ffe r e nt c h e m i c a l
a nd e n z y m at i c
p
robi n
g o r p an
f t s
p e c e s F o e x am p
i r l l e
A ra b .
,
i dop s is t h a l i a n a C O O L A I R i
s
pr o b e d w h s ha p e r e a g e n t s a n d 1 c
y c l o h e x y l c ar b o d i i m d e m e h o / o l u e n e s ul fo n at e
- - - -
i t i t ? t
(
C M C T)
.
T h e s t ru c t u r e s o f R N A s a r e n a d o i t
-
b r a c k e t fo r m a t a l i
g n e d t o r e a d p at t e r n s T h e r e a r e
.
fo u r s e c o n d ar y s t r u c t u r e e e m e n t s n a m e y s t e m o o
p n e r n a o o p an d b u l g e s T h e s e m s
t l t l , l i l l .
, ,
t h e d o t b r a c k e t n o t at o n A l o o
p e n n g an d c o s n g b r a c k e s i n
fo r m t h e o the
p i s fo r m e d b y
-
i t l i i .
u n p a i r e d n u c e o t i d e s at t h e e d g e o f a s t e m
l . B u g e sareu np a
l i r e dnu c l e o t i d e s t h at a
pp e a r a t t h e
m o d e l b as e d p r e d c t i o n , a nd a l g nm e n t T h e a b i n i t i o s t r u c t u r e p r e d c t o n nv o l v e s h y d r o g e n
-
i i . i i i
b o nd e n e r g y c o n t a n e d n m o i i l e cul e s . T he s m a l l e r t h e fr e e e n e r
g y i s t h e m o r e s t a b l e t h e
s t r u c t u r e fo l d e d . F o r e x a mp e t h e c a no n c a b a s e p a i r s A
l
,
i l
-
U , C
-
G , an d G U -
. B a s e p a i ri n g s
re d uc e t h e a m o un t o f fr e e e n e r
g yc o n a n e n
t d t h em o ec ul e i i l . M ax i m i z n g t h e n um b e r o f b a s e
i
pa i r s w o u l d m i n i m i z e t h e fr e e e n e r
g yi n the m o e c u e l l . Aw i d e l y u s e d s o ft w a r e fo r p r e d i c t n g
i
R NA s tr u c t ur e i s V i e nn a R N A P a c k a g e [ 4 1
]
.
S e v e ralc ha l l en
g e s a r e a s s o c i at e d w i t h n c R N A s t r u c t u r a l s t ud e s
I i . F o r e x am
p e l
, b e c au s e
of t hes zeo f i I nc RN A s e q u e n c e s , t h e r e a r e n o r o b u s t c o mp ut at o n a i l a
p p r o a c h e s fo r a n a l y z n g
i
t h e m nb o c h e m
i i i c alan db i o p hy s i c a stu d i e s l . M o r e o v er , t h eb i o l o gi c alc omp l e x i tyo f I nc RN A
an d n c RN A c e d ff c u t h e m a t t h e fun c t i o n a l l e v e l u s i n
I l l u arp at h w a y sm a k e s
l i t i i l tt o
pro b e
g
1 4
-
Da l i an Un i v e rs i t
y o f T e ch n o o gy
l
D o ct o ra D l i s s e r t at i on
h i gh -
t hr o u gh t h
p u p e n o yp i c a s s a y s
t . D e sp i te t h e num b e r o f n c R N A s b e n g s i g n i f
i c an t l y
I i
h i g h e r t h a n t h at o f p r o t e i n c o d i n g g e n e s -
,
t h e n u m b e r o f an n o t a t e d I n c R N A s e q u e n c e s i s
c o n s i de r ab l
y o w l . C o n s e quen tl
y , s e que n c e a l i
g nm e n
t i s i mp ai re d . B e s i de s , he re
t i s n o
w e b b a s e d r e s o u r c e fo r e x p e r i m e nt a y m a p p e d s e c o n d ary s tr u c tu r e s T h i s m a k e s a b i n i t i o
-
l l .
c a l c u l at i o n s o f s e
q
u e n c e b a s e d s e c o nd a r y s t r u c t u r e s d i ff
-
icu l t . E v a l u at i n g t h e rm o d y n a m c
i
fo l d i n
g p a r a m e t e r s an d t r ai ni ng m a c h i n e e arn i n
g a l g o rit hm s a r e a r g e y h n d e r e d
-
l l l i
.
2 . 1 . 3 L n c RN A s i n t h e p l ant r e s p o n s e t o b o t i i c an d ab i o t i c s t r e s s
B i o t i c s t r e s s e s r e fe rs t o n e g at i v e fa c t o r s t h at a ffe c t p l a nt s d e v e o p m e n t v i a l i v i n g
l
or
g ani s m ss u c
has w e e d s , b ac t e r
i a i n s e c t s , v i r u s e s a n d fun g i
,
. A l t e r n at i v e l
y a b i o t i c s tr e s s e s
,
n a l e n v i r o nm e n t i n c l ud i n g d r o u g h t a n d s a l i n i t y P l an t s
a r e n e g a t i v e fa c t o r s fr o m e x t e r .
po sse ss
ar e s t t t n a l s t i mu l i s u c h a s d r o u g h t
p o ns es y s e m oe x e r ,
h e at , c o ld , nut r i e nt d e fc i i e n c y a n d s o i l
,
s al init
y t h at s g n i i fi c an t l y l i mi t
p l an t g r o w t h an d y i eld . N o nethe l ess ,
p l a nt s m i t i g at e t h e
n e g at i v e m p a c t o f t h e s t r e s s c o n d i t i o n s b y c h a n g i n g t h e i r p h y s o o g y a n d m e t a b o l i s m t o a
i
i l
s ur v i v a l s t a t e
[
42 43 ,
]
. I nc R N A s ar e v it a l n r e g u l at i n g t h e e x p r e s s o n o f g e n e s u n d e r v a r i o u s
i
i
b o t i c an d ab i o t i c s t r e s s e s
i
, und e r s t a n d i n g m o
l e c u l a r m e c h an s m s d i i
,
s e a s e r e s i s t a n c e an d t h e
,
i mmun i t y o f p l a n t s [ 4 4 ] T h e I n c R N A s r e g u l a t e p l a n t d e v e o p m e n t d
. l
,
i s e a s ere s i s t an c e , an d
nut r i e n t a c q u i s i t i o n t h r o u g h c h r o m a t i n r e m o d e l i n g h i s t o n e m o d i f c a t o n a c t i n g a s t a r g e t
,
i i
,
andp r m R N A al t e r S evera an t n c RN A s a d i n
m i m i cr y ,
i
-
n at i v e s p l i cin
g
. l
p l I l t e re
st r e s s re s
p o n s v e p at hw a y s h av e b e e n fu n c t i o n a y c h ar a c t e r i z e d s u c h a s C O L D A I R
-
i l l
,
C O O LA I R , A t 4 /I P S l
, n p c 4 8 , an d np c 5 3 6 [ 4 5 ]
, C O O L A I R a n d C O L D A I R a r e A r a b i dop s i s
t h a l i a n a I n c R N A s i nv o v e d i n t h e r e p r e s s o n o f l i fl o we ri n g l o c us C ( F L C )
t ran s c ri
pt . F L C i sa
k e y s up p r e s s o r o f v e r
na l i z at i o n ,
w h i c h c o nt r o l s f l o w e r i n
g n
i A r a b i d op s i s
.
A col l e c t i o no f
p ant n c R N A tr a n s c r p t s a r e av a i a b e i n P l a n t n o n
l i l l
-
codi n g R N A d at a b a s e
(
PN RD ) [ 4 6 ] ,
R N A c e nt r a l
[
4 7] ,
C AN T A T A db [
24] , an
dE n s e m b l eP l a n t s
[
2 3 ] d a t ab a s e s . Th e
p l a n t n c R N A d a t a c u r at e d b y t h e s e d a t a b a s e s c o n t r i b u t e t o t h e s u c c e s s o f c o m p u t a t i o n a l
I
me tho d sd e v e o d fo r I n e R N A r e s e a r c h S o m e c o m p u t a t i o n a t o o ro d fo r p r e d i c t i n g
pe s
p po se
l . l l
p l ant n c R N A s i n c u d e P L n c R R O [ 4 8 ] P L I T [ 4 9 ] an d P t L n c B X E 5 0 T h em o d e l s
pec es
-
I l . i
, [ ]
A r a b dop s i i s t h a l i a n a i s a fl o w e r i n
g p l a nt t h a t h a s b e e n w i d e l y a n d c o m p r e h e n s i v e l y s t u d i e d
.
T o d at e , s e v e r a l s t u d i e s h a v e i d e nt i f i e d A r a b dop s i i sI n c RN A s t h a t r e s p o n d t o ab i o t i c s t r e s s e s
i n c l u di n
gp
h o s p h a t e s t a r v at i o n [ 5 1
-
53
]
. Th e s es t ud i e s fo u n d t h a t I n c R N A sare as s o c i at e d w i t
h
s tr e s s r e s
p o n s e s w h i c h i s m p o r t a n t n c r o p s p e c i e s s u c h a s Z e a m ay s ( Ze a m ay s ) b e c au s e
,
i i
a b i o t i c s t r e s s e s a ffe c t p r o d u c t i v i t y a n d q u a l i t
y H o we v e r
.
, re s e ar c honI n c RN A s d u r n g s tr e s s
i
p o n s e i n c r o p s i s l a r g e l y un d e r e x p o r e d A fe w e x a m p l e s o f s u c h s t u d e s i n c l u d e
re s th e
l . i
d e nt i f i c at i o n o f 6 3 7 n i t r o g e n re s
p o n s i v ean d 6 6 4dr o u g ht res
p o n s v e n c RN A s i n m a i z e
- -
i i I
s eedl in
gs[ 5 4 ,
5 5
]
. M o re o ver , a s t ud y b y L v e t a l . d e n t f e d 1 0 7 7 n c R N A s t h a t r e s p o nd t o
i i i
I
a bi o t i c s t r e s s e s i n m a i z e [ 5 6 ]
.
5
-
-
1
P re d i ct i ono f
p ant
l l o n g n o n c o d ng
i
RN A s i n te ract o n s w i it h
p rote n s
b
y d e e p e arn i ng
i l
2 . 1 . 4 A s s o c a t i o n o f n c R NA s w i t h o t h e r b i o m o l e c u e s
i
I l
A c e l l
,
t he b a s i cu ni t o f l i fe ,
i sc o m
pose
d o f p ro te i n s
,
RN A ,
an d D NA b i omo l ecu e s l . T he
g e n e t i c i n fo r m a t o n s t o r e d i n t h e D N A f l o w s t o R N A t o s y n t h e s i z e a f un c t i o n a l p r o t e i n
i . Th i
s
re l a t i o n s h i b e t w e e n t h e t hre e b i o m o l e c u e s s r e fe rr e d t o a s t h e c e n t r a l d o
p
l i
g m a p r o c e s s s h o wn
i n F i g . 2 . 2 . G eno me -
w d e a s s o c at o n s t u d e s
i
p r o v i d e a p l a t fo r m fo r a c o m p r e h e n s i v e
i i
i
u n d e r s t an d i n g o f g e n e t i c i nt e r ac t i o n s T h e r e s e a r c h o n i nt e r a c t i o n s b e t w e e n b i o m o e c u e s i s
.
l l
i m p o r t a nt b e c a u s e t h e i r fun c t i n e d b a s e d o n y o n t h e c h ar a c t e r i s t i c s o f
o n s c a nn o t b e d i s c e r
l
i nd v dua i i l c o mp o ne nt s . T h e d i ve r s e r e
g u l a t o r y r o l e s o f I n c R NA s a r e c a t e g o r
i ze db as e do nth e
i nt e r a c t i o n p a r t n e r s a s I n c R N A -
DN A ,
I n c R NA -
R NA a n d L P,
I s . T hedev e l o p m e nt o f
hi gh -
t hr o u g hp u t e x p e r m e n t a l t e c hn i q u e s h as m a d e l a rg e i
-
s c al e
pre d i c ti on s
poss b e i l . M oreo ve r
,
m a t h e m at i c a a n d c o m p u t a t o n a l m e t h o d s
l i re d i c t i n t e r a c t i o n b
y r e c o g n z n g s e q u e n c e an d
i i
p
s e c o n d ar
y st r u c t u r a l c o n t e xt s . H o we v e r , fe w e r b i o i n fo r m a t i c s t o o l s h a v e b e e n d e v e o p e d fo r
l
p r e d i c t i n g i nt e r a c t o n b e t w e e n p a n t n c R N A s a n d t h e t h r e e b i o m o e c u e s
i l I l l
.
T h e n c RN A I
-
re l a t e d n t e r a c t i o n s c a n b e s umm a r i z e d a s b e t w e e n t h e b i o m o l e c u l e s
i
i n d e p e n d e n t y a n d s y n e r g i s t c n t e r a c t o n s o p e r a t i n g a s i n t e r c o nn e c t e d m o l e c u a r a s s o c i a t i o n
l i i
i l
n e t w o r k s F i r s t t h e i n t e r a c t i o n s w i t h D N A a n d i t s a s s o c i at i o n i n c h r o m a t i n o r g a n i z a t i o n
.
,
.
S ec o nd , t h e i nt e r a c t i o n s b e t we e n I nc RN A s w i t h o t h e r R NA s s u c h a s m i R N A s . T hi r d l y th e
,
a s s o c i at i o n b e t w e e n n c R N A s w i t h p r o t e i n s I . T he d i st i but
r i ono f R NA b n d n g p r o t e n R B P )
i i i
(
s i t e s c an b e a n a l
y ze dac r o s s
h e c o d n g t r a n s c r i t s T h e fr e u e n c s t r i bu t i o n a c r o s s t h e
yd
t
p i
q . i
pro t e n codin
g a n d o n g n o n c o d i n g tr a n s c r
i p t s c a n b e t e s t e d t o un d e r s t a n d t h e s g n c an c e o f
-
i l i i fi
t h e e nr i c hm e n t s i t es . Las tl
y , a m o l e c u l a r a s s o c i at i o n n e t w o r k c o m p o s e d o f
l n c RN A p ro t e n d -
i
-
i s e as e -
d r u g c a n b e c o n s t r u c t e d a n d t h e i r r e l at i o n s h i p c o m
pr e he n s ve y
i l
a n a y z e d fr o m a g o b a c t i v e T h i sc o m
l l l
persp e p l e x n e t w o rk o f
. mu l ti
p e a s s o c i at o n s a m o n g t h e
l
i
b i o m o e c u l e s n s d e
l i i l i v n gc e
i l l si si m p o r t a n t n b o o s t i n g t h e u nd e r s t a n d n g o f
i i ce l l ac t i v i ti e s at
t he m o l e c u l ar l e v e l
.
Them a i n o bj e c t v e o f l fe s c i e n c e r e s e a r c h i s t o und e r s t a n d t h e i n t e r a c t i o n s b e t w e e n
i i
b i o m o l e c u l e s nt h ec e i l l s o f o r g a n i s m s fo r b i o m e d i c a
l r e s e ar c h e s i n c l u d i n ge x p o r ng d l i i s e as e
et i o o
gy an a yz n gd se ase s , an d d e v e o n
g
d r u g s a nd v a c c i n e s A c c u m u l a t i n e v i d e nc e
p g
l l i i l i .
s h o w s t h at c a p t u r n g n c R N A s n t e r a c t o n s w i I i i i t h o the r b i o m o l e c u l e s p r o v i d e s c u e s t o t h e i r
l
b i o o g y i s r e s o n s b e fo r m a n y v a l u a b e k i n d s o f r e s e ar c h T h e i n c e -
l e x p e r m e nt s ar e
l
p i l l . l i
c o m p l e m e n t e d b y i n s i l i c o r e fe r e n c e
-
b a s e d a n d r e fe r e n c e
-
re eme
f t h o d s d e v e o p e d t o p r e d i c t
l
h en o n c o di n
gn
a t u r e o f t r a n s c ri
p t s a n d a n a y z e i nt e r a c t o n d at a R e fe r e n c e b a s e d m e t h o d s
-
-
t l i .
re l
y o n g en o m e a l i
g n m e n t s b y a s s u m n g t h at t h e r e fe r e n c e a n d t h e a c t u a l s a m p l e s h a v e a h i g h
i
y O n
t h e o t h e r h a nd r e fe r e n c e fr e e m e t h o d s d i r e c t l
p e rc e nt ag e o f s m ar i t
y an a y z r a d s
e e
-
i i l .
,
l
m e rs
.
1 6
-
Da l i an Un i ve rs i t
y of
Te ch no l o gyD o c t o r a l D i ss e t at
r i on
m i i r i
m H i i
T i i
f i i m i i n m i
i
DN AT A C G G C G T T A G A C AA G T G C G T G A G T A C A C A
a t g c c g c a a t c t g t t c a c g c a c t c a t g t g t
T ra n s c r t i on
p
i
rn a H i i n nm m i i i n i m i i m i i i
AAA
Pr o t e i nc o d i n
g(
ni RN A )
a n dn on
-
p
r o t e nc o d n i
g(
m i i RN A
,
I n c RN A
)
T r an s l at i on
P r o te n m i
q s p v a k l m t c y p
F g
i . 2 . 2T h er e at o n s h
pa m o n g
DN l i i A RN A .
,
an d
pro te in s
n c RN A p r o t e n n t e r a c t o n
-
1 I i i i
( )
N um e r o u sg e n ee x p r e s s i o n r e g u a t o n a n d fu n c t o n a a n n o t a t i o n s d e p e n d o n i n t e r a c t i o n s
l i
i l
m e d a t e d b y RN P c o m p
i l e x e sa s s o c i at e dw i t h t h e t a r g e t p r o t e n s S o m e n c RN A s fo r m R i . I NP
ca
p ab eo f e s t a b l l i s h n g n t e r a c t o n sw
i i i i t ha nRN A m o l ec u e l i sd e f n e da s R B P[ 5 7
i
]
. T h e RB P s
p r o fo un d e ffe c t s o n p r o t e n s y n t h e s i s v i
,
i r a lr e
p l i c at i o n r e g u a t i o n o f g e n e e x
,
p re s s i o n l
, an d
ce l l u a r d e fe n s e m e c h a n
l i s m
.
do ma ns i . Th i sr e
gu a
t o nm e c h a n i s m o
l i
p e r at e s a t e p g e n e t i i c , t r an s c r pt i o n al i
, an d
po s t
-
tr ans c r i
p
t i o nl e v e l s . B e c a u s e o f h ed e v e o p m e n t o f d e e p t l l e arn i n
g m a n ys t u
,
d i e sh a v e
p r o v e n o b e e ffe c t v e n R
t B P r e c o g n i i i t i on . Z h o u e a p r e d t l . i c t e dL P I w i t h m i RN A s a s
m e d at o rs m i . i RN A s a r e s h o r t RN A m o l ec u l e st h at c a nr e
g u a t e n c R N A sa n dp r o t e n s[ 5
l 9 I i
]
.
i i
-
i i i
.
i nt e r a c t e d w i t h t h e s a m e m i RN A s . O t h e rs e q u e n c e
-
b a s e dc o m p u t at o n a i l m e t h o d s fo r I n c RN A
S AN [
62
]
.
2 ) n c RN A RN A nt erac t o n
-
I i i
(
co d n g RN A
i
s
(
n c RN A s ) L n c R N . A s re
gu a
te l s t h e e x p r e s s o no fm RN A s n t h e c a s e o f n c RN A i i I
-
m RN A
i nt e r a c t o n L n c R N A i . sd i rec t l
y a r g tp r
t e e
-
m RN A t or e g u a t e l i t ss
p l i c i n g e d ,
i t i n g a n d m RN A
,
s t ab i l i t
y . Mo r e o v e r c o ,
m p e t n ge n d o g e n o u sR N A ( i ce RN A ) c a n b e fo r m e d fr o m t h e c r o s st al
k
7
-
-
1
P re d i ct i o n o f
p an t o ng n o nc o
l d n
g l
i
RN A s i n t e r ac t on s w i t h p r o t e n s b y d e e p e a r n n g
i
i
l i
b e t w e e n n c R N A a nd m R N A t h r o u g h s h a r e d m i R NA r e s p o n s i v e e l e m e n t s I n t h e c a s e o f
I
.
I n c R N A n c R N A i n t e ra c t i o n
-
,
I n c R N A s a c t a s p r e c ur s o r s o f sm a l l nc RN A s i n c u di n g m i RN A s
l
,
p i R N A s a nd s n o R N A s
, [
63
]
. I nt e r a c t i o n b e t w e e n I n c R N A s an d m i R N A s r e g u at e s t h e
l
ex d s ta b i l i t y o f n c R NA s T h e s e nt e r ac t o n s a l s o l e a d t o m i R N A g e n e r a t o n fr o m
p re s s i o n a n I . i i i
I n c R N A s a n d I n c R N A s a c t i n g a s d e c o y s fo r m i R N A s . L n c R NA s n t e r a c t w i i t ho t h e r nc RN A s
I
fo r e
p i g e n e t i c r e g u at i o n l . R e s e ar c h h a s i nd i c at e d t h a t I n c R NA s c a n a c t v a t e o t h e r n c R NA s t o
i
I
e stabl i s had t t F
y n a m i c b a l a n c e b e w e e n a c i v at o r s a nd r e p r e s s o r s o r e x a m p e n c
RN A s ar e
. l
,
I
ca
p ab l e o f s i m u l t an e o u s l
y b i n d i n g t o p r o t e i n a n d mR N A C o m p u t at i o n a l a n d e x p e r i m e n t a .
l
m e t h o d s h av e b e e n d e v e l o p e d t o u n v e i l I n c R N A -
RN A i n t e r ac t i o n
.
(
3 )
I n c RN A -
DN A i nt e r a c t i o n
L n c R N A s c a n b e e n c o d e d o n t h e s e n s e o r a n t i s e n s e D N A s t r a nd S e v e r a . l m e c h an i s m s
h a v e d e m o n s t r a t e d t h at n c R N A I
-
DN A i n t e r a c t i o n o ffe r s a p o t e n t m e c h a n i sm fo r g e n e
L n c RN A s b n d o D N A s a c t i n g a s s c a ffo l d s t o e ff i c i e n t l y a n d s e e c t i v e y i n r o d u c e
re
gul at i o n
. i t l l t
p r o t e n s n t o t h e g e n e o c i F o r e x am p l e r o t e i n s t h a t ar e m e th
y l at i o n re at e d e nz y m e s c a n
-
i l l
p
i .
,
i n duc e
p
rom o t e r C p G m e t h y a t i o n o r d e m e t h y l at i o n w h e n t h e y a r e i n t r o d u c e d b y n c R N A s
l I
.
T oe p g e n et i i c all
y r e g u l a t e g e n e e x p r e s s i o n I n c R N A s b i nd t o D N A a n d r e c r u ,
i t DNA a n d
h stone mod y n g e n z y m e s s u c h a s D N A m e t h y l t r a n s fe r a s e s a n d p o y c o m b r e p r e s s i v e
-
i i f i l
p e x e s W h e n I n c R NA s i nt r o du c e
com l . h i s t o n e m o d i f i e r e n z y m e s t h e h i s t o n e m o d i f i c at i o n s
,
re s u l t i n g e n e e x p r e s s i o n g e n o m i c i mp r i n t i n g t r a n s c r i p t i o n s p l i c i n g o r D N A r e p a
, , ,
i r . Th e
I n c R N A s n t e r a c t w i t h c o m p l e m e nt ar y s e q u e n c e s w i t h i n t h e r b o s o m a l D N A ( r D N A )
i i
p r o m o t e r t o fo r m t h e R N A
-
DN A DN A -
t i p l e x T hi s t r
r ip . l exi n du c e s DNA m e t h y l at i o n a n d
t ran s c ri
pt o na i l s i l e nc i n g . I d en t i fi c at i o n o f I n c RN A b i nd n g i
D N A re
g o n sc an
i b e
ex
p e r m e n ta i l l
y d e n t i f e d u s i n g C HA R T b y c o n du c t i n g s e q u e n c n g a f
i i te r b e a d i m m o b i l i z at i o n
i
of I n c R N A / DN A c o m p l e x e s . A l so ,
c h r o m a t i n I s o l at i o n b
y
RN A i c at o n ( C h I RP S e q )
Pur f i i
-
i sa
we l l
-
e s tab l i s h e dh i
gh
-
t h r o u g h p u t s e q u e n c i n g t e c hn o o g y u s e d t o s t u d y n c R N A c h r o m a t i n
l I
-
i n t e r a c t o n s t h r o u g h R N A / c h r o m at i n c r o s s
i l i nk i n g an d pu r i f i c at i o nu s ng i
b i o t n y l at e d
i
a nt i s en s eo l i
g o nu c e o t i d e sl . D om a i n -
s i c C hI R P ( d C hI R P )
pec f i
,
i a n t o f C h R P c an
a v ar
I
i n v e s t g a t e n c R N A c h r o m at i n
i I
-
, I nc RN A RN A -
, an d LPIs . O t h e r m e t h o d s i n c ud e g o b a l l l RN A
nte r act o n s w h D N A b y d e e p s e qu e n c n g ( G R I D e
a nd M a pp n g RN A g eno m e
- -
t i s
q)
i i i i
n t e r ac t i o n s ( M A R G I ) G RI D se
q c a n b e ap p l i e d t o c ap t u r e I n c R N A D N A nt e ra c t i o n s u s i n g
- -
i . i
ab v a e nt
i l l i n k e r c o n s i s t i n g o f d o ub l e
-
s t r a nd e d RN A . MA R G Ii sa
h ghi
-
t h r o u g h p u t i n v i v o t e c h n i q u e t h a t c a n r e v e a l D NA t a r g e t s i t e s o f I nc RN A s by
i d e n t i fy i n g
c hr o m a t i n a s s o c i a t e d R N A s a n d t h e i r g e n o m i c t a r g e t o c i fo r m i n g R N A DN A c h m er c
- -
l i i
se
q u e n c e swhi c
h a r e c o n v e r t e d i n t o a s e q u e n c i n g l i b r ar y [ 6 4 ]
.
T h e w os o f
t w ar e fo r n c RN A DNA nt e r a c t i o n i s L o n g T ar g e t a n d L o n g M a n
-
t I i
.
L o n g T ar g e t sac r o s s
p e c i e s g e n o m e w i d e d a t a b a s e t h a
t wa s d e ve o
p e dt o p r e d c t DN A
- -
i s l i
8
-
-
1
Da l i an Un i v ers i t
y of
T e c hn o l o gy
Doc t o ra l D i ss e r t at i o n
i n g r u l e s b et w e e n R N A
b i n d i n g m o t i fs fo r n c R N A s an d b i n d n g s i t e s b a s e d o n b a s e p a i r
I
i
-
q u e n c e s an d d u p g r u l e s s u c h as 丁 人 0 G G G a nd 人 丁 0 ar e a
e x Ti re b a s e ri n
se
pa
- 一
_ _
l . i
, ,
c o m b i n at i o n o f I n c R N A a nd D N A s e q u e n c e s u s e d t o i d e n t i f y p o t e n t i a
l I nc RN A -
DN A b i ndi n g
.
L o n g M a n i s d e d i c at e d t o c o l l e c t i n g o rt h o l o
g o us I n c R N A s i nmult i
p es p e c i e san ds up p
l o rt s
I n c R NA -
2 2 F e at u r e e x t r a c t i o n a n d e n c o d i n g
.
2 2 . . 1 F ea t u r e e xt r a c t i o n
I d e nt i f y i n g c h ar a c t e r i s t c s t h at d i i st i n
g u i s h g e n e s e q u e nc e s o r s t r u c t u re s i s a c r i ti c als tep
fo r t h e s u c c e s s o f a m a c h i n e e a r n n
gp re d i c t o r l i . S e v e r a at t r b ut l i i o n m e t h o d s h av e b e e n
de ve op e d t o pr o v i d e n uc
l l e o t i d ere s o l u t i o n m ap s fo r e a c h nu c l e o t i d e v a r i an t fo r t h e
c o n s tru c t i o n o f m o d e l s wi th s t at e o f - -
t h e a r t p e r fo r m a n c e fo r p r e d i c t i o n t a s k s
-
. T he s e m e th o d s
i nc l u d e de e p l i t
f , i n
te
g r at e d g r a d e n t s i
, s a
l i en c
y m ap s , an
d i n s i l i c o mu t a g e n e s i s . E xt r ac t i o no f
se
q ue n c e
fe at u r e s c a n b e b a s e d o n b i o l o g i c a l p r o p e r t i e s s u c h a s o p e n r e a d i n g fr a m e s ( O RF )
,
phy s i c o c h e m i c al , G C c o n t e n t a n d u s n g t h e fr e q u e n c y o f a dj o i n n g nu c l e o t i d e t r i p l e t s o r
,
i
i
ev o l u ti o n al , a n d nu c l e o t i d ec o m
po s i ti on fe a t ur e s . O R F fe a t u r e s a r e e s s e nt i a l fo r
di stin
gu
i s h n g n c R N A s fr o m p r o t e n
i I i
-
co di n
g RN A s . Evo l u t i o n a r y i n fo r m at i o n o b t a i n e d fr o m
g e n e s fr o m c o m m o n a n c e s t r y i s us e d t o p r e d i c t n t e r a c t i o n s a n d fun c t i o n s o f no t o n l y
i
I n c R N A s b ut a l s oo th e rm o l e c ul e s S e .
q
u e n c e c o n s e r v at i o n o f tra n s c r i p t s ha s b e e n s tu d i e d t o
q u an
ti f
y i t s s gn i f i i c an c e i n m o l e c u l a r fu n c t o n i
.
T h e m at h e m a t i c almo de l s u s e d t o e x t r a c t fe at u r e s fr o m b i o l o g i c al s e
q uenc e s
i nc ud e
l
num eri c a l m ap p n g i
,
F o ur i er ,
e nt r o
py ,
a n d c o mp l e x ne t w o r k s . T he m e t h o d t h at i sw i de l
y us e d
fo r e x t r a c t i n
g b o o g i c a fe a t u r e s i s
i l t h e
p o s i i o n
t l
-
s i c s c o r n g m atr i c e s ( P S S M ) P S S M
pecif
i .
g e n e r at e s m at r x b a s e d n u m e r
i c d e s c r p t o r s c o n t a n i n g b i o o g i c a l e v o l u t i o n n fo r m a t i o n fr o m
-
i i i l i
mu l t i
p es e q u e c e a i g
l n l nm e n t . P S S M m e t h o d m e a s u r e s m at c h i n g w e g ht s o f am i n o a c i d s an d
i
re c o rdsthei m
p o rt a n c e , r e l e v an c e , a n
d
p
os i ti o no f res i d u e s i n t h e s e q u e n c e G i ve n a m at r i x P
.
w h r r o w s a n d 2 0 c o l um n s P = =
2 r
=
2 2〇 wh e r e d en o t e s t h e
t 1 1
>
i z “ . “
, , , , ” 5 , , ,
,
j
m a t r x ( P W M ) e x t r ac t s fe a t u r e s fr o m t h e D / R N A s e q u e n c e a s i ? x i m at r i x wh e r e R
i i st he
n um b e r o f n u c l e o b a s e s a n d L i st h el e n
g
t ho f t h e b i nd n g s e q u e n c e s i . I nt h i s w o rk ,
t h e d i f fe r e n t
y p e s o f fe at u r e s fe a t u r e e x t r a c t o n m e t h o d s s u c h a s A p e c t r um a n d d at a e n c o d i n g a r e
-
t i :
s
, ,
d i s c u s s e d nd et ai i l
.
T h e t w o k n d s o f fe a t u r e s e x t r a c t e d fo r p r e d i c t o n m e t h o d s d
i i i sc u s s e dar es e
que n c ea
nd
s t r u c t u r e fe a t u r e s a n d t h e fe a t u r e e n c o d i n
g m e h o d s ar e o n e h o
t t
-
, l ab e l en c o d i n
g , and l e ned
ar
9
-
-
1
Pr e d i ct i o n o f
p l ant l o n
g n o n co d n g
i
R N A s nt e r ac i ti o n s w i t h p r o te n s b y d e e p e a r n n
i
g
l i
e m be dd i n
g N o t a b l y s e c o n d ar y s t r u c u r e s a r e p r e d i c e d fr o m s e q u e n c e s T h e r e a r e o n l i n e
.
t t .
d at a b a s e s s
p e c i fi c a l l
y bu i l t fo r e x t r a c t i n g R N A a nd p r o t e i n fe a t u r e s s u c h a s R P I N B A S E . A l s o
,
re s e ar c he r s h ave p r op o s e d s o f
t w ar e p r o g r a m s s u c h a s B i o S e q -
A na l
ys i s,
py
fe a t a n d i F e a t u r e
,
(
1
) S e q u e n c e fe at u r e s
A s e q ue n c e i s n o t a r an d o m s e r i e s o f n u c l e o t i d e s I t h a s d i s t i n c t fe at u r e s t h a t d e t e r m i n e
.
RN A o b t a i n e d f r o m t h e p r i m ar y s e q u e n c e , c o n s i d e ri n
g b o
t h c o nt e n t a n d fo r m i n g o f t h e am i n o
a c i d / n u c e o t i d e E x t r a c t i n g s e q u e n c e fe a t u r e s i n c l u d e o b t a i n i n g a m n o a c i d fr e u e n c y c o do n
q
l . i
,
fr e q u e n c
y c o d o n a d ap t a t i o n i n d e x g e n e en
gt h g u an n e c
y t o s i n e ( G C ) c o n t e nt a n d g e n e
-
l i
, , , ,
se
q u e n c e l e n gt h . T h e fe a t u r e s d i ffe r fr o m o n e d o m a i n t o a n o th e r a n d fr o m o n e b o m o e c u i l l eto
a n o t h e r F o r i n s t a n c e p r o t e i n s e q u e n c e fe a t u r e s d e s c r b e t h e fa m
.
,
i i l
y i t b e o n gst o B e s i de s
l .
,
i dent i
y
f i n g s i t e s i n p r o t e in s he l p s t o c l as s i fy a D N A s e q u e nc e a s e i t h e r c o d n g o r no n c o d n g
i i
.
Thu s t h i s i n fo r m a t i o n i s i m
p o rt ant t ob i o l o
g
i s t s fo r m a n
yb o l o g i c a
i l an d m e d c al r e a s o n s
i
.
se
qu e nc e s . S o f t w ar e p r o g r am s h a v e b e e n d e v e l o p e d t o i d e n t fy c o d i n g a n d n o n c o d i n g
i
-
re
g o n s b a s e d o n g e n e l o c at i o n F o r e x a m p e
i . l
, ho m o l o g y s e a r ch i n g s o f
t w a r e t e s t s wh e t h e r a
s e r i e s o f n u c l e o b a s e s i s a r e a l e x o n o r a c h an c e s e
q ue n c e . I fane wl
y i d e n t i fi e d s e q u e n c e i s
s imi l ar t o a n e x i s t i n
gone ,
t h e t w o s e q u e nc e s a r e h o m o l o g o u s b e c au s e t he y ar e c o n s d e r e d t o
i
h av e a n e v o u t i o n a r y r e at i o n s h i p l l . An a l
y z i n g t h e e v o l u t o n ar y r e l at i o n s h i p c an p r o v i d e v i t a
i
l
i n fo r m a t o n o n t h e f un c t i o n o f a g e n e S e q u e n c e fe a t u r e s a r e e x t r a c t e d a n d r e p r e s e n t e d a s a
i
.
n um e r i c v e c t o r t o b e i n p u t i n d e e p l e a r n i n g o r c o n v e n t i o n a l m a c h n e l e a r n n g i i . M an y
m e tho d s
h a v e b e e n p r o p o se d t o d e c o d e g e n o m e s e q u e n c e s b y an a y z n g t h e s t at i s t l i i c a l d i s t r i b ut i o n o f
se
q u e n c e s e g m e n t s t o o b t a i n i n fo r m a
ti o n e n c o d e d i n t h e s e
quenc e s . A t tr i b u t e fe a t u r e s
c a l c u l a t e d fr o m t h e s e f b i o m o l e c u l e s a r e c o m b n e d t o t r ai n a m o d e t o r e d i c t the
quen c e so p
i l
i n t e r m o e c u l a r a s s o c i at i o n s
l
.
T a b 2 2 p r e s e n t s d e s c r p t o r s fo r R N A a n d p r o t e n s e q u e n c e s o f d
. . i i i ffe r e nt e n c o d i n
g
m e t h o d s T h e d e s c r i p t o r s i n T ab 2 2 a r e fo r s o m e a v a
. . . i l ab l ei m
p o r t a n t fe a t u r e e x t r a c t i o n
m e t h o d s fo r s e q u e n c e d at a t h a t h a v e b e e n w i d e l y u s e d n d e v e o p n g m a c h i n e l e a r n i n g
i l i
a g o r i t hm s H o w e v e r t h e p r e s e n t e d l
l .
,
i s t i s o ut o f th e s c o
peo ft h i s d i s s e r t at i o n . T h eP S S M
,
A> m e r , c o n o i nt t r i ad b i n a ry p ro f i l e , p s e ud o nu c l e o t i d e c o mp o s i t i o n a ut o c o rre l at i o n
j , ,
,
AA i n d e x andZ ,
-
s c al e ar e u s e d t o t r an s fe r s e
q uen ce s
i n t o nu m e r i c a l v e c t o r s T h e l . i s te d
m e t h o d s a r e u s e d a s p r o o f o f t h e c o n c e p t o f fe a t u r e e x t r a c t i o n S o m e o f t h e d e s c r i p t o r s
.
n c ud i ngA me r c o nj o i n t t r i ad a n d b n ary p r o f e h av e b e e n i m
p e m e nt e d i n t h e e x p e r
i m e nt s
-
i l :
, ,
i i l l
i n t h i s d i s s e r t at o n fo r i t h e p r e d c t o n o f n t e r a c t o n s b e t w e e n n c R N A s a nd p r o t e n s
i i i i I i
.
20
-
Da l i an Un i v ers i t
y of
T e c hn o l o gy
Doc t ora l D i s s e r t a t i on
T ab 2 2D e s c r
i r f r R NA a nd ro te i nse
. .
p o s o
t
p qu e n c e s
F e at u re Descr i
pt o n
i
P S S M P o s i t i on -
s
pec f
i c s c o r n g m atr x
i i
i . n ^ 2 \ : n ,
n u m be ro f
p rot e n
re s i d u e si na i
.
m e r 4 'A
= =
A :
-
: 1 ,
4 fe a t u r e s ;
众 2 1 6 fe a t u r e s
, ;
A :
=
3 6 4
,
an d k
=
fe at u r e s ;
4 ,
2 5 6 fe at u r e s
.
G a p p e d A> m e r f
k
4 l
:
-
L e n gt h o f su bse
qu en ce s ,
k( k < / )
-
non -
ga p
k
\
)
po s i t i o n s an d l
—
k g ap s
. 1 -
G ap
=
1 6 fe at u r e s ;
2
-
G a p s
=
3 2 fe a t u r e s ; 3
-
G ap s
=
4 8 fe a t u r e s ,
4
—
G ap s
=
64 ,
5
Gaps
=
8 0 ,
6
-
G ap s
=
96 ,
8
-
Gaps
=
1 2 8 fe a t u r e s
.
2 k 2^ k
 ̄ -
_
m e r 2
1
l
Re v e r s ec o m p +2 R C
]
=
l e m e n t^
-
(
k 1
5
3 5
- - *
X 2
(
k
=
2 4 5 5
. . .
)
: 1
-
=
2
fe at u re s ,
2
—
RC
=
1 0 fe a t u r e s ,
3
-
RC =
3 2 fe a t u r e s ,
4
-
RC =
1 3 6 fe a t u r e s
.
s
p a c e dt a
d i
(
K S C Tr i ad )
B i n a ry p r o f
i l e 2 0x f
t : 2 0x1
=
2 0 fe a t u r e s ,
2 0x5
=
1 0 0 fe at u r e s ,
2 0x
2 0x1 6
= =
1 0 2 0 0 fe at u r e s ,
3 2 0 fe a t u r e s
.
P s e u d on u c l e ot i d ec o m
pos i t i on N 2 ,
N N 3 , 4 ,
N s ,
. . .
,
NL
(
P s e KN C )
Au t o c o r r e at o n l i Mo ra n a u t o c o r r e l at i o n , M o re a u B r o t o -
a u t o c o rr e a t o n
l i
AA i n dex AA i nd ex
Z -
sc a l e n d e x i Z -
s ca e
l
S u bseq uence O c c u rr e n c e s of k
① 灸 -
s
p e ctru me n c o d i n g
A A :
-
s
pec
tr um i st h ed i s t r i b ut i o n o f as et o f t h e d i s t i n c t s u b s t r i n g o f k e n g t h o b s e rv e d n a
l i
a d s n a s e q u e n c e a l s o kn o w n a s ^ m er T h e m e t h o d c o un t s t h e o c c u rr e n c e o f a l
gr o up o f re
-
i .
l
c o nt i
g u o u sA :
-
l en
g t h s t r i n g s r e p r e s e nt e d a s a v e c t o r w i t h i n t h e s p e c t r u m fe a t u r e s p a c e
. T h e
A :
-
m e r s p e c t r a a r e t h e m o s t u s e d r e p r e s e nt at i o n o f t he c o mp o s i ti o n pr o p e rt y o f se
q ue n c e s . The
I nc RN A s w i th s m i l a r A i :
-
m e r p r o f i l e s h a v e r e at e d f un c t i o n s [ 3 9 ] l . V ar i o u s v a l u e so fk
p s T h e num b e r o f fe a t u r e s i n c r e a s e s l i n e a r l y w i t
ht h e
fo r m u l a t e s e
qu e n c e s n o
t fe a t u r e m a i
.
v al ueo f k . F e a t u r e s fr o m al l t h e s am p l e s ar e o b t a i n e d w i t h th e e
q u at i o n L
-
k+1 , w h e r e Li s
t h e s e q u e n c e e n gt h l . T he c a l c u l a t i o n o f n o rm a li z ed A :
-
nu c l e o t i d e fr e q u e n c i e s o f
6 d i m e n s i o n s ) tri 3 6 4
= =
d i
-
nu c e o t i d e c o m p o s
l i t i o n ( k 2 , 1 ,
-
nu c l e o t d e c o mp o s i t i o n ( k i
,
=
=
n u c e o t d ec o m p o s i t i o n ( 众 4 2 5 6 di m en s i o n s )
d i m ens on s ) p e n t am e r o c c u rr e n c e s (
i t etra
-
l i A :
, , ,
5 ,
1 0 2 4 d i m e n s i o n s ) , h e x am e r( k
=
6 4 0 9 6 d me n s
,
i i ons ) , an d o c t a m e r (
k
=
8 ,
6553 6
d m e n s o n s ) g e n e r a t e u n i q u e p r o p e rt i e s o f
i i I n c RN A s
.
2 1
-
Pre d cti o n o f
p a nt o n g n o n c o d n g R N A s n te r a c t o n s w t h p r o t e i n s b y d e ep e arni ng
i l l i i i i l
Y
'
'
T h e am i n o a c i d s ar e g r o u p e d n t o s e v e n g r o u p s o f p hy s i
i c o c hemi c al
p r o p e r t i e s l on g , {
"
M N W R K D
‘ , £ , ‘ , , C , e , ‘ , ‘ , ‘ , ‘ , 6 , ‘ ,
T S } , {
H Q } , { } 5
{
E } ,
an d { C } [ 6 5 ] . T he
g
rou
p s h e lp
t
o
3 3
r e d u c e t he d i m e n s i o n o f v e c t o r s p a c e fr o m 2 0 t o 7 , w h c h r e d u c e s c o m p u t at i o n a l c o m p l e x i t y
i
.
T h e fe at u r e v e c t o r o f p r o t e in
i sc o m
p o s e d o f c o m p ut i n g t h e c o un t o f a l l 3 4 3 p o s s i b l e t r i p e s
t l
.
E ach c om
p o n e nt i sc o m p u t e d u s i n g t h e fo l o w i n g fo r m u l a l
:
d
_
只
=
,
=
U ,
…
,
343 _
(
2 . 1
)
m ax { p ) m n(p)
—
i
Th e v e c to r i s n o rm al i ze dt o
p re v e n t p ro t e i n s w i t h o n g e r s e q u e n c e s fr o m h av n g a r g e r c o u n t s
l i l
.
p d e no t e s t h e nu m b e r o f r e s i d u e s in a
p ro t e n s e que nc e
i
.
? Mu lti v a r i at e M u t ua l I n fo r m at i o n
Mu lti v a r i at e mu t u a l i n fo r m at i o n ( MM I ) i sam e t h o d u s e d fo r e x t r a c t i n
g fe a t u r e s
fr o m
nu c l e o t i d e s e q u e n c e s . M M I
-
b as e d fe a t uree n c o d ng a g o r i l i t hm s c a l c u l at e t h e m u t u a
l
i n fo r m at i o n fo r e e m e n t s a s a fr e q u e n c y o f n u c e o t d e s i n t h e s e q u e n c e c o n c e r n i n g A
l l i :
-
t up e l
.
③B P F
s
I n t h i s r e p r e s e n t a t i o nm e t h o d p r o t e i n r e s i du e s a re r e p r e s e n t e d b y a v e c t o r o f 2 0
,
d i men s io n s . Th ea l
g o r i t h m c o nv e r t s e a c h n u c e o t i d e / r e s i d u e n t o a b i n ar y v e c o r
i t l . Th e b i na r y
p r o f i l e e n c ap s u a e s
l t thec o m
pos i tio n an d o r d e r o f re s i d u e s i n fo r m a t i o n . A b i n ar y p r o f i l e o f 2 0
x b d i m en s i o n sc o m
p o s e d o f a p r o t e i n s e q u e n c e o f e n g t h b w a s g e n e r at e d A
D / R NA
l .
4xn
se
q u e n c e w i t h n nu c l e o t i d e s c a n b e r e p r e s e n t e d a s
.
T h e s e ar e th e p h y s i c a l a n d c h e m i c a at t r i b u t e s o f l t h e m o n o m e r i c un i t o f p r o t e i n
. T he y
i n c ud e
l
; i n s t ab i l it
y i ndex , i so el e ctri c
po i nt ,
g r an d av e r a g e o f h y d r o p a t hy , e xt i nc ti o n
c o e f fi c i e n t s e c o nd a r y s t r u c t u r e fr a c t i o n g r o u p e d a m i n o a c i d c o m p o s i t i o n ( G
, ,
AA C ) , M o r an
au t o c o rr e l at i o n , comp o s i
t i on , t r an s i t i o n an d d i s t r b ut o n ( C T D ) C o m p o s i t i o n ( C )
i i
, ? Trans i t i on
(
T) , D i s t r i b ut i o n
(
D ) 5
i ad ( C T r i a d ) [ 6 6 ] T h e p h y s i c o c h e m i c a l p r o p e r t i e s o f R
c o nj o i nt t r . NA
n u c l e o t d e s c a n b e e x t r a c t e d fr o m c o m b i n n g p h y s
i i i c o c hem i c al
p
ro
p e rt i e s w hi c h i n c l u d e r i s e
,
ro l l , s hi f
t ti ,
l t
, t w i s t a n d s l d e T h e fe a t u r e v e c t o r i s g e n e r at e d b y c o l l e c t i v e l y c r e at i n g a
,
i .
fe a t u r e s
p ac eo f s tr i n
g s b a s e d o n t h e s i x p h y s c o c h e m c a p ro p e rt e s
l i i i
.
⑤ S ub se
q u e n c e fe at u r e s
T h e s e a r e t h e at t r b u t e s c o r r e s p o n d i i n g t o t h e l o c a l s i m i l ar it y w i th i n a g v e n p r o t e n
i i
se
q u e n c e S u b s e q u e n c e b a s e d fe a t u r e s a r e c o n s t r u c t e d fo o w i n g t he e x i s t enc e o f sp e c i f c
-
. l l i
m o t i fs i n a g i v e n s e q u e n c e . T o g e n e r at e a fe a t u r e v e c t o r ,
s i m i l a r i t y s c o r e s a r e c a c u l at e d b a s e d
l
o n p a i rw i s e s i m i l ar i t i e s T h e s e fe a t u r e s c a n b e d o wn o a d e d fr o m t h e p r o t e n d o m a n d at a b a s e
.
l i i
c al l e dP R O S I T E b y c o un ti n g e v o l u t i o n a r i l y c o n s e r v e d r e g o n s w i t h b i o l o g i c a s i g n i fi c a n c e i l
.
T he s e m e t h o d s i n c l u d e s u b s e q u e n c e p r o fi l e fe at u r e e x t r a c t i o n m e t h o d
.
22
-
-
Da l i an Un i v ers i t
y o f T ec h n o o g y
l
D oc t o ra l D i s s ertati o n
? A nn o t at i o n fe at u r e s
T h e ann o t a t i o n fe a t u r e s i n c l u d e s ub c e l l u l a r l o c a l i z a t i o n b i n d i n g p r e fe r e n c e s o f ,
pr o t e n s
i
(
i . e . nu c l e o t d e i
, D / R N A o r m e t a ,
l
) , an d t h e p r e s e n c e o f t r a n s m e m b r an e r e g i ons . T h e s e
fe a t u r e s c a n b e a c
qu
i re d f r o m t h e U n i P r o t K B fo r a l l p r o t e i n s a m p l es
[
66]
.
(
2 ) S t r u c t u r e fe a t u r e s
T he R N A s t r u c t u r a l fe a t u r e s a r e
p
r e di cte db as e do nm i ni m um fr e e e n e r g y a n d m u l t i p l
e
s e
q u e n c e a l i g nm e nt m e t ho d s T h e m a i n s t ru c t ur
a l fe a t u r e s n c u d e b i o c h e m c a l c o n t a c t s a n d
.
i l i
c o n fo r m a t i o n a l . B o c h e m i c a l c o n t a c t s i n c ud e r e s i d u e c o n t a c t s a t o m c o n t a c t s s a
i l
, ,
l t bri d ge s
,
an d hy dro g e n b o n d s . C o n fo r m a ti o n a l a s p e ct s i n c ud e m o l e c u l a r v o l u m e a n d s e c o n d a r y
l
str u c t u r e T h e m a n fa c t o r s t h at c o nt r i b ut e t o t h e s p e c fi c i t y a n d a ff i n i t y o f nt e r a c t i o n s a r e
. i
i i
s i z e a n d s ha
pe . M o reo ve r , t
h e 3 D s t r u c t u r e b a s e d fe a t u r e s s u c h as d e p t h n d e x
-
i
, B -
fa c t o r a n d
,
s u r fa c e c u r v a t u r e c o n t r i b ut e t o p r e d i c t i o n m o d e l s
.
F e a t u r e r a n k n g a n d s e l e c t o n a d d r e s s t h e p r o b e m o f s e a r c h n g fo r a m n i m a l s e t o f
i i
l i i
fe a t u r e s t h at m a x i m i z e s t h e d i s c r i m i n at i o n a m o n
g c l a s s e s T h e k e y p u r p o s e i s t o r e d u c e
.
d m e n s i o na
i l i t
y b y c u t t i n g d o w n t h e a m o un t o
f r e d un d a n t a n d n o i s
y fe a t u r e s w h i c h m a y
,
a l g o r i t hm s T h e r e i s n o s t a n d a r d w a
t h e a c c ur a c
yo f c as s i f a i n
c t o
yo f cho o
de nga
g r ad e si
l i .
fe a t u r e s e l e c t i o n m e t h o d s i n c e t h e r e i s n o c l e a r b i o l o
g i c a l un d e r s t a nd i n g o f w h y c e r a i n
t
fe a t u r e s h a v e
g r e at e r d i s c r i m i n at i n g p o w e r . I n d e e p l e ar n i n g , h e c o nv e n
t ti o n a l fe at u r e
s e l e c t i o n t e c hn i
q u e s r e g u l a t e t h e e a r n i n g p r o c e s s b y s mu l t a n e o u s l y l e a r n n g t h e m o s t
l
i i
n fo r m at v e fe a t u r e s re d u c e r e d und a n c y b y
prun in gn e ur o n s a n d r e g u at i n g t h e d r o p o u t
i i l
, ,
fa c t o r . T h e s e t h r e e p r o c e s s e s h e p t o m p r o v e t h e p r e d l i i ct i o n
p
e r fo r m a n c e . G e n e r a l l
y t wo
,
s t r at e
g i e s a r e ap p l i e d t o c o m b i n e a n d s e l e c t a s u b s e t o f fe a t u r e s . F i rst , t h e fe a t u r e s ar e
c o mb i ne d , r an
k e d an d t hen t h e t o p fe a t u r e s a r e s e l e c t e d b a s e d o n a t h r e s h o d l . F o ri n s t an c e , an
i nc rem ent a l fe a t ur e s e l e c t i o n s t r at e
gy n c l u d e s i
, s o rt i n g fe a t u r e s a c c o r d i n g t o av e r a g e
p e r fo r m a n c e , i n t e g r at i n g t h e m u s i n g i n c r e m e n t fe a t u r e s e e c t o n l i
,
and f i n a l y r e du c i n g
l
re d u n d an t n fo r m at o n u s n g a m a c h n e l e a r n i n g c a s s f e r T h e c o m m o n y u s e d fe a t u r e
i i i
i l i i . l
s e l e c t i o nm e t h o d s a r e r e c u r s i v e fe at u r e e l i m i n a t i o n
( RF E Th eRF E s e)
. l e c t s fe a t u r e s b
y
p e r fo r m i n
g a g r e e d y s e a r c h v a a n i t e r at i v e i
p ro c e s s
.
F e at ur e h a s h n g i s an a i l ter n at i v e m e t h o d t o fe at u r e s e l e c t i o n m e t h o d s u s e d fo r
d i m en s i o n al i t
y re ducti o n . F e at u r e h a s h n g e f fe c t v e y r e d u c e s t h e num b e r o f
i i l fe at u r e s i n p u t t o
Th e o r
i g i na l hi
a m a c h i n e e a rni n g a l
go r hm gh d i me n s i o na fe a t u r e s
p a c e i s d e c re a s e d t o a
-
l i t . l
l o w d i m e n s i o n al s p a c e b
-
y u s i ng a h as
hf
imc ti o n . T h e fe at u r e s a r e m a p p e d t o h a s h k e y s w h e r e
mu l ti
p e fe at u r e s a r e a r b
l i tr ar i l t h
y m ap p e d o t e s a m e h a s h k e y a n d t h e i r c o un t s a r e a g g r e g a t e d
.
H o weve r , h a s h n g c an r e s u i lt i n s i g n i f i c a n t i n fo r m a t i o n l o s s w h e n h a s h c o l l i s i o n s h a
ppen
b etw e e nh i
g
h y fr e q u e nt fe at u r e s w
l it h s i g n i f c a n t l y d ffe r e n t c a s s d
i i l i s t r i b ut i o n s . Th i s ap p r o ac h
2 3
-
P re d i ct i o n of p ant ong n o n c o d n g
l l
i
RN A s i nt e r ac t on s w i it h
p ro t e n s b y d e e p
i
l e arn i n
g
h a s b e e n s u c c e s s fu l l
y m p e m nt e d
i l e n p r o t e n s e q u e n c e c l as s i fi c at i o n t a s k s an d o t h e r r e a t e d
i
i l
s tu d i es
2 2 2 F e atu r ee n c o d i n g
. .
L n c RN A s e q u e n c e s a r e n o r m a l l
y s t o r e d i n t h e fo r m o f l ett e r s . T o fa c i l i t at e d e e p
l e a rn i n
g
a l g o r i t hm s t o e x t r a c t a t e n t a t t r i b u t e s t h e s e q u e n c e s m u s t b e e n c o d e d n t o n u m e r c a fo r m
l
,
i i l
.
T h e r e a r e t h r e e m a i n fe a t u r e e n c o d i n g t e c h n i q u e s o n e h o t e n c o d i n g a b e e n c o d i n g a n d
,
-
,
l l
,
l n e de m b e d d i ng
e ar
.
(
1
)
O ne -
h o t e n c o d i ng
Th i s i sa
popu l a r d at a en c o d i n g m e t h o d t h at enc o d e s s t r i n
g s int o
nu m e r i c a l da t
a
s t r u c t u r e s I t t r a n s fo r m s s e .
q u e n c e s i nt o a m a t r
i x d a t a s t r u c t u r e t h a t c a n b e d i r e c t y fe d n t o t h e
l i
m ac h ne e ar n i n
g a g o r i h m o r c a s s i fi c a i o n a n d p r e d i c i o n a s k s T h e a l p h a b e s n h e g e n e
i
-
l t fl t t t l t t
. i
se u e n c e a r e c o n v e r t e d n t o b o o e a n v a r a b l e s w h e r e 1 o r 0 a r e a s s g n e d t o n d i c a t e t h e
i
l i i i
q
p r e s e n c e o r ab s e n c e o f a m n o ac d o r nu c i i l e o b a s e at e a c h
po s i ti on . F o re x am p l e ,
i na n c RN A I
,
A i s d e no t e das
(
1
, 0 ,
0 , 0) ,
C as( 0 , 1 , 0 ,0 ) , G a s( 0 , 0 ? 1 , 0 ) ,
a nd U a s
(
0 ,
0 ,
0 1 , )
. E ac h a m i n o
ac d i n a p r o te i n s e q u e n c e
i i sr e
p r e s e nt e d b y a
ve c to rc o m
p o s e do f o n ea n d1 9zero s . A i
s
re
p r e s e nt e d a s ( 1
,
0 丨 ,
. . .
,
O 1 9 )
i n p rot e n s e q u e n c e w h
i i l e C i s r e p r e s e nt e d a s ( 0 丨 ,
1
,
. . .
,
〇 i 9 )
. T he
p r o t e n s e qu e n c e v e c t o r s t o g e th e r m ak e u p a P b y 2 0 m at r
i x F o r a h i g h e r o r d e r o n e h o t - -
i .
enc o d n g o f i RN A se qu enc e ,
a fe a t u r e m a t r i x 1 6 x V □ l c o rre sp o n d s t o a d i
-
n uc e o t d e whe r e
l i
e a c h c o l um n n a r o w w i t h t h e p o s i t o n o f i i t hed i
-
n u c e o t d e c o nt a i n s a s i n g l e o n e
l i . E ac h k r
n tr
-
k
4 fo r e a c h k v a l u e o f o r d e r s o n e t wo a n d t h r e e w h e r e 4
p a t t e rn i s re p r e s e n t e d as ? , ,
i sthe
n um b e ro f RN A s e
q
u e n c e nu c l e o t i d e s
.
2 )L ab e e n c o di n g
(
l
Labe l e n c o din
gi st h e
tra n s fo r m at i o n o f c at e
g o r c a l d at a n t o n u m e r c a
i i i l fo r m . E ac hl a b e
l
i sa s s i
gn e dau n que n e ge r
t b as e do na h b t c a o r de r O r d i n ale nc o d n g
p a e i i l i l . i i sa ne x am
p eo f
l
l a b e e n c o d n g u s e d t o t r a n s fo r m d a t a fr o m a b e s p a c e t o i n t e g e r s p a c e T h
l i l l . i s d at a e n c o d i ng
m eth o d i s u s e d t o t r a n s fo r m s t r i n
g s n o n um e r c a
t i i l d at a s t r uc t ur e s s i m i l a r t o o n e h o t e n c o d i n g -
.
It su b st i t ut e s t h e z -
t h l e t t e r w i t h a fi x e d v a u e c o r r e s p o n d i n g t o a un i q u e a m i n o a c d o r
l i
n uc l e o t d e i . T h i s s ch e m e h as a m e m o ry -
s a vin
g a d van t a g e s u c h t h a t i t m n i m z e s t h e
i i
d me ns o ns
i i . I ns c i k i t
-
l e ar n ,
L a b e E n c o d e r ( ) fu n c t o n
l i i s u s e d t o
p e r fo r m l ab e le nc o d i n
g
.
(
3
)
L e a r n n g b as e d e n c o d i n g
i
-
L e arn n g b a s e d e n c o d i n g c re at e s a q u a n t
i
-
i t at i v e s e m a nt i c r e
p r e s e nt at o n o f d i i s c r e t e un i t s
o f c o m p e x s y s t e m s T he p u rp o s e o f c r e a t i n g t h e q u a nt
l . i t at i v e r e p r e s e nt at i o n o f w o r d s i st o
e a r n t h e s e m a n t i c s o f a w o r d b y m ap p i n g t h e m t o v e c t o r s i n a h i g h d m e ns o n s
pac e
-
l i i
.
W o rd 2 V e c S e q u e n c e 2 V e c s e q u e n c e , ,
-
t o
-
se
q u e nc e ( s e q
2 se
q)mo
d e l s a r e u s e d t o p e r fo r m
fe a t u r e l e a r n i n
g . W o r d2 v e c i s awo rd e m b e d d i n
g t e c hn i q u e , w h i ch i s u s e d t o r e
pre s en
t w o rd s
a s v e c t o r s t h at d e s c r i b e t h e w o r d b a s e d o n i t sc o nt e x t . W o rd 2 v e c m a p s n fo r m a t o n u n
i i i t ss uc h
24
-
-
Da l i an Un i v er s i ty o f
T ec h n o l o gy D o c t o r a l D i s s e r t a t i on
a s p hr a s e s s e nt e n c e s , o r d o c u m e nt s t o a o w d i m e n s i o n a l s p a c e T h e t w o m a i n t yp e s o f w o r d
-
l .
,
e m b e dd i n
g w i t h w o r d 2 v e c a r e s k i p g r a m an d t h e c o n t i n u o u s b a g o f w o r d s ( C B
-
O W The
)
.
s k p g r am a g o r
i
-
l it hm p r e d i c t s t h e c o nt e x t u s i n g t h e w o r d b a s e d o n t h e s u r r o un d i n
g w o r d s
t h at
i v e n a s e q u e n c e o f w o r d s t h e n e x t w o r d i s p r e d i c t e d b a s e d o n t h e c o n t e x t T h e s e t wo
g ,
.
app r o a c h e s h av e b e e n i m
p l e m e n t e d fo
r re
p r e s e n t a t i o n l e a r n n g fo r P P I R P I p r e d i c t i o n a nd
i
, ,
n g (N L P ) Y
p o s e dan L P Ip r e d med
n a ur at l a n gu a g e p r o c e s si t as ks i e t al ro c ti o nm e tho d t er
p
l . . i
L P I P r e d wh
-
i c h tr ai n e d R N A 2 v e c a nd P r o t 2 v e c m o d e l us i n
gwo r d 2 v e c[ 6 7 ] E ac hA .
:
-
me r i
s
g ar d e d a s a w o r d a n d a s e q u e n c e a s a s e nt e n c e s u b s e q u e n t l y u s n g t h e s k i p g r a m w o r d 2 e c
re v i
-
m o d e l t o e a r n d i s t r i b ut i o n
l re
p r e s e n t at i o n
.
S e q 2 V e c m a p s t h e n p ut i n t o a n o n l i n e a r fe a t u r e s p a c e a n d u s e s t h e e m b e d d e d fe at u r e s t o
i
bu i l dt he p r e d i c t i v e m o d e l [ 6 8 ] . Th i s m e t h o d e n ab e s e n d l
-
t o e n d e ar n i n g o f no n l i n e a r
-
l
fe a t u r e s d i r e c t l
y a n d s i m u l t an e o u s y w l i t ht h ep re d i c t i v e m o d e l . O n c e t h e p ar a m e t e r s a r e
l n e d i n t h e e mb e d d i n
e ar
g o p e r at o r s p o s ,
i ti on
-
s
pe c f i i c n o n l i n e a r fe a t u r e s a r e e x t r a c t e d u s i ng
t h e m e s s a g e p a s s i n g al g o r i t hm . T he m e s s a g e p a s s i n g a l g o r i t h m u s e s t h e fo r w a r d a n d
b a c kw a r d
p as so
f me s s a
g e s fr o m o n e n o d e t o a n o th e r T h e o u t p u t o f s e q u e n c e 2 v e c i s a
.
c o l l e c t i o n o f p o s it i o n p e c i f i c fe at u r e s G e n e v e c g e n e r a t e s a d i s t r i b u t e d r e p r e s e n t at i o no f
-
s 2 .
e ac h
g e n e b y e m p l o yi n g g e n e c o
-
ex n s I n s p i r e d b y w o r d 2 v e c t h i s m o d e l
p r e s s o n p at t e r
i .
p e r fo r m s g e n e e mb e dd i n g t o r e p r e s e n t g e n e s a s v e c t o r s i n a h i g h d i m e n s o n s p a c e P e a r s o n
-
i .
c o r r e l a t i o n c o e ff i c i e nt
(
P C C ) i s u s e d t o m e a s ur e g e n e c o -
e x p re s s i o n T h e n t h e c o .
,
-
e xp r e s s e d
d a s th e t r a i n i n
g e n ep a r s ar e s e l e c t e d a n d s e r v e
g d a t a fo r g e n e 2 v e c t o e a r n t h e ^ d i m e n s i o n a l
-
i l
ve c t o rre
p r e s e n t at i o n o f e a c h g e n e . T hep o s i ti v ean dn e
g a t i v e n s t a n c e s i n t h e t r a i n i n g d at a s e
i
t
a r e r e p r e s e n t e d b y t h e ^ d i m e n s i o n v e c t o r s ar e u s e d t o t r a i n t h e p r e d i c t i o n m o d e l s T h e m a i n
-
.
h y p e r p ar a m e t e r s t un e d i n a g e n e 2 v e c a g o r i t h m a r e t h e nu m b e r o f e r at i o n s r e d a s /
p r e s e nt e
l it
a nd t h e d i m e n s i o n a l i t y o f t h ee mb e d d ing
re
p r e s e n e d as n
t
.
T h ereare t hr e e w i d e l y u s e d n e t w o r k e m b e d d n g m e t h o d s n m a c h i n e l e arn i n
g i i : de ep W a k l
,
a n e t w o r k t h r o u g h r a n d o m w a l k s t o i n fe r l o c a l s t r u c t u r e s b y n e i g h b o r h o o d r e at i o n s I t u s e s
l .
s ki
g s S k i p g r a m e ffi c i e n t y l e a r n s h i g h q u a l i t y d i s t r i b u t e d v e c t o r
t o l e a r n e mb e dd i n
p g r am
- -
. l
re
p r e s e nt at i o n s t o m a x i m z e s i m i l ar i t i e s o f w o r d e m b e d d n g s N o d e 2 v e c i s a n e m b e d d i n g
i
i .
m e t h o d fo r n o d e s i n a n e t w o r k c a p t u r i n g t h e n o d e sl o c a l n e t w o rk t o p o l o g y . I t b ui l d s o n
D eepWa l k an d u s e s a b
i as e d s e c o nd
-
t o s t r i k e a b a l a n c e b e t w e e n l o c a an d g o b a l n e t w o r k p r o p e r t i e s l l . N o d e 2 v e c i s m o r e fl e x i ble
b e c a u s e w h e n g e n e r at i n g t h e v e r t e x c o n t e x t , i t c ap tu r e s b o t h v e r t e x h o m o p h i l y an d s t r u c t u r a l
e
qu v al e n c e
i . C ho o s i ng l o ng e r w a k l e n g t hs i m p ro v e s t h e e m b e d d i n g q ua l i t y
l . F o r l i nk
pre d i c t i o n H a d a m a r d p r o d u c p e r fo r m s b e t tt e r t h a n a v e r a g e an d w e g h t e d / i
1
/ /2 . A n o t h er
2 5
-
-
P re d i ct i o no f p a n t o n gn o n c o d n gRN A
l l i si n t era c t o n sw i i t h p r o t e n s b y d e e p e arn n g
i
l i
n e tw ork -
b a s e d e m b e d d i n g m e t h o d i s t h es t r u c 2 v e c S t r u c 2 v e c . i s a fr a m e w o r k fo r e a r n n g
l i
s
*
at e n tre n d e s b y an a y z n g s t r u c t u r a
p r e s e n at o n s o f o
l t i l i l i m i l ar it
y an dg e n e r at n g n o d e s i
2 3 .
C o m p u t at i ona l a
pp
ro a c h e s fo r n c I RN A -
p
ro t e i n n t e r a c t o ni i
p
re d ct on
i i
M a n yb i o l o g c a e x p e r m e nt a
i l i l m e t h o d s h a v eb e e nd e v e o
p e dt od l i s co ver
p
o t e n t a L P i l I s
.
T h eh i
g
h -
I n c RN A -
re l a t e dd a t a n c i l u d n g s e q u e n c e s t r u c t u r e fun c t o n a n d e x p r e s s o n A
i
, ,
i
,
i . l t hou
g ht h e
l i l I i i i . l
,
p r o p o s e d b e c a u s e t h e y d on o t r e q u i r e s o p h i st i c at e d i n s t r u m e n t s T h ec o m p u t a t o n a . i l m e t h o d s
i l e arn i ng -
b a s e dm e t h o d s
.
Ne t wo rk -
and
p
ro t e i n s M ac h n e e arn n g
. i l i
-
m a k e p r e d i c t i o n sw i t h o ut e x p l i c i t
p r o g r a mm n g F i .
i
g
. 2 . 3 s h o w s d i ffe r e n t c o m
p utat o na i
l
appro a ch e s fr o m 1 96 1 t o2 0 2 0
[
69
]
.
XL N e
t
R o B E R Ta
DB N T re ? -
L G BM T e x G C N
L STM
i
Na n e bav es
C .
N N C 4 5 S V ME x l r a T ree s M V -
R N N T
ex i R C N NWGA N B E RT
嫩
# #
參 # 貘
#
1 t 广 、'
 ̄
0 1 620
 ̄
1 72 u i 82 0 1 9 2 02 0
:〉
^ ^ ^ ^ w IF ,
T
K N N C A R T L S TM R F R A E R N TN Te x C N N H A N G P T S p a nB ER
t
X G B D G C N N Te ML N G
Ca t b oo s i A L B E RT
F i
g
. 2 . 3S h a l l o w an dd e e pm a c h n e e a r n n ga g o r i l i l i t hm s d e v e o p m e n t t m l i e l i ne
2 3 . . 1 S h a l l o w m a c h n e e a r n n gap p r o a c h e s
i l i
based , d i v de i
-
and
-
con
q
u er r u e
. l
e a rne rs
a zy earne rs a n d g r a p h c a l m e t h o d s h a s b e e na c h i e v e dt h r o u hb a t c h e a r n ng
l
,
l
l
,
i
g
l i
.
T h e s e p a r a d i
gm so fm e t h o d sar eb o t h n c r e m e n t a i l a n d fa s t T h e m o r e c o . mp l e xm o d e l sh av e
better
g
e n eral i z at i o na b i l i t
yb u th a v et h er i s k o f o v e r f i tt i n g T h em a n . i i s s u e nc a s i l s i f i c at i on
p r o b e m s t h ea b yo f
t h e c as s f c at o n m e t h o d s t o c o n t r o t h e ra de o ff b e t w e e n t h e
-
l i s i l i t l i i i l t
co mp ex l i t i e s o f m o de l r epr e s e n t at o n an d t h e
i
p a c e o f m o d e u p d at e S h a l . l l o wm a c h i ne
d o n e b e fo r e t h e fi c a t i o n a n d r e g r e s s o n T h e s ea g o r hm n c u d e
yp e r o rm c a s s
f l i i .
l i t s i l l og i s t i
c
g re s s o n ( L R ) v eb a ^ n e a r e s tn e g h b o r B ay e s
y e sc a s s f
d
re r g e r e g r e s s o n n a er an
-
i i i i l i i i i
, , , ,
ne two rk s , a n d S V M
.
ex
p re ss i on ,
g e n e fu n c t i on s , s e c o n d ar ys t ru c t ur e s , a n d b i omo l ec ule i nt er ac t o n s i . S V M . a
2 6
-
-
Da l i an Un i v e rs i t
y o
f T e c hn o l o gy D o c t o r a l D i s s e r t at i o n
non s t i c c l a s s i fi e r i s t h e m o s t w i d e l y u s e d m e t h o d fo r R P I p r e d i c t i o n i n m e t h o d s
p r o b ab
-
i l i ,
s uc h a s RB P P re d [
70]
.
E n s emb l e s h al l o w m a c h i n e e a r n i n g m e t h o d s ar e c at e g o r i z e d i n t o t hr e e c l a s s e s
l : b a
g gi n g
,
b o o sti ng , an d s ta c k i n g . T h e y c o m b n es e v e ra i l e ar n i n
l
g m e t h o d s t o o b t ai n a p r e d c t i ve m o d e l
i
w i t h i m p r o v e d p e r fo r m a n c e T h e b a g g n g e n s e m b l e m e t h o d s d e c r e a s e v a r i a n c e b o o s t i n g
.
i
,
mo d e l sd e c re a s eb i a s , an d s t a c k i n g m o d e l s i m p r o v e p r e d i c t i o n s T h e y i n c l ud e R F
.
, A d ab o o s t
,
g ( X G B ) a n d g h g r a d i e nt b o o s t i n g m a c h i n e ( L G B M G i v e n n
e xtr e m e
gr a d e n t b o o st i n
i li t .
, )
m o de l s,
^ ,
where i
=
l
,
2 ,
. . .
/7 ,
i s av e r a
g e d i nt o a n e n s e m b l e e
:
z,
丄 2 2)
啦 )
=
:
)
(
.
tre e( DT ) p r e d i c t o r s fo
l l o w n g t h e b a g g n g t e c hn i q u e I n t hi s m o d e
i i . l
, t h e c l a s s t h at r e c e i v e s
m aj o r i t
y v o t e s fr o m t r e e s i n t h e fo r e s t i sc o n s i d e r e d th e o ut p u t r e s u l t . Th i s
proto c o l re l i e so n
g n n umb e r o f m o d e g n g p r e d i c i o n s o f a l m o d e l s fo r a fi n a p r e
c r e at i n l s an d av e r a i t d ct i o n l l i
.
O the r p ar am e t e r s i n t h e R
Fm o d e l ar e DTs w i t h a m i n i m um l e a f si z e fo r e a c h t r e e
.
B o o st n gs e q ue nti a i l l
y app l e s a c l a s s i f c at i o n a l g o r i t h m t o w e i g h t e d d a t a s a m p l e s a n
i i
d
u s e s a w e i gh t e d m aj o r i t y v o t e t o o b t a i n t h e o ut p u t . B o o st i n g a g o r i t hm s ar e b a s e d o n a d d i t i v e
l
p r i n c i p l e s T h e s e a l g o r i t hm s r e d u c e b i a s
mo d e l i n g a nd m a x i m u m l i k e l i h o o d s t at i sti c al . b y
c o n v e rt i n n e r s t o s t r o n g o n e s t h r o u g h t h e i n t e g r at i o n o f m o d e l s w i t h l o w e r e r r o r s
g w e ak e a r l
a n d r e du c i n g p i t fa l l so fi nd i v i d u a l m o d e l s A d a p t i v e b o o s t i n g ( A da B o o s t ) i s a n e n s e m b l e
.
m e t h o d o fte n u s e d t o o b t a n s a t i i s fa c t o r
y r e s u l t s c o m p ar e d w ith o t h e r m e t h o d s . I ta m sat
i
c o nv e r t i n
gas e
to f w e ak c a s s l i fi e r s i nt o a s t r o n
go n e . I t i s a fo r w a r d s t a
g e w i s e ad d i
ti v em o d e
l
t h at a s s g n s w e i g h t s t o n s t a n c e s a nd p r e d
i i i ct s t hr o u
g h a m aj o r i t y v o t e . O ne m a i n p ar a m e t e r n
i
Grad i e nt b o o s ti ng i s a
pr i m a r y m e t h o d s u i t a b e fo r p r o b l e m s w i t h no i s y d at a l
,
h e t e r o g e n e o u s fe at u r e s nd c o m p l e xde p e nd e nc e s T h e c l a s s i fi e r s re l
, a i .
y o n a l o s s f u n c t i o n fo r
c l a s s i fi c at i o n a n d r e g r e s s i o n t a s k s T o c a s s i f y i n s t a n c e s t h e y u s e o ar i t hm c l o s s a n d u s e
g
. l l i
,
s
q u a r e d e rr o r s fo r r e g r e s s o n i . T h e s ea go r l i t h m s h av e tw o p ar t s , a w e ak e ar n e r a n d an a d d i t i v e
l
c om
p o ne n
t . S i m i l a r t o m o s t p r e d i c t o n a l g o r i t h m s g r a d i e n t b o o s t i n g a l g o r i t hm s c a n e a s i l y
i
,
o v e r fi t du r i n g t r a i n i n g , t h e r e fo r e d ,
i f fe r e n t r e
g u a r z a o n m e t h o d s ar e i m p l e m e n t e
l i ti d . F o r
e x am
ple , t r e e c o n s tr a nt s r an d o m i
,
i z e d s am
p l ng i
, an d s hr i n k a g e a r e u t i l i z e d t o c o m b a t
o ve rf
i t i r x g an d e n h an c e p e r fo r m a n c e . The s e c as s f
i e r s n c ud e g r a d l i i l i e nt b o o s t i n g
D T G B D T) (
,
L GB M , X GB , an d c at e g o r i c a l b o o s t i n g ( C a t b o o s t ) . GB D T i s a m a c h i n e l e arn i n
g t e c hn q u e
i
c o mpr
i s e do fac o l l e c t i o no f D T s t o fo r m a s t r o n
g erp r e
d i ct i o nm o de l . GB D T b u i l d st h e
m o d e l n a s t a g e w i s e fa s h i o n a n d t r a i n s i t i t e r at v e y I m p l e m e nt s g e n e r a z at i o n b y
-
i i l . t i l i
a l o w i n g o p t i m z a t i o n o f a n a r b i t r a r y d ffe r e n t a b l e l o s s fun c t i o n t h at m a k e s t h e m e ff i c i e n t
l i i i
,
27
-
-
Pr e d i cti on o f
p a n t on g n o n c o d
l l
ii
^ RN A s
i n t e r ac t on s w i i t h
p ot
r e nsb
y d e ep e a rn ng
i
l i
a c c u r at e , a nd i nt e r p r e t a b l e . G B D T c o m b n e s w e a k i l n e r s t o fo r m a s t r o n
e ar
g l e ar
n er . F o r
e x am
p e l
,
t h e G B D T c an t r ai n 5 0 D T s de p end i n g o n t h e n u m b e r s e e c t e d b y th e u s e r l
.
L G B M i s a tr e e
-
b a s e d e a r n n g m e t h o d t h at m p e m e n t s G B D T It
l i i l . i s s u i t ab l e fo r t h e
l a r g e s i z e o f d a t a a nd a l ar g e num b e r o f fe a t u r e s I t t r a i n s fa s t u t .
,
i l i z e sl o wm e m o r
y an d i t
s
a c c u r ac y i s b e tt e r . R e c e nt l y Y o u e t a m p ,
l . i l e m e nte d L G B M t o p r e d c t n c RN A p r o t e n
i
-
n t e r a c t i o n b a s e d o n s e q u e n c e fe a t u r e s e x t r a c t e d u s i n g p s e u d o Z e m i k e M o m e n t s a n d s i n g u l a r
-
v a l u e d e c o m p o s i t i o n m e t h o d i nfo r m a t i o n [ 7 1
]
. U n l i k e o t h e r m e t h o d s t h a t fo l o w t h e
l
l e ve l
-
w i s e t r ai n n g p at e r n i
,
L G B M a n d X G B fo ll o w t h e e af wi s etra n i n gapp r o ac h
l
-
i
.
X GB i s a n a d v an c e d G B D T m eth o d d e s i
gne
d fo r s p e e d , fl e x i b i l i t
y , a n d a c c ur a c y T hi s
.
RP I t e r m e d X R P I [ 7 2 ] P a r a m e t e r s a s s o c i at e d w i t h X G B n c u d e e a r n i n g r a t e n u m b e r o f
.
i l l
,
i t er a t i o n s /t r e e s a n d t h e t y p e o f b o o
,
ster e g . . d a rt o r g b tre e . X G B i s an e ff i c i e n t m a c h i n e
l e ar n i n
gc l as s i f er i th at h a s b e e n s u c c e s s f u l l
y e m p o y e d fo r p r e d i c t i o n a s a c l a s s i f i c a t i o n
l
a l g o r i t hm M o r e o v e r i t
.
,
i s a l s o u s e d fo r fe a t u r e r a n k n g b y m p o rt a n c e [ 7 3 ]
i i . I t c an c o n s t ru c t
b o o s t e d t r e e s a nd o b t a i n fe a t u r e s c o r e s fo r i nd i c a t i n g t h e s i g n f i i c a n c e o f e a c h fe a t u r e . Th e
s c o r e s are o b t a n e d b a s e d o n t h e n um b e r o f t i m e s t h e y a r e u s e d i n k e y d e c i s o n s w i t h i n
i
i
b o o s t e d t r e e s t h at i s t h e m o r e a fe at u r e
,
i sus e d th e h i
g
h e r t h e s c o r e T h e r e fo r e i r r e l e v a n t
.
,
fe at u r e s ar e f
i l t e r e d o u t b a s e d o n a t h r e s h o l d fo r m o d e l t r a i n n g i
.
C at b o o s t i sa
g
e neral
-
p u rp o s e a g o r l it h m n t h e fa m i i l
y o f G
B D T u s e d fo r a w d e v a r i i et
y
o f a pp l i c a t i o n s i n c l u d i n g r e c o m m e nd a t i o n s y s t e m s w e a t h e r p r e d ,
i cti on ,
p
e r s o nalas s i s t an c e
,
a n d m a n y o t h e r s [ 7 4 ] I t i s w e l l s u i t e d fo r t a s k s t h a t n v o v e c at e g o r c a l a n d h e t e r o g e n e o u s
.
i l i
d a t a T h e o b s e r v at i o n s fo r t h e b o o s t n g t r e e s a r e s a m p l e d t o m a x i m z e t h e a c c u r a c y T h
. i i . i
s
a l g o r i t hm i s s e n s i t i v e t o h y p e r p a r a m e t e r s s e t t n g s I t p r o c e s s e s m ss n g v a l u e s u s i n g t h e
-
i . i i
m i n i m um a nd t h e m a x i m u m v a u e o f a fe a t u r e l
.
2 3 2 D e e p l e a r n i n g app r o a c h e s
.
l e v e l a b s t r a c t i o n s i n d at a
u s i n g a r c h i t e c t u r e s c o m p o s e d o f n o n l i n e a r t r a n s fo r m a t i o n s D L a g o r . l i t hm s a l s o k n o w n a s
d e e p n e ur a l n e t w o r k s a r e b a s e d o n t h e hum a n b r a i n fo r a n a l y t i c a l e a r n i n g T h e n e t w o r k i s
l .
e d n e u r o n s t h at a r e d e n s e l y i n t e r c o nn e c t e d a n d t r a n s m i t
com
p o s e d o f p o c e s s n g un s c a
r i it l l
si
g n a l s fr o m o n e l a y e r t o an o
t her . D La l
g o r i hm s p e r fo r m fe at u r e e n g n e e r n g a u o n o m o u s y
t i i t
l
t h r o u g h a r e p r e s e n t a t i o n l e a r n n g p r o c e s s T h e v a l u e s o f d e s c r p t o r s fe d n t o t h e i n p u t a y e r
i .
i i l
a r e fo r w a r d e d t o t h e h i d d e n l a y e r s . T h e c o m p ut a t i o n s u c h a s a c t v a t o n fu n c t i o n i i i sa
pp l i e di n
t h e n e u r o n s o f t h e h d d e n ay e r s
i l . T h e o u t p u t fr o m t h e h i d d e n l a y e r c o m p u t at o n s i i s s e nt t o t h e
o u t p u t l a y e r w h i c h a s s i g n s a c a s s t o t h e o u t p u t s a m p e s b a s e d o n m a x m um p r o b a b i
l l i l i t
y
.
D L h as s h o w n i m p r e s s i v e p e r fo r m a n c e i n b o n fo r m a t i i i c s t hr o u
g
h e ar n i n
gm u
l l ti
-
l evel
re
p r e s e nt at i o n s a n d a b s
tr a c t i o n s fr o m d a t a . D e ep B i i rs tD L
n d w as th e f -
b as e d a
pp r o a c h
28
-
Da l i an Un v e rs i i t
y of
T e ch n o l o g y D o c t o r a l D i s s e r t at o n i
d e v e l o p e d b y i n t e g r a t i n g s e q u e n c e a n d s t r u c t u r e fo r i d e n t i f y i n g s e q u e n c e s p e c i f
ic i ti e so f
D N A an d R N A p r o t e i n b i nd i ng s i te s [ 7 5 ] . A C NN wa s t r a n e d u s n g h i i i
gh
-
t hr o u gh p ut
p o e n
r t b n d i n g m i c r o a r r a y a nd C h I P
i
-
i
-
se
q ep g e
i n o m c e x p e r i m e nt a
i l d at a . D e epM ot i f
[
7 6 ]i sa
I t ap
p
l i e sad e e p
C NN M L P fr a m e w o r k t o c l a s s i fy g e n o m i c s e q u e n c e s o n t h e t r a n s c r i p t i o n
v a r i a nt e fe c t fr o m c h r o m a t i n p r o f
g D e e p S E A [ 7 7 ] p r e d c e d no n c o d i ng
fa c t o r b i n d i n . i t i l i ng
- -
qu e nc e s u s i n g D L B a s s e t [ 7 8 ] p e d c s c h a n g e s
i n c h r o m at i n a c c e s s i b i l
s e r i t . i t
yc o d eb e tw e e n
m o d e l s t h e D N A m e t h y l a t i o n s t at e o f C p G d i nu c e o t i d e u s i n g t o p o l o g i c a l fe at u r e s a n d
l
s tac k e dd e n o i s i n g A E s U s i n g an e n s e m b l e D E E P p r e d i c t s e nh an c e r s o r r e g i o n s o f D N A
.
;
tr a n s c r i p t i o n fa c t o r b i n d i n g
.
T h e re i sawi d e b o d y o f l i t e r at u r e o n n e u r a l n e t w o r k c o mp r e s s i o n a n d a c c e l e r a t i o n A
.
c om
p re
he n s i v e o v e rv i ew sp ro v i i d e di n sur v e y s [
8 0 -
82
]
. Th e tec hn i q u e s n c u d e
i l
l ow pre c
-
i s i o n t r ai n n g i
, q u an ti z at i o n , p r un i ng , l ow
-
r an k fa c t o r z a t o n a n d k n o w
i i
,
l e d ge
d i s t i l l at i o n . B n a r y w e g h t s t e r t i a r y w e i g ht s
i i
, ,
l e a r n i n g a c o m b i n at i o n o f b i n a r
y b a s e s a n
d ,
q u a n t i z i n g t h e a c t v a t i o n s a r e a p p r o a c h e s t h at t
r a i n n et w o rk s w i th o w
i
p
r e c i s i o n w e i
ght s l . T he
m e th o d s r e p l a c e m o s t a r i t hm e t i c o p e r at i o n s w i t h b i t w i s e o p e r at i o n s t h at a s s u m e t h e p l a c e o f
-
s
p e c i a l i z e d h a r dw a r e t o s p e e d u p i n fe r e n c e a i c i e n c y V e c t o r a n d p r o d u c t
n d i m p r o v e e ff .
qu an
ti z at i o n t e c h n i q u e s h a v e b e e n e x t e n s i v e l y s t ud i e d i n t h e c o n t e x t o f t h e n e a r e s t n e i g h b o r
s e ar c h . T hec o n c ep be h t i nd
q u an ti z at i o n i s th e d e c o mp o s i ti o no f t h e o r g i n a i
l
h g h d m e ns o n a
i
-
i i l s
p a c e n t o a c ar t e s a n p r o d u c o f s ub s p a c e s t ha t a r e q u a n t i z e d
i t i w i thaj o n t
i
c o de b o o k . N e t w o r k p r u n n g n v o v e s r e m o v n g c o nn e c t o n s a c c o r d n g t o an m p o r t a n c e
i i l
i i i i
c r i t e r i a u n t i l t h e d e s i r e d m o d e l a c c ur a c sac h ev e d E n fo r c n g c h a nn e e v e lo r
y t r a d e o ff
-
i i . i l l
i
f l t er
-
l e v e ls
pars i t
y h e p s t o p r un e t h e n e t w o r k
l s s t ru c tu r a l c o mp o n e nt s
.
Wh e n d e s i g n i n g an d c o n f g u r i n g a n e u r a l n e t w o r k m o d e l o n e
i i sr e
q u i r e dt oc ho o s e a o s s
l
fun c t i o n A l o s s o r c o s t f u n c t i o n i s a f u n c t i o n t h a t m a s t h e v a l u e s o f v a r i a b l e s o n t o a r e a l
.
nu m b e r r e p r e s e n t n g t h e l o s s c o r r e s p o n d n g t o t h e v a l u e s I t e v a l u a t e s t h e o bj e c t i v e fu n c t i o n
i i .
.
c h o o s e fr o m w h i c h m a
y b e a c h a l l e n g e i n d e c i d i n g t h e m o s t a pp r o p r i a e o n e o c h o o s e o r
t t f a
p r e d c t i v e m o d e l p r o b l e m C r o s s e n t r o p y o r l o g l o s s e s t i m a t e s t h e d ffe r e n c e b e t w e e n
i .
t h e
-
e s t i m at e d a nd
p re d i cte d
p r o b ab i l i t
y di st r
i bu ti ons . T h e p e n a lt
y , a s c o rec a l c u l at e d t h at
p ena l i z e s t h e p r o b ab i l i t
y b a s e d o n t h e d i ffe r e n c e f r o m t h e e x p e c t e d v a l u e , i sl o g a r i thm c s u c h
i
h at o ffe r s a s m a l s c o r e fo r s m a l d i ffe r e n c e s ( 0 2 ) an d a b
g s c o r e fo r a r g e d i ffe r n
t i t l l . 1 /0 . i e ces
l
p r o ba b i l i t
y v a ue o f0 0 l . . M e an s q u a r e d e rr o r (
MS E )
i s t h e a v e ra
g eo f t h es
q ua r e d
d i ffe r e n c e s
29
-
-
P re d i cti o no f
p ant
l l o n g n o n c o d n g R N A s n t e r ac t o n s w
i i i i t h
p ro e n s b y
t dee
i
p e ar
n ng
l i
w h e t h e r th e p r e d i c t e d a n d a c t u a l v a u e i s p o s i t i v e o r n e g a t v e l i . The l o s s v a l ue i s m i n i m i z e d
an d a
p
e r fe c t v a l u e i s z e r o ( 0 0 ) . . H u b e r l o s s i s a o s s f un c t l i o n t h at
p
ro v i d e s t o l e r an c e t o
o u t l i e r s an d p r o b ab i l i t y e s t i m at e s H i n g e o s s . l i sas o t m arg n
f i l o s s t h a t p e n a l i z e s t h e l i n e ar
S V M m o d e l fo r n a c c u r a t e p r e d i c t i o n s
i . I ti sa l s ou s e di n DL m o de l s
.
A m u l ti l a y e r p e r c e p t r o n ( M L P ) i s a n a r t i fi c a n e u r a l n e t w o r k w i t h i n d i v i du a l u n i t s
i l
k n o wn a s n e u r o n s t h at a c c e p t a n d p r o c e s s n p u t a n d p r o du c e a n o u t p u t i . ML P s us e a
b a c k p r o p a g a t o n al g o r i i t hm an d s t o c h a s t i c
g
r ad i e ntd e s c e nt
(
S G D ) o p t i m i z at i o n t o m i n i m i z e
t h e e rro r . B a c kpr o p a g a t i o n m o d i f i e s t h e s t r e n g th o f t h e c o n n e c t o n s b et w e e n t h e c u rr e nt an d
i
p r e v i o u s l a y e r s b a s e d o n t h e e rr o r b e t w e e n d e s i r e d a n d a c t u a o ut p u t I t c a n b e ap p l l . i e dt o
o n e d i m e n s i o n al o r t w o
-
-
d i m e n s i o n a d a t a E a c h l at e n t l a y e r n a n M L P i s e i t h e r a f u l l y
l .
i
c o nn e c t e d l a d r o p o u t l a y e r o r b at c h n o r m a z at i o n T h e d r o
yer a p o ut l ay e r s h e p t o p r e v e n
l i .
t l
, ,
t h e m o d e l fr o m m e m o r i z i n g t h e t r a i n i n g d at a t o a r t i f
i c i a l l y i n c r e a s e t he t r a i n i n g a c c u r a c y
.
M L P s c an b e u s e d t o i n v e s t i g at e n o n l n e ar r e at i o n s h p s b e t w e e n p r o t e i n o r R
i l i N A s e qu e n c e
an d b i o c h e m i c a p r o p e r t e s A n o n l i . l i n e a r M L P c a n m o d e AN D an d O R l o g i c a l o p e r at o r s
l
h e n c e th e i r l i ke l h o o do f
i c ap t u r i n g e p i s t a t i c i n t e r a c t i o n s b e t w e e n g e n e s . The i r s t r en
gt h l i e s
i
n
t h e i r c ap a b i l i t
y o f a c c u r a t e y f i t n g a n e x t e n s v e v a r l i i i et
y o f s m o o th ,
n o n l n e a r fu n c t o n s
i i
.
L m i i ti n g t h e f l e x i b i l i t y o f M L P s t o a s u ff i c i e n t s t a t e du r i n i h
g tr a n i n g e s p e c i al l yw e n
th e
n um b e r o f tr a i n i n g s a m p l e s i s s m a l l e n s u r e s g o o d g e n e r a l i z at i o n c h a r a c t e r i s t i c s . Th i sc an b e
ac hi e ve db he n e tw o rk T hi s
y m i n i m i z i n g t h e nu m b e
ro f
p e r c e p t r o n s i n th e h d d e n l a ye r o f i t .
h e p st o
l l i m i tt h e r an g e o f f u n c t i o n s t h a t a r e fi t t e d i n t h e n e t wo r k d u r i n
gth etrai n i n g p ro c e s s
.
T h e o u tp u t o f a n M L P d e p e n d s o n t h e n p u t a n d s t r e n g t h o f t h e c o nn e c t i o n s o f t h e un i t s
i
.
T he ab y o f M L P s t o l e a r n t h e i n p u t o u t p u t r e a t o n s h p t o s o l v e c o m p l e x p r o b l e m s i s
-
i li t
l i i
d e p e n d e n t o n s u ff i c i e n t d at a u s e d t o t r a i n t h e m . I ti sne c e s s ar
y t o o p t m i z e t h e w e i g h t an d b i a s
i
p ar a m e t e r s o f
t h e n e t w o r k t o g u a r a n t e e a c c u r at e p r e d i c t o n i
.
G e n e ra ti v e m o d e l s s u c h a s A E s e a rn d at a d l i stri b ut i o n san d
g e n e r a e n e w d at a p o n s
t i t . An
A E i s a n un s u
p e rv i s e d e ar n n g a r g e l i l
-
sc a en o n
l l i n e a r s y s t e m c o m p o s e d o f m u l t i l ay e r n e u r o n s
.
Thema i n o bj e c t i v e o f a n A E i s t o l e a r n a d i st n c t i v e r e p r e s e n t a t i o n o f fe a t u r e s n o i s e
i
,
e l i m i n at i o n , an d d m e n s o n a i i l i t
y r e d u c t i o n F e a t u r e r e c o n s tru c t o n
. i i s
p e r fo r m e d a y e r w i s e l
.
The f r s t i l a y e r n t e g r at e s o r i g i n a l i n p u t T h e s e c o n d l a y e r e x t r a c t s a nd i n t e g r at e s fe at u r e s
i
.
l n e d i n t he f
e ar i r s t l ay e r . S u c c e s s v e a y e r s p r o du c e o w d m e n s o n a l o w n o i s e a n d h g h
i l
l i i
,
l
,
i
c o h e s i o n fe at u r e s . G ene r a ll
y , an A E n e t w o r k i smad eu
p o f t w o p ar t s ,
an e n c o d e r ,
an d a d e c o d e r
.
T hee n c o d er c o mp r e s s e sh i
g h d m e n s o n a a r
-
tti i l i b ut e s T h e
b u t e s i n t o l o w d i m e n s i o n a l at t r
i .
d e c o d e r o n t h e o t h e r h a n d r e s t o r e s t h e o r g n a np u t a y e r b y a y e r c r e a t ng a s y m m e t r i i l i l l i i c a l
s t r u c t ure o f t h e e n c o d n g p a rt i . The e n c o d e r ( fu n c t i o n / ) i s u s e d fo r m a
p p n g
i th e i n
p u t d a a (x
t ,
y )
i n t o l a t e n t r e p r e s e n t a t i o n a n d t h e d e c o d e r ( fu n c t o n g ) m a p s t h e e n c o d e d fe a t u r e s t o r e c o n s t r u c t
i
3 0
-
-
Da l i an Un i v e rs i t
y o
f Te c h n o l o gyD o c t o ra l D i s s er
tat i on
i n p u t d a t a fr o m t h e a t e n t r e p r e s e n t a t o n l i . I n t h i sw o r k . LP I
p red i c t i o n i s fo r m u at e da sab n ar y
l i
c l a s s i f i c at i o n
p r o b l em . Ac o n s tr a n e ds t a c k e d
i AE C S A E n e ( )
t w o r k i su s e d fo r D L a n d
g
r o u p i n g o f t h e np u ts m i i i l ar
n g o p e r a t o n s o n C NN #
/
No
1
7
a t o n s fF
=
t oc o n v o l u t o n a n d p o o
i l i i . t i
=
a n d办 {
6
,
}
2 n /
at e d
b ,
. .
. . b } p ar a m e t e r s . i
g
i
=
w hth ec o n n e c t o nb e t w e e nn e u r o nu n n ay e r / 1an dn e u r o nu n tii n a y e Lw h e r e/
-
i t i i t i l i l r
/
3
= =
a n d/ nl p r e s e n t s h eo u p u to f h ep r e v o u s a y e r
1 . 2 s i \
-
, i \ ,
2 ,
. . .
, s
i 2
,
. . .
,
.
s i
-
r e 1 t t t
i l
1 . 2 . . . .
, 5 /an dI
=
de no t e stheb i a so f n e u r o nu n i t/i n a y e l r/ . T h et r a n n gs e t i i i sd e f ne d
i
2 2 " ”
d a m e n s o nA t h e
1 1
x as a m S t h e n d at a o f d
p ut
x x j of up
p o s e x s
as
{ (
.
j ) , ( ) ,
. . .
,
( , j ) }
t
p es l . i i i i
A Em ap s xt o y a s s h o w n n t h e fo i l l o w n g fo r m u a i l
:
y
=
f Wx (
+ b ) (
2 3 .
)
fo l l ow
:
,
2 4)
g( V y ^b
=
I l
(
.
w h e r e g h e d e c o d n g fu n c on n o n n e a r fu n c t o n W s hew e g h t n g m a r x
fo r
-
i s t i t i
,
l i i i t i t i i
e t w e e n x a n d z T o m
*
s
q u a e de n o
r rb . i n m z ea n d o p t m z et h er e c o n s t ru c t o ne r r o r
i i i i i ,
p a r a m e e r s
t
w
a nd b a r e a dj u s t e d u s i n g S G D [
8 3
]
. C ro s s -
e nt rop y , t
h e m o s t c o mm o n t y
p eo f l o s s fu n c t i on , i s
u s e dt om n m i i i z e r e c o n s t r u c t i o n e r r o r b y
A E The . n e u r o n so u t
put /(
x ) i s m o d e e du s n gr e c t f e d
l
i i i
l i n e aru n i t
(
ReL U )
act i v a t o n fu n c t o n
i i
:
/ (
x)
=
m ax ( x ,
0 ) (
2 5)
.
斤 h、
三
1
0 P 0 0 〇 ul
pu
,
CD q 〇
CD (
1
L o s s fu n c
C3
on
^ ^
t i
^
—
〇 人 〇 :
〇
?
^
l J
Fea
1
,
u r e r e p re s e n at o n
t t i
r
l
\ n om i . n on n . C ro ss
en ro
t
py
3 1
-
P red i ct i o n o f
p an t l l o n g n on c o d n g
i
RN A s i n t e r a c t on s w i it h p r o t e n s b y d e ep
i
l e a rnin
g
AE s ar e tr ai n e d b y a d d i n g d r o p o ut l a y e r s . D rop o u tl a y e r s r e g u l a r i z e t h e m o d e l t o av o i d
t he r i sk o f o v e r fi t t i n g b y r a n d o m l y l e av i n g o ut s o m e n e u r o n un i t s . E x am p l e s o fth e
se
q u e n c e b a s e d m e t h o d fo r p r e d c t i n g L P I s b a s e d o n s t a c k e d A E s a r e I P M i n e r [ 6 an d
-
i 1
,
, ]
RP S AN
[ 6 2 ] T h e C NN s av ari a n t o f a n e u r a l n e t w o r k t h at p r o c e s s e s d a t a w i t h g r i d
-
I . i
p r e s e r v e s t h e s p a t i a l n fo r m a t o n a n d o u t p u t s fe a t u r e m a p s fo r s u b s e q u e n t p r o c e s s i n g T h e
i i
.
po s i t i v e at t r i b u t e o f C N N i s t h at i t d o e sno ts e
p a r at e fe at u r e e x t r a c t i o n a n d m o d e l l e arn i n g
i nt o i n d e
p e nd e ntste p s l i k e trad i ti o n a l s t at i s t i c a l l e a r ni n g al g o ri t hm s . It s i m u l t an e o u s l y
e x t r a c t s fe a t u r e s a n d
p e r fo r m s c a s s i f
i c a t i o n fr o m o r g i n a l i n p ut h e n c e r e du c i n g t h e p o t e n t a
l i i
l
o f m i s m a t c h e ffe c t b e t w e e n t h e t w o p r o c e s s e s
. T o d at e , C NN ha s b e e n w d e y u s e d t o p r e d i l i ct
RB P s o f D RN A T h e c o n v o / . l u t i o n l ay e r c o n s i s t s o f a s e t o f fi lt e r s E ac h fi l t e r s l i d e s o v e r t h e
.
w i d t h a nd h e i g h t o f t h e i n p u t n fo r m a t i o n t o c o m p u t e t h e i nn e r p r o du c t o f i t h e fi l t e r a nd t h e
i np u t d a t a C N N . i sw i d e l
y u s e d b e c au s e t h e f i l t e r h a s s t r o n g i n t e r p r e t ab i l i t y . A c t v at i o n
i
re
p r e s e n t s t h e r e s p o n s e o f t h e o r i g i n al s e q u e n c e t o t h e f i l te r . P o o l i ngo p e r at o n si n c l u d e
i
m ax i m u m oo n g a nd av e r a g e p o o l i n g fo l o w s t h e a c t i v a t i o n a y e r T h e p o o l n g o p e r at o n
p
l i l l . i i
a i m s a t r e d u c i n g t h e s p a t a l d m e n s i o n o f t h e m at r i x i i
, wh i ch m i
gh
t r et a i n t h e m o s t
re
p r e s e nt at v e e e m e nt s T h e o u tp u t o f t h e o o l i n g l a y e r i s fe d i n t o a f u l l y c o n n e c t e d l a y e r
p
i l .
,
w h i c h p r o du c e s a t r u e v a l u e s c o r e
.
T h e R NN s a r e s u i t a b e fo r e a r n n g t m e s e r i e s d at a T h e t i m e s t e p i s a c o n c e p t u s e d n
l l i i
. i
R NN t o s t o r e m e m o r i e s a n d fo r w a r d t h e m t o h i d d e n c e l l s . A lt h o u g h R NN s a r e e ffe c t v e at
i
l e arn i n
g t e mp o ra l c o rre l at i on s , t h e y s u ffe r fr o m th e v a n i s h i n g g r a d i ent
prob l em , wh i ch
,
It s t o r e s n fo r m a t i i o n i n m e m o r y c e l l s t o e x p l o i tl o ng
-
ter m d e p e nd e n c i e s i n th e d a t a
.
B i d i re c t i o n al R NN s e m e r g e a s a r e s u l t o f
p r o p a g at o n d i i re cti o n a l l o w i n g t h e n e t w o rk t o
,
a d u s t t h e c u rr e n t s t a t e b a s e d o n t h e p a s t a n d f u t u r e s t a t e s A p a r t fr o m L S T M a g a t e d
.
j ,
re c u r r e n t u n i t
(
GRU )
w a s p r o p o s e d t o m p r o v e RNN i
.
2 3 3 G r a
p h b a s e dan d n e g ra e d
l e a rn n
gm eth o d s
-
. . t t
i i
C omp l ex
p a
tt e r n s c anb es m p i l i i e d nt o g r a p h s ( n e t w o r k s ) w i t h n o d e s ( v e r t
f i i c e s ) an d
e d g e s ( l i nk s ) F o r e x a m p l e .
, th e
stud
yo f s o ci a l i n t e r ac t i o n n e t w o rk s an d m o l e c u l ar i nt e r a c t i o n
n e t w o r k s i s d e s i g n e d t o s o l v e c o m p e x s y s t e m s i n s o c i a l n e t w o rk s a n d b i o i n fo r m a t i c s T h e
l .
k e y o bj e c t i v e o f m o l e c u l a r i n t e r a c t i o n n e t wo rk s i
sto
p r e d i c t i nt er ac t i o n s b e t w e e n b o m e d i i c a l
e nt i t y
p
a i r s s u c h a s p r o t e i n s d r u g s o r d i s e a s e s G r ap h n e u r a n e t w o rk s ( G
, ,
. l NN ) , v a r i a t i o n a l
g r a p h au t o e n c o d e r s V GAE ( ) , a n d g r ap h att e nt i o n n e t w o r k s G A T ar e
( )
t he e x i st i ng
g r a p h b a s e d r e p r e s e n t a t o n e a r n n g a g o r i t hm s fo r l i n k p r e d i c t i o n G NN s a r e m o d e s th at
-
i l i l . l
ca
pt urec o m p l i c at e d
g
ra
p ht o p o o gy l . A GNN o f Z
-
l a y e r s c a n p r o p a g at e i n fo r m a t i o n o f n o d e s
i nt h eL h o p n e i gh b o rh o o d s
-
. Re c en t ad v a nc e s n i G NN i n c l u d e t h e d e s i gn o f ski
p c o nn e c t o n s
i
3 2
-
Da l i an Un i v ers i t
y of
T e ch n o l o gy D o c t o r a l D i s s e r t at i o n
s uc h a s M x H o p an d J K i
-
Ne tt h at c ap t u r e h i g h e r o r d e r g r a p h s t r u c t ur e s a n d a dj a c e n c y m a t r i x
-
[
84
]
. V GA E i sa
g e ner a ti v e m o d e l fo r u n s u p e r v i s e d l e a r n i n g . G A T s o p e r a te on
g r ap h
-
s t r u c t u r e d d at a t o l e v e r a
g em as
ke ds e l f at t e n t i o n l a e r s t o a d d r e s s t h e s h o r t c o m i n g s o f
-
y
g r ap h c o n v o u t o n s S e f at t e n t o n r e fe r s t o a p p y n g
l i i an at t e n t i o n m e c h a n
. l
-
i l i smt oc o m
p ut e
t he
re
p r e s e n t at i o n o f a s i n g e s e q u e n c e l . G A T s h a v e t h r e e m a n p r o p e r t i i es : it i s
p ar a l e i z ab l e
l l
ac ro s sn o d e n e i hb o r
g a i r s i t a pp l i e s t o g r a p h n o d e s b y a s s i g n i n g r a nd o m w e i g h t s t o t h e
-
p ,
n e i g h b o r s and t h e y app y t o i nd u c t
i v e e ar n i n g l l
.
T h e g r ap h b a s e d m e t h o d s a r e d
-
i v d e d i n t o t hr e e
i
, s t r u c t u r al r e p r e s e n t at o n i l e ar n i n g
,
s im i l a r i t y b a s e d l e ar n i n g
-
, an d n e t w o rk r e l at i o n a l l e a rn i n
g[ 8 4] . S tr u c t u r a l r e p r e s e n tat i o n
e ar n i n g u s e s t h e s t r u c t u r e o f t h e gr ap h o f t h e e n t i t i e s s u c h a s t h e am n o a c i d s e u e n c eo fa
q
l i
i n t o t h e m o d e l fo r p r e d i c t i o n T h e m o d e . l su s e dt o
p
r e d i c t th e b i nd i n g o f p ro t e i n s d ru g s o r
, ,
d i s e as e s to R N A i n c l ud e t h e g r a p h C N N ( G C N N ) a n d C N N t h at a r e i m p l e m e nt e d o n t h e
m o l e c u l a r g r ap h a nd g e n e s e q u e n c e d a t a G C N N e v e r a g e s n o n . l
-
l i n e a r i t y o n d e e p e ar n i n g l
.
S m i ar
i l i t
y b a s e d e a r n n g a s s um e s t h at e n t i t i e s s h a r e i n t e r a c t i o n p ar t n e r s
-
l i . T h e r e fo r e t h e
,
m e t h o d s i n t h i s c a t e g o r y fo r m u l at e a s i m i l a r i t y m e a s u r e a n d u s e i tt o p r e d i c t i nt e r a c t i o n s
.
S o m e t e c h n i q u e s u s e d t o r at e i n t e r a c t i o n s n n e t w o r k s n c l u d e m a t r
i x fa c t o r i z at i o n i i
,
c l u s t e ri n g
,
a nd l ab e l p r o p a g a t i o n . N et w o rk -
b a s e d r e at i o n a l e a r n n g u s e s n e t w o r k s t r u c t u r e a n d n o d e
l l
i
i n fo r m a t i o n t o p r e d i c t i n t e r a c t i o n s
.
nt e g r a t i o n b a s e d m e t h o d s a l s o k n o w n a s e n s e m b ede e p g c o m b i n e a l g o r i thm s
e arn i n t
o
-
I l l
a g g r e g at e t h e i r r e s u l t s fo r b e t t e r p r e d i c t i o n p e r fo r m a n c e . Un l i k e i n t h e c o n v e nt i o n a l ( s h a l l o w )
,
i n t e g r at e d m e t h o d s s u c h a s R F ? A d ab o o s t
, an d X GB ?
e n s e m b l e d e e p l e a r n i n g h av e t i m e a nd
T o
p a c e o v e r h e a d fr o m t h e man y p a r a m e t e r s u s e d o r p e b as e d e e p l e arn e r s
tra n n
s f
gm u i i l ti l
.
o v e r c o m e t h e d e fi c i e n c y o f s p a r s e n e s s a n d i n s u ff
i c e n c y o f c o n t e x t u a l i n fo r m a t i o n i
,
c o mb i n i n
g a v ar e y o f d at a an d a s s g n n g w e g h s
t i t t oe achc a s s i f e r c an b e u s e d
i i i l i . C NN L S T M
-
i s a v ar i a nt o f t h e d e e p l d l u s e d fo r L P I p r e d c t o n C NN p r o c e s s e s t h e i n p u t
e arn n g m o e i
i i .
se
qu e n c e s an d L S T M e x t r a c t s h g h i
-
l evel fe a t u re s . T o av o i d o v e r f i tt i n g a n d sp e e d up
p u t at i o n C NN p r e c e d e s L S T M a s a p r e p r o c e s s n g s t e p t o c o n v e r t l o n g s e q u e n c e s n o
com t
-
i i
,
s h o rt e r o n e s b
y d o w n s am p l i n g . Th i sm o de l ha sb e e n m p l em e n t e d i nst u d i e sl i keD L P RB [ 8 5
i
]
,
X i ao
p an e
t al de v e lo e di D e e
.
p p a s t at e o f ,
- -
t h e a r t m o d e fo r t h e p r e d c t o n o f R B P s b y
-
l
i i
i n t e g r at i n g C NN a n d d e e p b e l i e f n e t w o r k s ( D B N s ) . T h e m o d e l w a s t r a i n e d a nd e v a l u at e d o n
t h e C L I P d at a s e t o f 1 9 p r o t e i n s t o p r e d i c t t h e i n t e r a c t o n s i t e a n d m o t i fs o f R B P s o n R N A
i
n o d e s t h at h a s d r a m a t i c a l y a d v a n c e d p r e d c t o n p r o w e s s l i i . H ua n g e ta l .
p
ro
p o s e ds k p G
i NN , a
g r a p h n e u r a l n e t w o r k m e t h o d p r o p o s e d t o p r e d c t m o e c u a r n t e r a c t i o n n e t w o r k s [ 8 ]
4 i l l i
.
Re cen tl
y , aW e b s e rve r t e rm e d R B P s u w a s p u fo r w a r d t o p r e d
i t t i ctci rc RN A -
prot e n
i
3 3
-
-
P re d i c t i on o f
p l ant l o n
g n o n c o d n g R N A s nte r a c t o n s w i t h p r o t e n s b y d e e p
i
i i
i
l e arn i n g
m o t i fs o n t h e b i n d i n g s e g m e n t s a nd p r o v i d e s b i n d i n g s c o r e d i st i b ut
r i on
.
2 4 D a t a s e t s a n d e r fo r m a n c e e v a l u a t i o n m e t r i c s
p
.
2 4 . . 1 D a t as ets
Da ta
p
re
p ara
ti o n i s an i m
p o rt a nt s t e p i n m o d e l d e v e l o pm e nt T h e r e a r e hr e e a sp e c s
t t
.
p r e fe r r e d w h e n b u i d i n g d e e p l e ar n n g m o d e l s l i . H o we v e r , a l ar g e r a m o u n t o f d at a r e q u i r e s a
l o n g e r t r a i n i n g t m e T h e d at a s h o u l d b e o b t a i n e d fr o m a t r u s t w o r t h y s o u r c e c l e a n a n d
i .
, ,
S e c o n d th e t e s t n g d at a s h o u d b e p c k e d at t h e b e g i n n i n
cons i s t e nt
g o f t h e d e v e o p m e n
. i l i
t l
,
cyc l e . A l s o s e l e c t i n g a g o o d i n d e p e n d e n t d at a s e t r e q u i r e s at t e n t i o n T h i s d a t a
,
. i su s e dt o
e v a l u at e t h e
p ro p o
s e d m o d e l i n a c o mp r e h e n s i v e a n d c o m p l e t e l y i nd e p e n d e n t a n d r e l i a b e
l
m a nn e r . T h e n d e p e n d e n t d a t a s e t c an b e d o w n o a d e d fr o m a p r e v
i l
i o usp ub l i c at i o no rd e s i gne d
y t h e m o d e d e v e o p e r T h i r d s i m a t i e s i n t he d a t a s e t s ho u l d b e c h e c ke d T h e t a
b il ri r in in
l l .
g ,
.
,
v a l i d a t o n a n d t e s t i n g d at a s h o u l d b e f l t e r e d t o e n s u r e t h at t h e y a r e d i s s m
i
,
i i i l ar . B e s d e s i
,
p r e p r o c e s s n g a n d no r m a l z at o n o fe a u r e s o b t a n e d fr o m h e r a w a t a a r e d o n e e o r e
i i f i t t d b f
i
p ro c e s s n gb y t h e m o d e i l . T h i s
p r o c e s s nv o v e s r e m o v in g n o n i l
-
i n fo r m a t v e fe a t u r e s and
i
s e l e cti n
go pti m a l fe at u r e s
.
T h ed at as etc o n s s ti n
g o f k n o w n L P I s t h at w a s u s e d a s a g o l d s t a nd a r d o s i t i v e s e t w as
-
p
i
d o w n o a d e d fr o m t h e p l a nt I n c R NA D a t ab a s e P l n c R NA D B Ze a m ays d a t a s e t c o n s i s t s o f
l
.
1 1 0 7 n c RN A s 1 9 0 R B P s
I
, 5 andc o n s i st so f 2 2
,
1 3 3 i nt e r a c t i v e
p ai r s . T h e A r a b dop s
i i s t h a l i an a
non -
i n t e rac t v ep ai r s 2 2 i
, ,
1 3 3 fo r Ze a m ays a n d 9 4 8 fo x A r a b dop s i i s t h a l i a n a w e r e g e n e r at e d
t hr o u g h r a n d o m y p a l i rin
g p r o t e i n s w i t h n c R N A s a n d f ur t h e r r e m o v i n g t h e e x i s t i n g p o s
I i ti ve
pa i rs
[ 6 0 ]
. F i n a l l
y , the Ze a m ays d at a s e t c o n t a i ns4 4 2 6 6 , , a n d A r a b i dop s i s t h a l i a n a c o n t a i n s
1 I i i i . . . i
l
v e r f e d n t e r a c t o n s o b t a i n e d fr o m p r e v i o u s s t u d i e s w as a l s o u s e d [ 6
i i i i 1
]
. T h eN P I nt e r2 0
.
d at a s e t c o n s i s t so f1 0 4 ,
1 i s i ng 4 6 3 6 n c R N A s a n d 4 4 9 p ro t e i n s
2 i nt e r ac t i o n p a i r s c o m p r . T h i s
d at a s e t i s fr o m p h y s i c a a s s o c i at i o n am o n g p r o t e i n s an d nc R N A s fr o m s i x o r g an
l i s m swhi c h
ar e C a e n o r h a b d i t i s e l e g a n s d r o s o p h i l a m e l a no g a s t e r E s c h e r i c h i a c o l i Ho m o s ap i e n s Mu s
^
, , ,
m u s c u l u s a n d Sa c c h a r o my c e s c e r e v is i a e
,
.
T ab . 2 . 3 n c R I NA , p r o te i n ,
a n d i nt e r a c t i o n d a t a s e t s u s e d i n t h i s s tu d
y
D at a s et I n c R NA s P r o t e n I n t e r a c t o n s
i i
A r a b dop s i i s th a l i a n a 3 9 0 1 63 94 8
Ze a m ay s 1 1 07 1 90 22 ,
1 33
3 4
-
Da l i an Un i v ers i t
y of
T e chn o l o gy D o c t o r a l D i s s e r t at i on
2 4 2 E v a l u at i o n m e t r i c s
. .
C V an d l e av e
-
one
-
o u t a r e w i d e y u s e d t e c h n i q u e s fo r e v a l u at i n g t h e p e r fo r m a n c e o f
l
m a c h n e l e arn n g c a s s f e r s
i i l i i . A^ -
fo l d C V ran d o m l
y d i v d e s t h e d at a s e t i n t o N s ub s e t s o f e q u a l
i
s i z e c a l l e d fo l d s T h e c l a s s i f i e r i
. s tr a i ne do nN -
\ a n d e v a u a t e d o n e s ub s e t S p e c i f c a l l y
l . i
, th e
5
-
fo l d C V m et h o dw as u s e d to av o i d o v e r f i t t n g t h e r e s u l t s T h e d at a s e t i s d i v i d e d i n t o f
i ive
.
e
qu a l s ub s e t s o u t o f w h i c h fo u r s u b s e t s a r e u s e d a s t r a i n i n
, g s e t s an d o n e a s t h e t e s t s e t . Th i
s
p r o c e s s i s r e p e a t e d f v e t m e s un t i i i l a l l t h e s u b s e t s ar e u s e d a s t h e t e s t s e t at l e a s t o n c e T h e n
.
t h e av e r a g e a nd s t a n d a r d d e v i a t i o n o f t h e e x p e r i m e n t a l r e s u l t s a r e t a k e n a s t h e f i n a l r e s u l t
.
T he l e av e
-
o n e o ut c r o s s
- -
v a l i d at i o n ( L O OCV) , a n e x a m p l e o f a b i a s v a r i a n c e t r a d e o ff
- -
,
i s al s o
t h a t th e t w o p r e d i c t o r s h a v e t h e s a m e m e a n p e r fo r m a n c e i s u s u a l l y d o n e u s i n g a p a i r w i s e
M e s t Th e o v e r a
. l l c l ass i i c at
f i o n ac c ur a c y
A C C p re c
( ) ,
i si on
(
P RE ) , s e ns it i v i t y ( S EN )
,
Ma MCC
5
s
p e c i fi c i t
y( S P E ) , t hew sc o rr e at l i o n c o e ff
i c i e nt( ) , t h e ar e a un d e r r e c e i v e r o p e r a
t or
c h ar a c t e r i s t i c c u rv e
AU C a n d
( ) ,
t h e a r e a u nd e r p r e c i s i o n / r e c a l l c u r v e ( AU P R C ) w e r e
c a l c u l at e d a s t h e e v a l u a t i o n m e t r i c s . A c c u r a c y r e fe r s t o t h e r a t o o f c o r r e c t y c i l l as s i f
ied
s am
p l e s t o t h e t o t a n um b e r o f s a m p l l es . P re c i s o n i i st h e p r o p o r t o n o f p o s i t v e l y l a b e l e d
i
i
s am
p l e s i n t h e p o s i t i v e e x am p l e s t h a t a r e c o r r e c t l y i d e n t i fi e d S e n s i t i v i t y i s t h e p r o p o r t i o n o f
.
p o s it i ve l y l a b e l e d s a m p e s t h a t a r e c o r r e c t y d e n t i f i e d w h i l e s p e c i fi c i t y i s t h e p r o p o r t i o n o f
l l i
c o rr e c t l y i d e n t i fi e d n e g a t i v e s a m p l e s . T h e yar ed e f ne d i as
:
舰 = 」^ (
2 6)
-
TP + FP
SEN : TP (
2 7)
.
TP + FN
SP E = ^ (
2 8)
-
Th + FP
TP + TN
A CC = (
2 9)
-
TP + TN + FP + FN
TP x TN -
FP x FN
MC C =
(
2 . 1 0)
TP + FP ) { TP + FN ) { TN + FP TN + FN )
^
{ ){
wh e r e T P ,
FP ,
TN ,
F N r e p r e s e nt t r u e p o s i t i ve ,
fa l s e
pos i ti ve ,
tr u e ne g at i v e ,
a n d fa l s e n e g at i v e
.
r an d o m
j
u d g n g T h e AU C i s a t h r e s h o l d fr e e e v a l u a t i o n m e a s u r e t h a t i n c r e a s e s i n d i r e c t
i .
-
p r o p o r t i o n t o t h e o v e r a l l p r e d i c t o n p e r fo r m a n c e i . A U P R C o ffe r s a g r a p h i c alre
pre s en a o no
t ti
f
p e r fo r m a n c e a c r o s s m a n y t h r e s h o d s l
.
3 5
-
-
P re d i c t i on o f
p an
l t on
g n o n c o d ng
l
i
R N A s nt e r a c t
i i ons w i t h
p ro t e
i n sb
y d e ep e arn n g
l i
2 5 . S u m m ary
I n t hi s c h ap t e r , t h e b a c k g r o un d o f t h e b i o l o g i c a l p e r s p e c t i v e a b o u t I n c R N A s an d t he i
r
i n t e r a c t i o n s w i t h n o t o n l y p r o t e n but a l s o o t h e r m o l e c u e s
i l l i k e m RN A s ? m
i RN A s , an d DN A
i s
g
i ve n T he i d ent
. i fi c a t i o n o f p l a nt I n c R N A s an d RB P s i t e s a r e h i g h l i g ht e d a s k e y t o t h e
a nn o t a t i o n o f I n c R NA g e n e s T h e d . i ffe r e n t e x
p er m e nt a
i l an dc o mp uta ti o na l
p re d i ct i o n
a pp r o a c h e s h av e b e e n d i s c u s s e d . A d d it i o n a l l y t h e e x i s t i n g m e t h o d o o g i e s r e a t e d t o t h i s
,
l l
d i s s e r t a t i o n h av e b e e n h i g h l i g ht e d . Th i s d e m o n s t rat e s t h e s i i c an c e a n d b a c k g r o u n d
g ni f
i n fo r m a t i o n t h a t i s t h e b a s i s o f t h i s r e s e a r c h w o r k T h e d e v e o p m e n t s t e p s fo r t h e d i ffe r e n t
.
l
m e t e rs t u n e d d u r n t h e tra i n n
p r e d c t i o n a l g o r i th m s a n d t h e r e s p e c i v e p a r a g an p r e
d d ct on
t i
g
i i i i
p r o c e s s hav e a l s o b e e n g i v e n . T he d i f fe r e nt fe at u r e e x t r a c t i o n an d e n c o d n g s c h e m e s and t h e i r
i
v e u s e i n the d e v e l o h m s ar e d e s c r i b e d
re s
pec p m e nt o f c o m p u a o n a p r e d c t o nal
gor
ti t t i l i i i t
.
L a s t y t h e d at a s et s a n d e v al u a t i o n m etr
l
,
i c s u s e d t o d e v e l o
p h e p r o p o s e d m e h o d s i n t h i s
t t
d i s s e rt at i o n ar e d e s c r i b e d
,
36
-
-
Da l i an Un i ve r s it
y o f T e c hn o o gy
l
D oc tora D l i s s e r t at i o n
3 I t e r at i v e fe a t u r e s e l e c t i o n w i t h r e c u rr e n t n e u r a l n e t w o r k
fo r I n c R NA -
p r o t e i n i nt e r a c t o n p r e d c t i o n
i i
3 . 1 I ntro du c ti on
T h e k e y fa c t o r s t h a t i n f l u e n c e c o m p u t at i o n a l p r e d i c t i o n a l g o r i t hm s a r e t h e c h o c e o f
i
fe at u r e e x t r a c t i o n m e t h o d a n d c l a s s i fi c a t i on a l g o r i t h m F e at u r e e x t r a c t i o n m e t h o d s t r a n s fo r m
.
i n p ut d at a i nt o a s e t o f at t r i b u t e s ( fe a t u r e v e c t o r ) s u i t ab l e fo r p r o c e s s i n g b y m a c h i n e l e ar n i n g
F e at u r e s e l
al
g o r i t hm s . e ct i o ni sa
p r e p r o c e s s i n g p r o c e d u r e c o n s i d e r e d a p r e r e q u i s i t e fo r m o d e l
b u i l d i n g I t h e l p s n r e d u c i n g o v e r f t t i n g i d e n t i f i n g c o rr e l at i o n a m o n g fe at u r e s t o r e d u c e
y
. i i
,
r e d u nd a n c
y , i n c r e a s e c a s s r e e v a n c e n fe a t u r e s u b s e t
l l i
, a n d u l t m a t e l y i m p r o v e t h e p e r fo r m a n c e
i
o f th e l e a rn i n g a g o r t h m E x i s t n g fe a t u r e s e l e c t i o n m e t h o d s c a n b e c at e o r i z e d a s f i l t e r s
g
l i . i
,
w r ap p e r s a n d e m b e d d e d F,
. i l t e rse xt r a c t fe at ur e s w i t h o u t l e a r n i n g , w r ap p e r s l e a r n t o e v a l u a t e
t h e u s e f u n e s s o f fe a t u r e s
l
, a n d e m b e d d e d t e c h n i q u e s c o mb i n e fe at u r e s e l e c t i o n a n d c l a s s i f er
i
c o n st ru c t i o n . Ac l as s i f
i c a t i o n b a s e d a p p r o a c h c an b e c o m b i n e d w i t h a s e l e c t i o n
-
-
b a s e d m et h o d
to s e e c t fe a t u r e s w
l i t h m a x m u m c l a s s i f i c at i o n b e n e fi t
i . F o r e x am p l e , mach i ne l e a rn n g
i
a l g o r i t hm s l i k e S VM a n d R F c a n b e c o m b n e d w i t h m i n i mx i m r e dund a n c y m a x i m u m r e l e v a n c e
i
(
M RM R ) an
d RP E a l g o r i t hm s T h e r e l e v a n c e o f a s e t o f fe at u r e s i s m e a s u r e d b y t h e m u t ua l
.
i n fo r m at i o n a m o n g g e n e s T h e p r e d c t i o n o f i n t e r a c t i o n b e t w e e n g e n o m e m o e c u l e s u s n g
.
i l i
com
p u t a t o n a l y e ffi c e n t m o d e l s t h at i n c o r p o r a t e fe at u r e s e l e c t i o n i s an m p o r t a n t t a s k n
i l i i i
b i o n fo r m a t i c s
i
.
T h e n c RN A s c o n s i sto f t w o m a or c a s s e s
j
l
, s h o rt n c R N A s ( < 2 0 0 nt ) a n d n c R N A s ( > 2 0 0 nt ) I
.
S ma l l /s h o r t n c RN A s s u c h a s m i c r o R N A s , sm a l l i nt e r fe r i n g R N A s ( s i R N A s ) , an d p i w i
i nt e r a c t i n g R N A s ( p i RN A s ) a r e r i b o g e n e r at o r s o f g e n e e x p r e s s i o n [ 8 8 ] T h e I n c R N A s a r e
.
l o c al i z e d n t h e r i b o s o m e i
, e x o s o m e nu c ,
l eus , an d/ o r c yt o p l as m [ 8 9 ] . A l t ho u gh th e y are
c o n s i de re dtob e
p
o o r y c o n s e rv e d I n c R
l
,
N A ss uc has c i rc R NA s , c i RNA s , a nd l i n c R N A sare
m aj o r p a y e r s n r e g u l a t i n g fu n d a m e n t a l b o l o g i c a l p r o c e s s e s at g e n e e x p r e s s i o n s t a g e s [ 9 0 ]
l i i
.
S t u d i e s o n L D A a n d L P I p r e d i c t i o n h a v e b e e n o n t h e r
i s e i n th e r e c e n t a s t In m e d c i n e
p
. i
,
d i s c o v e r i n g t h e c o nn e c t i o n b e t w e e n I n c R NA s a n d d i s e a s e s i s i m p o r t a n t t o fa c i l it ate t h e
d i a g n o s i s a n d t r e at m e n t o f c om
p l e xd i s e a s e s S t ud i e s h a v e fo un d t h at s i m i
. l ar I n c RNA s i nt e r a c t
wi ths mi l a rd H i g h e c hn o l o g i e s fo r d e t e c t i n
seas e s
[ 9
hr o u g h
pu
tt
g b i n d i ng o f p r o t e i n s t o
-
i i 1 . t
]
RN A i n c u d e c ro s s
l
-
l i nk n g i m m u n o p r e c i p
i i t at i o n ( C L I P ) e n h a n c e d C L I P ( e C L I P ) a n d i n
, ,
-
c e l l
protein
_
RN A i n t e r a c t o n ( n c P R IN T ) [ 9 2 ] A
i i . l t h o u gh t h e s e w et -
l ab e xp e r
i m e n t al m e t h o d s a r e
v a u ab el l
,
t h ey aret m e c o n s um n gan de xp en s i ve
i
-
i
.
3 7
-
-
Pr e d i ct i o n o f
p ant o n g n o n c o
l d i n g R N A s n t e r ac t o n s w
l
i i i t h p ro t e n s b y d e e p
i
l e arnin g
Re c en tl
y a s u r g e o f c o m p ut a t o n a p r e d
,
i l i c t i o n m e t h o d s fo r R P h a s b e e n p r o p o s e d
I
.
S i g n i f i c a nt p r o gr e s s h a s b e e n m a d e v a p a t t e r n b a s e d i
-
, fe a t ur e b as e d
-
, an d k e r
ne l
-
b as e d
com
p ut at o n a i l m e th o d s . A we b s e r v e r f o r p r e d i c t i ng m utua l b i n d i n g s i t e s i n R N A an d p ro t e i n
at t h e n u c l e o t i d e a nd r e s i d u e l e v e c a l e d P R I d c t o r ( P r o t e i n l l i
-
d e v e o p e d [ 9 3 ] In 2 0 1 6 a c o m ut at o n a m e t h o d c a l l e d RJ B P P r e d w a s p r o p o s e d 7 0 ] Th e y
l
p i
[
l .
.
,
c o mbine d hy d r o p h o b i c it
y , p o l ari t y , no rm a l i ze d v an d e r W aa l s vo l um e ,
p o l ar i z a b i l i t y
,
s e c o nd a r
y s t ruc t ur e so v e nt a c c e s s i b i l i t y s d e c h a i n s c h ar e a n d
p o l ar i t y P S S M p r o fi
e
-
l l
g
i
, , ,
fe a t u r e s an d u s e d S V M c a s s i f i e r t o d i s t i n g u i s h b e t w e e n b i n d i n g a n d n on R N A p r o t e
n
-
l i
,
b i nd i n g s i t e s . R e c e nt l
y , a s e que nc e
-
b a s e d g e n e r a t i v e m e t h o d fo r c o n s t r u c t i n g p r o t e i n b i nd i n g
m o t i fs wa s p r o p o s e d [ 9 4 ] . F o r n c RN A p r o t e i n
l
- -
s
pec f
i c i n t e r a c t o n p r e d ct i o n
i i i
,
d at a re
po s i t or
ies
,
m o de l s, an d a l g o r i t i z e d [ 5 ] S F P E L L P I a s e q u e n c e b a s e d fe at u r e
hm s h av e b e e n s umm a r
,
-
,
-
g fr am e w o rk w a s p r o p o s e d o p r e d c L P [ 9 5 ] N e w o
e c t i o n e n s e mb l e l e ar
ni n rk b a s e d
p r oj
-
t i t I t .
m e th o d s p r o p o s e d t o p r e d i c t L P I b a s e d o n t h e n t e g r a t i o n o f h e t e r o g e n e o u s n e t w o r k s i n c l u d e
i
L P I HN ,
RWR , a nd L P I -
N RL M F [
96
-
98]
.
T h i s c h a p t e r p r e s e n t s a n e ff i c i e nt d e e p
e a r n i n g m e h o d b a s e d o n s e q u e n c e d a t a a nd
l t
i sd e s cri . i l c o m
of A n u c l e o t i d e f r e q u e n c i e s a n d c o d o n b a s e d e n c o d i n g fe a t u r e s a r e u s e d a s n p ut t o t h e m o d e l
-
-
: i
.
T h e R NN l e a r n s t h e h i g h d i m e n s i o n a l fe a t u r e s c h a r a c t e r i z i n g t h e l o n g
- -
ter m d ep end e nc i e s
b e t w e e n s e q u e n c e s O p t i m a fe a t ur e s a r e s e . l l e c t e d u s i ng
SVM -
R F E a nd s p ar s e p r oj e c ti o n i s
i m p o s e d o n t o t h e h i d d e n s t a t e s o f i n p u t s e q u e n c e s t h r o u g h c o n n e c t i o n p r un i n g L P I .
-
DL
g e n e r a l i z a t o n a b y o f t h e m o d e l a n d m o d e l o v e r fi t t i n g w h i c h o c c u r s i f t h e e ffe c t o
i i l i t
,
f
n e g at i v e s a m p l e s i s n o t t a k e n i n t o c o n s i d e r a t o n T h e p r o p o s e d m e t h o d d ffe r s fr o m o t h e r
i . i
m e t h o d s b a s e d o n t h e fo l l o w i n g fa c t o r s F i r s t L P I .
,
-
D L e x tr act s m o r e e ffe c t v e g l o b a l a n d
i
mu l ti -
s i z e l o c a l fe at u r e s fr o m I n c R N A an d p r o t e i ns e
que n
c e s S e c o n d l y c o nn e c t i o n
.
p
run i n
g ,
i si m p l e m e n t e d o n c o m p a c t L S T M t o r e d u c e n e t w o rk c o m p l e x i t y a n d m p r o v e g e n e r a l i z a t i o n
i
a b i l i t y F e at ur e s e l e c t i o n i s a l s o i n c o r p o r at e d n t h
. i i s w o rk t o i m p r o v e p r e d i c t i o n a c c u r ac y a s
re c o mm e n d e db y C hen e t al [ 9 9
]
T hem o . . stre l e v a n t fe a t u r e s w e r e s e l e c t e d u s i n
g theS
VM
-
RF E . T he
p
ro
p o s e d a l g o r i t hm i s i t e r a t i v e l y e v al u a e d b y a s e r i e s o f e x p e r
t i m ent st ore al zea
i
b e t t e r s e t t i n g o f h y e r p a r am e t e r s C o m p a r a t i v e e x p e r i m e n t s d e n o t e t h at t h e p r o p o s e d m e t h o d
p .
a c h i e v e s s t at e o f
- -
t h e a r t p r e d i c t o n p e r fo r m a n c e L P I
-
i .
-
D L ac h i e ve d a c c ur a c i e s o f 0 8 8 . 1 an d
0 9 0 7 o n A r a b i dop s i s t h a l i a n a a n d Ze a m ays d a t a s e t s r e s p e c t i v e l y T h e r e s u l t s d e m o n s t r at e
.
.
t h at L P I -
D L o ut p e r fo r m e d o t h e r s t at e o f - -
t h e a r t m e t h o d s E v a l u a t i o n o f t wo p a n t dat a s e t s
-
.
l
c o rr o b o r at e s t h at t h e p r o p o s e d m e t h o d i sm o rec o m
p e t i t v e o v e r o t h e r m e t h o d s T h e r e fo r e
i .
,
i t e r at i v e fe at u r e s e l e c t i o n u s i n g S V M -
R F E w it h c o m p a c t L S T M e ffe c t i v e l y i m p r o v e s t h e
p r e d i c t i o n a c c u r a c y a nd a c h i e v e s c o m p u t a
ti o n a l e f fi c e n c y i
.
3 8
-
-
Da l i an Un i v ersi t
y
of Te ch no l o gy
D oc t o r a l D i s s e r t at o n
i
3 . 2 R e c u rr e n t n e u r a l n e t w o r k s fo r fe at u r e l e a r n i n g
R NN s s u c h a s L S T M a r e se
q u e n c e m o d e l i n g t o o l s w i t h p o w e r fu l l e ar n i n
g c ap a c i t y . Th ey
e a r n fe at u r e s c h a r a c t e r
i zi n m d e p e nd e n c e s b a c k i n t i m e v i a c o n n e c t i o n s fr o m
g o ng ter
-
l l i
re c u r r e n t a y e r s t o t h e i r h i d d e n l ay e r s t h at a l l o w p r o p a g at o n o f i n fo r m a t i o n fr o m t h e p a s t
l
i
t h r o u g h t m e i . H o w e v e r tr a ,
i n i n g R NN s i s c o m p u t at i o n a l l y e x p e n s v e b e c a u s e o f t h e b i g
i
n u mb e r o f p a r a m e t e r s
. Th i sa fe c t s the i r
p r e d i c t i o n ab i l i t y i n d i ffe r e n t t a s k s s u c h a s c o m p u t e r
v i s i o n a n d b i o i n fo r m a t i c s . A n e ffe c t v e s o ut i o n t o t h i l i s
p ro b l e m s t h e i n t r o d u c t i o n o f a
i
p a c t f l e x b l e s ru c ur e a n d o h e r q u e s T h e k e y p u r p o s e o f h e s e t e c hn i q u e s s
com t t t i t e c hn i t i to
.
re d u c emo d e l
p
ar a m e t e r s and i m p r o v e t r a i n i n g e ffi c i e n c y S t r a t e g e s t h a t h av e b e e n p r o p o s e d
. i
oi m
p r o v e t r a n i n g R NN s i n c l u d e b a c k p r o p a g at i o n t h r o u g h t i m e ( B P T T ) r e a m e r e c u r r e nt
-
t i l ti
,
l e a rn i ng ,
an do
p t i m i z at i o n t h r o u g h e x p l i c i tl
y l e ar n i n g s t at e v a r i a b l e s i n t h e RN N [ 1 00]
.
A v ar i ety o fc o m
p u a o n a l m e h o d s av e b e e n e v e o p e
t ti t h d l dt o
p r e d i c t t h e p o t e nt i a l
i n t e r a c t o n s b e t w e e n I n c R NA a n d d i ffe r e nt b i o m o e c u l e s t o a d i n I n c R N A a nn o t at i o n K a n g e t
i
l i ,
a ro
p o s e d a m e t h o d fo r I n c R N A m i R N A i n t e r a c t i o n p r e d i c t i o n b a s e d o n t h e h y b r i d m o d e l
-
p
l .
and f u z zy dec i s i o n n a m e l
y Pm li Pre d [
1 2] . A I nc RN A -
RN A i n t e r a c t i o n W e b s e r v e r
,
L n c R R I s e a r c h nt e g r a t e s t ,
i i s s ue
-
s
p e ci f
i c e x p r e s s i o n a nd s u b c e l l u l a r l o c a ,
l i z at o n d at a [
i 1 0 1
]
.
B e s de s i
,
t h e s tud y o f di s e a s e
-
re l at e d I n c R N A s c an d i i o n b as e d o nd i s e as e
d at e p r e d i c t -
l n c RN A
a s s o c i at i o n h a s r e c e i v e d s i g n i f i c a n t r e s e a r c h i n t e r e s t i n t h e r e c e n t p a s t . A ccumu l at i n g e v i d e n c e
s u g g e s t s t h at I n c R N A s ar e i nv o l v e d i n di s e as e s i n b o t h h u m an s an d a n t s T h e r e fo r e t h e
p
l .
,
pre
d i c ti o no fas s o c a i ti o n b etw e e n I n c R NA s a n d d i s e as e s
p r o v d e s i n s g h i i ts n om oi t l e c u l ar
co m p ut a t o n a f r a m e w o rk fo r L D A p r e d i c t i o n b a s e d o n d e e p
i l l e arn i n
g a n d s n g u l ar v a l u e
i
de c om
po s
iti o n t e r m e d S D L D A w a s p u t fo r w a r d [ 1 02] . S h e n g e t a p r o p o s e d V AD L P a n
l .
,
.
at t e nt o n i
-
b a s e d c o n vo l u t i o n a a n d v a r i a n c e m o d e fo r I n c R N A d l l
-
i s e as e a s s o c i at i o n
p
re d i c t i o n
by
n e gra i n gm u
ti t l t i
-
l e v e lre
p re s e n a i o n s [
t t 1 03
]
. i L n c R N A d i s F B w a s d e v e l o p e d t o i d e n t i fy
-
L D A s b y fu s n g b i i o l o g i c a l fe a t u r e b l o c k s t h r o u g h d e e p l e a r n i n g . A s tu d y b y G u o et a l
.
c o n st ruc t e d an d an a l
y z e d a mu l t i m o l e c u l a r a s s o c i at o n n e t w o r k v i a t h e
-
i
I n c RN A m -
i RN A D -
i s e as e
-
D rug -
p r o t e i n g r ap h [
1 04] . B a s ed o n a n RP c l a s s i fi e r , ne w
i n t e r a c t i o n s w e r e p r e d i c t e d b et w e e n t h e b i o m o l e c ul e s . The m e n t i o n e d m et h o d s t e s t t h e
e ffe c t i v e n e s s o f s e
q uenc e , s t r u c t u r e andn e t w o rk s m i ar
,
i l i ti e s n s e a r c h n g fo r i n t e r a c t i o n
i i
art n e r s
p
.
L S T M w a s u s e d fo r t r a n n g t e s t a n d p r e d i i
, ,
i c t i o n s i m i l a r t o o t h e r r e c e n t s t u d i e s t h at
i m p e m e n t C NN a n d R N N m o d e l s [
l 1 05
-
1 08
]
. Y i et a l [ . 1 0 6 ] p ro
pose
dA C P -
D L t op re di ct
p t d e s u s i n g L S T M a nd h g h e ff i c i e n c y fe at u r e s A o k i e t a 0 5 ] d e v e l op e da
ant i c a n c e r e
-
[ 1
p
i i . l .
C NN m o d e t o c l l a s s i fy n c R N A s e q u e n c e s W an g e a . t l .
[
1 0 7 ] d e v e o p e d a m e t h o d fo r
l
dru g a r g e t i nt e r a c t i o n
p r e d i c t i o n b a s e d o n L S T M n e u r a n e t wo r k G r 0nn n g e t a [ 0 8 ]
-
t l . i l . 1
3 9
-
-
P re d i ct i o n o f p an t o n g n o n c o d n g l l
i
RN A s i n t era c t o n s w i i t h
p ro
t e n sb i
y dee p
l e a rn i n
g
p r o p o s e d D e e p C L P fo r p r e d I i ct i n g t h e e ffe c t o f m u t a t o n s o n p r o t e n i i
-
RN A b n d n gw
i i i t h C NN
a n dL S TM
.
3 . 3S e
q
u e n c e fe a t u r e e x t r a c t o n b i
y
S V M RF E
-
i i at i o n t a s k i s a c l as s i f i c at o n i
p
ro b l e mb as e d
o n t h e fe a t u re r e p r e s e n t a t o no i fs e
que
nce s a n dac a s s f l i i c at i o na l
gor
i t h m L P . I
-
D L i sad ee
p
d m e n s o n a s e u e n c e fe a t u r e s
i
q
i l
p
i I
p
i l i t
y .
p
i t i t
I i
n
1
,
2 ,
. . .
,
P , ; ) d e n o t e sw h e t h e rt h e r ee x i s t s i n t e ra c t o nb e t w e e nt h e i /
-
t h n c I R N A a n d t he
y
-
t
h
d ue F n c e fe a t u r e s fr o m n c R N A { A C G U a n d p r o t e n{ A C D E F G H
re s e
que
rst
i
s I
i I . . i . . . .
}
.
.
. . .
, ,
K . L ,
M N . . P .
Q . R S T . .
?
V . W . Y } c o n s
t i t u e n t s a r e e x t r a c t e d u s n g ^ n u c e o t d e fr e q u e n c
i
-
l i i es
a n dc o d o n b a s e d e n c o d n g s c h e m e s T h e n t h e fe a t u r e s fo n n u a t e n
p u t s fo r
t h ed e e
p e a r
n ng
-
i .
,
l i
l i
n e t w o r k N e x t t h e .
,
l earn i n gs t r at e g yan dm o d e a r c h l i t ec t u reo fL P I
-
D L t op r e d c t n t e r a c t o n
i i i
par
t n e r sa r ea s s e s s e d . F i
g 3 . . 1 i l l u st r at e st hes t e
p s o
f l l o w e db yt h ep r o p o s e dm et h o d F e a t u r e s
.
a r e e x t r a c t e d fr o m s e q u e n c e su s i n g/ :
-
m e r a n d c o d o n s c h e m e s an d o p t m a i l fe at u r e sa r e s e e c t e d
l
u s i n gS V M RF E -
.
F ea tui
-
e e x tra c ti o n a n d s e l e c t i o n
( I n c RN A k m cr :
-
-
^
c o don N
.
L S TM
—
— —
mm mode
l
, I
.
A
、
I
n c RN A s e
I
q
u en c e J 1
cm
」 f
? ? ?
1
A C G UG A A r
^G p _ 1 t J t
-
h
-
F ea t ur e :
_
[
;
L 」
纖
1  ̄
]
U e ec t i o n T
. .
s i
士
I '
l :
丨
!
\
j j
J
! !
! Pi o t e i n : A
-
m e r fe a t u r e s S VM RF E
{
-
j
—
[
J
|
i
— K ern e
=
U
near
?
l l i .
U 丄
「
[
[ |
!
P > 〇t e m s e qu e n c e
J ; c I T tI t t
I
m y p t q va k
^ k
'
, .
子
k
: ;
;
Pr e d i c t e d I n c RN A -
p
rot e i n nt er a c t o n
i
i
F g i . 3 . 1 F o w c h a rt o f l t h ep r o p o s e dm e t h o d
3 . 3 . 1 F e at u r e e x t r a c t o n a n d s e e c t i o n
i l
T h eA :
-
n u c e o t d e fr e q u e n c e s a n d c o d o n b a s e d e n c o d n g s c h e m e s a r e u s e d t o n c o r p o r a t e
l i
i
-
i i
con t e x t i n fo r m a t o n a n d o b t a n a m u i i l t i
-
sc a e fe a t u r e v e c t o r s
l
p ac e . Wh e n t h ev a u eo fk
l
i n c r e a s e s t h e d m e n s o n o f fe a t u r e s n c r e a s e s T h e 4 a n d 3
,
i i i .
- -
m e rn u c l eo t i d ec o m
po s i t i o n i
s
40
-
Da l i an Un i v er s i ty o f T e c hn o l o gy D o ct oral D i s s e r t at i on
灸
u s e d i n t h i s s t ud y t o e x t r a c t fe at u r e s . G i v ena nc R I NA R o f m s e q u e n c e e n gt h
l
,
4 whe r e A :
=
4
y e l d sa 5 6(
i 2
=
4x 4x4 x 4 ) di m e n s i o na l fe a t u r e m ap . T h e p r o t e n s e q u e n c e s ar e r e p r e s e nt e d
i
b y a 3 4 3 (
=
7
x7x7 d i m e n s i o n a l fe a t u r e v e c t o r c o r r e s p o n d i n g t o 3 m e r s i n t h e 7 g r o u p s o f
-
)
p h y s i c o c h e m c a l p r o p e rt i e s i
.
I n sp i re db y [ 1 09
] , n c R NA nu c
I l e o t i d e s a r e m a
p p e d nt o p s eu d o a m n o a c i d s T r e e
i h
i .
c o n s e c u t i v e nu c l e o t i d e b a s e s i n t h e I n c R N A s e q u e n c e s a r e m ap p e d i n t o p s e u d o am i n o a c i d s
w i t h s t o p c o d o n s n th e m i d d l e o f s e q u e n c e s T h e s t o p c o d o n s a r e u s e d a s t h e s t a r t an d s t o p
i
.
si
g na
l s i n t h e p r o c e s s o f am i n o ac i d t r a n s l at o n i n t o p r o t e n s i i . S u b s e q u e n c e s o f thr e e
c o n s e c ut i v e n u c l e o t i d e b a s e s s u c h a s a s t a r t c o d o n A T G i st h e s t ar t n g s g n a w h i e T A A
i i l l
,
TAG , an
d T GA a r e t h e s t o pp i n g s i g n a l s
[
1 1 0] . T he c o d o n e n c o d n g m e t h o d i i s a v a r i an t o f t he
3 ) m e t h o d w i t h 6 4 c o m b n at i o n s o f 3 m e r s T h e r e fo r e u s i n g t h e c o d o n b a s e d
=
A mer
-
k - -
(
i .
m etho d ,
a 2 1
-
d i m e n s i o n fe a t u r e v e c t o r i s o b t a i n e d fr o m 2 0 a m i n o a c d s a n d a s t o p c o d o n i . The
4 3
i n p ut t o t h e L S T M i sa6 2 0(
=
4 + 7 +2 1 ) d i m e n s i o n a l fe a t u r e v e c t o r F e a t u r e s e l e c t o n s
i
. i
p r o v e e ff c i e n c y b y r e m o v n g r e u n a n fe a u r e s T o m p r o v e t h e a c c u r a c y
a pp l i e d t o i m i d d t t i i and
.
us ngS V M i
-
v a a n i t e r at i v e p r o c e s s T h e S V M
i .
-
R F E fe a t u r e s e l e c t i o n m e t h o d r a n k s fe a t u r e s a c c o r d i n g t o
t h eo rd e ro f i mp o rt an c e o f t h e fe a t u r e s
. T h e m e t h o d r e m o v e s fe a t u r e s fr o m t h e o r g i na i l fe at u r e
s e t t o o b t ai n t h e o
p t i m um fe a t u r e s ub s e t . T h e c a s s f c a t o n c o m p u t at o n a l t m e
l i i i i i i sre du c e d an d
t h e c l a s s i f i c a t i o n a c c ur a c y r a t e i s i m p r o v e d
.
3 . 3 . 2M o d e ltrai n i n g
H o w t o d e s i g n c a s s i fi e r s t o p r e d i c t a b e l s o f u n s e e n s a m p e s b a s e d o n a b e e d t r a i n i n g
l
l l l l
p l e s i s an i m p o r an p r o b e m w h e n b u i d n g a p r e d i
am c t o r I nth sst ud ay e r f u
s
y a tw o
-
t t l l i . i
,
l l l
y
c o nn e c t e d L S T M m ode l w i t h l o w at e n c y a n d r e d u c e d c o m p u t at i o n t m e i s u s e d fo r p r e d c t i o n
l i i
.
T hearc h it e c t ur e o f c o m
p ac
t L S T M p r o v d e s o w e r at e n c y a n d a
i l l l s o re d u c e s c o m
p u t at i o n
ti me
u s e d fo r p r e d i c t i o n . F g i . 3 . 2 i s an i l l u s t r at o n o f a d e e p L S T M a r c h
i i tec t ure . L S T M i s a s p e c a l i
t
yp e o f R NN w it h t h e a b i l i t y t o l e arn l o n g -
t e rm d e
p e n d e n c i e s a n d p o s s e s s a p o w e r fu l l e ar n n
i
g
ca
p ac it y . A c l a s s i c L S T M i s d e p o ye dt o l l e arn t em
p o r a l c o rr e l at i o n s a n d o v e r c o m e
t he
DL
'
g r a d i e nt s v ani s hi n g p r o b
l em . LP I -
i s ab i nar
y c l as s i fi e r
t h at i s b a s e d o n s u p e rv i s e d l e arn i n g
t o d i s t i n g u i s h b e t w e e n i nt e r a c t i n g an d n o n
-
i nt e ra c t i n g p art n e r s . A tt h e i n p u t l ay e r , t h e d at a i
s
re s h ap e d a n d c o n v e r t e d fr o m 2 D i nt o 3 D d a t a t h a t m a t c h e s t h e np u t o f i t h e L S T M l ay e r b y
a d d n g t h e t m e s t e p s t h r o u g h t h e r e s ha p e f un c t i o n
i i . E ar y s t o p p n g an d
l i D r o p C o nn e c t [
1 1 1
]
wi t h
adro ut o f 0 2 5 w e r e i m p l e m e nt e d t o s p e e d u p t r a i n i n g a n d h r e g u a r
i z e r w i t h th e va l u e
po l
.
0 000 . 1 u s e d t o av o i d o v e r f i t t i n g T h e A d a m o p t i m i z e r r e c t i f i e r l i n e ar un i t ( R e L U )
.
, ? an d
s i
g
m o i d a c t v a t i o n f un c t i o n s w e r e m p l e m e n t e d W h e n p r e d c t i n g t h e L S T M l a y e r s i d e n t i f y
i i
. i
,
s e
q u enc es e g m e n
t s fo r th e c a s s l i fi c at i o n t a s k a n d
g e n e r at e n t e r a c t i i o n p ar t n e r s . T h e ke y
4 1
-
Pred i ct i o no f p an t o ng n o n c o d n g
l l i
RN A s i n t e ra c t o n sw i i t h
p r o t e n sb yd e e p e a r
i n n
g
l i
o bj e c t v e i i st o m i n m i z e t h e d i ffe r e n c e
i s b e t w e e nt h em o d e l o u t p u t s an dt h e a c t u a t r a n n g
l i i
s am
p es l . T h em o d e l w a s t r a n e d t o m i n i m z e t h e fo
i i l l o w n g o s s fu n c t o n
i l i
:
L L 3
Hu b e r y s f
=
. 1
、 ,
(
)
i
h e b n d n g a ff n y o f t h e n c RN A ^ t o a g /^
w h e re st ven rot e n st he re d c ed
ys i i i i i t
p
I i i .
(
/? ,
/
^
)
i
p
i t
i n t e r a c t o n n t e n i i s i t
y a nd L i st h e H ub e r o s s l
wh i c hi sd e f n e d a s fo
i l l o ws
Hu b e r
,
:
,
Z
LHu l, e , \y ^ f^ ) )
=
\
U2 i
)
Ao
,
h w e r s e
卜 , ⑴
_ _
t i
|
e rr o r o s l s 1 1 2
[
.
回 回 图 固 图
固
立 豆 豆 ¥ M互
In
p u t l ay e r 〇 ^ Q^
j Q
〇 XL 〇 0 0
0
E s S s
(
r 〇l l [ i l j l
o i i
i
L S TM l a
ye 1 ,
( O C X j ^ CX ^ O
^
L S TM l a ycr 2
Q Q
? ? ?
?Q
^
V
L S TM l a
yer 3
^
Fu dl
J
o nn ec e
l l
yc t a
yer
F g i . 3 . 2D ee
pL S T Ma r c h i t ec t u re
3 3 3P a r a m e t e rs e tt ng
. . i
n e t w o r k a y e r s a n d fu n c t o n s T h e h y p e r p a r a m e t e r s a r e t u n e d t o o b t a n o p t m a r e s u
l i . i i l l t s . T h e
5
-
fo l dc r o ss
-
va l i d at o n i i si m p e m e n t e d T h e e x p e r m e n t
l . i i s r e p e a t e dt w e n t yt m e s u n t i i l he
t
m o d e a c h e v e do p t m a r e s u
l i i l l t s . T h e t r a n n g d at a s e i i t i s d v d e d n t ob a t c h e s d e t e r m n e db y
i i
i i
p a r a m e t e r b a t c h s z e s p e c
f i i i e d a s 6 4 T h e m o d e . l i so
pt
i m z e d fo r t r a n n g b y
i i i 1 0 0e p o c hs
.
Overf
i tt i ng
i s ac o mm o n p r o b e m n n e u r a l n e t w o r k m o d e l i l s . T h e D r o p C o nn e c t a n d e a r y
l
s t o p p n g w e r e e m p o y e d fo r r e g u a r z a t o n
i l l i i , t os p e e du pt r a n n g i i , a n dt oa v o do v e r f i i tt i n g[ 1 1 3
.
4 2
-
Da l i an Un i v e rs i t
yo f Te c h n o l o gy D o c t o r a l D i sse t at
r i on
D r o p C o nn e c ti si m p e m e n t e d o n t h e fu
l l l
y c o nn e c t e d l a y e r t o p r u n e c o nn e c t i o n s r at h e r h a n
t
d r o p p i n g o ut p u t un i ts
[
1 1 1
]
. A r an d o m l
y s e l e c t e d s e t o f w e i g h t s w i t h i n t h e n e t w o r k ar e s e t t o
z e r o t h u s p r e v e n t i n g o v e r fi t t n g n t h e r e c u r r e n t c o nn e c t o n s
, ,
i i i . A d d iti o nal l y t he c an d i d at e
,
we i
g h t c o nn e c t i o n s a n d n e u r o n s ar e p r un e d t o r e d u c e t h e t r a i n n g e r r o r a n d s p e e d u p
i
com
p ut at i o n . E ar y s t o p p i n g h a
l lt s t r ai n n g w h e n v a l i d a t i o n e rr o r s t ar t s i n c r e a s i n g
i . T h e d r o p o u t
r at i o u s e d t o
prom o e
t t he s
p ar s e d i s t r i b ut i o no f n e t wo r k w e g h t s i s s e t t o 0 2 5
i .
, 0 . 5 , a n d0 6 . . Th e
i np u t , re c u r r e nt , an d b i a s w e i g h t s ar e r e g u l i z e d u s i n g a n h re g u l ar
ar i z e r w i t h th e v a l u e 0 0 0 0 .
1
t op e na l i z ewe i
g
h t p ar a m e t e r s . T h e ac t i v a t i o n f u n c t o n c o n v e r t s t h e l i n e a r s um t o n o n l i n e a r t o
i
p r o d u c e t h e d e s i r e d o u t p u t T h e R e L U a n d s i g m o i d a c t i v a t i o n f u n c t i o n s a r e i m p l e m e n t e d
.
.
A d am , a n a d ap t i v e o p t i m z e r s u i i t a b l e fo r r e c u rr e n t n e t w o r k s t o t r a i n t h e m o d e l du e t o i ts
ab i l i t y
t o h a nd e c o m p l e x t r a i n i n g d y n a m c s w a s u s e d T h e n u m b e r o f n e u r o n s fo r L S T
l i .
M
v a r i e d fr o m 3 2 , 6 4 1 ,
28 , an d 2 5 6 T h e d . i ffe r e n t nu m b e r o f l a
y e rs i s us e dt o t e s t the
p e r fo r m an c e o f t h e m o d e l T h e n u m b e r o f h i d d e n a y e r s v a r e s f r o m 1 t o 4 . l i . L S T M c o nt a i ns
o n l y o n e h i d d e n l ay e r w i t h 6 4 n e ur o n s
.
3 . 4 E xp e r i m e n t a l r e s u l t san d d i s c u s s i o n
3 . 4 . 1 P re d i ct i on
p er o m a n c e
f r
T h e m e t h o d s w e r e c o mp ar e d u s n g t h e s a m e d a t a s e t s D i ffe r e n t a r a m e t e r s e t t i n g s o n
p
i .
A r a b dop s i i s th a l ia n a an d Z e a m ay s d at a s e t s a r e t e s t e d an d o b t a i n e d t h e ac c u r a c i e s o f L P I
-
DL
a s8 8 . 1 2 % a nd 9 0 . 74 % fo r 5 -
fo l d , 9 8 . 73 % , a n d 9 3 9 3 % fo r L O O C V v a . l i d a t i o nm e t h o d s
re s
p e ct i v e l y . There s u lt s o f t h e m e t h o d w i t h th e tw o v a l i d at o n m e t h o d s a r e l
i i st e di n T ab . 3 . 1
.
T h e p e r fo r m a n c e o f t h e p r o p o s e d m e t ho d i sc o m p a r e d n t e r m s o f fe at u r e s e l e c t i o n d e n o t e d a s
i
W F S a nd w it h o u t fe at u r e s e e c t o n d e n o t e d a s N F S o n A r a b i dop s i s t h a l i an a d a t a s e t s h o w n i n
l i
F g i . 3 . 3 The . AU C o f t h e
p r o p o s e d m e t h o d w i t h fe a t u r e s e e c t i o n l i s0 . 9 4 9 an d w i t h o u t fe at u r e
8 9 9 T here s u lt s h e p e r fo r m a n c e b e n e f i t o f t h e fe at ur e s e l e c t i o n
se l e cti o n s0
p ro v d e p r o o f o f
i . . i t
m e t h o d u s e d i n t h e p r o p o s e d m e t h o d T h e r e fore t h e c l a s s fi c at o n b e e n
p e r o r m a n c e h a s
f
.
,
i i
s ub s t a nt i a l l
y e n h an c e d a n d t h e d m e n s i o n a i l i t
y o f t he d a t as e t h a s a l s ob e e nre d uc e d as d e s c r i b e d
i n t h e fe at u r e e x t r a c t o n a n d s e l e c t i o n s u b s e c t i o n i
.
T ab . 3 . 1 P e r fo r m a n c e o f 5
-
fo l d c r o s s
-
v a l i d at o n ( 尺 fo l d C V ) a n d L e a v e o n e o u t
i
-
cro s s
-
v al i d at i o n ( L O O C V ) m e th o d s
V a d at o n A C C P R E S E N S P E
l i i
Da t as et M C C A U C
m e h o d % % % % t
( ) ( ) ( ) (
)
 ̄  ̄  ̄  ̄  ̄
A r a b dops i i s K -
fo d C \ V 8 8 . 1 2 90 40 . 8 6 . 83 9 0 . 68 0 . 777 0 . 949
t h a li an a L O O C V 9 8 7 3 9 9 3 9 9 8 0 7 9 9 . . . . 3 9 0 . 9 7 5 0 9 8 7
.
 ̄  ̄
欠 -
fo l d C V 9 0 . 74 9 1 . 4 8 8 9 8 6 9 . 1 . 62 0 . 8 1 5 0 . 970
Ze a m ay
ys
4 3
-
P re d i ct i o no f p an t o n g n o n c o d n g
l l i
RN A s
i n t e ra c t o n s w i i t h
d
p r o t e n s b y e e p e a rn n g
i
l i
1 〇
■
l
(
>
4
y
- 1
0
[
. 6
_
J JH y
,
J \
,
'
,
,
S
} /
i〇 4
(
f y
y
.
-
^
,
p o s e d M e t h o d W F S A U C =
P ro 0 949
—
z
,
(
)
, P o po se d M e t h o d N F S( AUC =
899
—
r 0 .
)
_
0 0 .
- I  ̄  ̄
^
.
.
—
0 0 0 2 0 4 0 6 0 8 1 0
.
. . . . .
Fa l s eP o s i t i v eR a t
e
w i t h o u t fe a t u r e s e l ect i on
3 . 4 2 C o m p a r
. i s o nw i t ho t h e rm e t h o d s
D e sp i t et h e
g
o o dr e s u l t sa c h e v e db yt h ep r o p o s e dm e t h o da sp r e s e n t e d nt h ep r e c e d n g
i
i i
s u b s e c t o n ac o m p ar i s o nw i
,
i t ho t h e rc a s s f l i i c at o nm e t h o d s
i i s
p
e r fo r m e d t o v e r i f
yt h er e s u l t s
.
T h e p r o p o s e dm e t h o d i s c o m p a r e d w i t h fo u r c l a s s i f e r s i n c i l u d n g i Mu l t i
-
l a
y e r
P e r c ep t ro n
(
MLP ) , R F Ex ,
tr a T re e ET ( ) , a n d D T u s i n g5 -
fo l d c ro s s
-
va l i d at o n i . T hec l ass i f i c at o n
i
c l ass i f i c at i o n t a s k s n t h e b i o n fo r m a t c
i i i s i e d L P
f l .
I
-
D L s
p e r fo r m a n c e i sc o m p a r a b et ot h e
l
c l ass i f i e rs , L P I
-
D La c h i e v e d t h e h i
ghe s
t a c c u r a c yw i t ham e a no f8 8 . 1 2 % , a n d9 0 7 4 . % M C C
,
t h a l a n a a n d Z e a m ays d a t a s e t s r e s p e c t v e y
i i l . LP I
-
D Lh a d t h es e c o n d -
best
p
r ec i s i o nw i t h a m e an
LP I
-
D Lh a d t h eh i
g
h e stre c a l l wi t ham e a no f 89 . 86 % o nt h e Z e a m ays d a t as e t
.
T o fu r h e r e v a t l u at e t h e p r e d c t v e a b i i i l i t
yo f h ep ro p o s e dm o d e
t l
, i t s
p e r fo r m a n c e i s
i nw e l l
-
kn o w n j o u r n a l ss
pec a i l i z e d n t h e b o n fo m i a t
i i i i c s fi e d
l . A l l t h em e t h o d sar ec o mp are d
u s n g t h e s a m e d a t a s e t s a n d fe a t u r e s T h e p r o p o s e d m e t h o d
i . i sc o m p a r e dw i t ho t h e rm e t h o d s
i n c u d n g X RP I [ 7 2 ] a n d RP I
l i .
-
S E [
1 1 4 ] a n dL P
,
I
-
P r e d 6 7 ] L P [
. I
-
D Lo u t
per
o rm e d
f t h eo t h e r
4 4
-
-
Da l i an Un i v ers i t
y o f T e c h n o o gy
l
D o c t o ra D l i s s e r t at i
on
m e t h o d s u s i n g t h e s a m e fe at u r e s e t s ,
tr a i n e d a n d t e s t e d und e r t h e s am e e x p e r i m e n t a l c o n d i t i o n s
.
T h e t h re e m e t h o d s w e r e c h o s e n b e c a u s e t h e y w e r e d e s g n e d t o p r e d i i ct n c R NA -
p ro t e
i
n
i nt e r a c t i o n T h e 5 .
-
fo l d c r o s s -
va l i d a t i o n r e s u l t s a r e p r e s e n t e d i n T ab 3 3 a nd F i g 3 4 ( c ) a nd
. , . .
(
d)
.
T ab . 3 . 2 P e r fo r m a n c e c o m p a r i s o n o f t h e p r o p o s e d m e t h o d an d f v e c a s s f e r s
i l i i
AC C (
% ) P RE (
% ) S EN (
% ) S PE (
°
/〇 ) MCC
D at a s e t M e t h o d
士 S D 土 S D 士 S D 土 S D 士 S D
 ̄  ̄  ̄  ̄  ̄
 ̄  ̄
LP I
-
DL 88 . 1 2±0 5 8 .
9 0 4 0± 0 6
. . 1 86 . 83 ± 1 . 1 5 9 0 6 8士0 6
.
. 1 0 7 7 7±0 0 2 4
. .
M L P 8 5 _ 92士 1 . 1 4 8 5 . 3 2士 2 2 0 . 8 6 . 6 7± 1 . 93 8 5 . 1 U3 . 02 0 . 7 1 8士0 0 2 2
.
hal
t i an a E T 8 7 7 . 1 土 1 . 4 4 8 3 6 8 士 . 1 . 9 1 8 0 . 95士 1 . 82 94 . 3 5 土2 . 06 0 . 76 1
土0 0 2 .
7
D T 8 6 . 92± 1 .
06 8 6 . 0 9士2 4 0 . 8 8 . 0 7士 1 . 7 1 85 . 73 土2 . 5 8 0 . 7 3 8±0 0 2 .
1
LP I
-
DL 9 0 7 4士 0 5 4
.
. 9 1 . 4 8士0 5 9 . 89 . 8 6i 0 . 89 9 1 . 6 2±0 7 . 1 0 8 . 1 5 士0 _ 0 1
1
Ze a m ays E T 8 8
. 5 0± 0 . 4 9 9 1 . 5 9士0 3 7 . 84 . 7 8±0 8 6 . 92 . 2 2土 0 3 3 . 0 . 7 7 2土 0 0 0 9
.
DT8 9 . 1 1 ±〇 . 3 8 8 9 . 0 5 士 0 4 9 8 9 . . 1 9士 0 3 0 8 9 0 3 ± 0. . . 5 7 0 7 8 2^0 0 0 . .
8
S V M9 0 . 0 5 士 0 4 2 9 0 . . 7 7 ±0 2 7 8 9 . . 1 6± 0 . 7 9 9 0 94 ± 0 2 8 0 .
. . 80 1 士0 0 . 1
3
*
S D r e
p re s e n t s s t a n
d ardd e v at o n i i
.
T ab . 3 . 3 C o m p ar i s o no f LP I -
DL w i t h o th e r t hr e e e x i stin
g m e t h o d s
P RE ( % )± S
D at a s e M e h o d A C C ( /〇 ) ± S D
^ S E N ( % ) ± S D S P E ( % ) 土 S D M C C士S D
°
t t
LP I
-
D L 8 8 . 1 2土0 5 8 . 9 0 4 0士0 6
. . 1 8 6 . 83 土 1 . 1 5 9 0 . 6 8士0 6 . 1 0 . 7 7 7土 0 0 . 1
厂
X RP 8 7 I . 0 2士0 3 9 . 9 1 . 5 9± 0 4 8 . 8 1 . 4 9± 0 8 0 9 2 4 9 土 0 4 6 0 7 4 5 士 0 0 0 8
.
. . .
.
m 〇p S
RP
1 l S
I
-
a mn a
LP I
-
P re d 8 7 7 . 1
士0 4 6 8 8 . . 1 2士0 42 _ 8 7 . 0 4 士 0 6 0 8 8 3 2 土 0 4 0 0 7 5 4土 0 0 0 9
.
. . . .
LP I -
D L 9 0 . 74±0 ]4 9 1 . 4 8±0 5 9 .
^ 8 6士 0 .
89 9 1 . 6 2土 0 7 . 1 0 .
8 1 5 士0 0 . 1
1
X RP 8 9 I . 1 2 土0 3 9 . 8 8 . 8 2土0 4 8 . 8 9 . 5 2士 0 . 80 8 8 . 7 3 土0 4 6 . 0 . 7 83 ±0 . 008
a m ays R P I
Zr -
S E 8 9 6 9± 0 . . 5 1 8 9 . 8 8土0 . 5 7 8 9 4 7土0 9 9 8 9 92 土 0
. . _ . 5 7 0 . 79牡0 0 . 1
0
LP I
-
P re d9 0 . 3 3 士0 . 5 48 8 . 6 5 士0 . 5 7 9 2 . 5 1
士0 . 5 9 8 8 . 1 5 士 0 6 3 0 8 0 7 土 0 0
. . . 1
1
4 5
-
Pre d i ct i o no f p a n t o n
gn o n c o
d n
gRN
l l i As i nte ra ct i on sw i th
p
ro t e i n sb
y
dee
p
l ea r n ng
i
r
1
卜
0 4 .
-
f/
1
j
1
?
/
Z
y
A 产
z
Pro
,
p o s ed
r /
M e h od t { UC =
0 94 9 ) k
so
x
?
//
/
Pr o po sed M e hod A UC t (
*
0 97 0 .
)
^
|
/
/
R F ( AU C =
0 .
903 ) II —
R F AUC (
? 0 9 06.
)
’
z E T AUC =
0
ET A UC
( 8 80 )
(
?
=
0 889
/
)
|
0 2
0 2
'
'
,
OT
/ /
( AUC =
0 864
.
)
I
DT (
A UC *
0 890
)
r
M L P {
AUC =0 . 8 7 2 ) I
,
,
M L P ( A UC =
0 96 7 .
)
,
z
Z SVM ( AU C = 0 .
859 ) ’
,
Z SVM (
A U C ? 0 90 3 .
)
0 0 .
^
<
'
?
?
0 . 0
1
1
1
.
0 0
-
a 2 a 4 0 6 0 8
.
1 0 0 . 0 0 2 0 4 0 6 0 8 , . .
1 .
0
F a se Pos
l
i t i ve R a t e F a se P os
l i t i veRate
(
a ) (
b
)
1
■
0
r
—
o
-
l
.
^ 7
7
:
!
I /
〇 ,
.
f
r
T Z
:
?
I
-
■
r^
I , S ,
/ 〇 4
Z
'
0 4
-
5
'
1
.
Z P r o p os e d M e t h o d Auc 0 9
*
0
Pro p o se d M e h o d t (
a uc =
0 94 9 .
) { . 7
)
0
, AU C
'
2
X R P 0 9 6 4 )
,
=
,
X RP l
( A UC =
0 . 9 40 ) I ( .
^ R P S E AU C ?
0 967
? ? -
RP AUC
— I
*
0 92 2
—
SE
)
.
-
{
I
(
.
,
L P
-
P r ed AU C =
0 968
L P
Pr e d A U C * (
I
0 9 38
.
)
-
I ( .
)
,
〇 〇
〇 〇
0 0 0 2 0 4 0 6 0 8
. . . .
1 .
0 〇 〇 0 2 0 4 0 . 6 0 8 L O
.
F a { 5? P os i t i veRa t e F a l se Po s i t i veRate
(
c
) (
d
)
(
a
)
a n d( c )
o n A r a b i dop s i s t h ci l i a n a
,
(
b) . an d ( d ) o n Z e a w ay s d a t a s e t
8 9 . 8 6 % . s l i
g
h t y o w e r t h a nt h a t o fL P
l l I
-
A ra b i d op s i s h a l i a n a a n d Z e a m ay s d a t a s e
t t s . T h eA U C v a l u e so f L P I D La r eb e t-
t e rt h a na l l t he
LP I
.
3 . 5 S u m m a ry
I i . i t i l i i i
,
o
pt m a i l fe a u r e s e t A d e e p
t . l e ar ni n
g
-
b a s e d fr a m e w o r k t e r m e d L P I
-
i n fo r m at o n i i s
p
re s ent e d . T ot h eb e sto fm yk n o w l ed
ge
t h ec o m
p ac
tL S
, T Mm o d e l t o
ge
t her
w i t ht h eS V M R F E fe a -
LP I . T h ea l i
g nm e n
t
-
fr e e fe a t u r e e x t r ac t i o na
ppr
o ac h e s i m p e m e n t e db yL P I
l
-
D Lr e s u l t n fa s t
i
4 6
-
-
Da l i an Un i v er s i ty o f
Te ch n o l o gy
Doc t o r a l D i s s er t a t i o n
s
p ar s e
R N N e f fe ct v e y c a p t u r e s o n g
i l l
-
ra n g e c on t e x t u a l i n fo r m at i o n T h e r e fo r e t h e L S T M
.
bas ed m o de w l i t h t h e o p t m z at i o n s s u r p a s s e s t h e o t h e r p r e d
i i i c t i o n t o o l s i n t e rm s o f
p
e r fo r m a n c e T h e e x
.
p e r im e n a
t l r e s u l t s s h o w e d t h at t h e L S T M b as e dm o de
-
l w i tha
pp ropr a e
i t
o
p t m z at o n
i i i i s a u s e ful
p re d i c ti o n t o o l . Po ss b i l e ext e n s i o n s o ft h i s m e th o d c an i n c ud e
l
p o r i n g t h e a u g m e n t a t i o n o f d at a a n d n t e g r a t i n g m o r e b i o o g c a i n fo r m a t o n i c
ex l i n u di ng
l i l i l
s ub c e l l u l a r l o c a l i z at i o n a nd enee x r e s s i o n
g p
.
47
-
P re d i ct o n o f
i
p an t o n g n o n c o d n g
l l
i
RN A s n te rac t i i o n s w i th p r o t e n s b y d e e p e a r n n g
i
l i
4A
g r a p h at t e n t i o n n e u r a l n e t w o r k b a s e d o n s e q u e n c e a n d
s t r u c t u r e fe at u r e s fo r I n c RN A -
p ro t e n
i nt e r a c t i o n
p
re d i i cti on
4 . 1 I n tr o d u c t i o n
C o n t e mp o ra r y m a c h i n e e ar
n i n g t a s k s e n c o un t e r m u l t i d m en s i o n a
l i l da t a r at h e r t h a n
v e c t o rd at a A mul t i d i m en s i o na c a s s i f
i c a t i o n p r o b l e m c o n s i s t s o f fo u r p a r a d i g m s b i n a r y
. l l
;
,
mu l ti c l as s ? m u l t i l ab e l , an d m u l ti di m en s i o n a l . T h e d at a s e t i n t h i s k n d o f c l a s s i f i c at i o n i i
s
com
p o s e d o f i n d e p e n d e n t an d d e p e n d e n t v a r i ab l e s B i n a ry c l a s s i f i c at i o n .
, t h e m o s t c o mm o n
p ro b l e m i n g e n o m e
-
w i d e a s s o c i at i o n s t u d e s i
, r e fe r s t o
t h e p r o b l e m w h e r e an n s t a n c e h a s t w o
i
c l a s s l ab e l s . Mu l ti l a b e l c a s s i f c at i o n
l i i s w h e r e a n i n s t an c e m a
y
h a v e m o r e t ha n o n e a b e l l . The
nu m b e r o f c a s s l a b e s an d t h e n u m b e r o th e b a s i s o f c o m
l l f t r ai n i n
g e x a mp l e s a r e p ut at o n a i
l
com
p ex l i t
y T h u s c a s s fi c a t o n a g o r i t h m s fa c e t h e p r i m e c h a l l e n g e o f a a r g e num b e r o f
.
,
l i i
l l
fe a t u r e s w h i l e t h e nu m b e r o f i n s t an c e s i ss m al l . As t h e num b e r o f g e n e t i c fa c t o r s n c r e a s e s t h e
i
num b e r o f p o t e n t i a l i n t e r a c t o n s n c r e a s e s i n t h e s a m e p r o p o r t i o n l e a d i n g t o t h e c u r s e o f
i
i
d i m e n s i o n a l it y p r o b l e m . T os o l v e t h i s p r o b l e m r e l e v a n t fe a t u r e s c a n b e s e l e c t e d at t h e
,
p r e pr o c e s s ng p h as e i . T h i s w i l l re d u c e t hed i m e ns i o n a l i t y o f t h e d at a a n d m p r o v e t h e a b
i i l i t
y
t o d e t e c t ge n o m e m o e c u l ar a s s o c i a t o n s l i
.
Ad i v e r s e p o o o f s t u d i e s h a s n v e s t g a t e d t h e e x t r a c t i o n a n d s e l e c t i o n o f fe a t u r e s fo r
l i
i
s tu d
y n g i n t e ra c t i o n p r e d c t o n
i i i . F o r e x am p l e , l o c a l i ty
p r e s e r v n g p r oj e c t i o n s ( L P P ) a n d
i
ocal y c o n s t r a n e d l i n e a r c o d i n g ( L L C ) ap p l y t h e l i n e a r i z at i o n app r o a c h t o m ap b e t w e e n
-
l i t i
i np ut s p a c e a n d t h e r e d u c e d s p a c e [ 1 1 5 ,
1 1 6 ] R e c e n t y g r ap h fe at u r e l e a r n i n g h a s g a i n e d
. l
,
a t t e n t o n a m o n g b o i n fo r m a t c s r e s e a r c h e r s [
i i i 1 1 7 ,
1 1 8 ] It r e
.
p r e s e nt s e a r n n g b y e n c o d n g t o
l i
i
p re s e r v e r e a t o n a l i l i n fo r m a t i o n fr o m t h e
g r ap
h T h e C G R i s a n i t e r at i v e m a pp n g t e c h n i q u e
.
i
l i 1 1 .
g r ap h c a i l re
p r e s e n t at o n o f a s e q u e n c e w h e r e e a c h p o nt o f t h e p o t c o r r e s p o n d s t o o n e b a s e o f
i
i l
t h e s e q u e n c e C G R e xp o r e s t h e e v o u t o n a r y re
. l l i l a t i o n s h i p s o f g e no m i c s e q u e n c e s b a s e d o n
am i n o a c d o r n u c l e o t i d e
i
p ro p e r
ti es
[
1 20] . Un li k e fe a t u r e s e e c t o n a n d d m e n s o n al i i i l it
y
re d uc t i o n t e c hn q u e s t h at a i l ter o r i g n a r e p r e s e n t a t o n fe a t u r e e x t r a c t i o n a nd a g g r e g a t i o n
i l
i
,
hn q ue s s u c h as s e r a e l fe at u r e fu s i o n c o m b i n e i n
tec i i l an d
p ar a
l l
p u t fe at u r e s a nd s e e c t a s u b s e t
l
[
1 2 1
]
. T he a m i i s t o o b t a i n d i s c r i m i n at i v e fe a t u r e s a n d r e d u c e c o m p u t at i o n a l c o m p l e x i t y
.
G r ap h -
b a s e dm o d e l sarea
pp
l i c ab l ei nre a l
-
w o r l d ap p l c a t i o n s s u c h a s s o c a l a n a l y s i s
i i
,
fr a u d d e t e c t i o n c o m u t e r v i s i o n a n d s o o n T h e h r e p r e s e n t a t i o n o f d at a c ap t u r e s t h e
p g r ap
.
, ,
s t ru c t u r a l i n fo r m a t o n a m o n g e n t i t i e s a n d m i n e s m o r e i n s i gh t s i n t o t h e d a t a
i . F o r s e q u e n c e dat a
,
nu m b e r s a r e d e v i s e d t o d e s c r i b e t h e i nn e r s t r u c t u r a l i n fo r m a t i o n w h i c h r e v e a l s t h e b i o l o g i c a l
48
-
Da li an Un i v ers i t
y of
T e c hn o l o gy D o c t or a l D i ss e r t at i o n
i n fo r m at i o n h i d d e n b e t w e e n t h e n u c l e o t i d e s T h e g r a p h i c a l c u r v e o b t a i n e d fr o m num e r i c a l .
c h ara ct e r
i z at i o n i s t r a n s fo r m e d i n t o a m a t r i x b y m at h e m at i c a l i nv a r i a n t s H o w e v e r .
,
t h e g r ap h
i
p l . l l l
g l i
l
p r e s e n t a t i o n s i n t h e E u c l i d e a n s p a c e v i a e m b e d d n g m e t h o d s i n c u d i n g n o d e a nd s u b g r ap
re
h i l
emb e dd i ng . G r ap h -
b a s e dm o d e l si n c u d e r an d o m w a l k w h c h u s e s t h e s t at i s t c n e i g h b o r h o o d s
l
i i
a
pp r o a c h a n d g r ap
h c o nv o l u t i o n a l n etw o r k s G C N s ) w h (
i ch u s e it e r at i v e n e i
ghb o r
hood
av e r a
g i n g fo r
t h e g r a p h s t r u c t u r e fo r e n c o d n g d a t a r e p r e s e n t a t o n s i i . T w o t ax o no m i e su s e dt o
g r o up G C
Nne t w o r k m o d e l s ar e sp e ct r a l
-
b a s e d a n d s p at al b a s e d m o d e i
-
l s . S p e ctr a l
-
b ase d
g r a p h n e u r a l n e t w o r k s s t u d y t h e c h a r a c t e r i s t i c s o f a g r a p h i n r e a t i o n t o p o l y no
mi al l
,
ei
g e nv a l u e s , a n d e i g e nv e c
t o r so f t h e a dj ac e n c y
m a t r i x S p a t a l b a s e d m o d e l s fo r m u l a t e g r ap h
. i
-
c o nv o l u t i o n s b y a g gr e g a ti n g fe a t u r e i n fo r m at o n fr o m n e g hb o r s i i . T he m o de u l ti l i ze s
f rs t o r d e rand s e c o nd o rd er re l at i o n s h i p s i n t h e g r a p h s t r u c t u r e
- -
i
.
I n t h i s c h ap t e r , a g r ap h r e p r e s e nt at i o n l e a rn i n g m e t h o d i s p r o p o s e d . A GN N fr a m e w o r k
t e rm e d GP L PI i sd e v e l o p e d fo r L P I p r e d c t i o n A g r ap h i .
-
b a s e d fr a m e w o r k h a s t h e a d v a n t a g e
o f s i m u l t a n e o u s l y i n c o r p o r at i n g s e q u e n c e i n fo r m a t i o n a n d s t r u c t u r a l r e l a t i o n s am o n g d a t a
e ffe c t i v e l
y . T h e m e th o d e mp l o y sL S T M AE w i t h g r ap h att e nt i o n .
F r e
qu e n c yC G R( F C G
R )
i
s
u s e d t o e x t r a c t e v o l u t i o n a r y s e q u e n c e p a t t e r n i n fo r m at i o n o f t h e I n c R N A s t h r o u g h g r ap h i c a l
re
p re s e n a o n o s e q u e n c e s [
t ti f 1 22
]
. T o ful l y e x
p o
i t l A E fo r e n li a n c e d fe a t u r e l e a r n i n g g r ap h
,
a t t e nt i o n i s c o n s t r u c t e d s i m i l a r t o t h e s t u d y
b y[ 1 23 ]
. T h e g r a p h a t t e n t i o n h e p s t o o b t a i n
l
i n t e r p r e t a b l e r e p r e s e n t a t i o n s o f s e q u e n c e an d s t r u c t u r a l m ot i fs . C o nt r ary t o t h e s t an d a r d
at t e nt i o n m e c h an i s m t h at ui d e s th e m o d e t od er i v e c o n t e x t u a n fo r m a t i o n ra
p h at t e n on
ti
g
l i
g
l
,
u s e s at t e n t i o n p a r a m e t e r s t o g u i d e t h e l e a r n i n g a g o r l i t h m t o fo c u s o n t h e p a r t o f d at a t h a t
un d e r s t a n d i n g h o w t o a s s g n at t e n t i o n b y c o n s d e r n g t h e v o u m e o f av a i l a b l e d at a a n d th e
i
i i l
s t r u c t ur e . M a n fo d r e g u
i l l ar
i z at i o n a n d /2 -
n o r m a r e a d o p t e d t o o b t a i n d i s c r m i n a n t fe a t u r e
i
L o c al
re
p r e s e n a t i o n s a n d m i t i g at e o v e r f i t t n g y p r e s e r v n g p r oj e c t i o n sad o
p e
dt oi mp ro ve
-
t i . i t i i t
e ffi c i e n c
y a n d e x t r a c t t h e m o s t r e p r e s e n t a t i v e i n fo r m a t o n i . T h e m o d e c apt ure s l l o c al i t
y
p r e s e r v i n g an d r e c o n s t r u c t o n c o n s t r a n t s t h at e a d t o b e t t e r g e n e r a
i i l l i z at i o n a b i l it
y . I ns
p i re db y
24 a m it e d m e m o ry B ro
y den F et c he r Go d fa r b S h a nn o L B FG S) op m i z at i o n
- - - - -
1 l i l l ti
[ ] , (
a l g o r i t hm o n t h e L Rc l a s s fi e r i s i m p e m e n t e d P o t e n t i a l i n t e r a c t o n s b e t w e e n I n c R
i l . i N A s an d
p r o t e n s a r e p r e d
i i c t e d b
y i n t e g r at n g C at b o o s t a n d r e g u l a r i z e d L R b a s e d o n t h e L
i
-
BF G S
i th m T h e c o n t r
o p t i m i z at i o n a l g o r i b ut o n s o f . i t he p r o p o s e d m o d e l a r e t w o fo l d ( : 1
)
m u l t i s c al e
g( L L E )r
d i v e r s e i n fo r m a t i o n a n d o c a educe s
fe at u r e e n e r at i o n
pro v d e s n e a re m b e d d i n
g y
i l l l l i
fe at u r e r e d u n d a n c y , (
2)
g
ra
p h at t e n t i o n m e c h a n i s m e a m s a r b i t r a ry c o n t e x t d i s t r b u t i o n s fo r
l
i
b e t t e r nt e r r e t ab i t
p i l i
y
.
49
-
P re d i cti on o f p a nt
l l o n g n o n c o d in g
RNA s nte r
a ct i i onsw i t h p ro te n s b y d e e
p e arn n g
i
l i
4 2 Gr a h b as e d r e d i c t o n m o d e l s
-
p p i
End -
t o
-
end
p
re d i ct i o n m o d e l s a u t o m a t i c a l l y e a r n l a t e nt fe a t u r e s f r o m r a w n p u t d a t a
l i
.
S t u d i e s h a v e fo u n d t h a t a g r a p h a l s o r e fe r r e d t o a s a n e t wo r k i s a n m p o r t a n t d a t a fo r m fo r
i
e x m o l e c u l ar a s s o c i at i o n s T h e h gh e r o rd e r nt e r ac t o n s a n d
re
p r e s e nt n g c o m p gr ap h m o d e
-
i l . l s i i i
t a k e s t o c h a s t c i t y n t o c o n s i d e r at i o n i n a m u l t m o d a l c o n t e x t I t
i i i . i se m
p l o y edi nb o m e d c a i i
l
t a s k s s u c h a s d r u g d i s e a s e i nt e r a c t i o n s -
, P P I s L P I s a n d f un c t
, ?
i o n p re d i ct o n s i . N e t w o rk
re
p r e s e n t a t o n e a r n i n g t h r o u g h L ap l a c i a n e i g e n m ap s a nd m a t ri x fa c t o r z a t o n a m a t
i l i i i
p r e s e r v n g n e t w o r k e m b e d d i n g fe at u r e s s u c h a s d e g r e e
i
, p
o s i t i o n an d n e i g h b o r i n g n o d e s t o
,
a c c u r a t e l y p r e d c t i n t e r a c t i o n s C l a s s i f i c at i o n i s p e r fo r m e d u s i n g s e q u e n c e s i m i l a r
i . i t
yn e t
w o rk
a n d n o d e fe at u r e s T h e a s s u m p t i o n i s t h a t n o d e s w i t h s i m i l a r n e i g h b o r s i n t e r a c t a n d h a v e
.
s i m i l a r f un c t i o n s [ 1 1 7
]
.
A d v an c e s i n d e e p l e ar n i n g
-
b a s e d m o d e l s fo r n t e r a c t i o n p r e d c t i o n n r e c e n t y e a r s
i
i i
i n c l u d eus i n
g g r ap h s
. GNN re
p r e s e nt s t he l e a r n i n g o f b o t h g r ap h
-
s t ru c t u r e d an d s e
q u enc e
d at a
.
(
M P NN )
. G r ap h c o n v o l u t i o n i s a p o w e r f u l a n d p o p u l a r t e c hn i q u e G r ap h c o n v o u t o n b a s e d
. l i
-
m o d e l s a i m a t l e a r n n g s p e c t r a l fi i l terss up p o r t e d b y s p e c t r a l g r ap h t h e o r y . Theme t h o d l e ar
ns
mo l e c u l ar r e p r e s e n t a t i o n s t h r o u g h t h e c o n v o l u t i o n s o n t h e h
g r ap s
. G A T s p e c i f i e s d i ffe r e n t
w e i g h t s t o d i ffe re n t n o d e s an d t h e w e i g h t e d s um o f n e i g h b o r i n g i n fo r m a t i o n i s a g g r e g a t e d
.
M P N N h a s b e e n ap p l i e d i n d i ffe r e n t fi e l d s i n c l u d i n g NP L ,
i m a g e s e g m e n t at o n i
, an d
m o e c u a r a s s o c i a t o n m a p s T h e m o d e l h a s t w o p h a s e s ; t h e m e s s a g e p a s s i n g p h a s e an d t h e
l l i .
re ad o u t
p h as e . T h e m e s s a g e p a s s n g p h a s e t r a n s m i t s n fo r m a t i o n a c r o s s t h e g r a p h t o r e a d
i
i
embeddin
g s T h e r e a d o u t p h a s e c o m p ut e s a fe a t u r e v e c t o r fo r t h e g r a p h u s i n g a r e a d o ut
.
fu n c t i o n t o m o d e l t h e fe a t u r e s o f i nt e r e s t
.
H u ange t a l .
p
ro
p o s e d a g ap
r h c o nv o l ut i o n fo r I n c R N A m i R N A n t e r a c t o n s n a m e d G C L M I -
i i
[
1 25
]
. G C L M I i sd e s i
g n e d a s a n A E w i t h a n e n c o d e r a nd d e c o d e r fo r p r o c e s s i n g t h e r a w
fe a t u r e s o f t h e n o d e s o n t h e g r a p h Z h o u e t a l p r o p o s e d a h e t e r o g e n e o u s ba s e d n e t w o r k
. .
-
m e t h o d fo r L P I [ 5 9 ] . T h e m e t h o d u s e s o n y n e tw o rk s m l i i l ar i t
y and n o t s e q u e n c e n fo r m a t i i on
.
Y an g
e ta l .
p
ro
p o s e d a g r a p h e mb e d d i n g m e h o d fo r h e p r e d i c t i o n o f P P I s [
t t 1 26] . Them et ho d
em
p o y s a s i g n e d v a r i a i o n g r ap h A E b u i l t u s i n g p r o t e i n s e q u e n c e i n fo r m ati o n T o ac hi e v e a
l t .
b e t t e r e x p r e s s i v e c ap a b i l i t
y o f n o d e s i n G N N s at e nt i o n m e c h an i s m c an b e n c o rp o r at e d b y
,
i
as s gn n
g t r a i n a b e w e g h t s i n t h e a g g r e g at o n o f
i i l i i t h e n o d e s a s i m p e m e nt e d b y G A T l . Then t he
w e i g h t s c a n d i re ctl
y b e r e p r e s e n e db y at t e n t i o n c o e ff i c i e n t s t o g i v e n t e r p r e t a b i
t i l i t
y T he
.
i n t e r p r e t a b i l i t y i s a p r o p e r t y s u i t a b l e fo r d e v e l o p m e n t o f m o d e l s t h at c a n b e a p p l i c ab l e t o
re a l w o r l d s c e n a r o T h e at t e n t i o n m e c h an i s m l o w e r s t h e c o m p e x i t y o f t h e m o d e t h e r e b y
-
i .
l l
a c h i e v n g n t e rp r e t a b
i i i l i t
y
.
50
-
-
Da l i an Un i v e rs ity o f Te ch no l o gy
Doc t ora l D i s s e r t at i o n
4 3 S e q u e n c e a n d s t r u c t u r e fe at u r e s e x t r a c t e d b y g r a p h att e n t i o n n e u r a l
.
n e t w o rk
T h e p o t e n t i a l L P I sarec o m
p u t e d u s n g a r e g u l a r z e d g r ap h at t e nt i o n n e u r a l n e t w o r k
i
i
m o de l . T r a n s fo r m a t i o n m e th o d s ar e u s e d t o e n c o d e I n c R N A s e q u e n c e s fr o m nu c l e o ti de s{ A
,
U C G } an d
, , p
ro t e i n s e q u e n c e s fr o m 2 0 t y p e s o f a m i n o a c d s { i A C D E, , ? ,
F , G H , ,
I
?
K L , ,
M
,
N , P Q R
? , , S
T ? , V , W Y } ,
i n t o num er cve c t o r s i . Bes i de s , str u ct u r a fe at u r e s f r o m
l
p re di c t e d
sec o n d a r y s t r u c t u r e s fr o m I n c R N A a nd p r o t e i n s e q u e n c e s a r e i n c l u d e d . T hepr op o s e d m e th o d
a s s u m e s t h a t f u n c t i o na l l y s i m i l a r p r o t e i n s i nt e r a c t w i t h s i m i l a r n c R N A s I . B a s e d o n th i
s
c o nc e
pt , t h e t ar g e t n c R N A p r o t e n p a r t n e r s a r e p r e d c t e d
I
-
i i . T h e fe at u r e v e c t o r o f m I n c R N A s
, /^ }
? l
i nt e r a c t i o n b e t w e e n I n c R N A / ; a nd p r o t e i n pj d e n o t e d a s y ( l h pj)
i sas s i
g n e d 1 fo r i n t e r a c
ti on
a n d 0 fo r n o n
-
i nt e r a c t i o n E a c h I n c R N A p r o t e i n s am p l e
.
-
i sd e s c r i b e dasa5 22 -
d i m e n s i o n a l
v e c t o r a s fo l o w s l
:
F
=
(
L (l
J ,
P ( Pn )) (
4 . 1
)
d i m e n s o n a fe a t u r e v e c t o r a n d P ip n ) i s a 3 4 7
i l
-
dime ns i o na
l
fe a t ur e v e c t o r . T h e fe at u r e v e c t o r o f n c R N A ( L { l m ) ) I i sc o m
p o s e d o f 6 4
-
d i m e n s i o n fr o m
FC GR , 1 0 6
-
d i m e n s o n fr o m k m ox ( 6 4 fr o m t r i n u c e o t d e
i
-
l i
,
3 2 fr o m
g ap p e d A :
-
m er 5
a nd 1 0 fr o m
reve rs at ur e s
ec o m
p l e m e nt ) , a n d 5 s t ru c t u r a l fe
.
1(
4 ,
)
=
(
,
1
,
,
2
,
“ " ,
1 7 5 ) (
4 2)
-
T h e fe a t u r e v e c t o r o f p r o t e n ( P (p
i
f 1 ) )
i sc o m p o s e d o f 3 2 0 B P F s fr o m p r o t e i n s e q u e n c e s
an d 2 7 s t r u c t ur a l fe a t u r e s r e p r e s e n t e d a s fo l l o w s
:
P P { n )
=
i Pv P2 ^
-
PM l ) (
4 - 3
)
T h e m a n p r o c e d u r e foi l l o w e d b y t h e p r o p o s e d m e t h o d i s s um m a r i z e d a s fo l l o w s f i r s t :
,
s e l e c ti n gp o s i ti v e an d n e g at i v e e x a m p e s l
, t h e n e xtr ac t n gc o m p
,
i l e x fe at u r e s , an d f n a i l l
y
bu i l d n g t h e m o d e l t o p r e d i c t L P I p a
i i rse ffe c t i v e l y . F C G R A ,
:
-
m er , a n d R N A F o d ( fo r
l
p r e d i c t i n g s e c o n d a r y s t r u c t u r e ) a r e u s e d t o e x t r a c t fe a t u r e s fr o m p r o t e i n s e q u e n c e s G r ap
h .
at t e n t i o n L S T M AE -
i s u s e d t o l e a rn h i
gh
-
l ev e l ab s tr actre
p r e s e nt a
ti ons . I nt hee n c o d e r ,
L S TM
i s u s e d t o r e a d th e i n
pu
ta n d e n c o de i tt o a fi x e d d i m e n s i o n a l v e c t o r . Ano t her L S T M de c o d e s
h e o ut
pu
h e v e ct o r Mu e r si n c l u d i n
g RF c at b o LR an d XGB ar e ste d
of te
t
p ec as s fi o st
t t l ti l l i
.
, , , ,
T oe x p p e c l a s s i f i e r s t h e L R w
t o f nd t h e m o s t a c c u r at e
i . l o i t t he s t r e n g t h o fm u lti l i th
,
B ro y d en F -
l e t c he r
-
Go l d fa r b -
S h a nn o ( L B F G S )a g o r
-
l i t hm a n d c a t b o o s t a r e c o m b i n e d fo r
5
-
-
1
P re d i ct i o n o f
p
l a nt l o n
g n o nc o d ng
i
RN A s i n t e r ac t o n s w i i t h
p ro
te i n sb
y
d ee
p e a rn n g
l
i
non -
tr a n a b e m e t h o d t o o u t p ut L P
i l I m at r x M i
/
. T h e p r o p o s e d m e t h o d i ss h o w n nF g i i . 4 . 1
.
Pr ed i c t i on
r i
j
S D
ee e a r ni n mo de
mc
l l
I f e
q
uenc eS t t ura l fe a t ur e s ! p g
|
!
b c R NA P ro t
on
A
'
n c R NA
!
s e uenc e
I
q ;
I
1 n 0
I
. . . 0 1
!
I !
上丄丄二丄 ^
C
A C W A C G C U G AA T
.
. . . …
+ :
「
[ J UU U C A C A A
I
丨
|
I
;
C GC l: … C GCU D
!
^
i
二 二 二 二 二
|
丨
i
m
? ?
Y
?
Pro t e s e ue n c e 〇 〇 0 1
q |
j
斗
M M K …N Q S PYP T
Q VA … 丨
I ncR A Pro t e i n
;
!
j
_
s tr u c ture
^ s tr uc u r e c t
? !
;
!
h / c h |
j !
C l a c au on
|
J ; !
a l
go
r i t hm
;
F g 4 F o w c h arto f h ep r o
p o s e dm e t h o d
i . . 1 l t
4 3 1 G r a ha t t e n t o nn e t w o r k
p i
. .
D e e pn e u r a n e l t w o r k s n c re m e n t a i l l
y l earn h i
gh
-
l e ve l a b s t rac t fe a t u r e s a o n g w l i t
h
mu l t i
p
l e a y e r s I nt h
l . i ss t u d y t heL S ,
T MA Ew i t h
g
ra
p hat t e n t o n i i si m p e m e n t e d( F g 4 2 )
l i . .
.
B ys t a c k i n g a y e r s l
, t h en e t wo r k r a v e r s e st
t h e l en
g
t ho f t h ek e r n e t o l l e a r nm o r el o c a s p a t a l i
l
dur n
g r a n n g
t i i i
, c au s i n
g
t h e m o d e l t o o v e r f i t an d h a v ep o o rg e n e r a l i z at i o na b i l i t
y . Th i
s
b o t t e n e c k l i sm i t i
ga ed
t b y i m p o s n g c o n s t r a n t s o n t h e n e t w o r k t o r e m o v e r e d u n d a n t
i i
co n n e c t o n s an d u n n e c e s s a r yn e u r o n s t h r o u g h re g u a r z a t o n
i l i i . /
2
-
no r m a n d m a n fo d
i l
re
g u a r z a t o na r e m p
l i i i l e m e n t e dt o p r o m o t e s p a r s i t
y fo r t h e n e u r a l n e t w o r km o d e l . T h e/2 n o r m
-
c o n s t ra nt i i saw e i
gh t
-
p a ram e t ers . M a n i fo l
d
re
g u a r z a o n
t l i i i s i m p o s e do nt h eo u t p u to fth en e u r a l n e t w o rkm o d e l t h ro u
g
h
l oca l i t
y
-
p
re s e rv n
g i
c o n s t ra i nt s . O t h e rr e g u l a r z at i i o nm e c h a n i sm s i mp l e m e n t e d n c u d e
i l
dro
p o u ta n
de a r l
ys t o p p n g
i . T h eL S T Ma r c h i t e c t u r ec o n s i s t so f r e c u rr e n t l
y c o n n e c t e dn e u r o n s
ca l l ed m e m o r y c e l l s . A m e m o r y b l o c k i s c o m p o s e d o f n p u t i
, o u t
p ut , a n d fo r g e g a t t
e
mu c at i v eu n 2 7 ] I n t h e L S T M e n c o d e r i n p u t fr o m t h e e m b e d d n s fe d nt o
g a ye
t t s 1 r
l i
p l i i
[
.
,
i l i i
a c k e d a y e r s t o o n s t h a t a r e fo r w a r d e d t o t h e g r a p h b a s e dat t e n t o n
st
g e n e r a t e r e p r e s e n t a t
-
l i i
l ayer . T h i sr e
pre se n a
t t o n i i st h e nd e c o d e dt h r o u
g ha nL S T M l a y e r t o r e c o n s t r u c t t h e n
p ut
i
A s e
g h / c a nb e re p r e s e n e d a s
se
q uenc e q u e nc e
So f e n t . t S ={入 l
丨 丨
,
? ? ?
? }
, wh e re入 ,
i st he
52
-
-
Da l i an Un i v ers i t
y of
Te c h n o l o gy D o c t o r a l D i s s e rt a t o n
i
a s fo l l ows
:
h
f
-
ls t m{h
n
c
n
s
f
) (
4 4 ) .
p res en
w h e r ec i st h ec e l l . I i . .
,
. b r e t s i i as
a ° °
p
aram e t e rs ; b fo r t h ea t t e n t o n a y e r i l
, a n dW ,
b f o rth eL S T Md e c o d e r
.
G
'
h a ttenti on
O
ra
丨
*
p
'
'
m
! 〇 ^ i ! Tn s
f
〇 i 〇
I
£ m b e d d ic
Q Q
、
/ ■
|
一
;
|
|
|
丨
J i
: rr
」
En co d er D e c o d er
F i
g
. 4 . 2G r a
p h
A t t ent i o n Neu ra l n e t w o r k a r c h i t ect ure
T h ee n c o d e r i n m y m o d e l i s m u l t i l a y e r e d t o n c r e a s e l e a r n n
gc ap a b i i i l i t
y T h e n u m b e r o f
.
a y e r so f t h ed eco de ri ss m a rt ot h o s eo ft h ee n c o d e r T h eg r a h a tt e n t o n a i l a
ye rex p l i c i t l
y
l
p
i i l . l
as
g n s
d ffe re n t m p o r t a n c et on o d e sw h nan e i g h b o r h o o d t hu s l e v era
g i n gs e f a t e n o na -
s i i i i t i ,
t t l i
l
l a
y e r s I nt e g r a e s g r a p h s r u
t .t ti c t u r ea n dn o d e
-
l eve l fe a t u r e s b y w e g h t n g n e g h b o r fe a t u r e i i i
s
[
1 2 8
]
. L e tas e
q
u e n c ese St h ath a sb e e n
p
a s s e dt h r o u
g ht
h eL S TM
l a y e r b e t h e n fo i r m a t o n fr o m n e g h b o r s o f n o d e s n t h e s e q u e n c e A n a t t e n t o n m o d u e A
i i i . i l i
s
u s e d t o g a t h e r o c a l l i n fo r m a t o n fr o m t h e n i e i
g hbo
rs o f T h eg r a p h at t e n t o n a y e r
i l
e e n t e d b
y fo m u a4 5 su s e dt o o d u c e t h e h i d d e n r e p r e e nt a t i o ns
p re
r s r r s
p
l . i
.
k y
A =
a t te n t i on^ x Wq ^
x W 9
x f V ) (
4 . 5
)
m e n s o n a fe a t u r e v e c t o r r e p r e s e n t e d b y F n F o V a n dW
1
w h e r ex i s a c/
-
d i i l i r m u a( 4l . 1
) , I ,
a r e t h e at t e n t i o nw e g h tm a t r i i c es . A tt e n t o n w e g h t m e a s u r e s t h e a s s o c a t o n o f a r e a t o n kn t o
i i
i i l i
l o s s c a c u a t e d fr o m t h e d ffe r e n c e b e t w e e n t h e t a r g e t s e q u e n c e a n d t h e p r e d c t e d s e q u e n c e
l l i i
.
G i v e n x n p u t a n d i xe x p e c t ed o u t
pu
t
, t h e o b e c t v e o fth e tr a n n
j g
i i i
i s t om n m i i i ze
L ( x夕>
|
|
x
-
i
| 「 (
4 6)
.
5 3
-
-
P re d i cti o n o f
p l an t
l o n g n o ac o d n g
i
RN A s i n tera c ti o n s w i t h
pro
te i ns b y d e ep
l e ar n i ng
T h e hi n g e o s s l i s u s e d t o m i n i m i z e t h e r e c o n s t r u c t i o n e rr o r . T h e l o s s f un c t i o n p e n a l i z e s
i n c o rr e c t a nd l e s s c on f i d e n t p r e d i c t o n s
i
,
i ti sd e i n e d a s fo
f l l ows
:
o ss y^ m ax 0
乂
*h
x 4 7)
-
l l
 ̄
( ,
0 ( ,
) ) (
whe r e i s t h e l ab e l s sthei n p u t fe a t u r e v e c t o r A pp he
,
x t
i
, h (
x / )
i sth e
p re d c t i o n i . l i c at i o n o f t
at t e n t i o n m e c h a n i s m fo r c e s t h e m o d e t o e a r n t h e m o s t m e a n i n g fu l i n fo r m a t i o n i n t h e
l l
n e g h b o r s a n d o c a l e nv i r o n m e n t
i l . Th i s h a s p e r fo r m a n c e g a i ns fo r t h em o d e l . The
h y p e r p a r a m e t e r s t h a t w e r e o p t i m z e d fo r t h i s t a s k d u r
i ng t he t ra ni n g o f i i t h e m o d e l i n c l ud e 厶
re
g u a r z at i o n l i
, l e a r n i n g r at e , d i m e n s i o n o f t h eh i d d e nl ay ers , d i m e n s i o n o f th e c l a s s i fi e r , an d
t h e num b e r o f a t t e n t i o n h e a d s
.
4 . 3 . 2 C l a s s i fi e r c o n s t ru c t i o n
c o n s tru c t e d . P ar am e t e r s o f t he c as s l i fi c at i o n a l
gor i t h m s ar e o p t m z e d a n d t h e p e r fo r m a n c e o f
i
i
t h e c a s s i f i e r s a r e c o mp a r e d w
l it ho th era g o r l i t h m s o n t h e s a m e d at a s e t T h e n t e r m e d a t e
. i i
re
p r e s e nt at i o n o f d at a i s d o n e t h r o u g h fe a t u r e e x t r a c t i o n m e t h o d s t o e n a b l e c l a s s i f i c at i o n
a l g o r i th m s t o p r e d i c t o u t c o m e s A fe a t u r e v e c t o r o b t a i n e d f r o m fe a t u r e i n t e g r at i o n p r o v i d e s
.
c om
p l e m e nt a r y i n fo r m at i o n t h at n c r e as e s a c c u r a c y an d r o b u s t n e s s
i . F e a t ur e f u s o n m ap p i n g i i
s
a c h i e v e d b y m a th e m at i c a y c o mb i n i n g F C G R k mer b i n a r y p r o f i l e , a n d s t r u c t u r a l fe a t u r e s
-
l l
.
, ,
F C G R e x t r a c t s e v o l u t o n a r y i n fo r m at o n b y c o un t n g th e A m e r s i i i :
-
i . e . w -
t up l eo rw
-
g r am o
f
n u c l e i c a c i d o r am i n o a c i d s e q u e n c e s [ 1 22
]
. U n l i k e o t h e r s e q u e n c e a n d s t ru c tu r e e n c o d i n g
m e t h o d s s u c h a s F o u r i e r T r an s fo r m a t i o n , F C G R ge n e ra t e s fr ac t a l s fo r v i s u a l e n c o d i n
g The
.
fo u r R N A n u c l e o t i d e s ar e r e p r e s e n t e d b y r e c t a n g u a r c o o r d i n at e s ( A l :
-
1
,
1
, C ;
-
l
9
-
l
, G : l
,
l an d
U : l
5
-
1
)
. T h eC GR p l an e i s p ar t i t i o n e d i n t o a p r o b a b i l i t
y m at r i x o f 8
><
8
g
r i d s fr o m w h i c h t h e
a v e r a g e c o o r d i n at e s o f e a c h g r i d a r e c a l c u a t e d T h e m at r
i x l . i sre s ha
p e d toa 6 4
-
d i m en s i o n al
fe a t u r e v e c t o r T h e L L E i s a d o T h ec o nc e
.
p t e d t o r e d u c e t h e fu s o n m ap p n g d m e n s o n i i i i .
pt o f
L L E a ,
l i n e a r m a n i fo l d l e a r n i n g a g o r i t hm l
,
i s t o e x t r a c t r e l e va nt c o r r e l a t i o n i n th e fe a t u r e
s
p a c e r e t ai n v ar i a b i l i t y a n d d i s r e g a r d
, ,
i rre l e v a n t fe a t u r e s . I t e x t r a c t s nt r n s i i i c s t ru c tu r e
,
p r e s e r v e s t h e n e i g h b o r h o o d c o r r e at i o n l
, a n d s y m b o l i z e s a l i n e a r e s t i m at i o n o f t h e n o n l i n e a r
l 1
[
.
i
?
X2 ?
. . .
?
xn ] . E a c h t r a n n g s am p i i l ei sd e n o te da sx , w herei
=
1 ,
2 5
. . .
3
? 5 s e ek^ ne a r e s t n e i g h b o r s
an d r e p r e s e nt t h e m a s a m a t r i x j o f n ^ k d i n e n s i o n s i . T he s e l e cte d fe at u r e s e n h a n c e
j
i c at i o n T w o c l a s s i f
c l as s i f i e rs .
,
L R a n d c a t b o o s t a r e n c o r p o r at e d i . F o r th e L R a g o r i t hm l
,
i ts
B F G So pt m
'
5
i m p l e m e n t at i o n w a s d e p e n d e n t o n t h e L -
i i z a t i o n a l g o r i t h m u s e d a s th e so l ver
p a r a m e t e r a n d o t h e r u s e r d e f i n e d p a r am e t e r s s u c h a s m u
-
l ti c l as s . F o r c a t b o o s t a g r a d i e n t ,
b o o s t i n g a g o r i t h m t h e i m p l e m e n t a t i o n w a s b a s e d o n p ar a m e t e r s s u c h a s i t e r a t i o n s d e p t h
l
, ,
,
l e a rn i n
g r at e , a n d l o s s fu n c t i o n . Th em o d e l s i t e r at i o n p a r a m e t e r i s u s e d fo r i t e r a ti v e tr a i n i n g
5 4
-
Da l i an U n ve r s ity o f
i
T e chn o l o gy D o ct o r al D i s s e r t at i on
o f n l e a r n e r s t o r e d u c e p r e d i c t i o n e rr o r T h e o u t p ut fr o m t h e t w o c l a s s i f i e r s i s c o m b i n e d b y
.
m aj o r i t y v o t i n g T h e i m p l e m e n t at i o n s t e p s fo l l o w e d b y t h e p r o p o s e d m o d e l a r e s u m m a r z e d
.
i
i n A l g o r i thm 4 . 1
.
A l
gor i t hm 4 . 1
p
s e u d o c o deo f G P L P I
In
put
:
L { lm ) : s eto f m I nc R
NA s e qu en c e s
P pn )
{ ; s eto f n
prot e i n s e que nc e s
T : n um b e r o f s t a c ked Au t o E nc o d e r s
R : nu m b e r o f i t e r at i o n s ( e p o c h)
Wa ,
ba \ at t e n ti o n p ar am e t e r s
O u tp u t
:
P re d i c t e d L P I m at r i x
=
S t e p1 I nit i al z e t r a i n i n g e x a m p l e s l a b e l s (y ( l b 0
: i
Pj ) )
;
F o r? =
1t o T do
For oRd o
=
r lt
M i n i m i z e t h e r e c o n s t r u c t i o n e rr o r u s i n g fo r mu l a ( 4 6 ) .
End
End
G e ne ra t eI n c R NA a nd p r o t e i n fe a t u r e d e s c r i p t o r s
S t ep 2 : F ne i
-
t un e t h e a r c h i t e c t u r e
d o
*
F o r/
=
1 t o7
For oRd o
=
r l t
M i n m z e t h e h i n g e l o s s u s i n g fo r m u l a ( 4 7 )
i i .
E nd
C o m p u t e fe a t u r e s F  ̄
{
L Qm ) ,
P { pn ) )
E nd
U pda t etr ai n i n g e x am
p e s iy i l ^
l
pj) )
Step 3 : P re d i c t c l a s s l ab e l s o f t h e t e s t d at a s e t b a s e d o n e n s e m b e v o t i n g
l
4 3 3 I m l e m e nt at i o n a n d a r am e t e r s e t t i n g s
p p
. .
I n t h i s w o rk , a d e ep l e ar n i n g m e t ho d t e rm e d G PL P I i s
p r o p o s e d a n d u s e s Z e a m ay s a n
d
油 似 d at a s e t s fo r e v a l u a t i o n S e q u e n c e a n d s t r u c t u r a fe at u r e s a r e c o m b &
.
l
fo r t h e
p re
d c t o nt a s k
i i . T h e h gh i
-
l e v e l a b s t r a c t fe a t u r e s a r e e x t r a c t e d u s i n g t h e DL m o d e land
fe d a s t h e i n p u t fo r t h e c l a s s i f i e r T e n s o r F l o w l i b r a r y i s u s e d fo r i m p l e m e nt a t i o n F o r t h e
.
.
ar c h i t e ct u re L S T ,
M i ss e l e c t e d fo r t h e e n c o d e r a n d d e c o d e r C h o o s i n g p a r a m e t e r s t h at s e e k t o
.
i ndg o b a o p t m a
f l l i i sas i
g n i f c a n t p a r t o f t h e m o d e l t r a n i n g p r o c e s s T h e p a r am e t e r s an d
i i
.
5 5
-
P re d i ct i o n o f
p
l antl o n
g n onc od ng
i
RN A s i nt e r ac t o n s w i i t h
p ro
te i n sb
y
dee
p earn n g
l i
h y p e r p a r a m e t e r s fo r t h e p r o p o s e d d e e p l e a r n i n g m o d e l ar e s e l e ct e d af
t e r an e x t e n s i v e s e a r c h
fo r o p t i m a l c o m b i n at i o n s o f
p a r a m e t e r s s u c h a s t h e ac t v a t o n f u n c t i o n i i
,
t h e n umb e r o f h d d e n
i
l a y e r s a nd t h e o t i m i z e r I n t h i s e x p e r m e n t
,
p . i
, Re LU i s u s e d a s the a c t i v at i o n fu n c t o n i
, A d am
a s t h e o p t i m z e r a n d h n g e a s t h e c o s t f u n c t i o n T h e R e L U a c t i v at i o n f un c t i o n m a n t a i n s a
i
,
i
. i
h a s a n m p r o v e d ab i i l i t
y t o h and e no l i s eb
y c o m
b nin
g ro o
i t m e a n s
q u ar e p r o p a g a t i o n
(
RM S P r o p )
o p t i m z at i o n a s a g r a d i e n t d e s c e n t a n d
i A d ap ti v e G r ad i e nt ( A d a gr a d ) a l g o r i t hm s
[
1 3 0] . T he m o d e l l e am s t h e w e i g h t an d b i a s p ar am e t e r s d u r
ing trai n i ng . Th e l i st o f
hy p e r p ar am e t e r s r e p r e s e n t i n g t h e e x t e r
na l c o n fi g ur at o n s i
, s u c h a s t h e n umb e r o f h d d e n a y e r s
i l
a n d a c t v at i o n f u n c t i o n fo r t h i s p r e d i c t i o n t a s k s r e
p o r t e d i n T a b 4 Th es c k e a rn
-
i i . . 1 . i i t l
p ac k ag e w a s u s e d t o m p l e m e nt t h e c l a s s i f c at o n a g o r
i i i l i t hm s
.
T ab . 4 . 1 P a r am e t e r s e tt i n
g s u s e d fo r G P L P I m e t h o d
Ac t i v at o n i ReLu
We i
gh t n i i t i a l i ze r G l o ro t n o rm a -
l
We i
g h tre g u a r ze r
l i
h
E p o c h 1 00
B at c h s i ze 50
D ro p o u t 0 5 .
,
0 6 .
,
0 7
.
Op t i m ze r i Ad am
L o s s fu n c t o n H i i n ge
L e a rn i n g r at e 0 5 .
,
1 . 0 ,
2 0
.
4 4 . . E xp e r i m e nt a l re su l t s an dd i s c u s s i o n
T h e p e r fo r m a n c e o f G P L P Ii s e v a l u a t e d u s i n g t w o d at a s e t s F i g .
. 4 3s ho w st h eo v e ra l
.
l
fi ve fo l d c r o s s v a l i d a t i o n r e s u l t s o f G P L P I o n t h e t wo d a t a s e t s A r a b dop s s t h a l i a n a a n d Ze a
- -
i i
,
m ays . GPLP I
p e r fo r m e d b e t t e r o n t h e Ze a m ays d a t a s e t b e c a u s e t h e s i z e o f t he d at a w a s m o r e
h a n t h a t o f A r a b i dop s i s t h a l i a n a Th e h o d o b ta n e d 8 5 7 6 % ac c u r a c y 42 %
ro
p o s e dm e 8 8
t t
p
. i . .
p re c i s i o n , 8 2 4 . 1 %s e n s it i v i ty 8 8 9 7 % sp e c i f
,
. i cit
y , 7 1 . 7 1 %M C C ,
9 L 1 3 % A U C ? an
d9 3 4 * 1
%
a ^o
A U P R C o n j r Z
/
^ 妨 d at a s e t ? 丁 hem e tho do bt a n e d9 i 1 . 97 % ac c ur a c y , 9 2 2 0 %
.
prec i si o n 9 ,
1 . 70 %s e ns it i v i t
y 9 2 2 4 % sp e c i f c ity
,
. i
, 8 3 . 94 %M C C , 9 7 . 76 %A U C , a nd9 7 . 94
%
A U P R C o n Ze a m ays d a t a s e t T h e p r o p o s e d m e t h o d o b t a n e d a c c u r a c y w i t h a s t a n d a r d
.
i
d e v i at i o n o f 2 0 5 a nd 0 44 fo r t h e A r a b i dop s i s t h a l i a n a a n d Ze a m ay s d a t a s e t r e s p e c t v e y
. .
,
i l
.
56
-
Da l i an Un i ve rs i t
y o f T e c h n o o gy D o c t o r a
l l D i ss e rt at i on
pre
d ct o n
i i . Th i s i n fo r m a t o n w h e n u s e d fo r c
i l ass i i c a t o n p r o d u c e d g o o d r e s u
f i l t s
.
1 0 0
-
I
T
|
1 1
I
I
i r
I
f |
n
I
I
”
:
:
I
J m ?
o
A CC P R E S E N S PE M C C ALX :
E va l u at i on I vl e t r i c s
4 4 . . 1 Ab l at i o n s t u d y
T h e p r o p o s e d m o d e l e xt r ac t se ffe c t v e s e
q u e n c e a n d s r u c u r a fe a u r e s w h
i t t t l
,
i c h a r e fe d a s
i n p u t fo r t h e n e u r a n e t w o r k a g o r i t l l l i m T o v e r fy t h e c o n t r b u t o n o f t h e fe a t u r e e x t r a c t o n
. i
i i i
m e t h o d s a n a b at o n s t u d y
, l i i s
p e r fo r m e d b y t e s t n g d ffe r e n t s e t t n g s T h e b a s e i i i . l i n ec l ass i f
i ers
g r a p h b a s e d fe a u r e e x r a c
-
t t t o nm e t h o d i
, F
C GR , k
-
co n t r b u t e t o m o d e e ffe c t v e n e s s T a b 4 2 s h o w s t h e r e
i l i . . . s u l t so ft h ed i ffe r e n t fe a t u r e
g r o up
s
.
T h eh i
g
h e r v a u e r e p r e s e n t s a b e t t e r p e r fo r m a n c e fo r t h e e v a u a t o n m e t r
l l i i c s
.
Tab . 4 . 2 P e r fo r m a n c e c o m
p a r i s o n s o f d ffe r e n p r e d
t i i c t o r so n d ffe r e n t fe a t u r e g r o u p s o n Z e a
i
m ay s d a t a s e t
 ̄  ̄
^
L R F C G R 7 4 . 07 5 3 . 5 8 94 . 5 5 0 . 5 2 8 0 .
8 1
5
C at b o o s t F C G R 7 4 . 02 5 2 . 79 9 5 . 2 6 0 . 5 3 3 0 . 843
D P LP F C G R I 7 4 0 7 5 3 . . 5 8 94 .
5 5 0 . 5 28 0 . 8 5 6
D P L P F C G R + k m e r 9 2
I . 2 8 92 40 . 9 1 . 42 0 . 83 2 0 97 8
.
DPLP I F C G R + k m e r+ S S 9 1 . 97 9 1 . 70 92 24 . 0 . 8 3 9 0 . 97 8
5 7
-
-
Pre d i ct i o n o f p ant o ng n o n c o d i n g RN A s n t era c t i o n s w i t h pro t e i n s b y d e ep e a rn n g
l l
i
l i
F r o m t h e re s u l t s in T ab . 4 2 the
p
ro.
p o s e d m e t h o d y i e l d s t h e p e r fo r m a n c e o f a c c u r a c y
,
(
A C C 9 )
1 . 97 % , w h e n s t r u c t u r a fe a t u r e s a r e n c u d e d w h l i l i c h i s s l i g h t l y l o w e r t h a n w h e n
F C G R a n d ^ m e r a r e u s e d Wh e n F C G R -
.
? A :
-
m e r a n d s e c o nd a r y s t r u c t u r a l fe a t u r e s ( S S ) a r e
?
c o m b i ned , t h e p e r fo r m a n c e m p r o v e d b y a p p r o x m a t e y 1 i i l 7 % i n t e rm s o f a c c u r a c y a n d
n c r e m e n t n p e r fo r m a n c e w h e n s t r u c t u r a fe a t u r e s a r e a d d e d t o F C G R a n d ^ m e r w ha n
-
i i l i t
a p p r o x m a t e l y 0 8 % i n c r e a s e i n s p e c i f i c i t y and M C C w h i l e AU C i n c r e a s e s b y a p p r o x i m a t e y
i .
l
0 03 . % . T h e p e r fo r m a n c e m p r o v e d n t e r m s o f i i e ff i c i e n c y w h e n t h e m a n i fo l d r e g u a r i z a t i o n i s
l
O v era
’
p h at e n t o n o s sf
em l oye d l l t h e p r o p o s e d m e th o d s
g
ra i l ii n ct i o n an dre
g
u ar z at o n
l
i i
p
.
, , ,
e ffe c t i v e l y i m
p ro v e
t h e m o d e l p e r fo r m a n c e
.
4 4 2 C o m p a r i s o n o f d i ffe r e n t c l a s s i f e r s
. .
i
S x c a s s c m ac hi n e
i l i
-
l e arn i n
g a go r
l i t hm s a r e t e s t e d i n c u d i n g L R l
, c at b o o s t ,
RF ,
XGB , a nd
DT R an d X G B m o d e
5
. T h e m o d e l s w e r e t r a i n e d o n t h e Z e a m ays d a t a s e t L . l s o u t p u t w a s
o b s e r v e d t o b e t h e b e s t p e r fo r m n g m o d e i l i n t e rm s o f AU C . L R wa s c o m b i n e dw i t h c at b o o s t
t o c o n s t r u c t t h e pr o p o s e d m o d e l . GP LP I w a s s g n fi c ant y b e t t e r t h a n
i i l t h e oth e r m et ho d s i na l l
t h em et r c s a s s h o wn i n T ab 4 3 T h e v a l u e s i n t h e t a b l e r e r e s e n t t h e m e a n a nd s t a n d a r d
i
, p . . .
d e v i at o n o b t a ne d b y th e s i x m e t h o d s o n
i i t h e Ze a m ay s d at a s et . T he m o d e l
y i e l d e d a n av e r a g e
a c c u r a c y o f a p p r o x i m at e l y 4 % b et e r t h a n t h e o th e r m e th o d s . F i
g
4 4
.
p
re s e n t s th e f
. i ve -
fo d
l
c ro s s
-
va l i d at o n re s u i l t so f G PLP I
,
LR , c a
t bo o st ,
RF X G B , , a n d D T n t h e fo r m o f b o x p o t s fo r
i
l
t h e Z e a m ay s d at a s e t T h e b e t t e r p e r fo r m a n c e . i s a t t r i b ut e d t o th e e n s e m b l e o f d i v e rs eb a s e
t h em a o r
j
i t
y
v ot i n g
nt e g r a
i ti o n i s e ffe c t i v e . W h e n t h e d ffe r e n c e b e t w e e n t h e c l a s s
i i f e r s
i i
s
s ma t h e c l a s s i fi c at i o n e rr o r d e g r a d e s t hu s i n c r e a s i n g
t he e r fo r m a n c e T h i s i n d i c a t e s t h a t
p
l l .
, , ,
T ab . 4 3 P e r fo r m a n c e o f
. t i s o n w i t h o t h e r m e t h o d s o n Ze a
he p r o p o s e d m e t h o d i n c o m p ar
m ays d at a s e t
 ̄  ̄  ̄  ̄  ̄
 ̄
Me t hod AC C % ( )
±S D P RE ( % )± S D S EN ( % >t S D S PE( % )± S D M C C 士 S D A U C 士 S D
 ̄  ̄
 ̄
G P LP 9 I 1 . 9 7 士 0 4 4 9 2 2 0± 0 3 0
. . . 9 1 ?7 0 ± 0 6 9 . 92 . 2 4士 0 3 5 . 0 . 8 3 9± 0 0 0 9 . 0 9 7 9± 0 0 0 2
. .
L R 8 8 . 1 4 士0 . 5 8 8 8 . 4 2 土 0 7 2 8 7 7 9士 0 9 . . . 1 8 8 . 5 0± 0 7 3 . 0 . 7 63 ±0 0 . 1 2 0 . 9 5 8±0 003
.
RF 8 5 . 4 3± 0 6 3 8 . L3 0± 1 . 1 8 8 6 . 5 0士 0 7 0 . 8 0 . 0 9± 1 . 4 6 0 6 6 7土 0 0 . . 1 2 0 . 9 1 2士 0 0 06
.
X G B 8 8 . 5 4± 0 . 5 5 8 6 . 8 7± 0 6 7 _ 90 . 8 1
士0 . 82 8 6 . 2 8 土0 7 0 . 0 . 7 72士0 0 . 1 1 0 . 96 1
士0 . 003
D T 7 5 . 6 9土 0 8 4 . 7 5 . 7 0± 1 . 39 7 5 . 7 1
士 0 4 8 7 5
. . 6 7士 1 . 68 0 . 5 1 4士 0 0 .
1 7 0 . 7 5 7士0 0 0 8
.
*
S Dre re s e n t ss ta n d ardd ev i at o n
p
i
.
5 8
-
-
Da l i a n Un i v e rs i t
y o
f T e c h no l o gy Doc t ora l D i ss e rt at i on
rx fffff
1
^ hi
40 K
-
i
9
-
£
2 〇
'
D T XG B R F C a t b o o s LR G P L P t
f
F g i . 4 . 4A c c u rac
yc o m p a r
i s o nb e t w e e nG P LP I a n do t h e rc l ass i f i e r s o nt h e Ze a m ay s d a t a s e t
4 4 3C o m ar s o n o f d ffe r e n t d e e p e a r n n g m e t h o d s
p i i
. . l i
pro
t e i ns . I n t h i s
p
a
p
er
t he
propo s
e dm o d e i sc o l m p a r e dw i t hs t an d a r dd e e p l e a rn n g m o d e
i l st
o
,
ver f
y i i t sa d vant a
ge . G P L P I i s a p p l i e dt o k n o w np a n t L P d at a t o
l I
ge
t h e rw i t ht hr e eo t h e r
m e t h o d sR P I S e
q
-
R F [
60
]
. XRP I
72] [
, a n d RP I
-
S E [
1 1 4
]
. T h et h r e em e t h o d s a r e s e e c t e d fo r
l
co mp ar i s o n b e c a u s e t h e y c a n p r e d i c t non -
c o d n gR P I F i v e
i .
-
fo l dc r o s s
-
va l i d at o nw a sa d o p t e d
i
t h e m e a n a n d s t a n d a r d d e v a t o n a s p r e s e n t e d n T a b 4 4 i i i . . .
I ng e n e r a l , t h eh g h e rv a u e s
i l
re
pre s e n
t sab e tt er
p
e r fo r m a n c e fo r t h e e v a u a t o n m e t r l i i c s T .
h eR O C c u rv e sr e p r e s e nt i n gt h e
tr a d e o ffs b e t w e e n t r u e
p o s i t i v e s a n d fa l s e
p o s i t i v e s a n dt h e i ra s s o c a t e dA U
i C so fG P L P I
,
I I I i i
q . i l l i i . . .
, , ,
t h a l i an a d a t a s e t a ,
l l t h em e t h o d sw e r eato ra b o v e7 3 %o r0 . 7 3 nt e r m so fs e n s
i i ti v i t
y , AU C
,
a n d AU P RC . H o wever , a c c u ra c y ,
p
r ec i s i o n s
pec ,
i fi c i t
y , a n d M C C t h e v a u e s r a n g e fr o m 0 2 6
l
.
t o 0 . 8 8 F o r t h e Ze
. a m ay s d a t a s e t , a l l t h e m e t h o d s w e r e at o r a b o v e 8 0 % nt e r m so f a c c u r a c y i
,
0 6 2t o0 9 7
. . . No t ab l
y , t
he
p ro p o s e
d m e t h o d o u t
per
fo r m e d o t h e r m e t h o d s I n t e r m .
so f ac c ura cy
an ds p e c i fi c i t
y , a p p r o x m a t e ya2
i l % a n d3 % i n c r e a s e i so b t a n e dr e s
pec
i t ve ly i . A s fo r M C C . a
s i
gn
i f i cant
p e r o rm an c e
f m
p o
r v e m e n to f i a
p p r o x m a e y0 0 6( 6
t l i . % )
e nh an c e me nt i sn o t e d T h e
.
at et h a t G
yb e t e rt h a nt h e o t h e rm e t h o d s n
re s u l t s i nd i c P L P I p e r fo r m s s g n f i i i c an t l t L P i
I
s e
que
n c ea n ds t r u c t u r a l fe at u r ee x t r a c t i o nm e t h o d st h a to b t a n e de i s s ent i a l i n fo r m a t o n i
.
5 9
-
-
P re d i c t i
o n o f p a n t o n g n o n c o d n g RN A s n t e r a c t o n s w
l l i i i i t h
p rot e n s
i b
yd e e p e a r
n ng
l i
T ab . 4 . 4 P e r fo r m a n c e c o m a r
p
i s o nb e t w e e n G P L P Ian do th e re x i s t i n gm e t h o d s
A C C % P R E % S EN % S P E % ( ) ( ) ( ) (
)
D at a s e M e t t hod A U PRC土S D
± S D 士 S D 士 S D 士 S D
G PLP 8 5 I . 7 6士 2 . 0 5 8 8 . 4 2士3 . 2 1 8 2 . 4 1
士3 . 92 8 8 . 9 7 土4 . 1 2 0 . 9 3 4士0 0 .
1
7
A r a b dop s i i s R P I Seq -
R F6 1 . 2 8 士2 2 0 . 5 6 . 2 0± 1 .
8 1 9 1 . 43 土6 . 03 2 8 . 3 3 土9 .
09 0 . 783 士0 . 05 2
t h a l i an a X R P I 6 5 . 3 5 土3 . 8 3 6 2 . 2 2士5 4 5 . 8 1 . 5 0士 7 . 26 4 9 . 3 5 士 1 0 2 0 . 0 . 8 0 8 士0 03 .
0
RP I
-
S E 1 . 22士5 .
02 5 8 . 1 9 士4 0 6 8 4 5 3 . .
士7 . 79 3 9 . 3 0土 7 0 8 . 0 . 7 3 7土 0 . 0 8 2
G PLP I 9 1 . 9 7土0 4 4 . 9 2 . 2 0士 0 . 3 0 9 1 . 7 0± 〇 . 69 9 2 2 4土 0 3 5
.
.
0 .
97 8 进 002
Z e a m ay s R P I Se
q
-
R F8 5 . 1 8士0 . 8 6 8 3 . 3 6土 1 . 20 8 7 . 9 牡0 . 72 8 2 .
4 1
土 1 . 6 7 0 . 9 3 6士 0 0 0 7
.
X R P 8 5 I . 4 1
土0 .
8 5 8 4 . 5 7土 1 . 02 8 6 . 6 6士 0 9 0 . 8 4 . 1 7士 1 . 2 8 0 . 942士0 00 .
1
RP I
-
S E 8 0 . 9 8士0 .
5 9 7 7 . 2 4士 0 4 7 . 8 7 . 8 5 士0 . 7 0 7 4 . 1 0土 0 . 8 4 0 8 9 9 士 0 0 0 .
?
1
y / G
=
G P LP I { AU C 0 .
9 19 )
PL PK A U O 0 9 . 7 8
)
/
.
^ ^S eq ^ y
=
AU C
一
F 0 3 1 9
R fH S eqJ WMJ C =0
J3 3
.
—
( )
}
/
X R P AUC =
/
一
0 7 2 3
X RP AUC =
J
—
0 9 3 9
I .
)
(
(
I
(
.
)
t /
,
=
AU :
—
RP
-
i S E ( 0 .
6 30 )
—
R P -
SE A UC =
0 90 3
一 1
}
.
K
 ̄
J
〇 〇
〇 —
 ̄  ̄
 ̄ — — —
1 ' — — -
—
r
? 1 '
〇 ,
.
f
0 0
? 0 2 0 .
.
4 0 . 6 0 .
8 1 . 0
〇 . 〇 0 2 0 .
.
4 0 6 0 . 8 1 .
0
Fa s ePo eR a te
l i t h/
F a l seP o i t i v eR a t
e
( )
(
b
)
A r a b dop s i s h a l an a a n d ( b ) Z e a m ay s
i
t i
4 5S u m m a r
.
y
E v o u t o n a r y fe a t u r e s a r e e x t r a c
l i t e du s i n gF C G R I n t h e fe a t u r e
.
-
l e arni ng
p h a s e m a n , i fo l
d
l/ i i . l t s l l i t i
re c o n s t r u c t o n c o n s t r a n t s t h r o u g h m a n fo d r e g u a r z a t o n a n d / 2
i i i l l i i
-
no rm . T h em a n i fo l
d
6 0
-
-
Da l i an Un i ve rs it
y of
T e chn o l o g y D o ct o r a l D i s s e r t at i o n
re
g u l a r i z a t i o n e a m s a o w d m e n s i o n a s p a c e ( m an
l i l l i fo l d
)
a n d p r e s e r v e s t h e l o c a l g e o m e t r i c a l
s t r u c t ur e o f t h e I n c R N A a n d p r o t e n fe at u r e s i . L L E m a n i fo l d l e ar n i n
gal g o r i t hm w a s u t i l i z e d
.
T h e /2 n o rm
-
r e g u l a r i z at i o n p e n a l t y r e s t r
i c t s t h e m o d e l p a r am e t e r s an d l o w e r v ar i a n c e . T he t wo
re
g u l a r i z a t i o n t e c hn q u e s a r e c r u c a
i i l fa c t o r s fo r t h e h g h a c c u r a c y a n d o v e r a
i l l
go o d
p e r fo r m an c e o f t h e p r o p o s e d m e t h o d C a b o o s
t t a nd re
g u l a r i z e d L R b as e d o n t h e L
.
-
B FGS
o p t i m i z at i o n a g o r t hm w e r e n t e r at e d t o p r e d i c t p o t e n t i a l n t e r a c t i o n s b e t w e e n I n c R N A s a n d
g
l i i i
pr o te i ns . I n c o n c l u s i o n ,
g
ra
p h att e n t i o n i s
p r o p o s e d t o l e a r n c o nt e x t d i s t r i b u t i o n a n d e n h a n c e
d i s c r i m i n at i v e ab i l i t y O n e a d v a n t a g e o f a t t e nt i o n m e c h a n i s m s i s t h at t h e y c a n d e a l w i t h
.
v a r i a b l e s i z e n p u t a n d m a k e a d e c i s i o n b y fo c u s i n g o n t h e m o s t r e l e v a n t p a r t T h e g r a p h
i
.
at t e nt i o n m e c h an i s m e m
p o ye
l d n t h e p r o p o s e d m e t h o d i s a v a r i an t o f g r a p h n e u r a l n e t w o r k
i
m o d e l s T o g e t h e rw
. i t h t h e r e c u rr e n t g e n e r at v e d e e p l e a r n n g m e t h o d t h e g r ap h at t e n t o n
i
i
,
i
m e t h o d h a s p r o v e n t o b e u s e fu l i nthe
p
re di c ti o n t a s k T h e e x p e r i m e nt a l r e s u l t s d e m o n s t r a t e
.
t h a t t h e p r o p o s e d m e t h o d p r o d u c e s r o b u s t p e r fo r m a n c e wh i c h i s at t r i b u t e d t o t h e two
e n s e m b l e c l a s s i fi c at i o n a g o r i t h m s t h a t w e r e i n t e g r a t e d t o g e t t h e m o d e l o u t
l
p ut
.
6 1
-
P red i ct i o n o f p an t l l on g no n c o d ing
RN A s i n te r a ct o n s w i i t h
p o
r te n s b
y d e e p e arn i n g
i
l
5 D e e p
m u l t i m o d e le n s e m b -
l e l e a rn i n
gb a s e do n
mu l ti
-
fe at u r e fu s i o n fo r I n c R NA -
p o t e n nt e r a ct
r i ion
p
re d i ct i o n
i
5 . 1 In t ro du cti o n
Recen tl
y ,
t h e r ap i d d e v e o p m e n t o f n e x t g e n e r a t o n s e q u e n c i n g t e c h n o o g i e s h a s b r o u g h t
l
-
i l
fo r t h t h e a v a l a n c h e o f s e q u e n c e d a t a a n d t r a n s c r i p t o m e
-
w d e i n s i g h t s nt o R P I
i i . n c R NA s , t he
l a r g e s t p o r t i o n o f t h e e u k a r y o t i c g e n o m e a r e c l a s s ,
i fi e d b a s e d o n t he i r
g e no m co r g no
i i i
r
m e c h an i s m o f act i o n I n .
p
a r t i c ul a r , I nc R N A s a re m o r e e n r c h e d i n t h e n u c l e u s a n d fun c t i o n i n
i
[
1 3 1
]
. B as e d o n t h e g e n o m i c o r i g n n c R N A s c an b e c at e g o r i I i z e dasi nt e r
gen c i
,
i nt r o n i c s ens e
,
,
an d a nt i s e n s e [ 4 4 ] . A s a k e y m e d i a t o r o f c e l l u a r fun c t o n s l i
, n c R N A s p e r fo r m e s s e n t
I i al
re
g u at o r y r o l e s i n t h e p a n t c e
l l l l nuc l eu s b y i n t e ra ct n g wi t hp ro t e n s i i . F or i n s t anc e
,
col d -
i ndu c e d I n c RN A s , a n d C O C 7 L 4 /7 ?
,
ar etr an s c ri
p ts t r a nsc r
i be db y
F l o w e r i ng L o c u s C ( F L C ) a n t i s e n s e t h a t ,
i sr e
g u at e d b y t h e c i s [
l 1 32
]
. S o fa r m a n y p l a nt
,
I n c RNA s h a v e b e e n i d e n t i f
i e d an d i m p l i c ate di nf o l w e r i n g t i m e c o n t r o l b i o t i c a n d ab i o t i c
,
s t re s s r e s
p o ns e s , a n d r e p r o d uc
t on i . M oreo ve r ,e m e r g n g e v d e n c e s h o w s t h at p
i i l ant
p ro e c i o n
t t
a
g a n s t p at h o g e n at a c k s c o rr e a e w h I n c R N A d e p e n d e n t m m u n e s y s t e m s [ 3 6 ] T h e r e ar e
-
i t l i t i .
t wo m o de s o f d e c o d i n g
in er
t a c t i o n s b e t w e e n R N A s an d p r o t e i n s b yr e c o n i t i o n o f RB P s
g,
d i r e c t c o nt a c t w i t h RN A b a s e s o r i n d i r e c t y b y e x a m n n g R N A s t r u c t u r e a n d t h e r m o d y n am i c
l
i i
a s p e c t s [ 1 3 3
]
. C o m p u t at i o n a l m e t h o d s b a s e d o n q u a n t i t a t i v e o r m a c h i n e l e arn i n g m o d e l s
com
p l e m e nte x
p e r i m e nt a
l m e t h o d s n u n c o v e r n g n t e r a c t o n b e t w e e n p r o t e n s a n d R N A s
i
i i i i
[
1 3 4]
.
B a s e d o n t h e a b u n d an t s e q u e n c e d a t a c o m p u t a t i o n a l t o o l s p r o v i d e a m o r e r ap i d a n d
,
e ffe c t i v e w a y o f
pre d i c t i ng RP I s . The i n t e r a c t o n n fo r m a t o n
i i i i se s s e nt a i l fo r t h e a nn o t a t o n o f
i
I n c RN A s , un d e r s t a n d i ng m o l e c u ar m e c h a n l i sms , an d i m
p l i c at i o n s i n d i s e as e s . Mac h i ne
l e a rn i n g
(
M L ) t e c hn i q u e s h a v e b e e n e x t e n s i v e l y u s e d i n
g
e n o m i c s t o d e r i v e n o v e l b i o l o g i c a l
b e t w e e n n p u t a n d o u t p u t a y e r s T h e a y e r s o f n t e r c o nn e c t e d n o d e s r e fe rr e d t o a s n e u r o n s
i l
. l i
tr an s m i t s gna i l s fr o m o n e a y e r t o a n o t h e r n a m u l i l t i ste
p p r o c e s s o f e a r n i n g c o mp l e x
l
non -
l i n e a r r e a t o n s h i p s D L h a s g ar n e r e d e x t e n s i v e a t t e n t o n d u e t o i t s w i d e u s e c o n c e r n i n g
l i .
i
c l ass i f c at o n
i i . The D L m o d e l s h a v e t h e fo l l o w n ga d v ant a ge s
i . F i r st l
y , t
he y a u t o m at i c al l
y l e arn
d a t a r e p r e s e n t a t o n s fr o m r a w d a t a S e c o n d y u n i . l
,
l i k e t ra d i ti o n a b o n fo rm a t c s a g o ri t h m s
l i
i i l
c u s t o m i z e d fo r s
p e c i fi c t a s
ks , D Lm o d e l sa ref l ex i b e a n d m a k e a c c u r at e p r e d c t i o n s d u e t o
l
i
t h etr a n n gp ro c e s s T h i i . i rd l
y D L e v e ra g e s G P U sw
,
l i t h o u t t h e n e e d fo r a d d i t i o na c o de
l
t hr o u g h l i b r ar e s s u c ha s c o m p ut e u n
i i fi e d d e v c earc h i i t e ct u re
(
C U D A ) ha t t s up p o rt N V I D I A
.
62
-
-
Da l i an Un i ver s i t
y
of T e ch n o l o gy
D oc t ora l D i
s s e r t a t i on
L S TM , a R NN m o d e l s u i t ab l e fo r s e
q u e n c e t o s e q u e n c e m a p p i n g h a s p e r fo r m e d w e l l i n
NLP
a sC NN a n d R NN [ 1 3 6]
.
T o fa c i l i t at e n c R I N A an d L P I
p
re di c t i on , m an y fe at u r e s a r e c o n s d e r e d t h a t d ffe r e n t at e
i i i
h e c o d i n g an d n o n codi n
g s e q u e n c e s T h e s e fe a t u r e s i n c l u d e O R F c o d i n gs e q u e n c e re at e d
-
-
t . l
,
fe a t u r e s , t ran s cr i
pt
-
re l at e d fe a t u r e s , an d s tru c t ur e -
re l a t e d fe at u r e s . M a n y d e v e l o p e dM L
t e c hn i
qu e s u
ti l i z e t h e d i ffe r e n t fe a t u r e s . E x i sti n g mu l t i mo d a l D Lm e t h o d s ut i l i zethe
mu l ti m o d al i t
y o f fe a t u r e s t o i m p r o v e t h e i r e ff i c i e n c y . T h ep r o c e s s o ftr a i n i n g t h eD L
e ffe c t i v e l
y m n e s e at ur e s i n o l v e d n
f i v i the
p r e
d i c t i o n t a s k F u r t h e r a h y b r i d fr a m e w o r k o f
.
,
e n e o u s s o u r c e s F o r e x am p l e
redi c t i o na l
g o r i t hm s c an b e u s e d t o i n t e g r a e d a a f r o m h e t e r o
t t
p g
.
,
a d e e p l e a r n i n g m o d e l c a n b e c o m b i ne d w i t h s h al l o w m a c h i ne l e a r n i n g a l g o r i t hm s t o p r e d i c t
i nt e r a c t i o n s . O n t h e o t h e r h a nd d ,
i ffe r e n t D Lmo de l s s u c h a s L S T M a n d C N N c a n b e
combi n e d s i m i l a r t o D e e p C L I P an d D e e p L P I [
1 08 ,
1 3 7
]
. I n the c a s e w h e r e s e q ue n c e
i n fo r m at i o n o n l y i s u s e d , C NN i si m
p l e m e nt e d b e fo r e
t he L S T M m o d e l . T heC N Nd i sc overs
t h e o c a l s t r u c t u r e o f t h e n p u t d at a
l i
, r e duc e s
t hes p e ctr a l v ar i at i ons , an dm o d e l sc o rr e at i o n s l
.
T h e c o n v o ut o n a l i l l ay e r so fC NN e x t r a c t c o n v o l u t i o n a l fe at u r e m a
p s A p o o. l i n g s t r a t e g y
,
m ax p o o -
l i n g i s a d o p t e d t o a g g r e g at e t h e fe at u r e m a p s i n t o a s i n g l e r e r e s e n t a t i
,
p o n h en c e,
,
m p l e m e n t n g th e C o n v o l ut i o n a l l ay e r a s a p r o c e s s n g s t e L S T Mhe l
I i b f
p e o re p s t o s h o rt e n t h e
i
s e q u e n c e a nd e x t r a c t u s e fu l r e p r e s e n t at i o n s b e c au s e L S T M i sex
p e n s v e fo r p r o c e s s n g o n g
i
i l
se
q ue n
ces . W h e nd i ffe r e n t D Lm o de l s ar e u s e d t o g eth er b a c k
p r o p a g at i o n i s a p p l
,
i e dt otr a i n
a n d t u n e t h e m o d e l a n d s h a r e l a t e n t fe at u r e s a r e c a p t u r e d a c r o s s t h e m L S . T Mp ro c e s s e st h e
i n p u t an d s o v e s t h e v an i s h i n g g r a d e nt p r o b l e m
l i . T h i s m o d u l e l e am s t h e r e l a t i o n s h p so ft h e
i
fe a t u r e s t h at a r e m o r e i n fo r m at i v e fo r r e
p r e s e nt i n g I n c R N A s an d p r o t e n s T he b n d n g p r o fi e
i . i i
l
i s
g
e n e r at e d b
yth eL S T M l ay e r F o r e x am
.
p l e I n
,
D eep C L I Pth eB L S T M ay e ra n a yz e st h e
l l
h d d e n s e q u e n c e r e p r e s e n t at i o n s n a b d i r e c t o n a
i i i i l m a nne r
.
T hed e v e l o p m e n t o f a c o m p ut a t i o n a l m e t h o d fo r L P I p r e d i c t i o n i s m p e r a t i v e t o a v e r t t h e
i
i m p e n d i n g s h o r t a g e o f p l an t I n c R N A fu n c t i o n s
. I nthi s c ha
pter , a n i nt e g r a t i v e d e e p e n s e m b l e
fe a t u r e fu s i o n A d e e
m o de l ro
posed I t s un i
q u e n e s s i s th at i t p re d i c t s b y m u re c urr e n t
-
s t
i
p
. l i
p .
A E m o d e fo r L P l I te r m e dD RP L P I i s d ev e l op e d . T o i m p r o v e p r e d i c t o n p e r fo r m a n c e i
,
h e t e r o g e n e o u s s e q u e n c e fe a t u r e s g e n e r a t e d u s n g t r i i
-
nu c l e o t i d e c o m p o s i t i o n g a p p e d A ,
:
-
m er
?
re v e r s ec o m
p l e m e n t a n d B P F s a n d s t r u c t u r a l fe a t u r e s a r e i n t e g r a t e d D R P L P I e m p o y s a
,
. l
S i a m e s e L S T M A E t o e x t r ac t t i v ehi h e v e lh i d d e n c o m p e x fe a t u r e s T h e S i am e s e
g ene r a
-
l
g l .
n e ur a l ne t w o r k ar c h i t e c tur e c ap t ur e s t h e mu t u a l s i
g n i fi c a n c e o f s e q u e n c e
-
stru c tu r e
n fo r m at i o n f r o m t h e n c R N A p r o t e i n p a i r D R P L P I n t e g r a t e s h e t e r o g e n e o u s fe a t u r e s o
t
-
i I . i
c a p t u r e n e w un i
q u e fe a t u r e s mp e m e nt a m u l t i he a d s e f att e nt o n m e c h a n sm a n d an
- -
i l l i i
, ,
6 3
-
-
P re d i ct i ono f
p an
lt on
g n o n c o d i n g R N A s n t e r a ct o n s w i t h p r o t e n s b y d e e p e a r n i n g
l
i i i l
a d ap t i v e l e ar n i ng m e t h o d ( AD AD E L T A )
fo r t h e a u t o m at i c s e t t i n g o f t h e l e a r n i n
g r at e T o
.
o b t ai n ro b u s t r e s u l t s , th e m o d e l c o m b i n e s C a t B o o s t a n d E T s nt o a s n g i i l emeta
-
l e am e r T h e
.
v
e n s e m b l e c l a s s i fi e r s w e r e i m
p l e m e n t e d b y u s n g t h e m aj o r i y v o i n g m e c h a n i s m t o d e e l o p
t t i
t h e p re d i c t o n m o d e
i l . T h e p ro p o s e d m e t h o d a c h
i e v e s a no t a b l e s u c c e s s r a t e
.
5 . 2 H e t e r o g e n e o u s fe a t u r e n t e g r a t i o n
i
I n t e g r a t i n g h e t e r o g e n e o u s fe at u r e s t h a t d e s c r b e d ffe r e n t a s p e c t s o f i i t h e c h ar a c t e r
i st i c so f
a d at a s e t h e l
p s n o bta n n g
m o r e a c c u r a t e a n d c o m p r e h e n s i v e r e p r e s e nt at i o n s
i i i . Mu l ti
ple
i n fo r m at i o n i n t e g r a t o n o f n e t w o r k t o p o o g c a p r o p e r t i e s e x p r e s s o n p r o f i l e i n fo r m at o n
i l i l
,
i i
,
se
q u e n c e a n d s t r u c t u r a l fe a t u r e s h a v e b e e n s u c c e s s fu l l y i m p l e m e n t e d fo r t h e p r e d i c t i o n o f
,
S eq u enc e b a s e d fe a t u r e d e s c r i
LPI [
1 37 ,
1 38
]
.
-
p o r s us e s e q u e nc e c o mp o s i o n a n d
t t
i
wh e r e a s s t ru c t u r e b a s e d m e th o d s e x p l o i t s h a h
e v o l u t i o n a r y i n fo r m a t i o n [ 7
p e an d b o p y s c a l
-
1 i i
]
fe a t u r e s 39 F e at u r e e n c o d i n a l g o r i t h m s c a a b l e o f c a t u r i n g ke y c h a r a c t e r i s t i c s o f a m i n o
[
1
]
.
g p p
ac i d re s i d u e s an d n u c l e o t i d e s c o n t r b ut e t o i m p r o v e d p re d i c t v e a c c u r a c y i i . H o w e v e r
,
c t i o n i s a d i ff i c u l t t a s k S o m e fe at u r e e n g n e e r n g
g e n e r at i n g t h e a p p r o p r a t e fe a u r e s fo r p r e d
t i i .
i i
o o l shav e b e e np ro p o s e d n c u d n g L e am [ 4 0 ] a n d P y F e at [ 4 T h e s e qu e n c e b a s e d
-
t i l i i 1 1 1 .
fe a t u r e s t h at h a v e b e e n c o m m o n l y u t i l i z e db
ye xi s
ti ng m e t h o d s n c l u d e P W M A C [
i
,
1 42]
,
t
-
m er [ 43 a nd B P F s [ 06 4 4 ] P WM n d c a t e s t h e s i g n i f i c a n c e o f e a c h o s i t i on o f t h e
p
i 1 1 1 . i i
] , ,
a m i n o a c i d s re s e n ti nt h e ro t e n s e q u e n c e A C i s u s e d t o o b ta i n th e a v e r ag e c o rr e l at o n
p
i
p
. i
b e tw e e n a p a i r o f du e s o r n uc eo t d es ^ m e r g e n e r at e s s e q u e n c e c o m o n i n fo r m at o n
re s
pos
-
i l i , i ti i
.
h o t e n c o d i n g d a t a t r a n s fo r m at i o n u s e d t o e x t r a c t p o s i t i o n a l i n fo r m a t o n
i
of t h eam i n oac d s i
.
Re c en t l
y , G ro o t e ta l .
(
20 1 9 ) p r e s e n t e d a s t u d y o n th e r e l at i o n s h i p b e t w e e n th e s t r u c t u r e
o f a n RN A a n d
i t sab i l i t
yt o n e rac w
t t i i t h p ro t e n s
[
i 1 3 9] , RN A s tr u c t u re i s
p re d i c te d b yp ari n g
s e
q uen
c en uc l e o t i d eb a s e s no n
-
c o v a e nt
y b o u n d t h r o u g h h y d r o g e n b o nd s
l l . R NA s tr u c tu ra
l
c o n t e x t s are e n e r at e d b a s e d o n
pa re dl o o p hai rp i nl oop i nn e r l oo m ul t i o op o re x
te r n a l
-
g
i
, ,
p ,
l
,
re
gi ons[ 1 1 2] . C o n v e rs e l
y , p
ro t e i n s e c o n d ar
y s t r u c t u r e s a r e p r e d i c t e d fr o m p r o t e i n s e q u e n c e s
b a s e d o n o c a c o n fo r m a t o n p r o t e n s p o y p e p t i d e s t a t e s i n c l u d i n g a h e l i x ( H ) p
5
l l i i l
-
?
-
she et
(
E)
,
a n d c o i l ( C ) . S e v e r a s t u d l i e sh av e i n t e g r a t e d h e t e r o g e n e o u s fe at u r e s a nd fe a t u r e s e e c t o n
l i
r e d i c t i o n m e th o d s 45 4 7 ] T h e st r u c t ur a
p r o c e du r e s t o m p r o v e t h e p e r o r m a n c e o
f fth e 1
-
1
p
l
i
[
.
i l i t
i
re
g i o n s o r n t e r a c t n g p a r t n e r s T h e s e m e h o d s a s s u m e t ha i n e r a c t i n g p ar t n e r s ha v e s i m ar
i t ti t . i l
S e q u e n c e fe a t u r e b a s e d m e t h o d s u t z e n u c l e o t i d e / am i no ac i d c o m on unct o n d o m a n
pos
-
ti
f
i l i i i i
,
,
fe a t u r e s e ffe c t v e l y c a i
pt u re s
t h e nt e r a c t o n s b e t w e e n n c R
i i I N A s a n d p r o t eins . D e s p i te the
6 4
-
-
Da l i an Un i v ers i t
y o f Techn o l ogyD o ct o r a l D i s s e rt a t i on
d n g RP T hu s n t h s c h a p t e r w ec o m b i n e dd e e p e ar n i n
g a n d e n s e m b e m a c
h ne
pre
i ct i I s .
,
i i
,
l l i
l i i i l s
.
5 . 3 E x tr act i n
g
s e
q
u e n c e a n d s t r u c t u r e fe a t u r e s b
y d e e p e n s emb l e e a r n i n l
g
D eve l o p n g a fr a m e w o r k t h a t c a n fa c i
i l i t at et her e c o g n i t i o no fR P p a r t n e r si sa d a u nt i n g
I
r opo s e d m e t h o d ar e s u m m ar i z e d nF i
g 5 1
p
i . .
.
,
i
Da t a
| RN A s e
q
u e n c e &s t ru c t u r e P ro t e i us e
q
u e n c e&s t ru c t u re
一
'
F ea t ur e v e c t o rs o f 冬 i
@ ? 0 ? 0 @ @)
kl nd
:=
- .
. …
(
? ? ?
;
|
:二 : 1 T O O p iK
 ̄
「 ::
_ ’ ”
( !
:)
"
〇 〇〇
|
!
0〇 〇 〇 〇 〇 O O O O O O
l
卜
丄^ — _ —
「 了
_ _ _ _
丄「
1
I
|
^
I
^E l \ 1
? h vn
l 1
I
|
c lr _
—
> h En 1
CE
P
2
— -
^ h sp i
i
i
_ _
^
I
? %
t
I Ce ii l I
// I
£ m
I
I
I
|
;
;
,
:
|
| I CE 1
l m ? ^E ^E 1
lm 1 一 .
1
pn
L 」
L
" —
;
二
二 _
二
一
J
L S T Mau
;
t o e nc o d e r I
E n c od e d F e a u re s t
w i t h a t t e nt i o n l a y e r
|
:
p
— —
 ̄
I I
I
A t t
 ̄
ent o n i L av er
 ̄
i I
!
| 1
^ DJ \ 1
?h n n 1 1
^ ^
D p l
1
i
C pp 1
—
^ h DJ i 1
C
^  ̄
I
* hD
p2
i
I
;
: :
!
!
p
|
I
1
? h
I
1
1 1
C U 1
jyu 1
C
pPJ 1
f
:
?
1
I
i
;
:
|
J
|
1
<^
Dh , [
? hD
i m 1 £ Dp n
C o mp
e x fe a t u r e s
I
l
j ^
n c R NA p r o t e i n
〇f
-
U
I
f
/u /u
?
i
? ?
j
!
, ,
V
\
n
pa i
:
!
I C a B oo st t a ndE x t ra T re es
Pr e d c o n a s k 4 i ti
t ,
i
1
I
O u
p
u
p
r o d c e d n c RN A 丨
t t
i t l
-
p
ro t e m n t e ra c
i t i on
i
1
D RP L P I i s c o m p o s e d o f fo u r p h a s e s : fe a t u r ee x t r a c t i on , t r a n n g c i i
,
l as s i f i c at i o n an d
,
e v a l u at i o n S e .
q u e n c ea n
d s t r u c t u r a l fe a t u r e s a r e n
pu
t n t ot h e
p
r e d c t i v em o d e i i i l . nc I RN A / , i s
65
-
-
P re d i ct i o n o f
p a nt o ng n o n c o
l l d in g
RN A s i nt e r ac t i o n s w i t h
pr ot
e in s by d e ep
l e ar ni n g
a s t r i n g o f c h a r a c t e r s fr o m Q i
=
{
A C G U } a nd, , ,
p ro t e i n
ro m Q 2
巧f
=
{
A C D E , , , ,
F ,
G H , ,
I
,
K , L M , ,
N , P Q , ,
R , S T V W Y
s , , ,
}
. T he s e t o f s e
q u e n c e s h a s a c o rr e s p o n d i n g
v e c t o ro f
F e at u r e s a r e c a l c u l a t e d v i a d i ffe r e n t k i n d s o f fe a t u r e e x t r a c t i o n
l ab e l s d e no t e d a s
y
e
{
0 1 ,
}
.
m e t h o d s L o c al a n d g l o b a l s m . i i l a r i t i e s a r e t h e s ub s t r i n g a nd o v e r a l s i m l i l ar i t i e sa m o n gt h e
x x
q u e nc e s 4 4 4
=
se 6 4 d m e n s i o n s f r o m t r i nu c l e o t i d e c o m p o s i t o n 1 2 8 fr o m g ap p e d
-
. i i
,
A :
-
m e r 1 0 fr o m t h e r e v e r s e c o m p l e m e n t
, , an d 1 x 3 2 0 fr o m B P F s a r e e x t r a c t e d . D RP L P I us e s
de ep
L S TM b a s e d A E a y e r s t o f i n d a nd e n h a n c e fe a t u r e s T h e e x t r a c t e d fe a t u r e s a n d
-
l .
c o n t e x t u a l i n fo r m at i o n o f th e s e q u e n c e s a n d s t r u c t u r a l i n fo r m at i o n a r e u s e d t o fi n d a r e a s o f
t h e R N A s a s s o c at e d w i i t i x F w i th m ^ n d m e n s o n fe a t u r e
h R B P s A n a dj a c e n c y m at r .
i i
d FhJ wh e r e < < n < < m r e r e s e nt t h e
=
e nc o d in
g e n o t e d a s {fu \ , , l z
5
l
j p
c o m p l e x fe a t u r e s . T hec o m
p l e x fe a t u r e s fr o m t h e d e e p l e a r n i n g m o d e l a r e fe d i n t o C a t b o o s t
a n d E T s c l a s s i f i c a t i o n a l g o r i t h m s fo r p r e d i c t i o n . T h e L P I m at r x
i i s t h e o ut
p ut
.
5 . 3 . 2 F e a t u r e fu s i o n
An a g g r e g a ti o n a p p r o a c h fo r e x t r a c t i n g i n fo r m at i v e fe a t u r e r e p r e s e n t at o n s o f s e q u e n c e
i
n s e n c o mp a s s i n g v
a n d s t r u c t u r e m o t i fs w e r e a d o p t e d S e q u e n c e p a t t e r . i t a l i nt r i n s i c c o r r e l a t o n
i
i nfo r m a t i o n fo r p r o te i n s an d n c R NA s a r e g e n e r a I te d th r o u
gh v ar o us t e c hn qu e s i i . F o r
I n c RN A s ,
tr i
-
nu c e o t d e c o m p o s i t i o n
l i
, g ap p e d k m cr [
-
1 48] , an
d re v e r s e d c o m p l e m e n t m e th o d s
b a l s i m i l ar
i ti e s i n t h e s e q u en c e s
p l e fe a t u r e s h e l p s t h e m o d e l o c ap u r e o c a
mu l a nd
g o
l t i t t l l
.
L oc a l an d
g
l o b a s i m i l ar l i ti e s a r e t h e s ub s t r i n g a n d o v e r a l l s i m i l a r i t i e s a m o n
g
t h es e qu e n c e s
.
4 x4x4 6 4 d m e n s i o n s fr o m t r i nu c l e o t i d e c o mp o s i t i o n 1 2 8 fr o m g ap p e d ^ m e r 1 0 fr o m t h e
=
- -
i
, ,
re v e r s e c o m p l e m e nt , an d 1
><
3 2 0 fr o m B P F s a r e e x t r a c t e d a s d e t a i l e d i n F g i . 5 . 2 (
a)
.
Tr i
-
n u c e o t d e c o m p o s i t o n o b t a i n s e vo ut i o n a r y i n fo r m at i o n u s e d t o c h a r a c t e r z e n c R NA
l i i
l i I
se
qu e nc e s[ 1 49
]
. G i v e nas e que n c eL o f l en
gt h x
, w h er e / e ,
A { ,
C G , ,
U } and /
=
1 ,
2 ,
. . .
^
.
i i t
,
w asus e d
.
,
jc
-
1 ,
jc
) ,
,
2 ,
3 ,
a n d 4 r e p r e s e n t t h e n c R NA s e q u e n c e n u c l e o t i d e s I
.
G ap p e dA :
-
m e ru ti l i z e sA :
-
m e r s w i t h g ap s t o p r o v i d e u s e f u l l o c a l an d
g
l o b a l n fo r m a t o n
i i
.
T h e fe a t u r e s e t i sc h arac t e i z e d b y p a r a m e t e r l r e p r e s e nt n g t h e s e q u e n c e
r i l en
gt h an d k
re
p r e s e n t n g t h e n um b e r o f no n g ap p e d p o s
i
-
i ti o nsi n t h e s e qu e n c e [ 1 4 1
]
, The n um b e r o f g ap s g
* * * *
=
l
 ̄
k . F o re x amp l e ,
AC ,
A G , a nd CG c o nta i n s 1
=
3 an d ^
=
2 ,
re
p re s e ntsa
g
ap [ 1 50
]
.
R e v e rs e c o mp l e m e nt s o f
ge n o m e s e q
u e n c e s h e l p t o c o n c e a l h i d d e n p a tt e r
ns w i th
i m p o r t a n t r e g u a t o r y n fo r m a t i o n G i v e n a s e q u e n c e Z t h e r e v e r s e c o m p l e m e n t o f
l i .
,
l en
gt h k
c o n t g u o u s s ub s ei
q u e nc e saree l i m n at e d a f
i t e r g e n e r a t i n g a n d t h e n a fe a t u r e v e c t o r i
s
c a l c u l a t e d fr o m t h e o c c u r r e n c e fr e q u e n c e s o f t h e r e m a ni n g A e n gt h s u b s e q u e n c e s u s i n g t h e
-
i i : l
fo l l o w n ge q u at o n[
i i 1 5 1
]
.
66
-
-
Da l i a n Un i v ers i t
yo f Te c h n o l o gy D o ct o r a l D i s s e rt at i on
ua
2 k k
 ̄
' '
2 {
k= 1
,
3 ,
. . .
),
2 + 2
(
k= 2 4 , ,
. -
) (
5 . 1
)
A b n a ryp r o f
i i l eo f 2 0x6d i m e n s o n sc o m p o s e do f as e q u e n c eo f
i l en
g hbwa sg
t e n e r at e d
.
fo r t a r
ge
t R N A s T h e r e fo r e n c o r p o r a t n g R N A s e c o n d a r y s t r u c t u r a p r o p e r t
.
,
i i l i e s n c i r eas e s
p re
d i c t o n p o w e r
i . RN As e c o n d a r
ys
t r u c t u r ep r o f i l e swe re
p re d i cte d u s i n gad y n a m c
i
p ro gram m i n g t e c h n q u e b a s e d o n f n d n g t h e m n m u m fr e e e n e r g y k n o w n a s RN A fo d [ 4
i i i i i l 1
]
.
L e tLs Js m ] b e s t r u c t u r e s o f w d t h o f n c R N A ^ fr o m a s e t o f m n c RN A s RN A
=
[
I
s \ Js 2 ,
- - - i I l .
nu c e o t d eb a s e
-
h
fe a t u r e s a r e o b t a i n e d fr o m h g h p r o b a b i i l i t
ys tr u c t ur e s b yc o u nt n gt h eo c c ur r e n c eo fe a c i
u n q u es t ru c tu r eo f
i t h e s a m p l e ds t r u c t u r e s 1 1 2
.
[ ]
I nt h i s s t u d y t h e n fo r m a t o n c o n v e y e d b y t h e p r o t e n s t r u c t u r e
,
i i i i sa l s oc o n s i d e r e d
.
l i x( H) ,
/
?
-
s h ee t
( E ) an
dc o ,
i l
( C )
c o n fo r m a t o n p a r a m e t e r s u s n g S S p r o
i
[
i 1 5 2
]
. T h e2 0a m n oa c d s ar ed v d e d nt ot h r e eg r o up s
i i i i i
of
p hy s i coc hem i cal
p ro
p e rt i e s o f res i due s a h e :
-
l i x : E A L M Q K R H ,
. .
,
. .
,
.
(
3
-
s heet
:
V ,
I
,
Y C W , , ,
F T a n dc o
,
i l : G N .
,
P S , ,
D . T h ec o n fo r m a t o n p a r a m e t e r s fo r a g i v e n a m n o a c d a
i i i
/
;
/
i sc al c u a t e d u s n g t h e fo
l i l l o w i n g fo r m u l a
:
d t '
=
j
=
a =
— —
w h e r e / 1 ,
2 . . . . 20 1 2 3 . 5 . 2)
, ;
, (
d
,
w h e r e t h e n d e x r e r e s e n t s t h e t w e n t y a m n o a c d s t h et h
*
s e e s e c o n d ar
ys t r u c
t ur e
j
i i i
p i
i /
,
l h
e l e m e n t sc o n t e nt( H , E , a n d C) , d j i st
h en u m b e ro f t h e z a m i n oac i d n t h e p r o t e i n s e q u e n c e
i
,
t h h
a n dd re
p res ent st h en u m b e ro ft h e/ a m n oa c dw i i i t h t h e / s e c o n d a r y s t r u c t u r e 3 .
-
me r
j
j
h e s e c o n d a r y s t r u c t u r e g e n e r a t e d 2 7 fe a t u r e s F g 5 2 ( b ) s h o w s
*
c o u nt s o f t h e t l n e e k i n d so f t
. i . .
q
uence
q
… A C U U A C G C I G AA MQS 】
)
Y P \I TQVA K . . .
…
A C U UA C G C U G A A M Q S PY P M T Q VA K . .
.
Tr
inu c l e o t i de .
.
mM e R N A fo
G ap p ed kmcr Bm ar
y p
l d S S Pro
R ev er s e c om
p l em ent
、 w | T
.
”
片 R
、
A 00
A A A I
…
0
H 9
以
|
,
—
cL
AA C 0 〇 1
. .
.
o
f
^
i .
l
0
P ro t e i
n
^
1
AAG
D O 0 1
. . .
0 s t ru c t ur e
(i T
i
'
I n cR NA H N C H
>
G A st n i c t i u e
A U U Y〇〇〇
. . .
1
( a) ( b
)
F g i . 5 . 2I l l u s t r a t o n o f fe a t u r e e x t r a c t o n
i i ,
(
a ) Me t h o d s u s e d t o e x t r a c t s e q u e n c e fe a t u r e s ,
(
b )
S e c o n d a r ys t r u c tu r e s
p re
d c t e du s n
g
i i
R N A fo l da n dS S P r o
67
-
-
P re d i ct i on of
p an
l t on
g n on c o d n g
l
i
RN A s i nt e r a c t o n s w i i t h p ro t e i n s b y d e e p l e a r
n i ng
5 . 3 . 3 I m p l e m e nt at i o n o f t hem o d e
l
Themu lti
-
l ay e r e d r e c u r r e n t A E n e u r a l n e t w o r k m o d e l wa s a d o p t e d a n d i t w a s t r a i n e d o n
I n c R N A a n d p r o t e i n s e q u e n c e a n d s t r u c t u r e d a t a w i th k n o w n n t e r a c t i o n s a s l a b e l s i . C o n t r ar
y
t o t h e t yp i c a l A E s r e c u r r e n t A E s c a n l e a r n a c o m p r e s s e d r e p r e s e n t at i o n o f s e q u e n c e s b y
,
se
q u e n t i a l l y u p d a t i n g a h i d d e n s t at e r e
p r e s e nt a t o n T h e L S T M a r c h te c t u r e h a s a s p e c i a l
-
i . i
n e u r o n s t r u c t u r e c a l l e d th e m e m o r y c e 53 T hem e m o r s s t o r e i n fo r m at i o n o v e r a n
l l
[ 1
]
.
yc e l l
ran
g ed ep end e nc i e s . T hre e no n -
l i n e a r g at i n g
un i t s ( i n p u t , o u t p u t a n d fo r g e t ) c o n t r o l t h e n fo r m at o n f l o w
i i t hr o u gh t h e t i m e s t ep s . E a c h g at e
g e t s a s i m i l a r i np ut a s t h e i np u t n e u r o n . M o re o v e r , e a c h g at e h a s a n a c t v at i o n f
imcti o n
i . The
p ro p o s e dm o d e l i sc om
p o s e d o f t wo s e p a r a t e n e t w o r k s o n e fo r p r o t e i n s a nd t h e o t h e r fo r
I n c RN A s . T h e c o m b n at i i o no f t h e t w o n e t w o r k s h e p s t o i m p r o v e t h e c al c u l at i o n o f l s i m i l a r i ty
b e t w e e n s e q u e n c e s T h e i np ut s a r e p r o t e i n a n d I n c R N A s e q u e n c e
.
-
s t r u c t u r e fe at u r e v e c t o r s
.
T hr e e h dd e n i l i n a l o u t p u t T h e l ay e r s ar e f u
ay e r s a r e u s e d t o p r o d u c e t h e f . l l
y c o n n e c t e d an d
l i n e a r t r a n s fo r m a t i o n c a l c u l at i o n i s u s e d w i t h a n a c t v a t i o n f u n c t o n T h e n um b e r o f h i dd e n
i i .
l a y e r s r e p r e s e n t s t h e d e p t h o f t h e n e t w o rk w h i e t h e n um b e r o f n e u r o n s o f e a c h l a y e r
l
re
p r e s e nt s t h e w d t h [ i 1 54
]
, T h e R e L U a c t v a t i o n f u n c t i o n i s u s e d i n t h e h i dd en l a y e rs T h e
i
.
si
g m o i d a c t i v at i o n f un c t i o n i s u s e d o n t h e o u t p u t a y e r l . Un it n o rm c o n s tr ai nt i s u s e d t o
p e na l i z e t h e w e i g ht m at r i c e s o f n o d e s i n t h e m o d e l t o a v o i d o v e r fi tt i n
g . T h e o bj e c t i ve o f t he
tra i n i n g i s t o m i n m i z e r e c o n s t r u c t i o n e rr o r ( Z ) d e f
i i ne d a s
:
L ( x x )= x x 5 3
-
.
,
(
)
| | | |
w h e r e x i s t h e i n p ut a n d x i s t h e o u t p u t . S i a m e s e n e t w o r k a r c h i t e c t u r e i s i m p l e m e nt e d T h i s
.
n e t w o r k a r c h i t e c t u r e l e ar n s r e p r e s e n t a t o n s t h a t r e a l i z e t h e i n v a r i a n c e a n d s e l e c t i v i t y
i
i n d i s p e n s ab i l i ty s t hr o u g h d i s t i n c t i n fo r m a t i o n a b o u t t h e s m i i l ari t
y
b et w e e np ai rso f se
q ue n c e s
.
T heh n g e l o s s ( HL \ a p r e d i c t i o n e r r o r b a s e d o s s fu n c t o n w a s u s e d t o t r a i n t h e S i a m e s e
-
i l i
ne t wo rk
:
// L
(
匕 ( 9
)
=
X ,
m ax
〔
〇 ,
!
-
乂 . 0
,
) (
5 4 -
)
w h e r e Y a r e l a b e l s a n d O a r e t h e o u tp ut s o f L S T M T h e i n d e x i r e p r e s e n t t h e s a m p l e s t h at
.
n fr
i n g e t h e m ar g i n Th ehi n
g e l o s s i s u s e d i n s t e a d o f c r o s s e n t r o p y b e c a u s e i t h a s a s up e r i o r
-
i .
re
g u l a r i z at i o n e ffe c t [ 1 5 5
]
. T ra n ng s t o p s wh e n
i i t h e m a x i mum nu m b e r o f t he e p o c h i s r e a c h e d
.
AD AD E L T A a l g o r i t h m w i t h a m i n i b a t c h s i z e o f 6 4 wa s u s e d t o m n i m i z e t h e o s s f u n c t
-
ion i l
.
v e c t o r s p a c e T h e e m b e d d i n g v e c t o r s o f n c R N A a n d p r o t e n d e s c r i p t o r s a r e fe d i n t o t h e
I
. i
e nc o der l ay e r Th e e n c o d e r t ak e s t h e I nc R
. N A an d p r o te i n e m b e d d n g s an d r u n s e a c h o n e
i
t hr o u g h an L S T M . G i v e n i np ut X ?
t h e h i d d e n s t at e o f t h eL S TMe nc o de r i sde no te das hE a
t
68
-
-
Da l i an Un i vers i t
yo
f T e c hn o l o gy
D o cto ra D l i s s e r t at i o n
c
'
fo r e a c h / wh e r e R c i s t h e num b e r o f L S T M un i t s i n t h e h i d d e n
ti met f ,
^
e ,
l a y e r o f t h e e n c o d e r T h e fi n a l s t at e o f t h e en c o d e r (. h^ )
i s u s e d a s t h e i n i t i a l s t a t e fo r t he
de c o d er
.
T heL S T Mde c o d er t a k e s t h e e n c o d e d fe at u r e s t o r e c o n s t r u c t t h e i n
p ut . T o d y n am i c al ly
a t t e n t i o n m e c h a n i s m s e e c t i v e l y c a p t u r e s t h e c o n t e x t i n fo r m a t i o n f r o m I n c R
l N A s a nd pr o t e n s
i
c o n c u rr e nt l
y t o e ff i c e n t y p r e d i c t n t e r a c t i o n s
i l i . D ur i n g tr a i n i n g ,
t hed e c o d er u s e sx t
as i n p ut t o
an d co T h e o u t p u t
’
o b t a i n t h e s t at e p o n d i n g t o t ar g e t x 厂
丨
/z t he n p re d i ct s x -
rr e s
f (
f l
)
1 .
s e ue n c e st h e r e v e r s e o f t h e n p u t s e q u e n c e R e v e r s n g t h e s e qu e n c e m a k e s o t m i z at o n
i
p
i i i i
q
.
e as erb ye n ab l i n
i
g
t h e m o d e l t o e x a m i n e o w r a g e c o rr e l a t i o n s [ l 1 56
]
, G i v e n t h e hi d d e n s t at e h h
t h e d e c o d e r g e n e r at e s t h e o u t p u t b y p r e d c t i n g i
t h e ne x t s y m b o
l
y t
.
W he nd e s i
g n i n ga de ep l e ar n i n g
pr e d i c t i o n m o d e l
, p r e d e f i n e d h y p e r p a r am e t e r s
-
d e t e r m i n e d b y n u m e r o u s o p t i m z at i o n a t t e m p t s ar e a k e y i s s u e i . T he DNN m o d e l
p e r fo r m a n c e
i sc o nt r o l l e d b y t h e e a r n i n g r at e l
,
t h e nu mb e r o f h i d d e n l a y e r s
, t h e e p o c h s , an d r e g u l ari z at o
n i
t e c hn i
q u e s P a r a m e t e r v a u e s fo r l e a r n i n g r at e w e r e ( 0 5 1
. l .
?
. 0 2 0 ) T h e n u mb e r o f h i d d e n
5
. .
l ay e r s w a s 3 e ac h c o n s i s t i n g o f 2 5 6 1 2 8
, ,
a nd 6 4 n e ur o n s r e s
p e ct i v e l y . D ro po u tre
g u l a r i za
ti on
r at e a n d t h e n um b e r o f e p o c h s we r e ( 0 . 4 ,
0 5
.
,
0 7 ) an d ( 5 0
.
,
1 00 20 0) ,
. D ro p o u ti s u s e d t o av o i d
m o d e o v e r f t t n g b y r a n d o m y m a s k n g s o m e n e u r a l un s dur i n
g t r a i n i n g T h e p a r am e e r
l i i l i it t.
comb i n at o n s n t h e r a n g e a b o v e a r e a d a p t e d t o e v a l u a t e t h e p e r fo r m a n c e o f
i i t h emo de l s T he
.
ex d t w e n t y t i m e s t o a v o i d t h e nf l u e n c e o f i n i t a l ar a m e t e r r an d o m n e s s
per m en
ti sre
pea e
p
i t i i
an d t og e t a n o
p t m i z e d p e r fo r m a n c e
i . Th ep re d i c t ona go r i l i t hm i s s h o w n n A g o r i l i t hm 5 . 1
.
A l
gor i t hm 5 . 1
p
s e udo -
co d eo f D RP L P
I
In
put
:
S i
-
s eto f I n c RN A s e q u e n c e ,
S
p
-
s eto f
pr o t e n s e qu en c e i
,
num b e r o f s t ac k e d AE s =
T
,
R
=
num b e r o f i t e r at i o n s ( e
p o c h )
O u tp u t
:
L P I m atr xM i
y
Wh il et
=
lt oT d o
;
=
I niti a l i z e t r a i n i n g e x am
p l e s l a b e l s (y 〇 h Pj) ) 〇
;
R e p e a t
M i n i m i z e t h e r e c o n s t r u c t o n e rr o r i n fo r m u l a ( 4 i . 3
)
Genera t eI n c 腹 A a nd p r o t e i n fe at u r e d e s c r i p t o r s
,
F ne i
-
t un et h ea r c h i t e c tu re
69
-
-
P re d i ct i o n o f p a n t o n g n o n c o d n g RN A s n t e r a c t o n s w
l l i i i i
t h
p ro t
e n i
sb
y
dee
p e ar
n n
l
g