You are on page 1of 73

密 级 保 密 期 限

: 

观 i f f Af

硕 士学位论文

题 目 : 基于事理 图 谱 的 辅助 判 案技术 的研 究 与 实现

学 号 :

20 1 8 1 1 073 1


姓 名 :
 誣佳 

专 业  计 算 机 科 学 与 技 术
: 

导 师 :

吴斌 

学 院 : 计算机学 院 ( 国 家示范性软件学 院 

202 1 年 3 月 3 

中国 ■

北京


密 级 保密 期 限
: 

tf _ 會 大聲
r 

硕 士 学 位论文




题 目 : 基于 事理 图 谱 的 辅助判 案技术 的 研 究 与 实现

学 号 :

20181 1 07 3 1 

姓名 :
 郭佳 

专业  计算机科 学 与 技 术
: 

导 师 :
 ga 

学 院 : 计 筧机 学 院 ( 国 家 示 范 性 软 件 学 院 )

2 02 1 年 3 月 3 


Cond i fe n t i a l i t
y l ev e l : Con fi d e n t i a l i ty  p e r i o d 

B eu i n g  U n v e r s ty  o f
i
 i

P o s ts  a n d

T e l e c o m m u n c at o n s

 i i

T h e s i s  fo r M a s t e r D e g r e e

  

T o p i c  R e s e a r c ha n d
: I m p l e m e n t a t i o n o f  Aux ili a ry

J u d g m e n t T e c h n o l o gy b a s e d o n  E v e n tG r a p h s

S t u d e n tID  :

2 0 1 8 1 1 073 1 

Cand i d a te  :

J i a G u o 

S u bj e c t :  C o m p u te r  S c i e n c e  a n d  Te c h n o l o g y

S u p e rv i s o r  :

B i nW u 

I n s t i t u t e : S c hoo l of  C o m p u te r  S c i e n c e( Nat i onal



P il o t  S o ft w a r e  E n g i n e e r i n g  S c h o o l )


Ma r .  3 rd ,2 0 2 1


独创性 ( 或创 新 性 ) 声明

本 人声 明 所呈 交 的 论文 是本人在 导 师指 导 下 进 行 的 研 究 工作及取得 的 研 究

成果 。 尽 我所知 , 除 了 文 中 特别 加 以 标注和 致 谢 中 所罗 列 的 内 容 以 外 , 论文 中 不


包 含 其 他 人 已 经 发 表 或 撰 写 过 的 研 宄 成 果 也 不 包 含 为 获得 北 京 邮 电 大 学 或 其 他
, 

教 育 机 构 的 学 位或证 书 而 使 用 过 的 材 料 与 我 同 工 作 的 同 志对本研 究所做 的 任


何 贡献均 己 在 论 文 中 作 了 明 确 的 说 明 并表 示 了 谢 意 

申 请 学 位 论 文 与 瑪 料 若 有 不 实 之处 本人承担 切 相关责任




本 人签 名 :

亦 名 日 期 :

與 中 , / 

关 于 论 文 使 用 授权 的 说 明

本人完 全 了 解并 同 意 北 京 邮 电大学有关保 留 、 使用 学位论文 的 规定 , 即 : 




京 邮 电 大 学 拥 有 以 下 关 于 学 位 论 文 的 无偿使用 权 , 具体包括 : 学校有权保 留 并 向

国 家 有 关 部 门 或 机 构 送 交 学 位 论文 , 有 权 允 许学位论 文 被查 阅 和 借 阅 ; 学校可 以

公 布 学 位论 文 的 全 部 或 部 分 内 容 有权 允 许采 用 影 印 缩 印 或 其 它 复制 手段 保 存
, 、 

汇编 学位 论文 ,
将 学 位 论文 的 全 部 或 部 分 内 容 编 入 有关 数据 库 进 行 检 索 。 ( 保密


的 学 位 论 文 在解 密 后 遵 守 此 规 定 

本 人签名 :

為 孤 日 期 : y〇 y \
^r  b l E?

导 师签名 : H  日 期 : s .



基于 事理 图 谱 的 辅助 判 案技术 的 研究 与 实 现

摘 

随着 人工 智 能技 术 的 发 展 , 各个 领 域 都 利 用 人 工 智 能 提 高 了 自 


“ ”

化水平 和 效率 。
司 法领域也 不例 外 , 我 国 积 极推进 智 慧法 院 建设 

致力 于 用 科技 手段提 高 司 法 机 关 办 案 水平 进 步确 保 司 法 的 公平 性


和 效率 , 同 时 也为 人 民群众普法用 法提供 帮助 。 因此 , 研究人工智 能




在 司 法 领 域 的 应 用 具 有 重 要 的 社会 价 值 本 课 题 的 研 宄 内 容 主 要 包 括

 。

三部分 

1 、 基于 预 训 练模 型 提 取特 征 的 混 合 深 度 罪 名 预 测 模 型 。 受益于


预训 练模型新颖 的模型 架构 , 训 练方 式和 海量语料支 持 , 预训 练模型


在 自 然语 言 处理任务上获得 了 优异 的 结果 因 此本课题使 用 多 种 预训

 ,

练模 型对法律 判 决 书 文本进 行特 征提取 , 提取到 的特征输入基于




C NN 以及 L S TM 的 分类模 型 中 对 判 决 书 进行 罪 名 预 测 。 本课题将预


训 练模 型 提取 的 特征 和 传 统模 型 提 取 的 特 征 做对 比 , 基 于预 训 练模 型


的 特 征 明 显 超 过 传 统模 型 

2 、 基 于 刑 事 判 决 书 的 事 理 图 谱 构 建 和 刑 期 预测 模 型 。
传统知 识


图 谱 大 多 关注 实 体 的 属 性和 关 系 知 识 , 而 忽 视 了 事件 之 间 的 演 化 规律 

事理 图谱弥补 了 这

点 , 事理 图 谱 中 的节 点为事件 , 边为事件 之 间 的


演化关系 。 本 课 题 通 过对 判 决 书 的 文 本 进 行 预 处 理 , 事 件抽 取 , 事件


关系 抽 取 完成 了 事理 图 谱 的 构 建 通过计 算节 点 之 间 相 似度 的 方法 完

 。

成刑 期预测 

3 、 基于事理 图 谱 的 辅助判 决方案生成系 统 。 在本课题提 出 的 两




个模 型 的 基础 上 使用 实现 个可视化系 统 接 收案情 描 述 作


, Py Qt ,

为输 入 , 输 出 包含 罪名 和 刑 期 预测 的 辅助 判 决方案结 果 , 给司 法人员


和 人 民 群 众提供 法律 辅 助 

关键 词 : 预 训 练模 型 事理 图 谱 辅助判 案 罪名 预测 刑 期 预测




RE S E A R C H A ND  I M P L E M E N T A T I O N O F A U XI L I AR Y

  

J UD GM E N T  TE C H N O L O GY  B A S E D  O N  E V E N T  G R A P H S

Ab s trac t

A s t h ed ev e l op m ent  o f AI  te ch n o l o g y , h i
g h e r  e ff i c i e n c y  a n d


au t o m at i o n  l e v e l  a r e  a c h i e v e d  i n  v ar i o u s  fi e l d s  F o r  j u d i c i a l  ar e a  .

The


S m art  C o u rt s  i s  b e ngenerget
i i c al l
y  d e v e l op e d i n  C h i n a , a i m in g  t o

i m p r o v e  t h e  a b i l i t i e s  o f  c a s e  h an d l i n g  fo r  j u d i c i a l  o rg a n s  o f  C h i n e s e

" "

g o v e r nm e n
t  . Add it i o n al l
y ,  T h e  S m art  C o u rt s  c a n  f u r th e r  e n s u r e
j
u d i c i a l

n e s s  a n d  e ffi c i e n c y  a s  w e l l  a s
fa i r


p o p u a r i z i g  th e  l
l aw  t o  t h e
p
ub l c i .  T h a t

i st h ei m
p or
ta n t  v a l u e s  t h at  s t u d i e s  o n  a
pp l i
c at i o n  o f  AI  i n  t h e  j u d i c i a l

ar e a .  Th i s  ar t i cl em ai n l
y  i n c l u d e s  t h e  fo l l o w i n g  t hr e e  p a r t s 

1 .  Hy b r i d  d e ep  l e ar n i n
gm o d e l b a s e do n p r e

tr ain e d m o d e l 

Pre tr a i n i n g m o d e g etse x c e e nt
 p e r fo r m an c e  o n n at u r a  an
g u ag e


l l l l l

t a s k s  b e n e fi t i n r t s  o f n ov e l  m o d e l  ar c h i t e c t u r e
p r o c e s s n g g  fr o m  t h e  s u p p o
i 


tr a i n i n g  m e t h o d s  a n d  m a s s i v e c o r p u s  T h e r e fo r e  v a r i e t y  o f  p r e .

tr ai n i n


m o d e l s  a r e  u s e d  o n  fe a t u r e  e x t r a c t i o n  o n  l e g a l  j u d g m e n t  t e x t s  C h ar g e

 .

w i l l  b e  p r e d i c t e d  a f t e r  i n p u tt i n g  t h e s e  fe a t u r e s  i n t o  c l a s s i f c a t i o n  m o d e l s

 i

b a s e d  o n  C NN  a n d  L S T M  T h i s  m o d e l  i s  s u p e r i o r  t o  t h e  t r a d i t i on a l

mo de l 

2  Th ep re d c t i on m o d e lo f s o n  t e rm  b a s e d  o n  E v e n t  G r ap h  O n e


pr
. i i .

d i s a dv an t a g e  o f  t r a d i t i on a l  K n o w l e d g e  G r a p h s  i s  t h a t  i t  i g n o r e s  t h e

e v o lu t i o n ar
y  a w s  b e t w e e n  e v e n t s  w h i l e  m a i n y  fo c u s e s  o n  t h e  a t t r i b u t e s
l 
 l

an d  r e l a t i o n s h i p  k n o w l e d g e  o f  e n t i ti e s  . H o w e v e r  E v e n t  G r ap h
, ,  o f  wh i c h

n o d e s  d e fi n e d  e v e n t s  a n d  l i n e s  d e fi n e d  e v o l u t i o n ar y  r e l a t i on s h i p s  m a k e

 ,

u p  fo r  t h i s  d i s a d v an t a g e  T h i s  ar t i c l e  b u i l d s  th e  E v e n t  G r a p h  t hr o u g h
. 

fe at u r e  e x t r a c t i o n  a n d  e v e n t  r e l a t i o n
re
p ro c e s s n gt e xt s o f he u dgm e nt 

i t


j , 

ex tr ac t i o n .  T h en , 
t h e  p r i s o n  t e rm  i s
 p edic
r te db
y  c al c u l a t i n g  t h e  s i m i l ar i ty

b e tw e e n  n o d e s 




3 .  A u x i l ar y  j u d g m e n t  s y s t e m  b a s e d  o n  E v e n t  G r a p h s  W
i . i t h  th e

Ap p l i c at i o n  o f  P
y Qt av ,
i su al i z at i o n  s
y s t e m  i s  b u i l t  o n  th e  b a s i s  o f  th e

t w o m o d e l s  m e n t i o n e d ab o v e .  I n p u tt n g  d e s c r p t
i i i o n  o f  a c c d e n t w h i l e
i 

o u tp u t ti n g

t h e  a u x i l i ary  j u d g m e n t  w i t h  b o t h  p r e d i c t e d  c h ar g e  a n d  p r i s on

ter m .  Th i ss

s t e mw i l l  e ffi c i e nt l
y  p r o v i d e  l e g a l  a s s i s t a n c e  t o  j u d i c i a l  s t a ff

a s  w e l l  a s  th e  p u b l i c 

K E Y  W O RD S :
p re

tr ai n in
g
m o d e l  E v e n t  G r a h  au x i l i ar  j u d m e n t

p y g ; 

c h ar
g e  p r e d i c t i on ;  p r e d i cti o n  o f p r i s o n 
 t e rm




目录

第 章 引言

 

1 . 1 研究背景和 目 的及意义  

1 . 2 国 内 外研究现状  

1 . 2 . 1 人工智 能 在 司 法领域应用 现状  

1 . 2 2 .
深度学 习 在 NLP 以 及 司 法 领 域 的 研 究 现 状  

1 . 2 3 .
事理 图 谱在 NL P 以 及 司 法领 域 应 用 现 状  

1 _ 3 本课题 的 研 宄 内 容  

1 . 4 论文 的 组织结构  

第 二 章 相 关 技术  

2 . 1 文本处理  

2 2 .
文本 分类  1 

2 2 . . 1 C NN b a s e d

 M o de l  1 

2 2 2L S T
. . M -

b a s e d M o d e l  1 

2 2 3  A t t e nt i o n b a s e d  M o d e l
. .

 1 

2 3 .
知识 图谱  1 

2 . 3 . 1 知识 图谱  1 

2 . 3 . 2 事理 图 谱  1 

2 . 3 . 3 Neo4 j
 20

2 4 .
本章小结  20

第 三 章 基于 预训 练模 型 提取特征 的 混合深 度 罪名 预测 模 型  2 

3 . 1 数据 获取与 预处理  2 

3 . 1 . 1 数据 获取  2 

3 丄2 数据预处理  22

3 . 2 模型 介 绍  23

3 . 2 . 1 T r a n s fo r m e r  模型  23

3 . 2 2  B E RT 

模型  25

3 2 3 . . XLN E T  模型  27

3 . 3 基于 预训 练模 型 提取特征 的 混合深度 罪名 预测 模 型  3 

3 . 4 实验及结果  3 

3 . 4 . 1 实验环境  34




3 _ 4 2 .
实验数据  3 

3 . 4 . 3 基线模型  3 

3 . 4 4 .
实 验 设置 和 评价 指 标  3 

3 . 4 5 .
实验结 果及分析  3 5

3 . 5 本章小结  3 5

第 四 章 基 于 刑 事判 决书 的 事 理 图 谱构 建和 刑 期 预测 模型  3 7

4 . 1 基于 刑 事 判 决书 事理 图 谱 的 构 建方 案  3 7

4 2 .
事件抽 取  3 8

4 . 3 事件关 系 抽 取  3 9

4 4 .
构建 图谱  40

4 5 .
图 谱可视化  40

4 6 .
刑 期 预测 与 实验  42

4 6 . . 1 实验数据和 实验环境  42

4 6 2
. .
刑 期 预测  43

4 6 3
. .
评价指标  44

4 6 4
. .
基线模型  44

4 6 5 . .
实验结果  44

4 7 .
本章小结  45

第 五 章 基 于 事理 图 谱 的 辅助 判 决方案生成系 统  46

5 . 1 需求分析  46

5 . 1 . 1 上传 案 情 描 述  46

5 . 1 . 2 罪 名 预测  46

5 . 1 . 3 刑 期 预测  47

5 . 2 其他 预测 系 统  47

5 . 3 系 统架构  48

5 . 4 系 统实现  48

5 4 . . 1 PyQ t 介绍  48

5 . 4 2. UI  设计  49

5 4 3 . .
功 能实现  5 0

5 . 5 系 统展示与测 试  52

5 . 6 本章小结  5 

第六章 结论  55

参 考文献  56




麵  6 

攻读硕 士 学 位期 间 发表论文  63




第 章 引言

 

第 一

章 引言

研 究背 景 和 目 的 及 意 义


1 . 1

在当今时代 方面随 着我 国 法律体系 体制 的 发展与 健全 普通 民 众对法




, 、 ,

律的 了解 认 知 程度 不 断提 高 另 方面历 史遗 留 案 件在 不 断 累 积 各类 新 的 案


、 , ,

件层 出 不 穷 W 。 根据 最新版 的 《 最高人 民法院工作报告 》 , 20 1 9 年最 高人 民法 院



共 受理案件 3 849 8 件 , 已经审 结 的 案件有 3 44 8 1 件 , 同 比 分别 上升 1 0 7



个百 分


点和 8 2 .
个百分点 ; 地方各级法 院 受理案件共计 3 1 56 7 .
万件 , 审结 、 执结案件共


计 2902 2 .
万件 , 同 比分别 上升 1 2 7 .
个百分 点和 1 5 . 3 个百分点 。
而 随着这些各类


法 律 案 件 的 裁 决 书 或 判 决 书 数 量 的 不 断 增 加 各 类 司 法相 关 工 作 者 在 了 解 法 律 案

 ,

件 的 过程 中 或是 在进 行 司 法学 习 的 过程 中 都 需要针对这些海量 的 相 关 真实 案例

 ,

的 记 录 以 及 审 理 文 件进 行 查 阅 和 分析 这 就使 得 司 法相 关 人 员 的 工 作 任 务 越 来越

 。

繁杂 , 不仅 增 加 了 相 关 工作 的 失 误率 , 也会使得执行相 关法律法规 的 效率变得越




来越低 下 。 此外 , 广 大 有 监 督 权 利 的 人 民 群众 、 案件 的 相 关 人 员 以 及对法律 案例

有学 习 需求 的人员 都需要 个合 理 的 法律平 台 环 境 去 了 解法律 工作 执 行 的 进度




以 及结果 , 方 便 快捷 的 了 解相 关法 律 法规 或是类 似 的 法律 案 例 。
所 以 利用 海量 的

法律判 决书 文件进 行信 息 收集 以 及信 息 过滤 并从 中 发掘 出 与 ,
目 标案例 相 关 的 相


似案例 并进 辅助判案 , 这成为 了 解决该类 问 题 的 行 之有 效 的 手段 

我 国 现有 的 司 法体系 架构 表 明 ,
我 国 的 所有法律条例 均 属 于 制 定 法 , 也称为


成文法M 成 文 法主 要 是 指 具 有 编 写 或 修 改法 律权利 的 国 家 机 构 依 照 定 的流程


制 度颁布 出 的 表现为 明 确 条文样式 的 规 范 性 的 法律相 关 文件W 。 也有说法将其特




指 为 国 家 立法相 关机构 以 公开 的 方式赋 予 法律 文 书 以 规 范 性 的 效 力 成文法不仅

 。

仅包括 国 家权 力 机构 颁布 的法律法规 也包括 国 家 中 央行政机关和 地方 国 家权 力



 ,

机关和 行政机关 在 职权范 围 制 定 发布 的 规范 性 法律文件 现有针对法律 案件





内 [ ]

的判决 ,
往往 只 是 司 法工作 者根据 自 身 对 该 案件 的 理 解 , 依 据 过往 的 判 决经验 选


择合适 的 法律法规进 行判 决 。 而不 是依 靠与 历 史案例 的 审 理 、 办理 以及裁定结果


进 行对 比来辅助 当 前 需 审 判 结 果 的 案 例 的 最 终判 决结 果 这 也 就造 成 了 以 下 的 后

 。

果 



) 司 法工作者没有充分 以 历 史案例 为辅 ,
新产生 的 案例 也大 多 仅仅作为案


例 记录而存 在 。
随着 时 间 的 推移 , 司 法案例 的 累 积会给 司 法 工作 者找 寻 相 关 历 史


案例 记录带来 困 扰 。
同时 , 大数据 时 代 的 环境 背 景 下 , 海量 级 的 案例 , 使得相 关


人 员 无 法快 速 并 充 分 利 用 相 似 的 历 史 案 例 的 数 据 资 源 间 接 的 造 成 了 资 源 浪 费 和

 ,




北京 邮 电大学工 学硕士学位论文 


数据鸿沟 

司 法工作 的 主观化 我国现只 有 套完成 的法律体系 基于我 国 法律体




2 。 ,
( )

系下 ,
各个地方 的 司 法系 统 因 地域 的 相 对 性均 具 有 自 己独特 的 适用 方法 。 不同地


域 的 司 法 工作 者 对法律 的 认知 、 犯罪情节 的 判 定 、 对 案 件 的 审 判 结 果 的 理 解均 具

有 定 的主观性 不 同 地方 的 地方文化 人文 因 素 等差 异 也会 间 接导 致相 同 案情


。 ,

不 同 的 量刑 结果 

随着数字 时 代 的 到 来 , 人 民法 院等 司 法机构 的 信 息化程度 的 不 断提高 , 云平




台 大 数据 等技术 的 飞 速 发展 以 及对应 硬件存储 设施 的 性 能提升 ,
使 得 将 司 法记 录

文件 电 子化成为 了 现实 时 间 累 积 下 的 大量 的 司 法案件产 生 了 海量 的 司 法相 关数

 。

据 这 些数据 成为 了 引 入人工 智 能辅助 司 法判 决 的 基础 另 方面 随着 中 国 司





。 ,

法体系 不 断 的 深化 改革 , 增 加 了 应 用 人工 智 能 的 可 能 。 20 1 2 年 1 0 月 9 日 , 中 国

国 务 院新 闻 办公室发表 的 中 国 的 司 法改革 》 书 强调 切 实 维护 社会 的 公平 正


《 :

义 需 要法 院 在 办 理每 件刑 事 案件 的 时 候 以 司 法准 则 作 为 准 绳 由 于 中 国 现有


, 。

国 情 决 定 了 司 法人 员 司 法水 平 存 在 明 显 差 异 , 地 方 保护 主 义 依 然 盛 行 。 近年来 

法律主 管 单 位 致 力 于 量刑 规划 ,
试 图 建立起 司 法案 例 体系 , 极大的规范化 了 司 法


进程 。 量 刑 协商 是认罪认 罚 从宽 制 度 的 关键所在 。
缺 乏规范性 的 量刑 协商 不利 于

认罪认 罚 从宽 制 度 的 发展 并有损 司 法公 正 ,
。 案例 指 导 制 度 契合 了 规 范量刑 的 需

要 有 利 于 促进 量 刑 协 商 结 果 的 公 正 性

我 国 作 为 成文法 国 家 , 追求量刑 的 精确


无法 以 不 断修 改 制 定 法 的 形 式来 实现 而 相 对 宽 松 的 量刑 幅度 又让法 官拥 有 了 较

 ,

大的 自 由 裁量权 。 且 我 国 现 行 刑 事 诉 讼 中 的 量 刑 模 式 量 刑 程序 的 独 立 性 不 足 ,


量刑 过程不够 公开和 透 明 , 法官量刑 方面 的 自 由 裁量权缺 乏 必 要 的 限 制 和 监 督





4]
。 不 同 地域 、 不 同 时 期 和 不 同 个案 间 的 量刑 偏差 现 象依然存 在 并表现 出 非合理

 ,

因 素影 响 量 刑 的 异 常 状态 其原因 方 面 是 由 于 量 刑 规 范化 改革 的 规 范程度 不


方面 量 刑 规 范化 改革 既 不 能 消 除法 官

足 量 刑 程序存 在 形式化 缺陷 另 

, ; ,

个体 的 差别 , 也 无 法抑 制 非 合 理 因 素 的 影 响 。 为此 , 应 当 完 善量刑 诉讼构 造 ,



效 实 现量 刑 监 督 与 制 约 合理配置 审 判 资 源 保证 审 判 管 理科学 与 统 加 强量


, ,

刑 活动 指 导 , 抑 制 案外 因 素干扰与 影 响

随着近年来大数据 以 及 云 计算平 台 等现代科技 的 高速发展 ,


国 内 外司 法机


关 、 律师事务所 、 公 司 纷 纷 将 人 工 智 能 引 入 司 法领 域及 法律服 务 领 域 , 法律 智 能

应用 系 统从基于规则 的 法律专 家系 统过渡 到 基于 大数据 的 法律人工 智 能系 统 在



 ,

辅助法官 办案 、 服务 律师 、 社会 公众方面正 在 不 断取得新 的 成就 。


但是 , 因系统


建 设 整 体规 划 、 顶层 设 计相 对缺 乏 , 功 能上存在很 大提升 空 间 ,
尤其 是对 案件预


判 预测 的 功 能 存在 缺 失 , 数据 收 集 共 享 应 用 上 存 在 诸 多 薄 弱 环 节 ,
技术上面临诸


多挑战 不 少 学者 在 司 法领域 中 开 发 了 各类辅 助判 案系 统 但大 多 存在功



66 67 68]
, ,

。 ,




第 章 引言

 

能单 等问题



为 了 更 好地 利 用 历 史法 律 案 例 的 判 决 数 据 来 辅 助 司 法 人 员 的 工 作 本课题 以

 ,

刑 事 案 件判 决书 中 的 案情 描 述作 为 模 型 的 输 入 输 出 相 应 刑 事 案 例 的 罪 名 与 刑 期

 ,

预测 , 多 种 历 史案例 之 间 的 事理体系 等 问 题进 行 了 研 究 。
本课题 的 研 究对 象 是 司

法 数 据 中 的 案 件判 决 书 , 由 于 历 史案例 文本数量庞 大 、 案情复杂 、 文本 内 容冗余




较 多 以 及 案件重 点 分 布 不均 匀 等 问 题 采 用 传 统 的 人工 方法无法 有 效地将 其 转 换

 ,

为 决定判 决 案件 的 关键信 息 本课题 正 是对 收集 到 的 案例 判 决文件进 行 文 本 内 容



 。

信 息挖掘 , 结 合文本预 处理 、 双 向 深度神经 网 络 、 注意 力 机制 以 及事 理 图 谱等 模




型 方法 来 研 究 ,
并最终实现基于 事理 图 谱 的 辅助判 决方 案生成模 型 

1 . 2 国 内 外 研 究现状

本课 题分别对人工智 能 在 司 法领域 中 的 研 究现状 、 深度学习 架构 C NN 



L S TM 以及 at e n t i o n 机制 在 自 然语 言 处理领域 以 及 司 法领域 的 研 究 现状 知 识 图

 ,

谱 、 事 理 图 谱 在 司 法领域 的 应用 现状做 出 了 汇总 分析 , 本节将对 上 述相 关 内 容 的



国 内 外 研 究 结 果进 行 汇 总 分析 

1 . 2 . 1 人 工 智 能 在 司 法 领域 应 用 现 状

国 外 的 相 关研 究 者 早 在 90 年代就 己 经开始 对人工 智 能 在 司 法领域 的 应用 研




究进行 了 开 展 , 在案件 的逻辑推理方面 , 所有基于案例 的推理 ( C as eb as e d

CBR 都采用 了 些 从案例 进 行 归 纳 的 方法 以 支持索 引 编制和 相 关




re as o ni n )
g ,

性评估 , 并 证 明 了 两 种 基本 的 推 理 方法 : 通过跟踪过去 案例 的 解决方案来 限制 搜




索 , 或者 通 过将 案 例 与 过 去 案例 进 行 比 较来评估 案例 W 。 在 历 史 案例 分类方面 

等人 7]
使 用 决策树算法 构建了 个使 用 历 史案例 数据进 行推理分析 


S c hi l d

, ,

而预测 最 终 的 量刑 结 果 的 模型 系 统 该模型 主 要 是根据 用 户 的 输 入 案 例 判 决 书 进



 。

行相 似度 匹配 , 与 历 史案件进行 匹配 , 从而 依 据 历 史案例 的 判 决对 新 的 刑 事 案 例


进行预测 。 A sh l e
y 等 人 %构 建 了 历 史 案 件 的 数 据 存 储 系 统 , 当 用 户 输入新 的 刑 事


案例 ,
使 用 决 策树算 法从数据 库 中 选择相 似 的 案例 , 并给 出 相 应 的 判 罚 结果 。



法律法规 的 逻辑推 理方面 , Pa l au 等 人M 重 点 关 注 了 法律 判 决书 中 的 律 师辩 论环

节的文本资料的信息挖掘 , 通过 自 然语 言 处理等技术 , 对 相 应 的 文本 内 容进 行 界



定 , 最 后通过使用 贝 叶斯 分类 网 络 等模型 〖
1 Q , ]

来验 证输 出 结 果 的 准确 性 

在 司 法数据 收集 及 预 处 理方面 ,
Q i n 等人 从 数据 需 求 的 定 义 ,
数据 列 表 的

生成 ,
数据标准 的 制 定 ,
数据标 准 的 批准 以 及数据使用 的 标准等方面研 究 司 法数


据标准 的制 定 。 该标 准 可 用 作 司 法 数 据 仓 库 的 基 础 , 可 以 提 高司 法数据 系 统 的 数


据 致性和 数据 可用 性 为 了 准确 描述 案件信 息 的 性质 及其各 个维度 L an 等人


。 , i





北京 邮 电大 学工学硕士学位论 文 


1 3 ]

借助 六元信 息 论和 粗糙集相 关 知 识 ,
构 建并 量化 了 文 件 的 数据质 量评价标准 

等人 提出 了 种 基 于 数据和 文本 的 挖掘 技 术 以 支 持法律 从业者 和 研 宄 学




Ta l i b

者进 行追踪所 需 的 信 息 ,
并 确 定 与 其 相 关 案例 有 关 的 所有 案例 

国 内 针对 司 法领域 人 工 智 能 算法 的 应 用 方 面 , 主 要集 中 在对 刑 事 案件 的 分类


上 。
髙 菲 等 将 机器 学 习 中 的 经 典 分类 算 法支 持 向 量 机 ( S upp o r
t Ve c t or M ac h i ne 

S VM ) 用 于 辅助 量刑 中 ,
试 图 通过构 建 以 SV M 为 核 心 的 量刑 分类模 型 来辅助相


关法律从业人 员 , 减少 量刑 过程 中 的 地域偏 差 和 不 公 正 的 行为 。 主要 的做法是通

过构建辅助量刑 专家系 统 的 架构 , 以 盗窃 罪作为研 究 文本集 , 重 点探索 了 系 统实





现 的步骤 以及细节 [
1 6

针对不 同 案件 文本 的 信 息 分布 不 均 匀 等特 点 ,
程春 惠 等


人 提 出 了 针 对 法律文 本 的 预 处 理方 法 , 并 对 比 了 不 同 的 法 律 文 本 特征 选择 方法 

程春 惠 等人主 要使用 的 模 型 是 改进 的 多 变量 贝 努里模型 该模 型可 以 有 效地解





1 8]

决 不 同 法律案 件 的 所属 类别 分布 不均 匀 的特点

1 9]


通过对 国 内 外在 司 法领域 引 入传 统人工 智 能 算法 的 研 究汇 总 , 可 以看 出 过去



学 者 往 往 依 靠 简 单 的 分类 模 型 对法 律 罪 名 、 法 律 分类 等 方 向 进 行 了 研 究 。 在整个


处理过程 中 , 需 要对历 史相 似案例 进 行界 定 , 或者依靠简 单 的 深度 网 络等模 型进


行 预测 , 这 也就造成 了 对 人力 资源 的 过度使用 。 随着神 经 网 络 的 发展 以 及 自 然语


言 处理 ( Na t u r a l  L an g u ag e  P r o c e s s , NL P ) 技术 的 进步 ,
将二 者有机地结合起来 

可 以 表现 出 更好 的分类效果 

1 . 2 2 .
深度 学 习 在 NL P 以 及 司 法 领域 的 研 究现状

NL P 从本质 上来说 ,
是 人工 智 能 领域 的 分支 领域 , 主要专注于对人类 自 


语 言 的 理解 以 及 人机交互等 方面 。 NL P 最早 的 研 究可 以 追溯 到 图 灵 计算机时代 

也 就 是传 统 意 义上 的 以 规则 为 背 景 的 研 究方法 包括现在 仍然流行 的 统计学模型



 ,

方法 。 NLP 领域 的 模型从最开始 的 传 统概率学分类 网 络 , 到 现在主流 的卷积神




经 网 络等深 度 学 习 方法 。
随着 NLP 领域 的 不 断进步 , 越来越 多 的 学 者 将 NL P 


型 与 司 法领 域 的 大量文 本 内 容 有 机 结 合 通过对 司 法判 决过 程 中 产生 的 文 本 数据

 ,

信 息进行处理 , 提取 中 其 中 有用 的 关 键信 息 , 结 合深度神 经 网 络等 算法是 目 前司



法领域较 为 主流 的 研 究 方 向 之 一



在 国外对 NL P 与深度学 习 结合 的研 究 中 L am e 等人 介绍 了 种 识别 本体


组件 的 方 法 。 该 方法依赖于 自 然 语 言 处理 ( NL P ) 技术 来 提取概念 以 及 这些概念




之间 的关系 。 该 方法在法律领域得到 了 应 用 ,
以 构 建专 门 用 于信 息 检索 的 本体 

M i ko l o v 等人W构 建 了 从大规模 的 数据集 中 构 建文本单词 的 矢量表示 的 模 型 。





单 词 意 义 相 似 度 检测 的 任 务 中 ,
将其 与 不 同 类 型 的深 度神 经 网 络进 行对 比 , 表现


出 最佳 的 分类性 能 。
在 经 典 文本数据 集与 深度 神 经 网 络 结 合 的 方面上 ,
Co l l ob er





第 章 引言




等人

提出 了 个句 子含 义 识 别 的 卷 积 神 经 网 络 模 型 通过输入 的 句 子 识别句




[ ]
, ,

子 中 的 词 语标签 、 词 语 性质 、 以 及找寻 相 似结 构 的 句 子 。 整个 网 络 进 行 训 练 , 


合使用 重量共享 实例 所有这些任务 多 任务 学 习 Z h an g 等人 提出 了 种字符



级卷 积 网 络 ( C o nvN e t s ) 进 行文本分类 的 实证研 究 。 L ai 等人 [


2 3

使用 经典 的 递归

卷积 神 经 网 络 ( R NN ) 来进行 文本 分类 。 在模型 训 练过程 中 ,


当 学 习 单词 表示

时 , 使用 特定 的 递归 结构 来 识别 文本 之 间 的 关系 , 该方法与 传 统 的 固 定 大 小 的 卷


积窗 口 相比 这可 能会 引 入更少 的 噪 声 同 时还采用 了 个最大池化层 该层可



。 ,

以 自 动 判 断 哪 些 单 词 在 文 本 分 类 中 起 关 键作 用 , 以 捕 获 文 本 中 的 关键组成 部 分 

等人 提出 了 个新颖 的 统 模型 C L S TM 用 于句 子 表示和 文 本 分类
24] 一 一

Zhou [ -

, 

C L S TM 利用 C NN 提取 系 列 高级短语表示 形 式 并馈入长期 短期 记忆 递归 神


经网络 ( L S TM ) 中 以 获取句 子表示形 式 。 C L S TM-

能 够捕获短 语 的 局 部特征 以

及全局 和 时 间 句 子语义 。 Jo t
y 等人 [
25]
提 出 使用 深度神经 网 络 ( D NN ) 学习 有意

义 的 特定 于 任 务 的 嵌入 , 然 后 将 其合 并 到 用 于 多 任 务 设置 的 条件 随 机场 ( C RF 

模型 中 , 从而对复杂 的 图 结构进行联合学 习 。 尽管 D NN 在接受训 练 以 生成嵌入



时 获得 了 竞 争性 的 结 果 , 但是利 用 嵌入和 任务之 间 的 依存关系 的 C RF 可 以在各




种 评估指 标上 显着 , 持续地 改 善结 果 

现有 NLP 领域与 深度神 经 网 络结合 的研 究 中 , 可 以 发现无论 是 C NN 还是




RNN 模型 , 当 输入 的 文本信 息 数据 级非常庞大 的 时候 , 模型难 以 有 效 的 学 习 到

合理 的 文本含义表达 , 有 学者 在此基础 上 引 入 了 注 意 力 ( Aten ti on ) 机制 。 注意



力 机 制 是深度 网 络 中 的 个模 块 通过对 不 同 的 词 向 量 赋 予 不 同 的 权重 值 对不


, ,

同 的 句 子 赋 予 不 同 的 权 重 表示 ,
能 够 直观地 观察 到 句 子 中 不 同 词 语 之 间 的 联系 

文本 中 不 同 句 子 的 上下 文关系 可 以 有 效地提高文本分类准 确 率 Ya n g 等人 [
26]


, 。

提出 了 个用 于 文档 分类 的 分层 注 意 力 网 络 他 们 的 模 型 具 有 两 个鲜 明 的 特 征

。 

具 有反 映文档 层 次结 构 的 层 次 设计 具 有 在 单词 和 句 子层次上应 用 的 两 个层 次 的

 ;

注 意 力 机制 , 使其 能够越来越少 地参 与 构 建 文档 表 示形 式 时 的 重 要 内 容 。 S a c h an

等 人@提 出 自 学 习 框架 , 分别 构建 了 迭代训 练 问 题 生成模型 与 答案选择模型 。 



模 型 的 训 练过程 中 , 也 引 入 了A t e nt
t i on 机制 的序列 间 模型 , 用 以 解决文本段落


生成等 问 题 。 整个模 型 的 训 练采 用 了 无标签 的 数据 来标 记 隐 标 签 , 从而达 到 了 扩


充 训 练数 据 集 的 目 的 , 整体模 型 的 效 果要 比 同 类型 模 型 更好 

1 . 2 3 .
事理 图 谱 在 NLP 以 及 司 法 领域 应 用 现 状

基于 不 同 任 务和 不 同 知 识 的 答 案选 择方法有 效地 扩增 了 数据集 所蕴 含 的 有


效信 息 通过外部 些逻辑信 息 的 辅助 将 问 答 模 型 或 是 分类 模 型 的 效 果 提 高 到


, ,

新 的层次 , 是 近年 司 法 领 域 研 究 的 热 点 与 突 破 点 。 为 了 探讨职业法律意 义与 社会




北京 邮 电大学工学硕士学位论文
 

认知 之 间 的关系 , L i an 等人 W使用 知 识 图 谱来构建社交媒体与 专 业法律数据法




“ ”

律实体之 间 的 关系 网 络 并介 绍 知 识 图 谱 的 相 关方法 知识 图谱 这 术语可




, 。


表示广义上 的 知 识库

以 有两层含义 如 果认为 知识 图谱 是 种 用 以 存储知


。 ,

“ ” “ ”

识 的本体 那么 事理 图 谱 则是 种 存 储 事 理逻辑 关 系 的 知识 图谱




不 同 的 事件 是 构 成 人类社 会 的 重要 因 素之 人类 的 各种 社 会 学活动 或行为




般是 由 不 同 的 事件驱动 的 且 不 同 的 事件 之 间 往 往会 存 在 着 常识 意 义 上 的 因 果


衍化关系 。 例如 , 人类 在 下 班后 会 回 到 自 己的家中 , 生 病 的 时 候 会 去 寻 找 医疗诊




断等 这种 事件 之 间 相 继 发生 的 演 化规律和 模式是 种 很有 价 值的 知识 具有十


。 ,

分重要 的 商 业和 社会价 值 , 事理 图 谱 [
29]
就 是对这种 演化规律和 模 式 的 描述 。
事件


的演变 和 发展具有 其 自 身 的 基本原 理 , 这些 基本 原 理使 事 件顺 序 发 生 。 因此 ,



现 事 件 之 间 的 这种 进 化 模 式 对 于 事 件 预 测 决 策 和 知 识 系 统 的 模 型 过程 设 计具 有

 ,

重 要 的 价值 。
但是 ,
传 统知 识 图 主 要 关注实体及其 关系 , 而 忽 略 了 现实世界 中 的

事件 

事件 的 演 变和 发 展 具 有 其基本 原 理 , 导 致事 件 顺 序 发 生 。 因此 ,
发现事件之


间 的 这种 进 化模式对 于 事件 预测 , 决 策和 对 话 系 统 的 场 景 设 计 具 有 重要 的 价值 

L i 等 人_提 出 了 事 件进化 图 ( E v e nt E v o u t  l i o n a r y  G r ap h , EE G ) , 它揭示 了 事件




之 间 的 进化 模 式和 发 展逻辑 具 体 的 做法是通过识 别 事件 之 间 的 顺 序 关 系 和 每个

 。

顺序 关系 的 方 向 来构 造 EEG 。 对 于 顺序 关 系 和 方 向 识 别 , 并 且 探 索 了4 类 特 征


的 有 效性 : 基于计数 , 基于 比率 , 基于上 下 文和基于 关联 的特征 , 用 于 正确 识别


顺 序 关 系 和 相 应 方 向 脚本 事 件 预测 需 要 个模 型 来 预测 给定 现 有事 件 上 下 文 的


后 续事件 。 基 于 事 件 对 或 事 件 链 的 先 前 模 型 无 法充 分 利 用 密 集 的 事 件连 接 , 这可

能 会 限 制 其 事 件 预测 的 能 力 为 了 解 决这个 问 题 常 见做法是构 造 个事件 图


。 , 

以 更 好 地 利 用 事 件 网 络 信 息 进 行 脚 本 事 件 预测 。
首 先 从大 量新 闻 语料 库 中 提 取 叙


事事件链 , 然 后 根 据 提 取 的 链构 建叙 事事 件进化 图 ( N arr a ti v e  E v e nt E v o l u t i o n a r y


G r ap h , NE E G ) 。 NEE G 可 以 看作 是 描述 事件进化 原 理和 模 式 的 知 识 库 。 为了解




决 NEE G 上 的 推 理 问 题 等人 提出 种可缩放 的 图神 经 网 络 G r ap h



S c al e d  

[ ]
, i (

N e ur a N e tw o r k
l , S GN N ) 来建模事件交 互 并学 习 更好 的 事 件表示 。 S GN N 每次


都 只 处理相 关 的 节 点 , 而 不 是在 整个 图 形上 计算表示 , 这 使 得 整 个新 模 型 对 大 规


模 图 形可行 。 抽 象 因 果 关 系 网 络 是 从 特 定 网 络 中 概括 出 来 的 , 抽 象事件节 点 由 


繁共现 的 单词对表示 为 了 执 行 事 理 图 谱 中 的 嵌 入 任务 Z ha o 等人 3 2]
设计 了



。 ,

个双 重 因 果 转换模型 , 并 且可 以 获得较为 简 单 的 因 果 关 系 模 式 , 同 时 简 化 了 事件


匹配 。 事理 图 谱 也被广泛应用 于智 能金 融 、 智能司法 、 国 际 关 系 分析等领域 。



有针对 事理 图 谱 的 研 究 表 明 , 事理 图谱 的 图谱节 点均 由 不 同 的 、 具有实 际意义 的

事件构 成 , 且 在和 事件相 关 的 分类 、 预测 等任务上取得 了 良好 的表现 ,


但是还没




第 章 引 言




有 研 究直接将 其应 用 到 消 费 意 图 识别 、 消 费 意 图 预测 等其他 任务 。 我们 基于 以 上

的种种考量 , 提 出 将事理 图 谱应 用 于 智 能 司 法领域 ,


在 事 理 图 谱 中 引 入 司 法关系


节点 , 构 建更 符合社会学 、 司 法学规律 的 图 谱模 型 , 进而将 其应 用 于 最 终 的 辅助


刑 期 界定 以 及法 官 判 罚 

1 . 3 本 课 题 的 研究 内 容

本课题通过分析 司 法数据 集 ,
将结 构化 的信 息 融入事理 图 谱 中 , 提升算法 的

准确 率和 召 回 率 同 时利 用 对抗 学 习 优化 文本生成效果 生成 案件辅助判 决 结 果

, 

并把 以 上功 能集合成 个基于 事理 图 谱 的 辅助判 决方案生成 系 统 具体工作如




下 




基于 预 训 练模 型 的 混 合深 度 刑 期 预 测 模 型 , 基于刑 事判 决书 , 研究并构


建 了 基于 B E RT 和 混 合 深 度 学 习 的 刑 期 预测 模 型 。
对于 判 决书 这类长 文本 , 为了

保 留 文本 的 结 构 信 息 , 本课题使 用 B E RT 作 为 文本 向 量提取 工具 , B E RT 对于文




本 中 的 关 键信 息 有 很好 的 把 握 能 力 。 下游模型使用 C NN L S T M
- -

Aten ti on 混合模


型 。 基于 C NN 的 局 部特征提取 能 力 和 L STM 处 理序 列 问 题 时 更 好利 用 上 下 文信


息的能力 , 与 C NN 形成 了 优势互补 , 并且针对 长文本 的 特征稀疏 问 题 , 引 


A t en ti o n 机制 


2) 基于 刑 事 判 决 书 的 事 理 图 谱 构 建和 刑 期 预测 模 型 , 通过分析 司 法数据


集 ,
将结 构 化 的 信 息 融入事理 图 谱 中 , 进行事件抽 取 与 事件关系 抽 取 , 构 建基 于


刑 事判 决书 的 事理 图 谱 ,
并结 合文本相 似度对给定 判 决书 进 行刑 期 预测 




基于事理 图 谱 的 辅助判 决方 案生成系 统 , 包括模 型 融合 , 将事理 图 谱模


型 和 基 于 预 训 练模 型 的 混 合深 度 刑 期 预测 模 型 结 合起来 预测 案件 罪 名 及 量 刑 系

 。

统架 构 设 计与 实 现 , 系 统架 构 主要 分为 三层 , 分别 是数据源层 、
数据 分析层和 可

视化层 。 系 统功 能设计与 实现 , 依据辅 助 判 决方 案 生 成系 统 需 求及上述研 究 点 



实现辅 助 判 决方 案生 成 , 刑 期 预测 等 功 能 。 系 统框架搭建和 模块集成 , 进行各个




模 块 逻 辑接 口 设 计 ,
构建基 于 Py Q t 框架 , 基于事理 图 谱 的 辅助判 决 方案生成 系

统 

1 . 4 

论文 的 组 织 结构

本课题 旨 在研 究 并实现 司 法领域基于事 理 图 谱 的 辅助 判 决方 案生 成系 统 从



 ,

海 量 的 司 法 文 书 中 抽 取 关 键信 息 , 并进行 罪 名 与 刑 期 预测 。
本课题主要分为六部


分 , 组织结构 如 下 图 1

1 所示 


章为 引 言 , 首 先 介 绍 了 人 工 智 能 在 司 法 领域 的 研 宄 背 景 和 研 究 意 义 , 




北京邮 电 大7 7 硕 :
1 :

丨 : 7 位论 文

 

次介 绍 了 人工 智 能 在 司 法领域 的 研 究 现状和 研 究 意 义 着重 描述 了 深度 学 习 在 司

 ,

法领域 的研 究现状 ,
再对 事理 图 谱进 行 了 简 要 介 绍 ,
最后 介绍 了 本课题 的组织架


构 

第 引 ¥


亭 :

 

第 二 章 相 关技 术

 

  "


,  1 

第 三 章 基 于预 训 练模 型 第 四 章 基于刑 事 判决 书 
  |

提 取 特 征 的 混 合 深 度 学 习 的 事 理 图 谱 构 建 和 刑 期 预


罪 名 预 测 模 型 测 模 型 


I    




y 

第 五章 基 于事 理 图谱 的


辅 助判 决 方 案 生成系 统

第六章 总 结与 展 望

图 1

1 文章架构 图

第 二 章介绍本课题所涉及 的相 关工作 , 主要包括 C NN -

b a s e dM o d e l 

L S T M b a s e dM o d e

l , A te n ti on -

b a s e d Mode l , 知识图谱 , 事理 图谱等 



第 三 章介 绍 基于预训 练模型提取判 决书特征 的 深度学 习 模型 的研 究与 实现 



首先对本课题 中 涉及 到 的两 个预训 练模型 B E RT 和 XLN E T 进行 了 介绍 ,


并对 比

分析 了 优缺 点 其 次介绍 了 提取特征之 后 的 分类模 型 分别 是基于


; , C NN 和 L S TM

的 文本 分类模 型 , 最 后 分别 基于 两 个预训 练模型 提取 的 特征对判 决书 文本进 行 了



分类 

第 四 章 介 绍 基 于 刑 事判 决 书 的 事理 图 谱构 建和 刑 期 预测 模 型 首 先对事理 图

 。

谱进 行 了 介绍 ,
接 着对 构 建 事 理 图 谱 的 关 键技 术进 行 了 解释 ,
包括 事件抽 取和 事


件关系抽取 , 抽取 出 关系之后使用 N e〇4 j
工 具对得到 的事理 图 谱进 行可视化 ,



合 文本相 似度对给定 判 决书进 行刑 期预测 

第 五章介绍 基于事理图 谱的 辅助判 决方 案生成系 统 基于第三章 和 第 四 章 得



 。

到 的模型 ,
系 统将 其 做 了 结 合 ,
利 用 深度 模 型预测 得到 的 罪名 结合 案情描述文本


进 行刑 期预测 ,
介 绍 了P y Q 的 优 点 t , 并 介 绍 了U 和 功 能 实 现 过 程 I 

第六章为本课题 的结论和 展望 , 梳理本课 题 的 工作 内 容 ,


并总 结 文 章 的 成果

和不足点 同 时对下 步 的 研 究方 向 进 行 展望

, 





第 二 章 相 关技术 

第二章 相 关技术

针对 刑 事 案 例 的 辅 助 判 决 方 案 生 成 系 统 的 实 现 本 课 题 在 实 现 将 事 理 图 谱 模

 ,

型 和 基 于 预 训 练 模 型 的 混 合 深 度 刑 期 预 测 模 型 结 合 起来 使 用 多 模 型 投 票 来 决 定

 ,

预测 的 刑 期 结果 。
本 章 首 先介 绍 了 相 关 理论 及技术 , 包 括 文 本 处 理 的 过程 ,
文本


分类 的 模 型 , 预 训 练 的 模 型 包 括卷积 神 经 网 络 (
CNN ) , 文本 分类模 型 , 包括长短


期记忆 网 络 (
L S TM) ,
两 种 模 型 分别 与 At en ti on 结合 , 知识 图 谱 以及事理 图 谱 的

具体 理论背景与 技术 

2 . 1 文 本 处理

在 NLP 的 文 本 处 理 的 过 程 中 传统 意 义上 的 文本 般是 由 字符组成 文本


, ,

处理 需 要 将 这 些计 算 机 不 能识 别 的 文本 转化为概率 学 上 的 词 向 量 以 便 算法 模 型

 ,

从 中 学 习 文本信息 词 向 量 般有 两 种 表示方 式 独 热 表 示 O ne

。 :

hot  re
p r e s e n t at i o n )

和 分布 式 表示 O ne 需 要 先将 经过


3 3


D i s t r i b ut e d  r e
p r e s e nt ati o n )
[ ]

hot  re
p r e s e nt a t i o n 


i eb a 等分 词 模 型 分词 过 后 的 文 本信 息 统计 出 全 部 的 词 汇频率 ,
将这些词 汇频率


组建 成对应 文本专 属 的 词 典 数据 的 集合 , 这 也 是 词 向 量 的 构 建 过程 。 词 向 量 的矩


阵表示形式 中 将与 该词 语对应 的 向 量 的 那 列 标记为 其 他所有 的 列 的 值标


, 1 ,

记为 O ne 对 不 同 词 向 量 的 表示方 式 是 致的 转化为 向 量


0 。

hot re
p r e s e n t at i o n ,

间 的 距离 也是相 同 的 ,
无法表示 出 词 语本 身 具有 的 词 性 ,
含义等信 息 。 


D i s t r i b ut e d  r e
p re s e n t a t i o n 则 可 以 避免这种 问 题 , 分布式表示方法将分词 之后 的 文


本信 息 投影到 不 同 维度 的 词 向 量 空 间 , 弥补 O ne -

ho t  re
p r e s e n t at o n i 表示方法会 导


致 的 词 向 量维度稀疏 问 题 同 时 也 弥补 了 词 向 量本 身 在 转化过程 中 缺 失掉 的 语义

 ,

信息 

D i s t r i bu t e d  r e
p r e s e n t at i o n 最初是 由 H i nt o n 等人在 1 986 年提 出 [
3 4]
, 对分词 后


的文本信 息使用 低维 的词 向 量表示 , 表示形 式如 [
0 7 5 8 0 8


. 1 9  0

. 1 2 4 0 2 4 8




0 558 . . . .


。 通过对 比 两个 目 标词 向 量在 不 同 维度 空 间 的 距 离 信 息 , 可 以 直接表示


出 两 个词 本 身 之 间 的 相 似度 。 不 同词 向 量之 间 的相 同 维度空 间 下 的距离越小 , 


表二者 的 相 似度越大 。
针对词 向 量之 间 的 距离度 量 , 有 许多 不 同 的 方法 。
常见的

方法 有 余 弦 相 似 度 , 欧 氏距离 ,
马 氏 距离 等方法 。
使用 更低 维度 的 词 向 量来表示


文本信 息 , 不仅解 决 了 词 向 量矩 阵维度稀疏 问 题 , 也表示 出 了 不 同 词 向 量之 间 的

语义 信 息 

过去 的 研 究涉及到 文本 时 最常见 的 表示形式之 就是单词袋 尽 管流 行


, 。 

但 词 袋模 型 有 两 个主 要 缺 点 它 们 失 去 了 单 词 的 顺序 并且 也 忽 略 了 单 词 的 语义 : , 





北京 邮 电大 学工学硕士学位论 文 

” “ ” “ ”

的 距离 相 等 等人

例如 , 强大 , 强大 和 巴黎 。 M i ko ov


3 5 〗
于 20 1 4 


描述 了 种 无监督算法 用 于 学 习 句 子和 文本 文档 的 向 量表示 该 算法通 过 密 集


, 。

矢量表示每个文档 , 该矢量经过训 练可 以 预测 文档 中 的 单 词 。 它 的 构造使我们 的



算法有可 能克 服 单词 袋模 型 的 弱 点 。 w〇 rd 2ve C M 将文本 中 的不 同 句子 中 的相 同词



语映射到 低维空 间 表示为 个固 定长度 的词 向 量 这也就是前文所提到 的




, 。

D but
e dr e p r e s e n t at o n 前最主流的 模型 如 图 所亦 是 种典型的


i str i i
目 。 2 -

1 ,

w o r d 2 v e c 架构 

输 入 层 映 射 层 输 出 层

w (
t 2)
 \

 S U M w ( t 

,
Z




( t l )

w ( t +2 )  ^

图 2
_


典型 wo r d 2 ve c 架构 图

如图 2 -

所不 ,
典型的 wo rd 2 ve c 包括三层 :
输入层 、 中 间层 、 输出层 

W〇 r d 2 ve C 模型 的 核 心 思 想 是将 目 标词 汇 的 上 下 文 临接词 汇输入预训 练模型 中 



结合上 下 文语义信 息 、 文本结构 信 息来预测 当 前 目 标词汇 的 文本 内 发生 的概率 



如图 2 -


所示 ,
对于词 … ⑴ ,
假定上下文 的 相关词汇 的 数 目 为 2 , 那 么 可 以 通过

输入 w(t -



, w(t+ l

, w( t 2 )

, w ( t+ 2 ) 等词 汇 的 文 本 内 概 率来预测 最 终 目 标词 向 量


w(t) 的 发生 的 概率 

随着深度学 习 的 发展 , B E RT ( B  i d i re c t i o n a  E n c o d e r  R e p r e s e n t a t o n s  fr o m
l 
 i

T r a n s fo r m e r s
37
近期 被提 出 之后 逐渐 成为 的 个 替 代者 该模型主


wo rd 2 ve c

) , ,

要使用 了  T r a n s fo r m e r ^ 作 为 核 心 框 架 ,
T r a n s fo r m e r 能 更 彻 底地 捕捉 语句 中 的 不

同 词汇之 间 的 前 向 、 后 向关系 ; 同 时 使 用 了M a s k L a n g u a g eM o d e l



MLM )
和 Nex 

1 



第 二 章 相 关技 术 

S e nt e n c e  P r e d i c t i o n ( N S P ) 的 多任务训练 目 标 ; 与 word 2 ve c 相比 , B E RT 使用 更


强 大 的 机器 训 练 更 大 规模 的 数 据 , 使模 型 最终 的 结 果达到 了 全新 的 高度 , 并且


Go o g l e 开源 了  B E RT 模型 , 用 户 可 以 直接使 用 B E RT 作 为 Wo rd2 Ve c 的 转 换 矩 阵


并 高效地将其 应用 到 自 己 的 模 型 训 练任务 中 

B E RT 是 个 多 任务模型 它 的任务是 由 两个 监督 任务 组成 即 ML M 和



自 ,

NSP W 等人 在 年首次提 出 了 M as k e d L an g u ag e  M o d e l ( ML M
3 9]
。 il s on  T ay l o r

1 9 5 3   

这 思想 其主要 的 做法是在模 型 训 练 的 过程 中 随机地从输入 的 词 汇 中 




, m as k

些 词 向 量 然后 通过 前文所述 的 结 合上 下文 的 词 向 量信 息 来 预测 该词 汇 的 发生


概率 。 主要 的 思想与 wor d2 ve c 类似 , 也有部分 RNN 的 思想在其 中 。 ML M 的 性




质 决定 了 该结构与 T r a n s fo r m e r 的适用 性 。 Nex t S e nt e n c e  P r e d i c t i o n ( N SP ) 的主要

做法则 是关注 不 同 句子之 间 的 关系 判 断某 个句 子 A 是否是另 个句 子 B 




一 一

下文 内 容 。
如果是的话 , 输 出 相应 的判 定参数 。 NSP 的 训 练过程 更 多 的 保有句 子


之 间 的 顺序 的 随 机 性 部分数据 是相 邻 的 随机句 子 另 部分训 练数据则 是不


一 一

, ,

相 邻 的 随机句 子 通过 不 断地学 习 句 子顺序这 信息 更好地表达 了 文本 的 语义




。 ,

信息 。 B E RT 模 型 的 本 质 就 是 在 海 量 的 数 据 资 源 的 基础 上 通 过耗 费 大 量 的 物 力 资

源去运行 监督 的 学 习 方法来 学 习 个较好 的 单词 表征


自 

但是 B E RT 的 编 码 语 言 模 型 也有对应 的 缺 点 方面 在模 型 的 预训 练过程


自 ,

中 , 引 入的 M as k 标记会去 掉部 分单 词 对应 的 词 向 量 ,
但是这个部分在模型后续


的 微 调 阶 段 是 无 法 看 到 M as k 标 记 的 部 分 , 这会 导 致整 体模 型 训 练 过程 中 的 性 能


损失 另 方面 在 Mask 过程 中 去 掉 的 单 词 词 向 量 有 些往往 是没有 任何关系


, ,

的 , 相应 的 也会有词 向 量具有 因 果等联系 关系 。 而 在 整 个模 型 的 训 练 过 程 中 , 




于有关系 的 词 向量 , 是 需 要 获取 其 所蕴 含 的 词 义 信 息 以 及 语 义 信 息 。 正是对


B E RT 这些缺 点 的 考量 有学者提 出 了 种 具有泛化能 力 的 回 归词向 量预训 练


, 自

模型 XLN e XL N e 模型融合 了 当 前 最优 归模型的思路 通过 最 大化 所





自 回
( )
[ ]
t 。 t ,

有 可 能 的 句 子 间 因 式 分解顺序 的 对 数 似然 ,
从而学 习 文本 中 前 后 向 语境 、 语义信


息 ;
XLN e t 模型 正 是使用 自 回 归 本身 的特点来解决前文提到 的 B E RT 的缺点 

X LN e t 与 B E RT 相 比采取 De -

no i s i ng 
Au t o enc o de r 方式不 同 的新 的 预训 练 

标 : P e r mu t at o n  L a n g u a g e  M o d e l ( P L M )
i 。 同 时 引 入 相 对 位 置 编 码 以 及 分 段 R NN

机制 。 此外还有 , 加 大增 加 了 预训 练 阶段使 用 的 数据规模 ;


B E RT 使用 的预训 练


数据 集 主 要 是 B o o k s C o rp u s 和英文 W i ki 数据 , 大小 1 3 G 。 X LN e t 除 了 使用 这些

数据 外 , 另 外 引 入 了G i
ga 5 , C l u e We b 以及 C o mm o n C r a w  l 数据 , 并排掉 了 其 中

的 些低质 量数据 大 小 分别 是 6G 9G 和 78G 可 以看出 在 预训 练阶段极




, 1 1 。 ,

大扩充 了 数据 规模 , 并对 质 量进 行 了 筛选过滤 

本章节设计 的 预训 练模型 中 , 针对 文本信 息 的 预 处理过程 , 主要采用 了



1 


北京邮 电大学 硕 丄 学位 论 文
‘ ?

I :




B E RT 与 XLN e 两 种 方 式 t ,
将大量 的 法律判 决书 数据 信 息 转 化为词 向 量结 构 , 


便后续 的 分类模 型等 训 练与 学 习 

2 2 .
文本分类

2 2 . . 1 C NN -

b a s e dM o d e 

深度卷积 神 经 网 络 (
dee
pc o nv o u
t ona l i l n e u r a n e t wo r k s

, 
C NN s ) [
4 1 42 ]

, 是 目 前人


工 智 能领域最为流 行 的 深 度 网 络 之 虽然 卷积 网 络 也存在 浅 层 结 构 但是因为


。 ,

准确 度和 表现 力 等原 因 很少 使用 。
目 前常见的 C NN 特指 层数不 定 的深层结构 神

经网络 。 C NN 的 发 展可 以 追 溯 到 十 几年 前 ,
随着计算 资 源 与 计 算 能 力 的 飞速发


展 , 逐渐 在 各 个 领域崭 露 头 角 。
例如 :
语音 识 别 领域 , 图 像 分割 领域 , 图 像识别

领域 ,
NLP 领域等 。 不 同 领域所解决 的 需 求与 问 题 不 同 ,
但总 的 归 纳来说 , C NN

可 以 从大规模 的 训 练数据 中 学 习 所 需要 的 特征信 息 并将这些特征信 息 转化为最



 ,

终 的 分类结 果 

典型 的 C NN 架构 由 卷积层 (
c o nv o u t o n ) l i

激活层 (
ac ti v at o n)


和池化层

( poo
l i ng) 三种层次组成 。 以 图 像 分类 任 务 为 例 , 将 C NN 输 出 的 特征 向 量作 为 全

连接层 的 输 入 ,
用 全 连接层 的 输 出 作 为 最 终 的 分类标签 。 目 前主流 的 C NN 架构 

例如 VGG [
43 ]
, R e sN e t

44 ]

都是 以上述 C NN 层 次架构为 核心 , 不 同 层 次组合而来 



如图 所示 对 个 大小 的 图 像输 出 使用 个 的 卷积 核对其进 行卷



* 一

2 -

2 ,
6 6 , 3 3

积 的过程 这是 种典型 的 C NN 架构

, 



C o v  Ke rn e l  

上 4  二  pi





 |
:3
 卜 
1 
 0 3 7

 


[ 〇 \

rT i |
T^f 〇
TTi  

01001  0 3 2 2 - - -

1  9

001 1 00  ///


c ov
T T T T T T
a ye r

l 



T T T T T T
0 0 1 0 1 0  1 3
 m//


 4 m 


 ̄ ̄  ̄  ̄
 ̄  ̄

6 x 6 m a g e i  1 5
_





s m

图 2

2 典型 CNN 架构 图

1 



第 二 章 相 关技术 

典型 的 C NN 架 构 W包 括 以 下 各 个层 次 结 构 

输入层 输 入层 是整个 网 络架构 的 输入 从这 层开始 C NN 组建起 不 同




: , ,

的 网 络 结 构将输入 的 特征矩 阵依 次运 算 得到 下 层 的特征矩 阵 最 终转化为 该




, ,

特征矩阵对应 的 预测 分类标签 

卷积层 卷积层 是所有 的 网 络 架 构 中 最 为重要 的 个层 次 与 全连接层 相 比


: , 

卷积层是 个维度较小 的 层 次结 构 卷积 层 的 输入是上 个层 次结构 的 局 部 




一 一

, 。

图 所示 展示 了 个 *
的 卷积 核 设计 卷积层 的 主要 的 是将特征矩 阵进


2 -

2 , 3 3 。 目

行局 部分解 获得每 个卷积核 大 小 的特征矩 阵 的 之 间 的 代表关 系 从而得 到 抽




, ,

象成都更高 的特征信 息 卷积核 可 以将前 层 次 结构 的 输 出 特征矩 阵




。 ( ker
ne l )

转化为 下 个层 次结 构 的 更小 维度 的 特征矩 阵 每 个卷积 核 大 小 的 设定 都 是有




一 一

定 句 可循 的 卷积 核 的 每 个节 点 的 值也 是有其相应含 义所在
一 一 一

, 

池化层 : 池化层 的 结 构类似卷积层 , 可 以 更有 效地 降低 特征 值矩 阵 的 维度 



从而为最 后 的 全连接层 降 低运算压 力 常 见 的 结构 为使 用 最大值 设计 的 最大池化



 。

层 ( m ax p o o l i n g ) 。 池化层 可 以 有 效 的 加 快运算速度 , 也可 以 防止模型 训 练过程




的 过拟合 问 题 

全连接层 全连接层 是最 后 的 分类结 果输 出 之前 的 最 后 个层次结构 经过




: 。

卷积 层 与 池化层 运 算过 后 的 特 征 值矩 阵 不 再 具 有 最 初 输 入 的 特征 值矩 阵 的 含 义 

可 以 转为 更 低 维度 的 、 信 息 含量更 高 的 特征矩 阵 

输出层 :
依据不 同 的训 练 目 标来输 出 最后 的 结 果 。 在 常 见 的 分类 问 题 中 ,


使
用 输 出 层 得 到 该特征 值矩 阵对 应 的 分类标签 

本课题使用 到 C NN 是为 了 更好地 与 前 文 所述 词 向 量预 训 练模 型 B E RT 等结


合 , 作 为 整 体 前 半 部 分 训 练 模 型 的 分 类模 块使 用 。
本课题 设 计 的 实验 中 , 使用 到

了 包括 B E RT + C N N , XL N e t + C NN 等混合深度 模 型 

2 2 2  L S T M b a s e d  M o d e l
. .

循环 神 经 网 络 R e c ur r e n N e ur a N e R NN ) 
45]
是指 类 能够 循环优化


( t l t w o rk ,

超参 数 的 具有 记忆 能 力 的 深度 神 经 网 络 在 R NN 的架构 中 每 层 的 神经元不


。 ,

但可 以 接受不 同 层 次其他神 经元 的 隐藏信 息 , 也可 以通过接受 自 己的信息来寻




优 。 与 其他类似结构 的 前 向 神 经 网 络相 比 , R NN 更 符合生 物 学 的深度 神 经 网 络


的 结 构特征 。 目 前 , R NN 己 经被广泛应用 于 语音识 别 领域 、 NL P 领域等 。 R NN

整体 的 结 构 在 时 间 层面上展开可 以 描述为 下 图 , 如图 2 -

3 所示 

1 



北京 邮 屯 大学工 学硕士学位 论 文



 yr

 h 


V i

//


I l l



一 ] 

: [  t  t  言

 厂  t

1   



! t
 : :


zT
  a; Xr

. .



l |

 _ _  _ _ 

图 2

3 按时 间 展开的循环神经 网 络

如图 所示 可 以清晰地看 出 每 个时间节点编号为 对应不 同




2 -

3 , 1 , 2 . . . T ,

层 次结 构 在进 行 不 断 的 优化过程 。
但 是 随着技术 的 发展 , 为 了 改善 RN N 网 络架


构 的 长程依 赖 问 题 有 学者提 出 了 新的 解决方案 通过 引 入 门 控制 机制 来控制



46 ]

, ,

RNN 的 循环 累 积速度 ,
并 在循环 的 过程 中 引 入新 的 有 效信 息 , 选择性 的 删 除掉


之前累积的无用 信息 这 类网 络架构可 以 统称为基于 门 控的 R NN  Ga

。 ( t ed

RNN ) 。 其 中 最 典型 的 结构 是 : 长短 期 记忆 网 络 ( L S T M ) [
4 〃8 ]


图 2 -

4 给出 了 L S TM 网 络 的 循环单元结构 的运算过程 ,
其计算过程为 : ( 1 

首 先对模型 上 个 时刻 得 到 的 外部状态 ^ 和 当 前 时 刻模型 的输入 & 计算得到




/ ,

次模 型 循环结构 的 候选状态 乂
下 结 合 图 中 标记 处 的 遗 忘 信 息 门 和输


( 2 )

A A
入信 息 门 

 来更新 该层次结构 的 记忆节 点  ;  ( 3 ) 结合最终的输 出 信 息 门 


将该循环结构 内 部状态 的 隐藏信 息 间 接传递给其他模 型 训 练层 次 的 外 部状态 

 —  
 

e  ̄  ̄  ̄^  ̄  ̄ ̄  ̄—    一 ̄




[ …

j 

 f 

; f >

m] , 二」 

 :
 i  i  i  @ .





^ —

 !




 
 '

|   ^ @ x t 向*柙
@ 向 《拼 接

图 2

4L S T M 循环单 元结构



通过 L S TM 这 循环 单 元 的 设 计 整个 NN 网 络 可 以 建立起长距离 的 时 间


层面上 的 相 互依赖关系 。 R NN 中 隐 藏状态 h 本 质 上是对 历 史特征 向 量 的 信 息存




储结构 也 可 以 称为 种 记 忆 状态 在规模较 小 的 网 络结 构 中 隐藏状态 会被


, 。 , h

实时重写 , 这种架构 也被称为 短期记忆 网 络 ( Shor


t -

T e r m  M e m o ry ) 。 在深度神


经网 络结构 中 ,
往往会存在长期记忆 ( L o n g T e r m  M e m o ry

) , 这种记忆模式也


可 以 视为 网 络 架构 的 超 参数 , 隐 含 了 前 文提 到 的 特征 向 量 中 的 隐 藏信 息 ,
并且其

1 



第二章 相 关技术 

更新周 期较慢 。 基于这种设计 ,


有学者提 出 了 将前 向 L S TM 与后向 L S TM 结合


起来 的 网 络结 构 设计 

分类 器




全连接层




对输 出 向 量 进 行融 合


" "
 ̄ " "

? J ^
f   f




I I  I I  

I I  I
I  

!     i I I


j  l i n | hn -

1  | h + i 1  h  h i






     
       
— 

l I l I

 L S TM  L S T M   +
 L S T M  L S TM  ?   L S TM ?
1- — —

hO


    
. . .

i I I i 丨
I 丨 I I I I 

i  4  ?  ?  f  4

 i i i

i   I I I  

  H

h +
l h2 h 1


l i l  丨


?L S T M  ? L S TM  ? ? L S TM ? L S T M 

?L S T M



— — —

hO . . . 

£ Z 2 £ Z

x l  x 2 x i x i
+ 1  xn

图 2

5 双 向 LST M 模型

如 图2 -

5 所示 , B L S TM英

文全称为  B i

d ire c t ona i l  L o n gS h o r t


T e rm  M e m o r y


49] , 是由前向 L S TM 模型 与 后 向 L S TM 模型组合而成 的 模型 。 B L S TM

的主要


实现有 以 下两 个部 分 , 前向 L S TM 按 照模 型架构 空 间 顺序 从前往后 传播特征矩


阵所含有 的 信 息 后向 L S TM 则 是从文本 中 的最后 个词 向 量 结 构 开始按 照 模


型架 构 空 间 顺序从后 向 前传播特征矩 阵 , 也就是词 向 量信息 。 前后 向 模型是相 互



独立且互不干扰的模型架构 , B L S TM i
最终的输 出 是两层隐藏层 的集合


人 ]
, 其中 /z

表不 在 时 刻 的特征矩阵 。
将融合后 的 输 出 向 量送 入 全


连接层进行进 步 的 特征 提取 也就是传统意 义上 的 降维 最 后 输 出 到 分类层

, , 

也就是 s o t m ax 层输 出 最 后 的 分类结 果 

本 章 节 中 主 要 使 用 到 了 B i L S TM ,
作 为与 前 文所述 C NN 类似 的 结构 ,
用作


整 体模 型 框架 的 分类模型 ,
分别使用 了 包括 B E RT + B L S T M X L N e + B L S T M
i ,
t i



混合深 度 模 型 

2 2 3
. . A tt e nt on i

b a s e d  M o d e l

由 于 本课题使用 到 的法律判 决书 文本数据具有文本信 息较长且 文本信 息含




量密度较低等特点 ,
文 本 使 用 了B i L S TM 对 文 本进 行分类 时 ,
设定 了 文本信息

的 固 定长度为 1 5 00 个字 节 。
但是在 网 络 训 练 的 过程中 , 发现 网 络 无法有 效地对

1 


北京 邮 电 大 学工 学硕 上学位 论 文
 

关键信 息 形成记忆 , 由 于这些关键信 息 的 密度 低 , 甚至会遗忘这些关键信 息 , 




而 无法对 最 终 的 判 决 结 果 作 出 正 确 的 输 出 。 基于这种 考 量 ,
我们 关注到 A tt ent i on

机制可 以有效地解决这 个 问 题 。 A tem i on 机制 [


5 t )

5 1

可 以 引 入到 特征提取 的 预训 练


模型 中 , 也可 以 引 入到 分类模型训 练 中 , A tt en t i on 可 以 将 不 同 的 词 向 量设置不 同

的 特征权重值 , 从而 使得 无论 是预训 练模型 还 是 分类模 型 都都可 以 重 点 关注具有




重要信 息 的 特征 向 量 。 从而 可 以 有 效地捕 捉 到 文 本 中 不 同 句 子 含 有 的 语 义信 息 

着重于 对最 终判 决结果 具 有重要影 响 的 词 汇 , 最 终可 以 有效地提高结果准确 率 



等人 在对 文 本 信 息 分类 的 问 题上提 出 了 层 次 模型结合 B L STM




52
Ya n g [ ]
Aten t i on i

网 络结构 的模型设计 ,
其 最 终 的 分类准 确 率优于 其他类似方法 。 图 2

6 展示 了 结


合 A te n t i on 机制 的 L STM 架构 图 

分类 结 采

S o ft m  a x 分类 器


. ■  




a l  a2 a i a i + 1  ail

1 2  h i  l n+ 1  1

: 

h O

?L S TM

? L S TM  —

? . . .
 L S TM 

?L S TM 

? . . . 

>  L S TM

x l  x 2 x i x i
+ 1  xn

图 2

6 结合 a t t e n t i on 机制 的 L S TM 架构

由 图 2 -

6 可以看出 , A te n t i on 机制 可 以 自 动 发现那 些对于最 终分类结果起到



关键作 用 的 词汇信 息 ,
并且 对不 同 句 子捕捉 到 不 同 权重配 比 的 语义信 息 。 与前文


中 提到 的 L S TM 架构相 比 ,
引 入 Ate n t i on 机制 的 L STM 结 构对输 出 的 隐 藏层进

行 了 改进 对不 同 特征 向 量赋予 不 同 的 权重
, 〇


+ ,
? ? ?




这些权重代表 了 不 同 词 向

量信 息 的 重要性 ,
权重越高 , 对整 体文本信 息 的 重要性就越 大 , 就越能影 响 最终

的 分类准确 率 

1 



第二章 相关技术 

本课题 中 将 A tt e nt i on 机制 与 B i

LS TM 网络架构 结合 , 在整体的 模型 中 , 

点 关注不 同 词 向 量之 间 的 权重配 比 根据 不 同 时 间 的输 出 结 果计 算 不 同 特征 向 量

 ,

的 注 意 力 概率 分布 , 最 终得 出 用 以 分类 的特征矩 阵 

2 3 .
知识图谱

2 3
. . 1 知识图谱

知识图谱 主要是展示 系 列 知 识 内 容发展 以 及




54
Kn o w
5 3
G r ap h 

ed
[ ’ ]

ge
( 丨  ) ,

相互之 间 的结构关系 的 种 可视化技术 其主要 的 是 为 了 描 述 知 识 的 背景 




。 目 、

体 通过数据挖掘 与 信 息处理得到 知 识之 间 相 互 的 关系 其主 要 的 技术 背景包括


, 。 

概率数学 、 图形学 、 等学科与 计量学等传统 统计方法结 合 。 知 识 图 谱 在 逻辑结 构




上可 以 划 分为两个层 次架构 模式层 与 数据 层 数据 层 主 要 包括 系 列 的 具有事


: 。

实 背 景 的 知 识 数据 , 主要 的 表达形 式为 ( 知识实体 1 , 相 互关系 ,


知识实体 2 

这样 的 三元组结构 , 主要 的 存 储形式为数据 库存储 。


本体库 是知识库结构性 的 模

板 , 通过本体库构 建起 的 知 识库 具有 更 强 的 结 构 逻辑性 ,
结构 冗余很小 

知识 图谱的典型体系 架构 如下 图 2 -

7 所示 



m m m m     一

.  数 椒 幣 合 nm t m 如 漱 !
秦 


 ̄ -  ̄ — — 
i  

  实 傳袖 取


— —

 *
半 结构 & 的数 機  rrr ;
 
    

1 n
卜 靡_
 |
1  :

: 
 ̄  ̄  ̄ 

— 」  |




   *8 S * & 

图 2

7 知识 图 谱 体 系 结 构

知 识 图 谱主要 包括对 结 构 化 的 数据 半 结 构 化 的 数据 以 及 非 结 构 化 的 数 据 的

 、

处理 。
其 中 结 构 化 的 数 据可 以 直 接送 入信 息 整合 模 块 , 其他两种 类型 的 数据 则 要


进行相应的 处理 , 通过 知 识抽 取技术来从 中 提取 实体信 息 、 关系 信 息 以 及属 性信


息 。 在 知 识 融合模块 , 将前文抽 取 出 的 不 同信 息进行 融合 ,
消 除实体对 象之 间 的

歧义信 息 , 形 成最 终 的 知 识库 体 系 

知 识抽 取 是整 个知 识 库 构 建 的 核 心 步骤 其主 要 的 面 对 对 象 是 开 放 的 链接 式

 ,

数据 通过计算机半 动化 的 手段去抽取非结构 性知识蕴含 的单元信 息 每 





自 。

1 


北京 邮 电 大 学 工 学硕 士 学位 论 文
 

知 识单元 都包括知 识实体 、 相 互 关 系 以 及 知 识 属 性 三个必 要 的 知 识元 素 ,


后 续所


有 的 工 作 都 是 在此基础上 完 成 。 知 识 抽取主 要 有三 个步骤 



) 实 体抽 取 : 也称为实体识别 ( n am e d  e n t i t
y re c o gni t o n i , NER ) ,
特指从


非 结构 性 的 原 始 语 言 数据 中 自 动 识 别 出 知 识 实 体 知 识 实体是整个知 识 图 谱最基

 。

本 的 元素 , 抽 取 出 的 实 体 的 完整性 以 及 准确 性将 直接绝对最终 的 知 识 库 的 质 量 


2) 关系抽取 : 获取 知 识 间 的 关系 也 就 是 实体 间 的 语义 关 系 是 关系 抽 取 的 

标 主 要 的 方 式 是通过 人工 构 建语 义模板 以 及语 义信 息 的 规 则 结 构 来识 别 实体 间
。 

的 关系 现在 的 主要做法是通过构建实体 间 的 关 系 模 型来 替 代前 文提 到 的 人工 语



义模板 以 及 结 构 规则 



) 属性抽取 : 属 性抽 取是面对 知 识 实体 , 通过 知 识 属 性来构 建对 实 体 的 描


述 。 实 体属 性可 以 看作 是知 识 实体与 实体对应 的 属 性 之 间 的 连接关系 , 也可 以将


属 性抽 取视为 种 非典 型 关 系 抽 取



在第 章 内 容 曾 提到 深度学 习 为代表 的 表示学 习 模型 取得 了 长 足 的进步





5 5 ,
5 6]
, 研 究 者们 会 将 实 体 的 语义信 息 表 示为低位 向 量 , 通过数据信 息 到 低 维 向 量


的 映射 , 在低维空 间 里 学 习 知 识实体 的本身 的信 息 ,
实体之 间 的 关系 信 息 以 及 实


体 的 属 性信 息 。
构 建 在 知 识 的 背 景 下 的 知 识 库 称 为 成 为 NLP 越 来 越 重 要 的 组 成 

由 于知 识 图 谱本 身 的 知 识来源较 为混杂 , 知 识本身 的 质 量水平可 能 不 髙 , 




识之 间 的 关联性不确 定等 问 题 所 以 引 入 了 知 识 的 融合这 构成 知 识 融合主要



是将 不 同 源 的 知 识通过 特定 的 规范架 构进行整合 , 挖掘 不 同 知 识源之 间 的 共性 



并 对 知 识 之 间 的 关系 进 行 梳 理 与 提 炼 ,
最终可 以 形 成 髙质 量 的 知 识 数据 库 。
随着


NLP 领域 的 不 断进 步 , 也 有 学者对成 熟 的 知 识 图 谱体系 提 出 质 疑 , 认为知识之


间 的 逻辑性在提取 的 过 程 中 被 忽 略掉 , 而在有些背景下 , 例 如 本 课 题 的 司 法 领域


背景下 事 理 逻 辑 是 极 为 重 要 的 法 律 过程 这就 引 出 了 事理 图 谱这 概念

, , 

2 3 2. .
事理 图 谱

事理图谱 E v e nt  L o g G r ap h E L G )
57
是 个主 要用 于描述事理逻辑关 系


[ ]

( i c ,

的 知 识库 ,
核 心 是事件之 间 的 时序上 的 演化与 规律过程 。 在 可视化 的 结 构 上 ,



理 图 谱往 往被 设 计 成 个有 向 有环 图 不 同 的 图 的 节 点 代表 不 同 的 事件 有向边


, ,

代 表事件之 间 时 序上 的 逻辑关系 。 理论上 , 事理 图谱 中 的 图 的节 点 :


事件 是特指


具有 定抽 象程度 的 泛化事件 表示为抽 象 语义完备 的 谓 词 短语或句 子 也可


。 、 ,

以 表示为 可变长 度 的 结构化 的 主体 事件词 客体 多 元组 其 中 必然包含




、 、 、 ,
( )

个事件词 ,
标 志 事件 的 发生 

“ ” “ ” “ ”
例如 , 虽然脱离 了 具体的场景 ,
但 吃 火锅 , 看 电影 ,
去 机场 

” “ “ ”
仍 是合理 的 事件 表达
“ ”
地震 ; 但 做 事情 ,
吃 等事件 由 于过度抽 象 , 

1 


第二章 相关技术 


于 不 合理或不完整 的 事件表达 。 事件词 可 以 是动 词 或名 词 ,


但 是绝大 多 数事件都


是动 词 触 发 的 。 其中 , 按动词 的 内 容 意 义进 行划 分 , 可 将 事 件 分 为 如 下 表 所示 的

动 作类事件 状态类事 件 关 系 类事件与 能 愿类事件 四 个大类


58 5 9]
[ ,

、 、 

表 2

1 四 类事件

事件分类
  示 例

动 作类事件 
吃 . . .

. .
… 看 . . .
, 走 , 跑等 

状态 类 事件 
正在 *?*
 ,
做过 ?? 》

变成 *? ?
等 

关系类事件 是 ? . .

为 ???

分为 . ??
, 组成 ???

构成 . ?





能够 ???
, 愿意 ???
, 应 3 ???

值得 ???


“ ” “ 

前 文 所提 到 的 知识图谱 这 术语可 以 有两层含 义 如 果认为 知识 图谱


“ ”

表示广义上 的 知 识库 是 种 用 以 存储 知 识 的本体 那么 事理 图 谱 则是 


一 一

, ,

“ ” “ ”

存储 事 理逻辑关 系 的 知识 图谱 ; 如果认为 知识图谱 特指 狭义上现 阶段 以



谷歌 、 百度 等为 代 表所构 建 的 以 实体为 中 心 、 用 于 提升 用 户 搜索 体验 的 知 识库 

” “ ”

事理 图 谱 知识 图谱

那么 便是与 相并列 的 种新型常识知 识库



表 事理 图 谱与 知识 图 谱的 区 别 与 联 系

2 2
 


事理 图 谱 
知识图谱 

研究对象 
谓 词 性事件 
体词 性 实体 

组织形 式 
有向图 
有向图 

知识形式 
事理逻辑 关系 
实体的属 性与 相 互关系

确 定 性 多 数 为 不 确 定 的 多 数 为 确 定 的

事理 图 谱与 知 识 图谱的 区 别 与联系 如 上表 2 2 -

所示 , 可 以 从研 究对 象 、 组织


形式 、 主 要知 识 形 式和 知 识 的 确 定 性 四 个方 面进 行 研 究 。 知 识 图 谱 的 主要研 究对


象 是体词 性 实体 , 而 事 理 图 谱 的 核 心 研 究对 象为 谓 词 性事件 。 虽然二者均 以有 向

图 作 为 组织 形式 , 但 是对知 识 的 表示 却 存 在 差 异 。 事 理 图 谱注 重 对 事 理逻辑 的 发


掘 , 以 事物 之 间 的 逻辑作为 图 的 边结构 , 而知识 图 谱则 是对实体 的 属 性探 究 以 及


实体 间 的 相 互关系 作为主要 的 结 构 单元 事理 图 谱 主要刻 画 的 是事件 间 的 相 继 发

 。

生 的 不确 定 关系 , 而知识 图 谱研 究 的 则 是确 定性 的事件关系 

本课题 正 是基于 这些考量 , 聚焦于相 似 的 历 史案例 分析 ,


构 建针对刑 事 案例


的 事理 图 谱关系 , 将案例 之 间 的 相 似性作 为 维度考量 。
本课题选取基于规则 匹 配

的 方法识 别 法律 判 决 书 文本 不 同 句 子 中 的 因 果 关 系 。 在 过 去 针对 法律 文 本 的 研 究

中 , 法 律 文 本 中 的 因 果 关 系 主 要 包括 明 确 因 果 句 和 模糊 因 果 句 两 种 形 式 。
明确因

果 关 系 的 句 子具有 特定 的标识词 , 可 以 据此采用 规则 模板 的 方式抽 取 因 果对 。 



1 


北京 邮 电大学 工学硕士学位 论文 


此基础上 , 构 建 了 司 法案件相 关事 理 图 谱 。
最终 , 将基于 司 法事理 图 谱 的 辅助判


决方案生成与 基于 深 度 学 习 的 预测 模 型 结合起来 进 行 包含 案件 罪名 及 量刑 的 辅

 ,

助判案结果的生成 

2 3 3
. . N e o 4 j

N e〇 4 是 个将结 构 化 的 数据 信 息存储到 网 络 而 不 是传统意 义上 的 QL 





单中 的 具有 极高运算性 能 的 无 SQL 的数据 库 本质 上 来说 Ne〇4 是 个基




, ,
。 ,

于磁盘存储 的 嵌入 式 结 构 的 引 擎 同时 Ne o4 也 可 以 看作 是 个高性 能


, J av a 。 ,

的 图形引 擎 ,
本 身 具 备 所有 的 数 据 库 具 备 的 特 性 

事理 图 谱从本质 上来 说 是 种 基于 图 的 数据存储结 构 由 事件节 点 与 有 向 边




组成整个事件 图 的 事件节点 就是 知 识 图谱 中 的 实体 由 个唯 的 D 标记
一 一

。 , I 

有 向 边用 于 连接 不用 事件 并代表 了 事件之 间 的 逻辑关系 N e〇4 作为 种 经过




, 。

特别 优化 的 图 形数据 库 , 主 要优势 在 于 

数据存储 : Ne〇4 j 使用 图 的 结 构存储数据信息 , 避 免 了 与 传统 数据库类似




的 存储过程 , 可 以存储 图 的 节 点 、 属 性和边 。 属性 、 节 点 都 是分 开存储 的 , 属性


与 节 点 的 关系 构 成边 ,
极大地提 高 了 数据库 的 相 关性 能 

可视化 : Ne〇4 j 自 带 的 可视化 功 能 ,


在 构 建好数据 库 之 后 , 通过命令 行进入

到 N e〇4 的 管 理 后 台 j
, 即 可 以 通过 C yp h e r 语句 对 数据库 选择数据进行可视化 

或者通过 点 击节 点 也 可 以 完 成 可视化 工 作 

2 4 . 本章 小结

本 章 介 绍 了 文本 分类 的 技 术 要 点 与 实现 , 词 向 量 的 提取技术 ,
从 w 〇 r d2 v e c

展开讲述 B E RT 以 及 X LN e 的 应 用 t , 主 要做 法是 构 建预训 练模 型 , 用 词 向 量这

形 式把文本 中 的 词 转化 到 低 维稠 密 的 向 量空 间 同 时 根据 词 向 量之 间 的 不 同 距


离度 量来描 述 不 同 词 汇 之 间 的 语义相 似度 。 2 2 .
节介 绍 了 刑 期 预测 预训 练模型 中

的深度学 习 架构 , 包括有 用 于 文 本 分类 的 C NN 模型 , 从 L S TM 模型 引 申 


B L S TM
i 模型 , 最后介 绍 了 在 B L S TM

模型 中 引 入 了Ate n ti on 机制 。 2 3 .
节着重

介 绍 了 与 司 法领域结 合 紧密 的 知 识 图 谱 理论 体 系 并 在 此基础 上 引 出 事 理 图 谱这

 ,

概念 并将 事 理 图 谱 与 司 法 领 域 有 机结 合起来 最终 通过 融合基于 司 法事理




, 。 ,

图 谱 的 刑 期 预测 模 型 与 基于深度 学 习 的 预测 模 型 使用 可视化界 面制 作 了 最终 的

 ,

辅助判 决方 案生成系 统 

20



第 三 章 基于 预训 练模 型提取特征 的 混合深度罪 名 预测 模型 

第 三 章 基 于 预 训 练模 型提 取 特征 的 混 合 深 度 罪 名 预 测 模 型

本 章 基 于 合作 项 目 提供 的 判 决 书 文 本 进 行 了 特征 工 程分 析和 研 究 判 决书 文

 。

本本 身 具 有 行文规范 模式统 的特点 方便我们 提取特征 同 时判决书 也具有




, , 。

文本 长 度 偏 长 的 特 点 , 因 此 我 们 根 据 判 决 书 的 特 点 使 用 既 能 保存 文 本 特 征 , 又能


处 理长 文 本 , 充 分利 用 上 下 文 含 义 的 数据 预 处 理和 特征提取 方法 。
本 章 首先研 究

了 当 前基于 T r a n s fo r m e r 架 构 的 两种 预训 练模 型 的 原 理和 特 点 ,
并和 之 前传 统 的

特征提取 工 具 W〇 r d 2 Ve c 做对 比 分析优 劣 , 之后 分别 使用 这三种 预训 练模 型 作 为




上游特征提取工 具 ,
下 游 任务选择文本分类任务 。
罪 名 预测 ,
本 质 上是对不 同 刑


期 的 判 决 书 进行 分类 。 最后 对三种 预训 练模型 的结果进 行 比较和 分析 

3 . 1 数 据 获 取 与 预 处理

3 . 1 . 1 数据 获 取

为 了 验证本课题所提 出 模 型 的 有 效性 我们 从 中 国 裁判 文 书 网 上 获取 刑 事 案

 ,

件 的判 决书 。 中 国 裁判 文书 网 , 是 目 前 中 国 最大 的 司 法数据 公开 网 站 , 网 站上 收


录 的 包括 中 央到 地方法 院 的 判 决 为 了 排 除其他 因 素影 响 和 保证实验 的 统 性

。 

我们 选取 的 判决书在 个规定 的 长度 内 经统计 % 以上的判 决书 的长度在




。 , 80

1 5 00 字左右 , 因此 , 我们 选取 了 在 1 000 字和 200 0 字 之 间 的判 决书 作为我们 的



实验数据 

通过筛选 , 最 后 我 们 得 到 了2 4 9 4 2 份 刑 事 判 决 书 作 为 训 练 数 据 。
按照 9 :  

的 比例 。 2245 2 条样 本作 为 训 练集 , 2490 条 数据 作 为 测 试集 

本章节的 目 的 是 通 过建 立 模 型 , 对 输入模 型 的 判 决书进 行 罪名 预测 。 在收集




到 的判决书 中 ,
共有 十种犯罪类型 ,
分别是 

( 1 ) 故意杀人 ;
( 2 ) 盗窃 ;
( 3 ) 故意伤害 ;
( 4 ) 抢劫 ;
( 5 ) 强奸 ; ( 6 

危险驾驶 ;
( 7 ) 交通肇事 ;
( 8 ) 虚开发票 ;
( 9 ) 诈骗 ;
( 1 0 ) 走私 ,
贩卖 

运输毒 品 

此处摘 选 了 篇故意杀人 的判决书作为样例 由 于判 决书整体 文本较长 




, ,

幅所 限 选择 篇较为简 短 的判 决书作 为 展示 内 容如下


, , 

丹 东 市振安区人 民 检察院指控 , 被 告人 李某某 与 被 害人 鲁某某系 邻居关系 



多 年来矛盾 不断 。 2013 年 1 2 月 8 日 1 2 时许 , 二人 因琐 事发生 争 吵 , 鲁某某报




警 民 警接报 警赶到现场 在民 警向双方 了解 情况 时 被 告人 李某某从 家 中拿 出
。 
 , ,

2 



北京 邮 电大学工 学硕士学位论文 

把三 齿 钉耙 在鲁 某某头 部打 了 下 造成鲁某某开放 性颅脑损 伤 现场 民 警




一 一

, , 。

将 李某某的 钉耙夺 下将其 制服 , 李某某 仍扬 言要杀死鲁某某 。 公 诉机 关 认 为 , 




告人 李某某的 行为触 犯 了 《 中 华人 民共 和国刑法》 U
之 规定 , 应 以 n 罪追 究其


刑事责 任 被 告人 李某某犯罪未遂 。 , 可从 轻或减轻处 罚 。
附 带民 事 诉 讼原 告人 鲁


某某 请求判令被 告人 李某某赔偿医疗费 4 5 8 7 9 . 36 元 , 误 工费 2 2 4 2 . 24 元 , 护理费


3 0 68 . 1 6 元 , 住院 伙 食补 助费 48 0 元 , 交通费 6 4 元 , 伤残赔偿金 4 6 0 4 0 4 元 ,



神 损 害抚 慰 金 69 0 6 0 元 , 护 理 依赖 489 9 3 0 元 , 今 后 治疗 费 1 0000 元 , 共计


1 08 1 1 2 7 7 6 .

元 

由 上 以及其他 决书可 以抽取 出 判决书 的格式为 : ( 1 ) 当事人信 息 ;


( 2 

案件描 述 ;
( 3 ) 当 事人被起诉 罪 行 ;
( 4 ) 影响 因素 ( 如是否 自 首 , 是否犯罪未


遂 ) ;
( 5 ) 判 决结果 

3 . 1 . 2 数据预处理

数据 的 质 量决定 着最终模型分类结 果 的好坏 , 为提高数据质 量 。 对裁判 文书




进行相 应预处理 。
具 体方法如 下 

首先 去除 些缺失 重 复 以 及犯罪嫌 疑 人 不 止 个 的 判 决书 样本
一 一

, , 

其次 ,
从裁判文 书 的 内 容可知 , 文 书 前 两段 是对嫌 疑人 的 基本信 息 描 述 , 


刑 期 预测 任 务 来 说 属 于 无 效 内 容 , 文本 内 的 各类姓名 , 地点 , 时间 ,
手机号 , 


份证号 车牌号等也 属 于 无 效信 息 , 对 判 决 书 样 本 中 的 这 些 内 容进 行 删 除 

对于本课题研究 的判 决书 , 文本长度 在 1 0 00 2000 -

字 , 而 B E RT 为 了 保证训

练速度 将最大序列 长度 限制 为 因此 为 了 保证 模 型 进 行 比 较 时 的 统 


, 5 1 2 , ,

和 模型 的 训 练速度 本课题将所有判 决书 的 文本 统 至 字 获得判 决书 文本




, 5 1 2 ,

特征 向 量 首 先要 解决 的 问 题 就是如 何处理超过 5 1 2 个字 的文本 



主 要 有 两 种 解决 办 法 

1 ) 截断法


通常情况 下 , 文本 的 关键信 息 在 文本 的 开 头 或者结 尾 , 因此 , 可 以 选择 只 留

开 头 的 文本 只 留 结 尾 的 文本 或者依 靠经验按照 比 例 选择 部分开头 的 文本和




, ,

结尾 的文本 

2 ) 级联法


首 先将输入文本分成 k

L/ 5 1 0 块 , L 为 文本 的 长度 将每块文本输入模型 去

 ,

生成 k 个表达 ,
接着分别 使 用 均 值池化 、 最大池化和 自 注 意 力 机制 去 合 并 k 块表


达 

Pa
p pa g a r i  [
6 °]
对 这 几种 方法做 了 研 究 ,
最终得到 ,
在截断法 中 , 选择 前 1 28

22



第 三 章 基于 预 训 练模型 提取特征 的 混合 深 度 罪 名 预测 模型 

个字符和 后 3 82 个字符 , 在 文本 分类上 的 效 果 最好 ,


因此 ,
本课题 也选择这种 处


理方法 。
预处理后 , 取经过预 处理后 的 每 份判 决 书 的 前 1 2 8 个字 符和 后 3 82 个字

符输入模型 获取 文本特征 向 量 

3 2 .
模 型 介绍

3 2
. . 1 T r a n s fo r m e r  模型

T r a n s fo r m e r 模型 的 结构如 图 3

1 所 7 K 

Ou t
p u t

Prob ab i l i t i
es



I  So ft ma x  



f  li n ea r  

A  t
J


 Ad d  &  N o r m  H

I 

Feed

F o r w ard

(  f  > 【
Ad d  &

p j 
— 

o d A
t tt e rt o n

 i


F orw a d r  a a l N x

h


1  Ad d  &  N o r m

皱 ‘吆  m

p i

yu f

t i

H e ad  M u
r f k ed



t i

H ead

At t e n t i
on At t
en o n

 t i

L _
3 =^


Pos i t i
ona l

l yT X  P o s i t i ona 

En c o d i
ng  E n c od n g

 i

I n p ut  O u p u t t

E m b ed d n g i

 E m b ed d n g i

1  


nputs  O u tp u t 


sh i
t ed  r g h
f i



图 3

1 T r a n s f o r me r 结构示意 图

本质 上是 个 D ec oder 结构 如图 所不 输出 的序


T r a n s fo r m e r Enc o der -

, 3

1 ,

列 , 通过左 侧 的 Enc o d er 进行编码 之后 , 再将 隐含表示输 入 D ec oder 进行解码 



( 1 ) E n c o d e r

Enc o d e r 由 六个图 3


中 左侧单元组成 ,
每个单元 由 多 头 自 注意 力 制模块

23



北京 邮 电 大学 工学硕士学位 论 文


( Mu l t i

H ead A tt ent i on ) 和 全连接前 向 网 络模块 ( F e e d fo r w a d ) 组成 。 由 图 可见 



为 了 解 决深 度 的 网 络 的 梯 度 消 失 和 梯 度 弥 散 问 题 ,
都增 加 了 残差连接 

Ke


 K e y 2 K e y 3 K ey4

… …





一 “

 ̄_i — 一

「 










阶段



Q u ery 


f 【 q k , )

^


^ Q 〇 { >



F 《 Q ? ?



F K? q ,

) j
 

s l  !

s2  s 3  s 4  ::::!



_
、 '  X V < 、 f
 


类S o f t M ax 〇归 一

化 卜 … -

阶段 

W w W 4 /
 

al  a 2 a 3 a 4 

;;

;/

卜

 ̄  ̄  ̄  ̄
 *— 丨

阶段
 ̄  ̄  ̄

  * … …

I  






V a u e !  ¥ a u # 2  V a tu f 3  V a y e 4


 l





 

 

 

图 3 A t t e n t 机制


2  i  o n

图 3

2 是 Aten t i on 机制 的 原理解释 ,
给定 输 入序 列 中 的 某个元素 Q u e ry , 


过计算 Q u e ry 与 各 个 K ey 的 相 似 值 ,
得到每个 Key 对 Va l ue 的权重系 数 ; 第二步


对权重进行 归 化 第三步将最终得 到 权重和 数值进行 内 积 得到最终的注意 力


; ,

数值 。
用 公 式表达为 

h =A tt
{{ q ,
k) v) ,

 (




其中 /? 是我们最终得到 的 表达 ,
g 指的是 Q u e ry , 々 是与 Q u e ry 计算相似度


的 k ey , v 是每 个 ke
y 对应 的 值 

S e lf -

Ate n t i on 即是 Q u e ry 序列 和 K ey 序列相 同 , 是

个序 列 内 部元 素发生


的 A t en t i on 机制 ,
即 Que r


K ey =
Va l ue 的 特殊情况 

通过 引 入 Se f l

A tt ent on

机制 ,
更容 易 捕捉句 子 中 长距 离 的 相 互依 赖特征 

24



第 三 章 基于 预 训 练模型 提取特征 的 混合深度 罪 名 预测 模型 

因为 A t en 在 计算过程 中 不 依 赖时 间 序 列 这 特性 直接将 句 子 中 任 意


Self -

ti on ,

两 个 单 词 联 系 起来 , 即 任意两个单词 的距离为 1 。 因此 S elf -

A t e nt i on 的 引 入解决


了 传统 R NN 受 限于输 入序列 长 度和 编 解码 时 都依赖 内 部 个 固 定 向 量 的 限制



因此  T r a n s fo r m e r  的  E n c o d e r  采用 了  Mu l ti

H e ad  Self -

A t e nt i o n 模 型 来进 行 编


码 , Mu l ti

H e ad A t e nt
 i o n 相 当于多个  S elf -

At e n ti o n 的集成 , Mu lti

H e ad Ate n  ti on

分为三个步骤 第 将输 入分别 输入上 文 中 所说 的 N 个 f at e n t i o n 中 得到




se

: ,
l ,

个加 权 后 的 矩 阵 第二 将 个矩 阵 拼接 成 个大 的 特 征 矩 阵 第三 将矩 阵


8 ;
, 8 ;

经过 层全连接之后 得到最终 的输 出

, 

( 2 ) D e c o d e r

在解码 器 中 , 比 编 码 器 多 了 E nc o de D e c o der A t en r

 ti on 模块 ,
Q u e ry 来 自 


码器 的 上 个输 出 K 和 V 则来 于编 码 器 的输 出 解码器 的 为 对 应 位置输 出


, 自 。

词 的 概率 分布 

3 2 2 B E
. . RT  模型

( 1 ) 模型简介


B E RT  ( B i d i r e c t i o n a l  E n c o d e r  R e p r e s e n t a t i o n s  f r o m  T r a n s fo r m e r s  ) 是 2 0 1 8 


Goog l e O p e nA I 团 队基于数十亿级别 的语料和 双 向 T r a n s fo r m e r 模型 为基础训 练


得到 的 个预训 练模型



预训 练模型 是 当 前 然 语 言 处 理领 域 种 前沿 的技术手段 即 先通过大量




自 , ,

的 语料数据 训 练 个通用 的 模型 然 后 再根据 具体 的 下 游 任 务 比 如 机器翻 译


, , 

实体识别 或者 问 答 系 统等等 ,
有监督 的根据 下游任务训 练 ,
精加工 ( fi ne -

t un e 

模型 , 使 之适用 于 具 体应 用 。 B E RT 模 型 在提 出 后取得 了 十分惊 人 的 成绩 , 在机




器 阅 读理解顶级 水 平测 试 S Q u AD l . l 多 个指标超越人类 , 在 1 1
种不同 NL P 测试


中 也取得 了 最好 效果 包括将 。 GLUE 基准推至 80 4 . %  ( 绝对 改进 7 6 .  % ) , Mu l ti NL 

准确 度达到 86 7 . % ( 绝 对 改进率 5 6 . % ) 等 

( 2 ) 模型结构

25


北京 邮 电 大学工 学硕士学位 论文
 

B E RT (
Ou rs


丁 丁
|  *

 1 2




T rm  T rm
J  fT r m
)

i   m  E


i & 

图 3

3 B E R T 模型 架 构

B E RT 的模型架构如 图 所示 图中的 T rm 即 是上 文 中 的 个 T r a n s fo r m e r

3 3

, 

单元 , B E RT 提供 了 简 单和 复杂两个模型 。
对应 的超参数如 下 

B E RT L A R G E -

: L =
24 , H =
1 024 , A =
1 6 

B E RT B A S E -

: L =
1 2 , H =
768 , A =
1 

在上面 的超参数 中 , L 表 7 K训 练模型 网络结构 的层数 ( 即 T r a n s fo r m e r  b l ocks



的 数量 ) , A 表示 Mu l ti

Head Aten  t i on 中注意力 机制 设计 的 数量 , H 代表最后得




到的 Em b e d d ng i
的 向 量维数 

B E RT 输入 的编码 向量是 3 个嵌 入特征 的 单位和 ,


如图 3

4 所示 

  sH 
nP u t


?* ,
? m y 1

dog I ? ? H t
es P ay


?^  l


 

|
f !

 [ [ 

J

| |

E m be d d n g s i

 I
j^ EsJ  f 


 1
1 

^ l[  [
 S」 |  1[ 5^ L


? + + +  + + ?  +  ?  +  4 

> 

a hi
^ ls ]  bj



e e
Ai


. : \ ] [

E

IJ e
E  E J E E
E e
 E

 1

 [

〇  \ I \  2 I
3 , , , ; s |
9 1 

图 3

4B ER T 输入编码 向 量 示 意

Wo 该部分的主要 的 是为 了 将 单词 划 分为 有 限长 度 的 组公


1 、 rd P e c e
i :

共子词单元 , 将这些公共子词单元作为后续 的 处理对 象 。 这样可 以 有 效地调 节 单



词 的 有 效性与 子词 单 元 的 灵活性之 间 的平衡 例 如 被拆 分 成 了 和


‘ ’ ‘ ’ ‘ ’


go ng i
go i ng 

2 、 位置嵌入 ( Pos i t i o nE m b e d d n g i ) : 该部分的主要 目 的 是为 了 将特定位置




的 单词 的 位置信 息转化为 相 对应 的 特征 向 量 

3 、 分割 嵌 入 ( S e g m e ntE m b e d d n

i ) :
该部分 的 主要 目 的 是为 了 区 分两个不

26



第 三 章 基 于 预训 练模型 提取特征 的 混合深度 罪 名 预测 模型 

同 句 子之 间 的 关系 ,
例如 B 是否是 A 的下文 ( 对话场 景 , 问 答场景等 ) 。 对于


句 子对 第 个句 子 的 特征 值 是 第 二 个句 子 的 特征 值是

, 0 , 1 

( 3 ) 训 练方式


B E RT 之所 以 有 如 此好 的 效果 很大 部分原 因 是它创新 的 训 练模式 传统


, 。

语 言 模 型 都是从前往 后 或者从后 往前 ,
即 是 单 向 的 训 练模型 , 不 能 完 整 地 理解整


个语句 的 语 义 , 研 究者们 也 尝试双 向 预测 , 把从 后 往 前 和 从 前 往 后 拼 接 起 来 构 成


双 向 预测 。 B E RT 提 出 的 方法是使用 上 下 文全 向 预测 ,
即 同 时使用 上下 文消 息来


预测 目 标处 的信 息 , 使用 两 个新 的 无监督预测 任务 对 B E RT 进行预训 练 

①M a s k e d  L an g u ag e  M o d e  ( l ML M 

ML M 任务指 的 是 在 训 练过程 中 随 机掩 盖 掉 些单词 通过上 下 文预测 该




, ,

单词 。 在 训 练过程 中 , 1 5 % 的 Wo r d P i ece 会被 随机遮盖住 。 而被掩盖 的 单词 , 80 



会被直 接 替 换 为 [
m as k] , 1 0 % 的 单 词会被 替 换为其他 单词 

通过 以 上设计 的 替 换策略 , 保证 了 在 预测 对应 位 置 单 词 的 情 况 下 , 还可 以 获


得到每个单词 的 分布 式 表征 

② 
N ex t S e nt e n c e  P r e d i c t i o n  ( N S P )

NSP 的 任务 是判 断句 子 B 是 否 是句 子 A 的下文 如 果 是 的 话输 出 N ex
’ ’

。 Is t 

否 则 输 出 No Nex 这 个关 系 以 特定 形 式保存 在 图 中 所示 的 符号 中
’ ’

t t 。

CL S ]


3 2 3
. . XL N E T  模型

B E RT 模型在提 出 后 , 在 大 量 公 开 数据 集和 B e n c hm a rk 任 务 上 达 到 了  S O TA

的 表现 。
但 B E RT 模 型 仍然具有 它模 型本身 的 局 限性 

( 1 )  B E RT 中 MA S K 之 后 的 词 相 互 独 立
[ ]
。 因 此 在 预 测 MA S K 词 的 时 候 [ ]


忽 略 了 MA S K 词 与 词 之 间 的 关 系
 [ ]
。 以 N e w Yo r k  这两 个词 为 例 , 在 分词 过程 中 

两 个 词 同 时 被 MA S K 标 志 替 代 [ ]

因 此 在 预 测 N ew 的 过 程 中 ,
无法使用 到 Yo r k

的信息 , 但 显 然这两 个词 并 不 独 立 , 因 此 M L M 训 练 中 的 MA S K 技 巧 可 能 会 丢

 [ ]

失词 与 词 之 向 的信 息 

引 入 MA S K 导 致 的 训 练 过 程 和 预 测 过 程 的 不 致 训 练过程 中 预测


( 2 )
[ ]
。 ,

的 词 会 被 MA S K 替 代 [ ]

但是在 预测过程 , 以 及其他下游任务 中 ,
不会出现


MA S K ]
, 这也有 导 致 了 在训 练 时看 到 的 和 预测 时看到 的 模型 是有 差异 的 

上面两 个 问 题对 于 B E RT 这种 去 噪 自 编码模型 ( 对输入进行破坏 , 然后 通过



27


北京 邮 电 火 学 I :
学硕士学位论文 


自 编码 模 型 来重构 未破坏 的 输 入 ) 来说 , 是 无法避 免 的 。 因 此 XL Ne 抛 弃 了 这



 -

种 自 编码模型 的思想 , 重新使用 自 回归 ( 语言模型 ,


如 ELMO , G P T 都是 自 

归模型 ) 的 模式 ,
但是传 统 的 自 回 归 模式是无法使用 上下 文 的 信 息 的 , 因此在使


用 自 回 归 语 言 模 型 的 同 时 如 何 引 入 双 向 的 上 下 文 信 息 是 X LN E T 的 主 要 的 贡 献 , 

作 者采用 了 P e rm u t a t o nL a n g u a g e
i M od e l i ng 的方法来 引 入 双 向 上下 文信 息 

M 嫌执⑷
 卜4
' 》

脚成



JV  

識 節 之 #4 今 雲  F 絲 饮猶 k 翁 o it k r ;
f 今 1 今 3 令 

m m



 



■ 
w X
; ,

令 今 今  F獻 今 + +2


游c l f

oc i 驗1 激嫩 錢 K k f  ; J

S i 3 滅 姻 s  嫩 1從
* ; 4 i 

图3

5p e r m u t o n i l
a n g u a g em o d e  l

n g 模型 实 现过程示例

具体的做法如 图 所示 保持序列 的 输入顺序 不变 但是维护 






5 , ,

F ac t
o r i z at o no r d e r

的 随机排 序 的 位置 表 ,
如 上面所 7 K ,
保持 原始输


入不表 , 然 后 随 机排序 给 出 4 个 F a c t o r i z at o n  o r d e r i ,
当你在预测 x3 的 时候 , 


过 m ask 的 方式 , 使得 只 能看大 F a c t o r z a t o no r d e r
i i
中 3 的 前 面 的 位置词 , 也就是

第 个序列 中 的前面什么 都没有 第 二 条序 列 中 的 前面有 和 因 此通过




3 , 3 2 4 ,

m as k 的 方式使 得在 预测 x3 时 只 能看到 x

, x


同 样 在第三个序 列 中 可 以 看到 x





, x

。 在第 四 条序列 中 可 以看到 x


现在假定 我们 采样 的序列 足够 多 ,
从期

望的 角 度上来看 , 这种 方 式可 以 保证 在 预测 x

时 , X

, x 2 ,
\ 被看到 的 次数基

本 致 作 者也就 是通过这种 方式 引 入 了 双 向 信 息

。 

但 是上面 的方式在 实现上有 些问题 例如给定 个 d4 的序列



, a !
, b 2 c 3 , , 

此时 采样两 条序 列 为 : a i
, C 3 , b2 , A i 和 a i

〇d t , b2 。 在预测序列 1 中 的 b2

和预测序 列 2 中的 d4 时 , 看到 的都是 a i 和 C 3 , 因 此 预测 概率 都 是

样的 ,
但是

2 8



第 三 章 基于 预训 练模型提取特征的混合深度 罪 名 预测 模型


直 观上来 说这 个概率 应该 是 不 样的 毕竟 标不 样 为 了 解决这样 的 问 题


一 一


目 , 

作者 在预测 当 前词 的 时 候 引 入 了 当 前 词 的 位置信 息 ,
例 如 在预测 b2 时除了用到

和 还会把它 的 位置信息 起传进来 但是你在预测 下 个词 的 时 候 你不仅




一 一

3 1
(: 3 , ,

要用 到上 个词 的 位 置信 息 还需要将上 个词 的 词信 息 也加进来
一 一

, 

m m " u
 ̄ -

KV
' '


< e n t io n

= = h 0

g '


{  
 tt
g [
_


\ [


; 


' ,

( 3

2 



A  K V

h n t io n
 <r

= 


te

[  t
{  ,

如公式 ( 3

2 ) 所示 , 在这里 表示 的 是 引 入 了 之前 的 时 刻 的所有信 息和

当 前 时 刻 的 位置信 息 的 隐 层 向 量 ,
就如前面的 c 3 和 位置 2 的信息 ,
用 来预测


但 是这个公 式 中 含 有 个 这 是 之 前 所有 时 刻 的 隐 藏信 息 为 了 保证


b2 。 ,

在 时 能 使 用 ^= 我们 要 另 外去 计算这样 个 因 为这个 是对 时刻及




/ , h , h t

之前所有 的 信 息 编 码 得到 的 也 就 是 说这里 的 , h 是包括 t


时 刻 的 位置和词 的信 息 

如在上面序列 1 中 , 此时你要预测 d4 ,
你 是 需 要对 a i
, c 3 , b 2 编码的 ,
但我们 在

计算 没用 到 匕 的词信息 也就是这样的 不 致 作者提 出 了 双流


。 , ate nt i o n

机制 , 具体的 图示如下 



;  0000

 丨


A _
_  一  }


 S @ 0 S3


I ^ I I   I :
 /V



 # 


i?  8
 ?

 v
, )

_

#  #  C W u?

U  ?
i t  st mM a


\ / # v m m c mi ¥



 
 s 

| ^ _ j

^  @ @ S3SB X 〇

|  , ? 


 / \ Q \

^ r

n^ m
A mr
/

 l


 u 
 丨

g s  g  0 0 sa  S 0  80


 1

m  ⑷

 i

图 3

6 双 流注 意 力 机制

如图 最右边的 图 中 所示 实现起来就 是 不太 样 上面 的为例




一 一

3 -

6 , m ask ,

因 为序列为 3 , 2 ,
4 , 1 。 因此在 计算词 1
时 ,
g ( q u e ry s t r e am ) 只 能看到 3 , 2 

4 ; 而 h  ( c o n t e nt  s t r e am ) 能看 到 3 , 2 , 4 , 1 。 在计 算 词 2 时 ,
g 能看到 3 ; h 


看到 2 , 3 

另外 g 的 提 出 主要 是为 了 训 练预训 练模型 , 因 为 你在预测 当 前词 时 , 是要




m as k 当 前词 ( 这个 m ask 是 不 可避免 的 , 这是语 言模型 的特性 ,
利 用 上 文 预测 当

前词 ) , 但 是在 下 游 任 务 的 时 候 ,
我们 是 不 会 m ask 任何词 的 , 因此在下游任务


时我们 只 需要使用 co n t e n ts tre a m 的 值就 行 了 

29



北京邮 电 大学 n 学硕士学位 论 文 

总 的来说 , X LN e t 这种 方法很 优雅地 引 入 双 向 上 下 文信 息 ,


但 是 在 实现上计


算量很大 因 为你要计算 很 多 排序 的 序 列 才 能使 得 期 望上 每 个词 出 现 的 次数基本


致 为 了 降低计算量 作者 在 这里 只 对排序后 的 句 子 的 后 半段 的词 做预测 




, , ,

为后半段 的词 的 前面 的 词 比较多 这样看 到 的 词 会 多 些 可能很快地达 到 期望




, ,




X LN e t
除了 引 入了 不 同 的训练 目 标和 双流注 意 力 机制 还使用 了 和 。 B E RT 

样 的 基础 特征提取工 具 T r a n s fo r m e r X L



T r a n s fo r m e r 模型在输入时米用 的 是 固 定长度序列输入 , 且 T r a n s fo r m e r 模型

的 时 间 复杂 度和 序列长度 的 平方成正 比 因此 般序 列 长 度 都 限制 在 最 大

, 5 1 2 

因 为太大 的 长度 , 模 型 训 练 的 时 间 消 耗太大 。 此外 T r a n s fo r m e r 模型 又不像 RNN



这种结构 可 以 将 最后 时 间 输 出 的 隐层 向 量作 为整个序 列 的 表示 然后作为下




, ,

序 列 的 初始化输入 。
所 以用 T r a n s fo r m e r 训 练语言模型时 , 不 同 的序列 之间 是没

有联系 的 ,
因 此这样 的 Tra n s f
orm e r 在长距离依赖 的捕获能力 是 不够 的 , 此外在

处理长 文 本 的 时 候 ,
若是将 文本分 为 多 个 固 定长度 的 片段 ,
对 于 连续 的 文 本 , 

无 异 于将 文 本 的 整 体性 破坏 了 导 致 了 文本 的 碎片 化 这也 是 , T r a n s fo r m e r -

XL 被提


出 的原因 

T nm s f
o rm e r XL 做 了 两个改变 是 引 入 了 循环 机制 来提升 模 型 的 长距 离


依 赖捕获 能 力 ,
二是引 入上述循环机制 之 后 , 引 入位置信 息 , 因 此有提 出 了 相 对


位置 的做法 

T r a n s fo r m e r 模型 在 训 练和 评估 时 的 图 化表不如 下 

?? ?? @f〇 〇0 〇〇?


 ^
〇 m? 〇 ?0?? ?^ o〇 〇 o? 1 
#〇 〇〇??  ^
H 〇  Jm

〇 o 

?O #O
 丨 
? 0 0
命〇 〇 O0 0 O Q O  〇 〇0 0 0p

@ 僉 〇诊 〇 酋 @參@ c> 〇 〇 # ? ? 


S *
*  *



?  % ^ * *? ?  **  ? ?

? ? ? ? * ? ?  ? ■

% 5
^  ? 

* *

???
? ?  t
 


a )  Tr a n n gi i
  j
( b )  E va l uaci on
 p h as e 

图 3

7T r a n s fo r me r 模型在 训 练和评估 时 的 图 示 化表 示



可 以看到 在 训 练阶段 序列之 间 是相 互孤立 的 在评估 阶段 在预测 下 




, , ,

词 的 时候也 只 能利 用 前面 的 固 定为 n 个词 的 序 列 这样在 训 练时 模型 捕获信 息 的



 。

长度不够 , 且在评估 时利 用 的 信息 也 不够 。 再来看看 T r a n s fo r m e r X L -



3 



第 三 章 基于 预 训 练模型提取特征 的 混合深度 罪 名 预测模 型 

# # ## q dom^ m
^


Ak  Jm  j



 i

£ f O &O d 〇 a 〇 0 〇 〇 6 〇 〇 〇 〇 ? 0 6 〇 OCOO0 o



0 y   0 0 / 




# m bm o &  p 0 f o  0 0 0 0〇 o



 >

凝## ? 0##? # ? # # 〇 〇  〇  ff  #  #  4  o  a  o  ^  #  4



 ??   m%  k  *t  h  *  S  * ??  ?  ?m  *  ?  ^??%



 s
? > s
> s
? <

? s ?

S  i iaO Mi t  t  x M c i M i l  i ? ??? ?

C a )  Tm i i i i eg  p
h as e .

 <
b )
E va l u at i on
 p
h a se 

图 3

8T r a n s fo r me r

XL 模型在训 练和评估 时 的 图 示化表示



XL 在 训 练 的 时候将上 片段的 结果 引 入到 下 片段中 在评估




一 一

T m n s fo r m e r -

时同样 , 因 此 能捕 获 的 长距离 信 息较 T r a n s fo r m e r 有 很 大 的 提升 

X LN e t 在引 入不 同于 B E RT 的训练模型 , 双流注 意 力 机制 和 T r a n s fo r m e r -

XL

之后 , 在 下流任务 准确 率和 长 文本 的 处理上有 了 明 显 的 提髙 

3 3

基于 预训 练 模 型提 取特征 的 混 合 深 度 罪 名 预 测 模 型

本课题采用 基于 B E RT 和 X LN E T 的 C NN -

 B L S T M AT T E N T O N

I 混合深度

模 型对法律判 决书 数据集进行 文本预处理 ,


特征提取和 模 型 训 练 。
如 上 文 所描 述

的 , B E RT 和 X LN E T 提取 的 文本 向 量在词 义和语义上都有着精确 的 表达 , 并且

包含上 下 文 背 景信 息 因 此选用 。 B E RT 和 X LN E T 作 为提取文本特征 向 量 的 工 具 



20 1 4 年 , K i m [
6 1

提出的 Te x t C N N 模 型使 用 多 个卷积 操 作提取文本 特征 , 



文本分类 任务 上有 效地提 高 了 准 确 率 。
从 Te x t C N N 开始 , C NN 也逐步应用 于 文

本 分类 任 务 ,
并获得 了 显著的 效果 ,
深度 金字塔卷积 网 络 更 是其 中 的 佼 佼 者 。 

其原因 , 是 继 承 了 深 度 卷积 神 经 网 络 架 构 在 图 像 领域 的 优势 , 在提取 文 本 的 局 部

特征方面有 着稳定且优越 的效 果 。 _ 在 C NN 的 基础上进 行 了 改进 , 可 以在任




意 长度 的 数值序 列 上进行 学 习 L S TM 则 更进 步地 解 决 了 传 统 R NN 算法容 易


遇到 的梯度消 失 的 问 题 。 本文 的研 究使用 B L S TMi , 在解决上述 问题的 同 时与



C NN 结合 ,
使用 C NN 提取法律判 决书 文本 信 息 的 局 部相 关特征 使用 , LSTM 


取整 个法律判 决 书 文 本 的 语 序 以 及 文本 撰 写 逻辑序 列 问 题 ,
二者 形成 了 良 好 的 互

补关系 

A 机制 是模仿人类注意 力 而提 出 的 种解决 问 题 的办法 简单地说就




t t e nt o n i ,

是 从 大 量 信 息 中 快速 筛 选 出 高 价 值 信 息 。 主要用 于解决 L S T M / R NN 模型输入序



列 较长 的 时候很难 获得 最终合理 的 向 量表示 问 题 , 做法是保 留 L S TM 的中间结



果 , 用 新 的 模 型对其进 行 学 习 ,
并将其与 输 出 进 行 关联 ,
从而达 到信 息 筛选 的 

的 

基于 以 上 所提到 的 各种 模型 的 优势 本课题将这三种 模型 结合起来 构成




, ,

个混合模型 。
综合三种 模 型 和 机 制 的 优势 来进 行 文本 分类 

3 


北京 邮 电 大学工学硕士学位 论 文
 

C NN b as e dMo d e 

—  r 拼接品量
 ^^  

判 :
二 一

丁 f
. . .

 

 U 
 ̄ ' * 

K U m x F s o i m i n f a
r c o l  i n i A M u r 〇o . i n i   r

文

丫 干 □
 
 _


  j


  !  \ O

判 ,
B E R T
向   .
期

 

/  〇 

  量 通 过 〇 、

従 取式 文 本特 i R s 
「n p 广 /

f t

r 、
'
丄  '
  2S

v v    '
/ 




A _
V 、

)  \ / / \ 
— 


/

 *




V 、


、 O ■

\  判 广 丫  ^  知




一 -

 rv 



: .

本 、  决 
一 一



— 
 果

 '

 书 多 r  二

j  「 : ,




句
丄 丄 丄 #
- 

一 


 '
* 一
^ '




W? O s

? 
m ? * M V ? ? ?
―  ̄ —
* "



了

: J
i 
! 




; 
  j
j   j

丨 





°〗

 00yR i  .



: . 


 向 量 拼 接 全 连 接 层
B i LS A n i 〇" b a S e d

M od e ]

图 3

9 混合深度 葬 名 预测模型 架 构 图

模型框架 图 如 图 3

9 所示 ,
B i

LS TM -

A te n t i on 模块在框 架 图 左 侧 ,
C NN 


块在框架 图右侧 。 下 面对 每 个模块进 行 解释 

( 1 ) B i

L S T M A tt e n t i on

文档 由 句 子组成 , 而 不 同 的 句 子 在 文档 中 的 重 要 成 是 不 同 的 , 人们 在 阅 读文


档 的 时 候会 重 点 关注某 些句 子 这些被 重 点 关注 的 句 子 通常 对 文 章 理解起 决 定性

 。

作用 , 基于这种 思 路 , 我们 在 B i

L S TM 的 模型基础上 引 入注 意 力 机制 。 L S TM

结 合注意 力 机制 , 在对整 个文本进 行 建模 的 时候 ,


可 以突 出 关键的句子 , 更好地

把握文本 中 心 思 想 。
另外 , L S TM 模 型 选择 的 是 B i

L S TM ,
即双向 L S TM 模型 

双向 L S TM 相 比 较传 统 L S TM 模型 对某 句 的 上 下 文信 息 有 着 更好地利 用 能


力 

B i

LSTM -

A te n t i on 模块 的框架 图 ,
如图 3

1 0 所示 

& 为 判 决 书 中 的 每 个句 子经过 B E RT 之后生成的 向量 , /7

为不 同方向 的编码


表示 是句 子标签 是归 化 的 不 同句子 的 权重 是最终得到 的 文本 向 量

《 v
, ,
% , 

该模块 即 是 将 每 个句 子 通 过 B E RT 生 成的 句 子 向 量输入双 向 L S TM 模型 

得到 每个句 子 的 隐含 表示之后 , 再使用 Aten t i on 机制 计算权重 ,


最 后加 权得到

整个文本 的 向 量 的 表示 

3 2



第 三章 基于 预 训 练模 型 提取特征 的 混合深 度 罪 名 预测 模 型 






句 子注意力

4  ^
K


h T n 

句子



? > >
p  
一 .  ̄  ̄ 一 一-  ?

y7

j 

 i  \

  I
i  \

  I


i 


^  S


 j
7 n

图 3

1 0A t t e n t i on 模块框 架 

( 2 )  C NN

为 了 提取 不 同 级 别 的 局 部特征 选择 了 多 个不 同 大 小 的 维卷积 核 在提取 到




的 文本 向 量上进 行卷积 分别选取 宽 度为 4 5 的 维卷积核 对卷积后得到




。 3 , , ,

的结果接 K -

m ax p o o l i ng 操作 ,
即 从卷积层 得 到 的 列 向 量 中 选择最 大 的 K 个特征


值 , 然 后将 他们 拼接起来得到 了 通过 C NN 的 特征 向 量 

拼接 向 量

M a xP o o K M a xP o o l K M a xP o o
一 -

K l i ng i ng l i ng



^   ^ ^

卷积核

1 卷积 核 2 卷 积 核 -



通 过BERT 提 取 的 文 本 特 征 向 量

判 决书文本

图 3

1 1 C N N 模块框 架 

最后 ,
将两 部分获取 到 的 特征 向 量拼接起来 ,
输 入 到 最 后 网 络 最后 的 全连接


层 。
最后输 出 的就是预测 的 罪名 

3 3


北 京 邮 电 大 学 工 学硕士 学位 论 文
 

3 4 .
实 验 及 结果

3 4 . . 1 实 验环境

本 章 在 服务 器 上进 行 实 验 , 具体环境如 下 

操作 系 统 : L n ux
i 

深度学 习 框架 : P y To rc h l . 

处理器 : I nt e l ( R )  X e o n ( R )  C P U  E 5 -

2 6 2 0v4
 @ 
2 . 1 0 GHz 



显卡 : NV i di a  T I TA N X P  1 2 G B  



3 4 2
. .
实 验 数据

我们 从 中 国 裁判 文 书 网 上获取 了 刑 事案件 的 判 决书 。 通过筛选 , 最 终得 到 了



249 42 份刑 事判 决书 作 为 训 练数据 。 按照 9 :  1 的 比例 。
其中 224 5 2 条样本作为


训 练集 , 249 0 条数据 作 为 测 试集 。
在 收集到 的 判 决书 中 ,
共有 十种犯罪类型 

分别 是 

( 1 ) 故意 杀人 ;
( 2 ) 盗窃 ;
( 3 ) 故意伤害 ;
( 4 ) 抢劫 ;
( 5 ) 强奸 ;
( 6 

危险驾驶 ;
( 7 ) 交通肇事 ;
( 8 ) 虚 开 发票 ;
( 9 ) 诈骗 ;
( 1 0 ) 走私 ,
贩卖 

运输毒 品 

3 4 3
. .
基 线模 型

选取 以 下 三种 模 型 作 为 基线模 型 和 我们 的 模 型进 行 比 较 以 验证 我们 模 型 的

 ,

可靠 性 

①预训 练模 型+全连接层 : B E RT 针对每个判 决书 生成对应 的 文本 向 量 , 




本 向 量之后连接 个全连接层 全连接层 的 输 出 作 为模型 的 预测 结果

, 

② 预 训 练 模 型 + C NN :  C NN 模 型对局 部特征有 着很好 的 提取 能 力 



③ 预 训 练 模 型 +L S TM : L S T M 可 以 提取文本整体逻辑信 息 ,
更好 的 去 获取


法律判 决 书 文本信 息 的 上 下 文关系 信 息 

3 4 4
. .


实 验设 置 和 评 价 指标

对 于 所 有 的 输 入 , B E RT 生 成 向 量 的 维 度 都 是 768 。
对 于


C NN B L S T M A t e nt -

i on 混合模型 中 的 B L S TMi

Aten ti on 模块 ,
模型输入为每份


判 决 书 按 照 标 点 符 号 切 割 成 的 句 子 将 每 个句 子 输 入 , B E RT 之后生成 的句 子 向 量


作 为 该模块 的 序 列 输入 。
对于 C NN 模块 , 按照 上文 中 提到 的 方法 , 将每份判 决


书取前 1 28 和后 3 82 个字作 为 数据输入 B E RT 生成词 向 量 。 网 络学 习 率 设置为


l e

3 ,
b at c h _
s i ze 设置为 64 , ep o c h 设置为 70 , 模 型 损 失 函 数都选择为 交 叉摘损

3 



第 三 章 基于 预 训 练模 型 提 取 特 征 的 混 合深 度 罪 名 预 测 模 型 

失函数 

对于模 型 评价 本课题选择 在 分类 中 广泛 应 的 准 确 率和 召 回 率作 为 模型 的 评



价指 标 

3 4 S
. .
实验结果 及分析

通过表 3

1 与图 3

1 2 我们 可 以 很 明 显地看到 ,
我们 提 出 的 混合深度模型 在

预测 的 效果 上 , 明 显 优于其他三个对 比 实验 ,
在 召 回 率 的 指标上也 显 著优于其他


方法 , 由 此证 明 了 我们提 出 模型 的有 效性 

表 实 验结 果 对 比


3 1


准 确 率 召 回 率


B E R T + C N N 0 . 8 62 0 . 684

B E R T + L S T M 0 877
. 0 .
70 

B E R T 0 . 8 5 1 0 . 6 1 

B E R T + C NN -

b i LSTM


0 . 90 1 0 . 9 1 


A tt enti on


0 86  0 .


877
〇 .
85 1 0 .
9 


° 9 '

 




0 8 0 6 84


° -
701
 a

0 6 13


0 7 麟 禱 吻

娜 纖 偷 雜
. 鎌 娜 麵 _
_ _
_ _
, ^


 



0 6 .

0 5

 .

0 4

 .

03

0 2

 .

0 .




B E R T + C N N B E R T+ ST M B E R T  B E R T + C N N b LST 


L i

獅獅峨?
技 I

! 顏率 ■
機 * 雜 ?
【 i
f  [
p ! 



图 2 实验结果对比


3 1

3 5 .
本章 小结

本 章 在 深 入 分析 文 本 向 量生 成 方法和 文 本 分类方法 的 基础 上 结 合 刑 事 判 决

 ,

书 的特点 。
提出 了 基于 B E RT 生生成文本 向 量 的 深度 学 习 模 型 。
模型在对判 决书

进行预处理 的 基础 上 , 由 B E RT 生成对 应判 决书 的 文本 向 量 。 B E RT 在丰富 语料




以 及 创新性 预训 练方法 的基础上 ,
在 提取 文本 向 量上 可 以 很 好地 把 握 文本 的 局 部

3 5



北京 邮 电大学工学硕士学位论文 

和 整体结构 兼顾词 义和 语义 是 种 优秀 的 文本 向 量生成算法 本章 节结合




, ,

C NN B L S TM 和 At en 机制 的优 点 构建了 个混合深 度 模型 不仅利用




, i ti on , ,

到 了  C NN 提 取 局 部 特 征 的 优 势 , 还利 用 到 RNN 模型 在 处理序列 化信 息 时 的 长

处 ,
最后 引 入的 At en ti on 机制 让模型对文本 中 的 重 点 信 息可 以 更好地关注和 处


理 。 该模型 在我们 收集 的 真 实数据集 上获得 了 良 好 的效果 

本模型 的 能力 还有更待挖掘 的 地方 。 由 于我们 只 截取 了 指 定 长度 的 判 决书 



对 于 不 同 长度 的 判 决书 , 如 何处理才 能 获得更好 的 效果 ,
有待接下来 的 工 作 继续


研究 

3 6



第 四 章 基于 刑 事 判 决书 的 事 理 图 谱构 建和 刑 期 预测 模型 

第 四 章 基于 刑 事判 决 书 的 事 理 图 谱构 建 和 刑 期 预 测 模 型

4 . 1 基于 刑 事判 决 书 事 理 图 谱 的 构 建 方 案

本 课题 基于 收集 到 的 刑 事 判 决 书 文 本 数 据 构 建 了 相 应 的 司 法领域 的 事 理 图

谱 。 通过对 原 始 文 本 进 行 预处 理 后 , 通过抽 取判 决书 中 发生 的 事件 ,
以 及 判 决书


事件之 间 的 关 系 生 成 个刑事判 决书 的 事理 图谱



本课题将 构 建事理 图 谱 的 流程分为 以 下 任务 :


数据预处理 ; 原 始 事 件抽 取 

事件关系 抽取 ; 事 理 图 谱 构建 

流程框架 图 如 图 4 -

1 所示 

判决书文本

数据 预 处理

事 件抽取

事件关系抽取

事理 图谱构建

图 4


事理 图 谱 构 建 流程 框 架 

( 1 ) 数 据 预处 理和 事 件抽 取 ?

本课题 获 取 的判 决书 中 有 很 多 无用 的 信 息 

在进行 正 式 处理前 , 需 要去 除掉这些冗余 的 无关数据 。


为 了 抽 取合适 的 事件 , 


已 经预 处理过 的 数据进行 中 文 分词 , 词 性标注 , 依存语法分析 ,
得到 判 决书 文本


之 间 的 词 性 和 词 语 之 间 的 逻 辑关 系 

( 2 ) 抽 取判 决 书 文本 中 的 因 果 关 系 。 经过数据 预处 理和 自 然语 言 处理之后 

对 从判 决书 中 抽 取 的 事件进 行 因 果 关 系 抽 取 。 经过前面 的 处理得到 了 事件三元




组 ,
即 事件 -

关系 事件


因此 , 本课 题 采用 正 则 匹 配 的 因 果关系 抽 取方法获得事


件之 间 的 关系 

( 3 ) 图 谱构建 :
得到抽取 出 来 的 因 果关系 后 , 抽 取 的事件作为节 点 , 事件


之间 的 关系 作为有 向 边 ,
并 通过法 律 条 文 , 罪名 和刑 期属 性将具有相 同 属 性 的 节


点 联系 起来 

37


北京 邮 电大学 : n 学硕 士 学位 论文
 

4 2

事件抽 取

基于判 决书 构 建事理 图 谱 的 关键在 于 从判 决 书 中 抽 取 相 关事 件和 提取事 件




间 的 关系 。
即 使对判 决 书 文本进 行 了 预 处 理 , 但 是 此 时 的 数据 仍 然 不 能 够 直接进


行事 件抽 取和 事件关 系 抽 取 本 节 阐 述 了 怎 样对 判 决书 文本进行 事 件抽 取 下


。 ,

节 阐 述 如 何 对 抽 取 出 来 的 事 件进 行 关 系 抽 取 

首 先对经过预 处理 的 判 决书 文本进 行分词 , 分 词 是进 行 自 然 语 言 处 理 的 最 基




础操作 ; 接着 再对 判 决 书 文 本进 行 词 性标注 ; 最 后 对 标注 后 的 句 子进 行 依 存 语法


分析 , 通过依 存语法分析 , 可 以 得到 句 子 的 句 法结构 、 主谓 宾等成分 , 判 决书文


本 中 的 事 件基本 上 由 主 、 谓 、 宾 三 个 组成 

( 1 ) 分词 处理

对 提供 的 语 料 首 先进 行 分词 工作 分词 就 是 将连续 的 词 语 序 列 按 照 定的


, 。

规 范重新 组合成粒度 更 小 的 词 序 列 的 过程 , 分词 是进 行 自 然语 言 处理 的 基础 , 


词 之后 得到 的 词 是最 小 的 独立活动 的 语 言 成 分 在 分词 的 基础 上 我们 才可 以 进 行

 ,

词 性标注 实 体 识 别 等 工 作 

由 于 本课题 的 输入是判 决书 文本 , 属 于 长文本 。 在进行分词 之 前 , 先对长句




切分 将 段 落 分句 将 段话或 篇文 章 中 的 文 字按句 子分开 按句 子形成独立


一 一

。 , ,

的单元 。 返 回 切 分好 的 句 子列表 。 以 及 短句 切 分 , 将 长句 按 逗号和 顿 号 切 分 为 短




句 , 返 回 切 分好 的 短句 列 表 

本课题采用 p y l tp 工 具 包 进 行 与 处 理过 的 判 决 书 文本进 行 分 词 。 语 言 技术平




台 (
LT P ) 经过 哈工 大社会计算与 信 息 检索 研 究 中 心 1 1 年 的 持 续 研 发和 推 广 , 是国

内 外 最 具影 响 力 的 中 文 处理基 础平 台 。
该平 台 提供 了 许 多 对文本信 息 处理 的 功


能 , 包括 中 文 分词 、 不 同 词 语词 性标注 、 对实体 的规则 命名 、 对文本 中 句法的分


析 、 不 同 语义角 色 的 标记 等 。
p y l tp 是 LT P 的 p yt h o n 封装包 。 同 时 对停 用 词 表进


行修 改 ,
剔 除和 因 果关系 有关 的停用 词 

( 2 ) 词 性标注


词 性标注 是对上 小 节 中 文分词 之后 的 分词 结果进 行词 性标记 的 过程 主要


做法是确定文本 中 词汇 的 词性 ,
例如名 词 、 动词 、 副 词 以及形容词等词性 。 词性 

顾名 思 义 是 指 词 语本 身 的 特 点 来划 分 不 同 的 词 语类别 的 根据 本 身 词 性 是 根据 语

 ,

言 中 的句法结构作为背景 ,
以 时态语态变化作 为主要 计 出 来对句 子 中 的 词 语进行


词 性标记 

从 根源 上 来 说 词 类 是 相 同 词 性 的 词 语 的 归 属 个词 类指代 了 在相 同 语 言


, ,

背景下 , 诸 多 在句 子 中 出 现 的句 法功 能结构相 同 的词语 的统称 , 将这些 不 同 语义




但句 法意 义相 同 的 词 汇 聚合而 成 的 类词 语 在 汉语 中 词类 般可 以 划 分为 实


一 一

。 ,

词 与 虚词 ,
实 词 中 包括体词 , 谓词等 , 体词 又可 以 划 分为名 词 、 代词 以及副词等

3 8



第 四 章 基于 刑 事判 决书 的 事理 图 谱构 建和 刑 期 预测 模型 

词类 

通 过 词 性 标注得 到 经过 前 文 分得 到 的 句 子 内 容 的 词 性 之 后 便 于 对接 下 来 的

 ,

文 本 进 行 依 存 句 法 分析 和 语 义 角 色 标 注 , 从而 抽 取事件 

( 3 ) 依存句 法分析


依存句 法分析主要 是通过分析文本数据信 息 内 的 同 句子 中 不 同 词性词汇


之 间 的 逻辑上 的 依 存关 系 , 核 心 是提取句 子 中 的 核 心动 词 作 为 中 心 成分 ,
并可 以

支配其他句 子成分 。
依 存 关 系 需 要 符合 以 下 五 个条件 

 个独立 的 句 子 中 只 能 由 个独立 的 句 子成分


一 一

1 ) 

该句 的 其他成分均 要 从属 于某 个句 子 成分

2 ) 

与 相对应 的 任何 个句 子 成 分 不 能 依 存 于 多 个 其他句 子 成 分

3 ) 2 , 

4 ) 如 果句 子 成分 A 直接依存于句 子成分 B , 且句子成分 C 在 句 子 成分




A 和句 子成分 B 的 位置 中 间 , 那么 该成分 C 可能依存于 A , 也 有可 能依 存于 B 

也存 在 可 能从属 于 A 和 B 之间 的某 特殊句 子 成分



5 ) 句 子 中 的 中 心成分 , 其左 右 的 句子成分互相 没有关系 



经过符合上述依存 关系 的 句 子语法分析之后 我们 可 以 得到 文本 中 句 子 的 句

 ,

法 结 构 信 息 以 及句 子 中 的 主 谓 语 分布 信 息 以 便 后 续进 步 的 分析句 法结 构 以 及


句 子 的 语义含 义 。 法律判 决书 文本 中 的 事件表达主要 是 由 主 语 、 谓 语 以 及 宾语三



个句 子 成分构 成 , 因 此语法依存 分析十 分 重 要 且 具 有 充 分 的 意 义 。


本研究主要是


通过 前 文 中 描述 的 依 存语法分析来 抽 取法律 判 决 书 文本 中 的 事 件关 系 以 及事件


表达 , 进而提取语句 中 的 主谓 宾 成分 。 主 语和 宾 语作 为 两 个事件节 点 , 而谓 语作


为 连接 两 个 事 件 之 间 的 关 系 ,
如 转折 、 顺承 、 并列 等 

4 3 .
事件 关 系抽 取

( 1 ) 事件之 间 的关系类型

传 统知 识 图 谱 主要研 究 知 识实体 、 实体属性 以及实体间 关系 , 与 传统知 识 图



谱相 比 事 理 图 谱 描 述 的 是 谓 词 性事 件 以 及 其 内 外 联 系 事理 图 谱是 个事件逻


, ,

辑库 , 主 要 描 述 了 不 同 事件 实体之 间 的 进化规律 、 事 理逻辑 以 及 发 展规 则 。 而从




结 构上来说 , 事理 图 谱 中 的 节 点 代表事件 , 而 有 向 边代 表 事件 之 间 的 实 力 逻辑关


系 。
本 课题 中 提 取 的 关 系 为 以 下 几种 

顺承事件关 系 是指两 个 不 同 事件 在 时 序 上 的 依 次 发生 的 关 系 例如 又
' '

: 。 :


再 才V并、
' '


因 果事件关 系 :
指 两 个事 件 之 间 , 事件 A 发生在 前 , 导致 了 事件 B 的 发生 

例 如 从而 为此 因 而 V 致使V 以 致 于
’ '



并列关 系 指两 个事件 同 时 发生 如 i丨 且 并且 也 还、
' '

: 。 :
Tf ,

3 9


北京 邮 电 大 学 工 学硕 士 学位 论 文
 

条件事件关系 是指 前 个事件 A 是其他事件 或 C 等 发生 的 条件 例如


: B 。 

否则 才 不然 要不
' ' ' _




\ \

转折 关 系 是指 前 后 两 个事件形 成对立 例如 虽然 尽管 虽 但也


' ' ‘

: 。 : ,

但还 但却 V但
' '

\ 

( 2 ) 基于 模式 匹 配 的 关 系 抽 取方法


事件之 间 的 关系 抽 取式构 建事 理 图 谱 的 关键步 骤 本课题采用 基于 模式 匹 配

 ,

的 方法抽 取 事件 之 间 的 关 系 , 即 使用 正 则 匹 配 的 方法 , 判 决事件之 间 是否存在事




理关系 连接词 ,
判 断该语句 是否进行关系 抽取 ; 如 果进 行关系 抽 取 ,
再和 关系 连


接词进行 比对 判 断是哪 种 事理关系

, 

具 体 的 流程为 :
将五种 关系 编 译成模式 ,
将通过依存语法分 析标注得 到 的 主

谓 宾事件作 为输入 , 进行模式 匹配 ,


输 出 事 件 关 系 的 三 元 组<事 件 子 句 1 , 逻辑


关系 , 事件子句 2> 

4 4 .
构建 图谱

在上 节中 本课题针对每 篇 判 决 书 进 行 了 预 处理 分词 依 存 语 法分析
一 一

, 、 、 

将 判 决 书 中 符合要求 的 事件抽 取 了 出 来 。 当 抽 取 完 成事 件和 事 件 之 间 的 关 系 之

后 , 图 谱 的 构 建便是水 到 渠成 了 

每 份判 决书 中 抽 取 的 事件都表 明 了 当 事案件 的演化规律 每个案件 都有其




特点 , 因 此 通 过 具 体 事 件 将 不 同 的 事 件 连 结起 来 , 难度较大 , 每份判 决书 除 了 描


述 了 事件之外 , 还会 描述本 案件 的 刑 期 , 罪名 , 和 判 罚 的 法律条文 。
本课题根据


事件节 点 的 属 性 构 建 图 谱 

4 5 .
图谱可 视化

可视化可 以 将文本 等描述性信 息 展现得 更加 直观 知 识 图 谱 由 于 其节 点 和 节



 。

点 之 间 复杂 的 联系 , 使 得 可 视化 尤 为 重 要 , 通过可视化 , 可 以 看到 事件之 间 的 演


化 进程和 事 件节 点 之 间 的 联系 

事理 图 谱 的 本质 上来说仍可 以 视作 知 识 图 谱 的 种 前主流 的 知 识 图 谱可


, 目

视 化 工 具 有 如 Moo  j
nn 、 H i
g h c h art s 、 E c h art s 、 Gep h i 、 O SM 、 Geo  Flow 、 N eo4 j


本 节选择 N eo 4 j 作 为 事 理 图 谱 的 可 视化 工 具 

在对 图 谱进 行 可视化之前 , 需 要 将 图 谱 存 储 在 Ne〇4 数 据 库 中 j
, 对 于 数据 存


储 , N eo4 j
有三种方式 , 本课题选择在 We b 端中利用 C r e at e 命令构 建关系和 节


点 

首先分别创 建事件节 点 , 判 决书节点 , 犯罪类型节 点和刑 期节 点 。


事件节 点

40



第 四 章 基于刑 事判 决书 的 事理 阁 谱构 建和 刑 期预测 模M 

即 是 点之 间边 的连接 。 事件之 间 的边是 事理 关系 ,


除此之外 建立起判 决书和 犯罪


类型 的关系 , 犯罪类型和 刑 期 的 关 系 , 事件与 犯罪类型 的 关 系 。 至此 ,
便完成 了

整个事理 图 谱 的构建 。 其生成 的 事理 图 谱如 图 4 2


所示 



/


, 

 1 

 .


,  _





_
图 4 事理 图 谱事 件对生成示意 图


“ ” “

同时由下图 4 -

3 中 可 以看到 , 左颈部刺 穿 导致 了 ( C au s a l i t
y )  急性大


“ ” “ ”

失血 点 击 急性大 失血节点 可观察到 急性大失血 和 致人死亡 同属 于刑




期为 即 死刑 节 点 的节点 由 此可得到 个左颈 部刺 穿 导致 急性大 失血致人




0 ( ) 。

死亡 最 终 被 判 处死刑 的 个关 系 链 条 完成 了 基于判决书 的 事理 图谱 的构建





4 


北京 邮 电大学工学硕士学位 论文
  







… 卜

、 …





 ,


: ■





图 4 死刑 关 系 链 条 示 意 图


4 6 .
刑 期 预测 与 实验

本节之前 的 内 容 详细 讲述 了 我们 构 建事 理 图 谱 的流程 本节基于 之前构 建 的



 ,

知 识 图 谱来进行 刑 期 预测 

4 6
. . 1
实验数据和 实验环境

我们 从 中 国 裁判 文 书 网 上获取 了 刑 事 案件 的 判 决书 。 通过筛选 ,
最 终得 到 了

24942 份刑 事判 决书作 为 训 练数据 。 按照 9 :  1 的 比例 。 其中 2245 2 条样本作 为




训 练集 ,
2490 条数据作 为测 试集 , 其 中 刑 期属 性为 3 ( 月 ) 至 3 6 0 ( 月 ) 以 及死


刑 ( 本课题 中 死刑 在模型 中规定为 0 月 ) 

本 章节实验所使用 的 计算机平 台 参数如 下 



操作系 统 : L n ux


深度学 习 框架 :
P y To rc h l . 

处理器 : I nte l

R X e on R
) ( )
C P UE 5 -

2 6 2 0v 4
 @ 
2 . 1 0G Hz 



42



第 四 章 基于刑事判 决书 的 琪理 阁 谱构 建和 刑 期 预测 模型 

显卡 : NV i d a T I TA
i N XP
 1 2 G B* 2

4 6 2
. .
刑期 预测

刑 期 预测 ,
即 是在给定输入 的情 况下 , 通过利 用 了 先验知 识训 练 的 模型给 出

其推 断 的 刑 期 的 过程 。
有 些研 究 人 员 为 了 提 高预测 的 准确 度 ,
将刑 期按照 时 间 长


短进 行分段 例如 个月 分为 段 个月 分为 段 这时 的预测可 以视为


一 一

0 3 3 6
- -

, , ,

刑 期 的 分类 任 务 由 于存在 多 个刑 期 的 时 间 的 分段 所以是 个 多 分类任务 




, , 。

课 题 选 择 直 接 预测 具 体 刑 期 , 得到刑期 的 具体时 间 , 而不是范 围 , 因此本课题 的



刑 期预测 是 个 回 归 任务



判 决书 文本预 处理

判 决书事件提 取

事件节 点 相 似度 计算

返 回 相 似事件节 点

对 多 个事件节 点 所代 表 的


酬 臟平均 




 ? 

返回节点对应的 刑 期


 输 出 刑 期 ^


图 4 4 开 期 预 测 流程 


前文 构 建 的 事理 图 谱在揭示事件之 间 发 展关 系 的 同 时 事件节 点 同 时 还和 罪

 ,

名 和刑 期节点 相 关联 , 可 以 通过节 点 相 似度 匹 配 的 方式来获得相 似节 点 上 的 刑 期




“ 

来作 为待 预测 事件 的 刑 期 例如 在 事理 图 谱上 的 个事件链条是 左颈部刺 穿

。 ,


 急性大失血 这 个事件和 其 对 应 的 刑 期 节 点 相 连接

导致 了 ( C ausa l i t
y ) , , 

43


北京邮 电 大 学 工 学硕士 学位 论文
 

死刑 。 如 果输入 的 判 决 书 中 同 样提取 到 了 急 性 大 出 血 的 事件 , 通 过文本相 似度 匹



配 的 方法 即 可 以 将这两个节 点 匹 配 , 所 关 联节 点 的 刑 期 即 为 待 预测 判 决 书 的 刑

期 。
如果 匹 配到 多个节 点 ,
将节 点 关联 的 刑 期 取平均 。 同时 ,
为 了 加速节 点 的 匹

配 ,
利 用 本课题第 三 章 中 提 出 的 方法 ,
先对 判 决书进 行罪名 预测 ,
再进行刑期预


测 。 刑 期 预测 的 整 体流程 图 如 上 图 4 4 -

所示 

4 6 3
. .
评价 指 标

对于刑 期预测 任务来说 ,


模型 最终预测 的 结 果和 实 际 的 结 果 仍 是存在 偏 差 

可 以 选择 多 种 评价指 标来衡量模型 好坏 , 例如准确率 、 召 回 率和 F 1


值等 ,
但是

由 于 本课题设计 的 模型预测 结 果 更偏 向 于 回 归 模型 , 因 此 我 们 选 择 M SE 作 为 我


们 的 评价指标 

M S E  M e an (  S q u are d  E rr o r ) 为均方误差 , 该 统计参数计算 的 是拟 合 数据 和




原 始 数据对应 误差 的 平方 求 和 平 均 , 计算公式如 下式 4 -

1 



MSE 
= 丄
 ( 4 -

1 

其中 m 为 样本 总 量 ,
分别 表示原始数据 与 预测 数据 

4 6 4
. .
基 线模型

在 刑 期预测 上 , 我们 选择三种基线模型 与 我们 的 模 型 进行对 比 。 分别 是




T e x t C NN , T O P J U D G E  和  H AN  模型 

Te x t C NN

是第 个成功将 C NN 引 入 文 本 分 类领 域 的 模 型 简言之


[ ]

( 1 ) , 

T e x t C NN 的 工 作 过程就 是 将 文 本 向 量 化后输 入 模 型 , 得到 最 后 的 预测 结 果 

 T O P JU D G E
62]
是 个基于 拓 扑 的 多 任 务 刑 期 预测 模 型



(  ) 

 HAN  ( H yb r At e n Ne 63
为 个基 于 Aten 机制 的 刑 期


( 3 ) i d  ti on  t w o rk )  [ ]

 ti o n

预测 模型 , 使用 注 意 力 机 制 对文本进行编码 之 后输入 D P CNN 做文本分类 , 在刑



期 预测 问 题上 得到 了 优异 的 结 果 

4 6 5
. .
实验结果

最终我们 得到 了 如 下 表 4 -

1 所示 的 结 果 。
从 中 我们可 以 看 到 , Te xt C N N 

T O P JUD E G E , HAN 三 类 模 型 的 M S E 值分别为 8 . 8 , 


4 7 .
和 3 . 1 。 而相 对其他基线


模型 , 我们 的 模 型 在 单 个案件上 的 M SE 值为 2 6 . , 远 高于 Te x t C NN 模 型 的 预测


结果 , 也 显 著 高于 其他两 个基线模 型 , 对于 案 件 真实刑 期 的 预测 己 经 十分接近 

上述 结 果均 证 明 了 基于 事 理 图 谱 的 刑 期 预测 模 型 在 刑 期 预测 任 务 上 具 有 优 秀 的

预测 能 力 

44



第 四 章 基于 刑 事判 决书 的 事理 图 谱构 建和 刑 期 预测模 型 

表 4


实 验结 果
 



M 
MSE

T e x t C NN 8 . 


 

T O P JU D E G E 4 7

 .

 

H AN 3 . 



基 于 事 理 图 谱 的 刑 期 预 测 模 型 2 . 

4 7

本章小结

本 章 介 绍 了 基于 事理 图 谱 的 刑 期 预测 模 型 对 事 理 图 谱 的 原 理进 行 了 简 要 介

 ,

绍 , 描述 了 构 建 事 理 图 谱 的 整 个流程 , 对文本进行预处 理之后 ,


再 使 用 分词 , 

性标注 , 依 存 语 法 分 析 对 判 决 书 文 本 进 行 事 件提 取 , 再利 用 基于 模 式 匹 配 的 方法


抽取事件之 间 的 关系 , 完成关系 抽 取之后 ,
本 章 中 还使 用 Ne〇4 j 等 可视化工 具将


图 谱进行可视化 

图谱构 建完成后 , 对 待 预 测 判 决 书 样 本提 取 事 件 与 图 谱 中 的 节 点 进 行 相 似 度


比 较 得 到 待 预测 判 决 书 的 刑 期 。 同 时本 章 还与 其 他 刑 期 预测 方法做 了 比 较 , 我们


的 方法 同 其他方 法相 比 直接预测 刑 期 , 更加直观 ,
在结果上也得到 了 更小 的

MSE , 误差更小 , 更加 具有准确 性 



45


北京 邮 电大学工 学硕士学位论文
 

第 五 章 基于 事理 图 谱 的 辅助 判 决方 案生 成 系统

5 . 1 需 求 分析

随着我 国 经济水平 的 提高 , 法治 社会 建 设 的 推 进 , 各种 法律 案件层 出 不 穷 



法律新 名 词 屡 见 不 鲜 ,
给相 关法律从业 人 员 带来 了 很大 的 压 力 。 《 2 020 年全 国

两会最 高人 民法 院工作报 告 》 中 提到 各级 法 院 审 结 审 刑事案件 万件 




76 7
. ,

着判 决书 的 积 累 和 增 加 法律工 作 者 了 解案情 或者 司 法学 习 的 过程 中 任务越来越



 ,

繁重 , 由 此增 加 了 工作 失误 的可 能 , 效率 也 会变 低 。
刑 事 案件和 社会 治 安 稳 定 息

息相关 , 因此 , 既要 高 效又要准确 地给 出 判 决结果 是建设法治 社会 的 题 中 之义 



同时 人 民 群 众 在 法 律 活 动 过程 中 也 需 要 个 咨 询 和 建议 的 工 具 或 者 平 台 以便


, ,

了 解案情和 作 出 判 断 

基于 以上提到 的 需要 本章开 发 了 个基 于 事 理 图 谱 的 辅 助 判 决方 案 生 成 系


统 。
将 案 情 描 述输 入 系 统 , 可 以 通过本课题 中 的 罪 名 预测 模 型进 行 预 测 罪名 , 

时 , 罪名 将作为输入 , 输入到 基于事理 图 谱 的 刑 期预测 系 统 , 系 统 最 终会 预测 出



罪名 和 刑 期 

由 于 事理 图 谱是基于 判 决书 建立 的 , 因此 , 当使用 者拥有更 多数据 的 时候 



可 以 对 图 谱进行拓 展 ,
增 加 图 谱 的 可靠性和 预测 性 能 的 鲁棒性 

基于 以上叙述 ,
本节从上传 案情描述 、 罪 名 预测 和 刑 期 预测 等 方 面对系 统进

行 用 户 需 求分析 

5 1 . . 1 上 传 案 情 描述

该 功 能 为 其他功 能 的 基础 ,
该 功 能 允 许 用 户 将 储存 为 t xt 格 式 的 案情 描述文


本上传到 数据存储 的 指 定位置 提供给模型进 行 下 步操作

, 

5 1 2
. .
罪 名 预测

该模块为 系 统 的 两个核 心 功 能 之 为 用 户 提 供对 给 定 的 案 情 描 述 进 行 罪 名


预测 的 功 能 , 该模块 详细 的 需 求分析 如 下 

( 1 ) 数据清洗 :
对用 户 上传 的 案情 描述进 行数据清洗 , 去除无用 信息 , 


根 据 截 断法将上 传 的 案 情 描 述 截 断至 指 定 长 度 

( 2 ) 特征提取 : 分别使用 B E RT 和 XLN E T 两个预训 练模型对 己 经处理过




的 案情描 述 文本提取特征 用于下 步预测




( 3 ) 罪名 预测 :
将提取 的 特征输入构 建 的深度学 习 模 型 , 输 出 预测 的 罪 名 

46



第 五章 基于 事 理 图 谱 的 辅助 判 决方案生成系 统 

( 4 ) 结 果 展示 : 在 完 成罪 名 预测 功 能 后 ,
将 最后 预测 的 结 果 展示在 用 户 图

形界面 上 

( 5 ) 结 果存储 : 将预测 的 结 果存储 到 指 定位置 ,


为其他模型 调 用 做准备 

5 1 3
. .
刑期预测

该 模块 为 系 统 的 另 个核 心 功 能 为 用 户 提 供对 给 定 的 不 含 判 决 案情 描 述 进


行 刑 期 预测 的 功 能 , 该 模块详细 的 需求分析如 下 

( 1 ) 数据 预 处理 : 对 用 户 上 传 的 案 情 描 述 进 行 数据 清 洗 

( 2 ) 案情描述事件提取 : 对 用 户 上传 的 案情描述 使 用 设计好 的 模 型 进 行事




件提取 

( 3 ) 事件 节点 相 似度 计算 :
将 从 案 情描 述 文本 中 提 取 出 来 的 事 件对和 之 前


构 建 的 事理 图 谱 中 的 节 点进 行相 似度计 算 

( 4 ) 返 回 相 似节 点 : 通过和 图 谱 中 节 点 的 相 似度 计算 比 较 , 返 回 最相 似 的

节点 

( 5 ) 刑期计算 :
如果返 回 的是单

节点 , 直接返 回 节 点 对应 的 刑 期 ; 如果


是 多 个节 点 , 对 多 个节 点 的 关 联 的 刑 期 取 平 均 

( 6 ) 结 果 展示 : 将预测 的 结 果 展示在 用 户 图 形界面上 



5 2 .
其 他预 测 系统

很 多 学 者 和 研 宄 人 员 都在 开 发 基于 裁 判 文 书 的 刑 期 预测 系 统 ,
Ta n M f
基于 区

间 划 分和 多 模 型 投 票 设计 出 的 系 统 有 效 缓 解 刑 期 类型 众 多 和 数据 不 平 衡 问 题 


65
提出了 种 长文本分类 的 混合深度 网 络模型 并 统计 了 刑 期 的 频数 


\ ¥3 1

, ,

置 不 同 时 间 不 同 长 短 的 刑 期 段提 高 了 分类准 确 率 , 同 类 型 的 系 统还有 很 多 , 其中

存在 的 个 问 题 是这些 系 统为 了 提 高准确 率和 简 化模 型 的 预测 过程 将刑 期 预测


任务转换成 了 个 分类任务 预测 的 不 是 具 体刑 期 而是刑 期所在 的 时 间 段 




, , 。

系 统为 了 更精 准 的 预测 刑 期 ,
没有 选择将刑 期 分段而 是 直接预测 刑 期 ,
以期对案


情 的 刑 期预测 有 着 更精准 的 结 果 ; 同时 ,
本 系 统 的 构 建兼顾 了 罪名 与 刑 期 预测 

47


北京 邮 电大学 工 学硕 士学位论文



5 3

系统 架构

景  5g ii a ? .
l x l a igi
 




m 

 
  


据  基于 多 预 训 练 模 型的 基 于 事 理 图 潜的预


¥  混 合 深 度 刑 期 预 测 案 生 成方 法 
 


 

1 7T









I  l 余 信息 剔 除 


I I
文 本裁 剪  I
特 征 向 量提 取










1  丨
判决 书 文本  搜 索 关键 词 






图 系 统 架构 图


5 1

整个系 统架构如 图 5


所示 , 从底 到 上 依 次 是数据输入层 ,
数据 预 处理层 

数据 分析层 和 数据 展示层 

数据输入层 :
接受来 自 外部的输入 ,
本 系 统 的 输入分为两部 分 , 案情描述文

本 和 搜索 关键词 本 课 题 中 用 于 测 试 的 案情 描 述 即 为 本 课 题 收集 到 的 判 决 书 文本



中 去 除判 决 结 果 的 部 分 , 而搜索 关键词 是罪名 预测 模 型 给 出 的 罪名 预测 结 果 , 


过增 加搜索关键词 的 方式 ,
缩小 图谱检索 范 围 ,
以 便 图 谱更准确 和快速地给 出 预


测结果 

数 据 预 处 理层 : 当 接收到输入后 ,
需 要对 数据进 行预处理 , 主要操作是去 除

冗余 、 文本裁剪和 案情 文本 向 量生 成 

数据 分析 层 ?


经过预 处 理 的 信 息 先输 入 罪 名 预测 模 型 获 得 罪 名 预测 结 果 , 


后 作 为 关键词 输 入 事 理 图 谱进 行刑 期 预测 

数据 展示层 : 展示数据 的 预测 结 果 

5 4 .
系统 实现

5 4
. . 1 P y Q t 介绍

QT 是 个跨平 台 C ++ 库 的 集合 主 要 是通过实现各种 AP 来访 问 移动 系 统


I 

控制桌面等平 台 。 主 要提供 的 服务包括定位 服务 、 多媒体服务 、 蓝牙 服务 、 We b



服务 以及传统 的 U 开发服务 是 的 组完整 的 绑定 它被




I 。 PyQ t 5 Q t v5 Python 。

实现为 超过 3 5 个扩展模块 并使 , P ytho n 在所有 支持 的 平 台 包括 ( i OS 和 Andro i d 



上被用 作 C ++ 的 替 代应用 程序开发语 言 



PyQ t 的优势在于 简 单好用 ,


功 能强大 , 跨平 台 支持 , 性能高 。 P yQ t 本身就


是对 Q t
库的 py
t hon 绑定 , 在绑定 的 时候保持 了 原有 Q t 库的 AP I 。 同时他面 向

48



第五 章 基于 事 理 阁 谱 的 辅助 判 决方案生成 系 统 

对象 、 信号 和 槽 的 设计 机制 , 界面 设计和 业务代码 的 分离 使 得设计稳定性 更 高 



5 4 2U
. . I 设计

使用 完成 个系 统分为两步 U 设计和功 能实现 本 文实现使用




PyQ t : I 。

Q Dest i
gner 工具进 行 与 用 户 交互界面设计 ,
再将该 工 具生 成 的 . u i
文件转换成对


应的 .

py 文件 。 该做法 的 好 处 是所 见 即 所得 ,
设计的界面就是最终 的结果 ,
省去


了 使 用 代码 时 调 整控件位置 参数 的 繁 琐过程 

Des 是 个 灵 活 的 可视化 图 形操作 界 面 设 计 工 具 可 以 加 速 开 发 图 形




Q t i
gner 。

界面 的速 度 在 D es 中 设计生成 的 U 界面是 个后缀为 的 文件 将



Q t i
gner I . u i ,
. u 

文件转换为 .

py 文件就可 以被其他 的 PyQt 程序 引 用 



U I 设 计流程如 下 

( 1 ) 创建主 窗 口 : 主窗 口 就是 用 户 和 系 统交互时 的 界面 。 系统 的具体功能




都是在主 窗 口 中 添加 

Ma i rVA n dow

 u nt i t l
ed



y pe  He r e

图 2 主窗 口 创 建


( 2 ) 分析功能 : 基于 前文 的 研 究 ,
本 章要 实现 的 功 能是对给 定 的 案情描述


进 行基于深度 学 习 预训 练模型 的 罪 名 推测 和 基于 其 他判 决书 构 架 的事理 图 谱 的

刑 期预测 

因 此需要加 入 的 功 能包括 , 上传 案情 描述 ,
案情描述预 览 ,
罪 名 预测 , 刑期

预测 四 个功 能 。
其 中 罪名 预测 包括 分别 使 用 B E RT 模型和 X LN E T 模型两部分 

( 3 ) 添加 组件 : 基于 ( 2 ) 的分析在主窗 口 中 添加 组件 。
Q t Des i
gner 提供 了

很 多 常用 控件 , 比如 常用 的 按钮 ,
单选按钮 , 文本框等 等 , 这些组件可 以 直接拖


动到主窗 口 中 ,
实现相 关功 能 

“ ”

以 上传 案情描 述功 能 为 例 , 选用 P u s hB uto n 组件 , 该组件可 以提供 多 种



49


北京邮 电大学 丨 : 学硕 士学位 论 文
 

触发信号 , 包括 当 鼠 标指 针在 按钮上并按 下 左 键时触发 该信 号 ,


当 鼠标左 键被释


放 时触发该信 号等等 。 PyQ t 的 信 号槽机制 中 会设计相 应 的 槽 函 数 ,
槽函 数监听

指 定信号 ,
收到信号之后 , 执行对应操作 ,
完成和 用 户 交互 的 过程 

窗 口 布局 如果 只 添加 个按钮控件或者文 本控件 的 话 没有布局 的




( 4 ) : ,

必要性 但是如 果 GU 窗 口 不止 个功能 为 了 设计 的 美 观 需 要对 窗 口 进行




, I , ,

布局 。
Q Des
t i
gner 提供 了 四 种 窗 口 布局 方式 ,
分 别 是垂 直布 局 ,
水平布局 , 栅格

布 局 和 表 单布 局 。
我们 选择 最 见到 的 垂 直布 局 完 成本 系 统 的 设计 

最后得到 的 U I 设计如 图 5

3 所示 

Cr
i m e P red i ct 

 C n m e P red i ct . u 

上 传 案 傾 描述

案牾 描述

罪 名麵

M植
BE
酵羽輕 

X U I ET 模 型 侧结果 

基 于 事 理 图 谱 的 刑 期預 咖

£[ : : 麵 §测 : :




图 系 统 设计 


5 3 U I

设计完成的 U I 保存 为 . u i
文件 , 再通过 pyu
i c 工具转换成 py
t hon 文件 , 此时

得到 的 .

py 文 件 就可 以 被 pyqt 程序 调 用 

5 4 3
. .
功 能实现

本小节在 U 设计 的 基础上完 成功 能实现 的 个优 势 是界面 和 逻辑 分




I 。 Py Q t

离 。
界面 文 件 和 逻辑 文 件 ( 也就是实现功 能 的 文件 ) 是两 个相 对 独立 的 文 件 , 

节 通过 工具编 译来 的 文件称为界面文件 还需要 个文件来调 用 他 




一 一

pyu i c , ,

个文件称为逻辑文件 ,
在逻辑文件 中 继承界面文件 的 主 窗 口 类就 实现 了 调 用 , 


后 在逻辑文件 中 ,
完成业务逻辑实现 自 己的功能 

实现这 个界面和 逻辑分离功能 的 核心就 是 PyQ t 的信号和槽机制 。 通过建立



信 号和 槽之 间 的 连接就可 以 实现对 象之 间 的 通信 。
在创 建 的 对 象 改变其状态 时 

信 号 就 由 该对 象 发射 出 去 ,
槽用 于接 收信 号 ,
多 个信 号 可 以 和 单 个 槽 连接 ,
单个

5 



第 五 章 基 于 事理 阁 谱 的 辅助 判 决方案生 成 系 统 

信 息好也可 以 与 多 个槽进 行连接 。 基于控件 ,


信号和 槽可 以进行高效的编程 

在 Q t 编程 中 通过 ,
Q t
信 号 槽机制对 鼠 标或者键盘 在 界面上 的 操作进 行 响 应


处理 ,
如 上文提到 的 上传案情描述按钮 ,
本课题选用 P u s hB u t t o n 控件 , 在按钮

被 按 下 的 时 候 发射 信 号 , 监听这个按钮是否被按 下信号 的 槽 函 数就会执 行 ,


完成

之前给 函 数设计 的 相 应用 能 

本小 节 功 能实现分为 以 下 步骤 

( 1 ) 设计信 号和 槽 函 数 

打开 Q Des
t i
g ne r ,
如图 5

3 所不 的 U I 需要给相 应 的 按钮 设置上信号 , U I 

本课题设置 了 四 个 P u s h  B u tt
on 控件 ,
分别 代表上传 案情描述 ,
B E RT 模 型预测

结果 , X LN E T 预测 结 果和 刑 期预测 。 对 四 个按键 的信 号都 设置成 鼠标左键按 下



之后 触发相 应 的 槽 函 数 

信 号和槽 函 数设计结果如 图 5

4 所示 

^  Cr
i m e P re d ^ ct 

 C r m e Pr e d
i i ct u . i 


U p l o a d ju d g m n 〇
 —

e t 


 ̄  ̄


" 


f l
 上 传 案情 插  i f


|  案 情 描 述

 




罪名f顿 ! j

 

Ac us a nP r e d B e r t
 —

c t i o i c t ( )  


i S  [ ZZ T Z I J

 I I




gf  j ji l  

A c c u nF r d X lne

J s a t i o e i c t t ( )

基 j 
I 理图语 的 刖期柯剜



m e F r e d n KG
 -  ̄

C r i i c t i c ?

( ) 

图 5

4 信号和槽函数设计 示 意 图

以 上传案情描述为例 ,
按 下 上传 案情描述按钮 后 , 会触发 c l i c ke d 的信 号 

和 这个信 号连接 的槽 函 数是 Up l o ad J u d g e m e nt 〇 函数


( 2 ) 槽函数


如图 5

4 所示 , 在 四 个信 号 对 应 着 四 个 槽 函 数 ,
分别介绍这 四 个槽函数的功

能和 实现 

Up l o ad J u d ge m e n t () : 打开文件 浏 览 页 面选择 需 要上 传 的 案情 描述 内 容 ,
保存


案情文本到 变量后 并 把读 取 到 案 情 内 容 显示 在 案情描述预 览 的 文本框 中 


, ,

情描述预 览可 以 通过滚轮浏 览全文 



5 



北京邮 电大学 1 :
学硕 上学位 论 文 

Acc usa t i o n P red i c t B e rt ( ) :


对上传 的 案情描述进 行预处理后 ,
将预处理 的 文本


内 容传 给本 课 题 第 三 章 中 建 立 的 基 于 B E RT 提取特征 向 量 的 混合深度学 习 模 型 

进 行 罪名 预测 。
并将预测 的 结果 填 入 后面 的 空 白 处 

Accusa t i on P re d i c t X L N ET ( )

对上传 的 案情描述进 行预处理后 ,
将预处理 的

文本 内 容传给本课题 第三章 中 建立 的 基于 XLN E T 提取特征 向 量 的 混合深度 学 习



模型 , 进 行 罪 名 预测 。
并将预测 的 结 果 填 入 后 面 的 空 白 处 

C r mePr
cd
i i ct KGO :
基于 之 前 建立 的 知 识 图 谱进 行刑 期 预测 ,
并将 预测 的 结

果填入后面 的 空 白 处 

5 5

系统 展 示 与 测试

本节对上文完 成 的 系 统进行展示 , 在 第 四 章 中 提 到 我 们 获 取 了2 4 0 0 0 份 判 决



书 数据 ,
其中 90 % 的 判 决书 用 来构 建事理 图 谱 。 从剩 下 的 1 0 %的判决书 中 我们

选择 了 份 判 决 书 去 除 判 决 结 果 得 到 其 中 的 案 情 描 述进 行 展 示 其 中 本 案 件 实 际


判 罚 结果为故意杀人罪 ,
判处 1 5 年 ( 即 1 8 0 月 ) 有期徒刑 

在完成 UI 设计和 功 能实现后 的 系 统如 图 5


5 所示 

S3  C r i m e P r^ d k t 

 □ X

上 传 案情 描 述

 
 

罪 名删

B E KT 植型翻赌果

X U E T 植 型 麵 结 果  — 

基于 亊理图 谱 的刑 期柯 则

M 期予 麵 

图 5

5 系 统 U I
示意

( 1 ) 将详细 案情上传 

5 2



第五章 基于事理 图 谱 的辅助判 决方案生成系 统 

Cf j r f i e^ e d ct  l

Q

案情 描述

■ 灭 运 涵 i i XS S 甲


册结 婚 婚 后二 人与 陈某的父 亲 共 同居 住在 自 贡 市



沿 滩 区 2 0 年 S 月 3 曰 下 牛 被 告人陈某在外捉 黄



1 5 ,

_ 后 回 家 因 琐 事 与 周某 甲 发 生 争 砂 抓 扯 周 某  ^


 、 ,

罪 名 倾删

BZ RT g麵 1 结枣」 1 f  

X Ll iT镇 型预删 结果
f  

墓 于事 理图谱的刑期 饨I I



: 刑期細  


图 5

6 上传案情

( 2 ) 分 别 点 击两 个罪名 预测 按钮后 

H  C r mm ^ ed m  -
O 

上 传 案情 描述

案情 描 述

被 告 人陈 杲 和 被 i x S某 甲 于


册 结 婚 婚 后 二 人 与 陈某的父 亲 共 同 居 住在 自 贡 市



沿 滿 区 20 5年6 月 3 日 下 牛 被 告 人 陈 某在 外捉 黄
。 1 
 ,

弩后 回家 1 桢 事 与 周某 甲 发生争吵 爪扯

周 某 、

 、

罪名侧

B E RT 模 型预 删 结 果  . . . . . . . . _ _  

X LN ET 模 型 麵 结果  

基 于事理图谱的 刖期 忖蒯

刑 期 预_

图 罪 名 预测 结果示意


5 7

( 3 ) 进 行 刑 期 预测 

5 3


北京 邮 电 大学工学硕 士 学位 论文
 

Cl  C r i m ^Pr e Sc t 

 Q X

上传 案情描述

案 情 插述




被 害 人 | 某 甲 于 ^ O S 翠 3 月 1 2 百 簦 远主 a
东某 和 ]

册 结 婚 婚 后二 人 与 陈 某 的 乂 亲 共 同 居 住 在 自 贡 市



沿 濉 区 2 0 5年 月 3 曰 下 午 被 告 人陈 某在 外 捉 黄
。 1 £



鳋 后 回 家 因 琐事 与 周 某 甲 犮 生 争 吵 M扯 周 某  V
, 、 ,
 

罪名細

BE _ S ? 则 结 果  Mm a \




X 酬 函麵 结 果  人  

基 于事 理图 谱的刑期預 珈

二 刑期簡

1  ^

图 8 刑期 预 测 结 果示 意


5 6

本章小结

本 章 基于 本课题第三第 四 章 中 研 究 的 模型 使 用 PyQt 实现 了 个原 型 系 统

, 

先 是对 系 统 需 求进 行 分 析 , 之后 基于 需 求 分析 设计模 型 整体架构 。
介 绍 了Py Q 

的 优势 ,
着重解释 了 P y Q t 的 信 号 和 槽 机制 使 得 我 们 设计 用 户 图 形 界 面 实 现 了 界


面 和 逻辑 分离 。 使用 Q Des t i
gne r 设计 了 系 统 的 U I ,
并设计好信 号和 模 型接 口 

最 终编 写 代码 完 成逻辑功 能 

最终 的 原 型 系 统实现 了 系 统上传 案情描述完 成预 览 , 选择不 同 B E RT 或者




X LN E T 作 为 预训 练模 型 进 行 罪名 预测 , 使用 基于事理 图 谱 的 模型进 行 刑 期预测

的功能 ,
为 司 法 人 员 和 人 民群众提 供 了 司 法辅 助 功 能 , 达到 了 我们 设计系 统 的 

的 

5 



第六章 结论 

第 六 章 结论

随 着 依 法 治 国 和 智 慧 法 院 建 设 的 不 断推进 以 及法律 的 不 断 完善

我国
“ “ ”

, , 

的 司 法事业 向 着更 高效和 更 公 平 的 方 向 不 断 发展 。 同时 , 人 民 的 法律意 识 也在 不




断提高 , 人民在 日 常 生 活 中 也 更 积 极地使 用 法律工 具 保护 自 己 。 这使 得 社 会 公 正

水平提 高 的 同 时 , 也 给 司 法 从业人 员 带 来 压 力 。 而人工 智 能 在 社会各领域产生 了



优异 的效果 ,
因此 ,
引 入人工 智 能来辅助 司 法工作 , 帮助 司 法人 员 更高效公平地

解决法律 问 题 , 为 人 民 群众 提 供 司 法 帮 助 。 因 此研 究 人工 智 能 在 司 法领域 的 应 用

具有重要 意 义 。
本课题 的 研 究成 果主要如 下 

( 1 ) 本 课 题 提 出 基于 预 训 练模 型 提 取特征 的 混合深 度 罪 名 预测 模 型 , 结合


深度学 习 模型 , 对给 定 的 判 决书进行相 应预 处理后进行 罪名 预测 。
预训 练模型 在


海量 语 料 和 创 新 的 双 向 语 言 模 型 的 基 础 上 对 文 本 有 着 更 好 的 语 义 理 解 提 取 特 征

 ,

更精确 ,
结 合 之 前成熟 的 深度 学 习 文本分类模 型 , 在 罪名 预测 问 题上有 着优秀 的

效果 

( 2 ) 本 课题 提 出 基 于 刑 事 判 决 书 的 事 理 图 谱构 建和 刑 期 预测 模 型 。 针对 刑


事判 决书 设计 了 构 建事理 图 谱 的 方法 , 其 中 重 点 是事件抽 取和 事件关 系抽 取 , 


判 决书 文本进行 了 中 文分词 , 词 性标注 ,
依 存 语法分 析 抽 取 事件 , 再根据 模式 匹

配 的 方法对 抽 取得 到 的 事件进 行 关 系 抽 取 ,
得 到 的 事件节 点 通过 案件类型 , 刑期


等 关 系 连接起来构 成 事理 图 谱 再 根据 文本相 似 度 的 方法对 节 点 进 行 匹 配 达 到 预

 。

测刑期的 目 的 。
并且 , 使用 N e 〇 4 工 具 对 图 谱 进 行 了 可 视化 操 作



( 3 ) 最后 , 我们 根据上文得 到 的 两个模型 ,
将其组合起来 , 基于 Py Q t 实现


个基于 事理 图谱 的 辅助判 决方案生成原 型 系 统 以 完 成我们 所期 望 的 司 法辅助


功能 。 系 统 接受案情描述 作为输入 , 输 出 罪名 和刑期 



在 目 前 工 作 的 基础 上 , 在后续 的研 宄 中 ,
将主要关注 以 下 几个方面 

( 1 ) 如 何 有 效地对 其他 事件 之 间 的 关 系 进 行 逻辑构 建 , 包 括事件 之 间 的 顺




承等关 系 

( 2 ) 如 何 有 效地对抽 取 到 的 事件关 系 进 行衍 化分析 ,


将其 泛化为 更 高等 级


的法律规律知 识 

55


北京 邮 电 大学工 学硕 士 学位 论 文 


参考文献



] 靳高风 ,
守 佳丽 , 林晞楠 .
中 国 犯罪 形 势 分析与 预测 (
20 1 8

20 1 9 )[J] .
中 国

人 民 公 安 大学 学报 社会科学版 :

20 1 9(3 ) 


2] 张光杰 .
中 国 法律概论 [
M ]

上海 :
复旦 大学 出 版社 ,
20 1 3 



] 臧德胜 以 案例 指 导 制 度规范 量刑 协 商 的 思 考 ?





法律适用 ,
2 020(06) 3 3 :

3 9 


4] 张兴 梅 量刑 程序规 范与 完善 的 多 维 思 考 .





祖国 ,
20 1 9

1 9

: 1 3 9+ 1 5 7 




赵学 军 量刑 偏 差 的 司 法表现与 量刑 规 范 的 实现路径 .
一 一

基于抢劫罪刑 事判


决书 的 实证考察 [



天津法学 ,
20 1 9 ,
3 5

03 )
: 57 -

63 

6] A s hl e
yKD C a s e b a s e d  r e a s o n n g  an d m p l i c at i o n s  fo r  l e g a l  e x p e r t

.  i i t si 


y ste ms [J] .  Ar ti fi c i a l  I n t e l l i g e n c e  a n d L a w 
, 1 992 ,


2 -



: 1 1 3

208 


7]  S ch i l d  U  J  C r i m i n a l  s e nt e n c i n

g  a n d  n t e l l i g e nt  d e c i s i o n  s u pp o r t [
i M ]
//J u d i c i a l

A pp li c at i o n s  o f  Ar ti fi c i al  I nt e l l i
gen
c e S .

p ri n g e r , 
D o rdre c h t
, 1 998 :  47 9 8 -





] A s hl e y  K  D ? 
B r un n g h au s  S i .  Au t o m at i c a l l y  c a s s i f y i n g  c a s e  t e x t s  a n d  p r e d i c t i n g


o utc o m e s [ J ] .  A rt i fi c i a l  Int e l l i g e n c e  a nd  L a w , 
200 9 ,
1 7 ( 2 ) 1 2 5 :

1 65 


9] P a l au  R  M M o ensM ,
 F .  A r g um e n t a ti o nm i ni ng :  t he  d et e c t i o n ,  c l a s s i fi c a t i o n  a n d

s t ru c tur e  o f  a r g um e n t s  i n  t e x t [ C ] // P r o c e e d i n g s  o f  t h e  1 2 t h  i n t e r
n at i o n a l

c o n fe r e n c e  o n  a r t i f i c i a l  i n t e l l i g e n c e  a n d  l a w 2 009 9 8 07

. :
1 


1 0 ]  V l ek C 5 
P r a kk e n  H , 
Reno o i
j  S  e t  a l  C o n s tr u c t i n g  a n d  un d e r s t a n d i n g  B ay e s i a n

. 

n e t w o rk s  fo r  l e g a l  e v i d e n c e  w i t h  s c e n a r i o  s c h e m e s [ C ] / / P r o c e e d i n g s  o f  t h e1 5 t 

I n a t o n a l  C o n fe r e n c e  o n
nt e r i  Ar t i fi c i a l  I nt e l l i
g e n c e  and  L aw  2 0 . 1 5 1 2 8

1 3 7 


1 1
]
A l e tra s  N  T s a r ap a t s a n

i s D , 
P r e o ^i u c P -

i e t ro D , eta
l . P re di c tin
g  j u d i c i a l  d e c i s i o ns

o f  t h e  E u r o p e a n  C o u r t  o f  H um a n  R i g h t s :  A  n at u r a  l l an
g u a g e  p r o c e s s i ng

p ersp ec t ive [ J] 
.  P e e rJ  C o mp u t e r  S c i enc e , 
20 1 6 , 
2 : e 93 


1 2
] Q
i n Z H eT ? ,  L i an  H ,  e t  al  . R e s e ar c h  o n j
u d c i a l  d at a  s t a n d a r d [ C ] / / 2 0
i 1 8  IE E E

I n a t i o n a l  C o n fe r e n c e  o n  S o f t w a r e
nt er Q ua l i t
y , Re l i ab i l i t
y  an d  S e c ur i t y

C o m p an i o n( Q RS C -


. I E EE ? 
2 0 1 8 1 7 5 :

1 77 


1 3
]
L i an  H ,  H e T Q 

i nZ ,  e t  al  . Re s e ar c h  o n t h e  n fo r m a t o n  q u a
i i l i t
ym
e a s ur e m e nt  o f


ud i c i a l  d o c um e n t s [ C ] / / 2 0 1 8  I E E E  I n t e r n at i o n a l  C o n fe r e n c e  o n  S o f
t war e  Q ua lit
y 

Re li ab i l i t
y  a n d  S e c u r i t y  C o m p a ni o n  ( Q R S C )

. I E EE , 
20 1 8 1 7 8

1 8 1 


1 4 ]  L am e  G .  Us i n g  N L P  t e c h ni q u e s  t o  d e nt i f y  l e g a l  o nt o l o g y  c o m p o n e n t s i : c o nc e
pts

an d  r e l at i o n s [
M ]
// L aw  an d  t h e  S e m ant i c  We b . S
p ri n g e r , 
B er l i n , 
He i de l b erg , 
200 5 

1 69 -

1 84 

56


参考文献
 

M R H an M K N ab


1 5
]
Ta li b 

i f 
, 
i Z , 
e tal .  Te x t m n n g  o f j u d  i i i c i al s
y s te m sc or
p ora v i a

c l au s e  e l e m e nt s



. I n at i o n a
nte r l J o ur
na l  o n  I n fo r m at i o n  T e c h n o l o
g i e s  &  S e c ur i ty 

20 1 7 , 
9 (3 )



1 6

高 菲 基于 机 器学 习 的 计 算 机辅 助 量 刑 初 探


D ]

华 东 政法 学 院 ,
200 5 


1 7

邹 晓玫 修春波 基于神经 网 络 的刑 事案件量刑 决策系 统 ,





微计算机信


息 ,
2008

0 3 ) 2 64 2 6 5 :




1 8
] 程春 惠 何钦铭 面 向 不 均 衡类别 朴 素 贝 叶斯犯 罪 案件文本 分类





计算机工程


与应用 ,
2009 45 , (
35

: 1 26 -

1 28+ 1 3 1 


1 9] 夏明 .
面 向 刑事案件的精细分类与 串 并案分析技术研 究 [
D ]

华 中 科技大


学 ,
20 1 6 


2 0] M i ko ovT l
,  C h e n K ,
C o rr ad o  G ,
etal . E f fi c i e nt e s ti m a t o n o f  w o r d
i 

re
p r e s e n t at o n s n  v e c t o r  s p a c e [ J ]
i i ,  ar X i v p r e p r i n t  a rX i v

:  1 3 0 1 . 3 78 1
, 
20 1 3 


2 1
] C o
ll o b e r t  R  We s t o n  J  A  u n i f i e d  ar c h i t e c t u r e  fo r  n a t u r a l  l a n g u a g e  p r o c e s s i n g

. 

D e e p  n e ur a  n e l t w o rk s  w i t hmu l tit a s k  l e arni n g [ C ] / /P r o c e e d i n g s  o f  th e  2 5 t h



i n a t i o n a l  c o n fe r e n c e  o n  M a c h i n e  l e a r n i n g
nt e r .  2 0 0 8 1 6 0 :

1 67 

22
Z han gX Z ha o  J L e C un  Y  C h ar ac t e r e v e l  c o n v o l u t i o n a l n e t w o r k s  fo r  t e x t

. l 

[ ] , ,

c l a s s i fi c at i o n
^ ]
.  ar X i i nt  a rX v
v pr ep r i :  1 5 09 . 0 1 626 , 
20 1 5 


2 3 ]L aiS ,
X uL , L uK i

etal .  R e c u r r e n t  c o nv o u t o n a l  n e u r a  n e t w o r k s  fo r  t e x t

 l i l

c l as s i f
i c ati o n [
C ]
// P r o c e e d ng s  o f th e i   A A A I  C o n fe r e n c e  o n A r  t i fi c i a l  I nt e l l i
ge nc e 

20 1 5 ,
29( 1




2 4 ]ZhouC ,  S xi n
 C , 
L iuZ ? eta
l .  A C 

L S T M  n e u r a l  n e t w o r k  fo r  t e x t  c l a s s i f i c at i o n [ J ] 

ar X i v  p r e p r i n t  a rX i v :  1 5 1 1 . 08630 , 
20 1 5 


25
] 
Jo t
y  S  M ar q u e z  L  N a k o v  P  J o i n t  m u
, ,
. l ti t a s k  l e a r n i n g  fo r  c o mm u n i t y  q u e s t o n

 i

an s w e r i n g  u s i n g  t a s k -


pec if
i c  e mb e d ding s  [


.  ar X i v  p r e p r i n t  arX v i :  1 809 08 92 8 .


20 1 8 


26
] 
Ya n g  Z ,  Ya n g  D ?  D y e r  C  e t  a l  H e r a r c h i c a l  a t t e n t i o n  n e t w o r k s  fo r  do c um e n t

. 
 i

c l a s s i fi c at i o n

C ]
// P r o c e e d n g s  o f  th e 2 0 i 1 6  c o n fe r e n c e  o f  t h e  Nor t h Am e r i c an

c ha
pter o f t
h e  a s s o c i at o n  fo r  c o m p u t at i o n a i l  l i n gu i s t i c s :  h um a n  l an g u a g e

te c hn o l o g i e s .  20 1 6 1 4 8 0

1 489 

27]  S ac h an  M  X ng E S e f tr ai n n g  t o  a s k  an d  an s w e r
n n g  fo r  j o nt l y  l e ar

i . l i 
 i i
[ ,

qu e s t i o n s [ C ] / / P ro c e e d i n g s  o f  t h e  2 0 1 8  C o n fe r e n c e  o f  t h e  N o r t h  A m e r i c an

C h ap t e r  o f  t h e  A s s o c i a t i o n  fo r C o m p u t at i o n a l  L i n g u i s t i c s :  H um a n  L a n g u a g e

Te c h n o l o gi e s , 
Vo l um e  1  ( L o n g  P a p e r s ) . 2 0 1 8 : 62 9 640 -




28
]
L i an  H Q ?
i n Z ,  H eT ? e
tal .  Kn o w l ed
g e  g r ap h  c o n s t r u c t i o n  b a s e d  o n  j
u d i c i a l  d at a

5 1



北京 邮 电大学工学硕 上学位论文 

w i t h  s o c i a l m e d a [ C ] / / 2 0 i 1 7  1 4 t h We b  I n fo r m a t i o n  S y s t e m s  a n d  A p p l i c a t i o n s

C o n fe r e n c e  ( W I S A ) . I E EE , 
20 1 7 :  225 -

22 7 


2 9] D i n gX , L Z i

L i uT ,
etal .  E L G  a n e v e n  : t l o g c  gr ap h [ J ]  ar
i . X i vp r e
p r in t

ar X i v : 1 907 080 . 1 5 ,
20 1 9 


3 0
]  L i  Z  Z h a o  S  D i n g  X  e t  a h  E E G  kn o w
5 , ,
; l e d g e  b a s e  fo r  e v e n t  e v o l u t i o na r


a s [ C ] / / C h i n e s e  N at i o n a l  C o n fe r e n c e  o n  S o c
p r i n c i p l e s  a n d  p at t e r i al M e d i 

Pro c e s s ng i . S
pr n g e r i
, 
Sin
g ap o r e , 
20 1 7 :  40 -

52 


3 1
]
L i  Z 5  D i n gX ? L i u T  . C o n s tru c t i n g  n a r r a t i v e  e v e n t  e v o l u t i o n a r y  g r a p h  fo r  s c r i p t

e v e nt
 p r e d i c ti o n [ J ] .  ar X i v  p r e p r i n t  arX v i : 1 8 05 . 0508 1
, 
20 1 8 


3 2
] 
Z haoS ,  Wa n g  Q ?  M a s s un g  S , e tal .  C o n s tru c t i n
g  an d  e m b e d d i n ga
b s t r a c t  e v e nt

c au s a l i t
y  n e t w o r k s  fr o m  t e x t  s n i p p e t s  [
C ] // P r o c e e d n g s  o f  t h e  T e n t h  A C M

 i

I nte r
n at o n a i l  C o n fe r e n c e  o n We b  S e a r c h   an d  Da ta M i ni n g .  20 1 7 : 3 3 5

3 44 


3 3
] M i ko l ov T ,
C h e n K ,
C o r r a do  G  e  a  E f f c ?
t l . i i e n t  e s t i m a t i o n o f  wo rd

re
p r e s e nt at i o n s  i n  v e c t o r  s p ac e [ J ] .  ar X i v  p r e p r i n t  a rX i v : 1 3 0 1 . 3 78 1
? 
20 1 3 

34
 C o l l o b e r t  R  We s t o n  J  A  u n f i e d  a r c h i t e c t u r e  fo r  n a t u r a l  l a n g u a g e  p r o c e s s i n g
i . 

[ ] ,

D e e p  n e ur a  ne l t w o r k s  w i th  m u l t i t a s k  l e a m i n g [ C ] / / P r o c e e d i n g s  o f  t h e  2 5 t h

i n at i o n a l  c o n fe r e n c e  o n  M a c h i n e  l e ar n i n g
nt e r .  200 8 : 1 6 0

1 67 


3 5
] L Q M e ,
i ko l o v T . D i s tr i b u t e d  repre s e n t at i o n s  o f s en te n c e s  an d

d o c um e n t s [ C ] / / I n t e m a t i o na l  c o n fe r e n c e  o n m a c h i n e  l e a r n i n g .  P ML R ,
20 1 4 

1 1 8 8

1 1 96 

Go  Y  L e vy  O w o r d 2 v e c  E x p a n e d der M k o l o v et al



3 6

l d b e rg ,
. l i : i vi n g i . 

n e g at i v e am p l i n g  w o r d e m b e ddi n
g  m e h o d [ J ]  a rX i v  p r e p r i n t  ar X i v 4 0 2 3 722
- -

s t . :  1 .



20 1 4 

3 7
D ev n  J  C h a n g M  W  L e e  K  e t  a l  B e r t  P r e tr a i ni n g  o f  d e e b i d i r e c t i o n a l

l i
p
. :

[ ] , ? s

tr a n s fo r m e r s  fo r  a n g u a g e  u nd e r s t a n d i n g ^ ]  a r X v  p r e p r n t  ar X v
l . i i i : 1 8 1 0 048 05.



20 1 8 


3 8
] 
Va s w a n i  A ,  S h a z e e r  N  P arm ar  N  e t  a  A t e n t o n  , ,
l . i i sa l l
 y o u  n e e d [ J ]  a rX v

 . i

p r e p ri nt ar X v  i :  1 706 03 762 .
, 
20 1 7 

“ ”


3 9
]  Tay l o r W L  C . l o z e  p r o c e d ur e :  A  n e w  t o o  fo r  m e a s u r n g  r e a d a b i l i t y [ J ] l i 

n al i s m
J o ur u art e r l y 1 95 3 3 0(4) 4 1 5

43 3
q : 


, ,


4 0 ]  Ya n g  Z , 
D a Z Ya n g Y  e
i
,   ,
t al .

g
e n e r al i z e d  au t o r e
g r e s s i v e  p r e t r a i n i n g  fo r  a n g u a g e

 l

un d e r s t a nd i n g .  ar X i v2 0 1 9 1 9 0 6 0 8 2 3 7




. 1 9 0 6 


4 1
]  K r z h e v s k y  A  S u t s k e v e r  I  H i n t o n  G E  I m a g e n e t  c

, ,
. l a s s i fi c a t i o nw i t h  d e e


c o nv o l u t i o n a l  n e u r a l  n e t w o r k s



.  A d v a n c e s  i n  n e u r a l  i n fo r m a t i o n  p r o c e s s i n g

5 


参考文献
 

yst em s
s , 
20 1 2 , 
2 5 1 0 9 7 :

1 1 05 


42] Ze i l er  MD ,
F e rg u s  R . V i s ua l i z i n
g  a nd  u n d e r s t a n d i n g  c o nv o l u t i o n a l

n e t w o r k s [ C ] / / E u r o p e a n  c o n fe r e n c e  o n  c o m p u t e r  v i s i o n  S p r i n g e r  C h a m  2 0 .

, ,
1 4 

8 1 8

833 


4 3 ]  S i m o ny a n  K  Z i s s e r m a n  A  Ve r y  d e e p  c o n v o l u t i o n a l  n e t w o r k s  fo r  a r g e

. l

s c al e

i m ag e  r e c o g ni t i o n [ J ] .  ar X i v  p r e p r i n t  ar X i v :  1 409 . 1 5 5 6 , 
20 1 4 


4 4 ]  S ze g e d y  C ? 
L uW i
? J
i a Y e ,
tal .  Go i n g  d e e p e r  w i t h  c o nv o l u t i o n s

C ]
// P ro c e e d i n g s

of  t h e  I E E E  c o n fe r e n c e  o n  c o m p u t e r v  i s i o n  a nd  p at t e r n  r e c o g n i t i o n .  20 1 5 1 :

9 


45
] 
Z ar e m b a  W ,
S ut s k e v e r  I ,
V i ny a l s  0 ?  R e c u rr e nt  n e ur a l  n e tw o rk  r e
g u ar z a
l i ti on J
[ ]


ar X i v  p r e p r i nt  a rX i v :  1 409 2 3 2 9 .

, 
20 1 4 


4 6 ]L i pto nZC , 
B e rko w it zJ 5 
E k an  C
l .  A  cr
i t i c a l  r e v i e w  o f r e c u rr e n t  n e u r a l  n e t w o r k s

 

fo r  s e q u e n c e  l e a m i n g [


.  ar X i v  p r e p r i n t  a rX v i : 1 506 000 . 1 9 , 
20 1 5 


4 7 ]  O l ah  C .  U n de rs ta n d i ng  l s tm n e t w o rk s [ J]  .  20 1 5 


4 8 ]  S t a u d e m e y e r  R  C  M o rr i s E  R  U n d e r s t a n d i n g  L S T M ,

a  tu t o r i a l  i nt o  L o n g

S h o rt -

Te r m  M e m o ry R e c u r r e nt  N e ura  N e l t w o r k s [ J ]  a rX i v  p r e p r i n t .

ar X i v : 1 90 9 095 8 6 .


20 1 9 


4 9 ]  S c hu s t e r  M  P a l i w a l  K  K ,
. B d i ir e c t i o n a l  r e c u rr e n t  n e u r a l  n e t w o r k s



. IE E E

tr a n s a c t i o n s  o n  S i gn al  P r o c e s s i n g , 
1 997 , 
45( 1 1

: 2 67 3

268 1 

50
] L u o ng M T 
P h a m  H  M a n n i n g  C  D  E f fe c t i v e  ap p r o a c h e s  t o  a t e n t i o n b a s e d

 ,

[ ,

n e u r a l m a c h i n e  t r a n s l at i o n [ J ]
 .  ar X i v  p re
p r nt  ar
i Xiv :  1 5 0 8 040 2 5 .

, 
20 1 5 


5 1
]
R u s h A M  C h o p ra  

 S ? 
We s t o n J .  A  n e u r al  at t e n t i o n  m o d e l  fo r  ab s t r a c t i v e  s e n t e n c e

s u mm a i z ati o n [ J ]
r .  ar X i v  p r e p r i n t  a rX i v :  1 5 09 0068 5 .
, 
20 1 5 


5 2] Ya n g  Z ,  Ya n g  D ,  D y e r  C  e t  a l  H i e r a r c h i c a l  a t t e n t i o n  n e t w o r k s  fo r  d o c um e n t

. 

i c at i o n [ C ] / / P r o c e e d i n
c l as s i f
g s o
f  th e  2 0 1 6  c o n fe r e n c e  o f  th e  N or t h Am e r i c an

c h ap t e r  o f  t h e  a s s o c i a t i o n  fo r  c o m p u t at i o nal  l i n gu i sti c s :  h um a n  l an
guag e

te c hn o l o g i e s . 2 0 1 6 1 4 8 0 :

1 489 


53
] J
i  S  P an  S  C am b r i a  E  e t  a l 
, 5 ,
. A  s u r v e y  o n  kn o w l ed
g e  g r ap h s  R e p r e s e n t a t i o n :


a c q u i s i t i o n  an d  a p p l i c at i o n s [ J ] 
.  ar X i v  p r e p r i n t  a rX i v 2 0 0 2 0 0 3 : . 8 8 , 
2 020 


JiG L uK H eS eta Kno w g e  g r a p h  c o m p l e t i o n  w i t h  a d ap t i v e  s p a r s e
5 i l . l ed 

[ ] , , 9

tr a n s fe r  m at r i x [ C ] // P r o c e e d n g s  o f  t h e AAA I  C o n fe r e n c e  o n A r t i fi c i a l

I nt e l l i g e n c e . 2 0 1 6 , 
30





5 5
B o s se ut  A  C h o  Y  D y n am c  kn o w l e d
g e  gr ap h  c o n s
tr u c t i o n  fo r  z e r o s ho t


l i . i
[ ] ,

X X

c o mm o n s e n s e ^ v  e p r i nt s
q u e s t i o n  an s w e r i n g [ J ] .  i


20 1 9 :  ar i v 1 9 : 1 1 . 03 876 

 ,


56
] 
Z h an g  F ,  Yu a n N  J 
5 
L i an  D ,  e t  al  C . o l l ab o r a t i v e  k n o w l e d g e  b a s e  e m b e d d i n g  fo r

5 9


北京 邮 电 大学 工学硕士学位论文
 

reco mm e n d e r  s y s t e m s [ C ] / / P r o c e e d i n g s  o f  t h e  2 2 n d  A C M  S I G K D D  i nt e r
n at o n a i 

c o n fe r e n c e  o n  kn o w l e d d i s c o v e ry  an d  d at a  m i n i n g 20 3 62
ge 6 3 53

 .  1 : 


57
]
L i  Z 5  D i ng

X ,  L i u  T  C o n s t r u c t i n g  n a r r a t i v e  e v e n t  e v o l u t i o n a r y  g r ap h  fo r  s c r i p t
. 

e v ent
 p re
d i cti o n J
[ ]
.  ar X i v  p r e p r i nt  arX i v : 1 805 . 0508 1

20 1 8 


5 8
]  D ngX L


i ao K ,  L i u  T  e t  a l E v e n t  r e p r e s e nt at o n 

. i l e a r n i n g  e nh a n c e d  w i t h

n a l  c o x nm o n s e n s e  k n o w l e d
e x te r
ge [J] .  ar X i v p r e

ri nt  ar X i v :  1 909 05 . 1 90 , 
20 1 9 


59
]
R a s hk i n  H  S ap  M ? ,  A l l a w ay

E ,  e t  a l  E v e n t 2 m i n d  C o m m o n s e n s e  i n fe r e n c e  o n
. 
 :

e v e nt s , 
i n t e nt s , 
a nd  r e a c t i o n s [


.  ar X i v  p r e p r i nt  arX i v :  1 805 . 0693 9 , 
20 1 8 


6 0 ]  P ap p a g a r i  R   Z e l a s k o  P  ? ? 
V il l al b aJ etal  ,
. H i e r a r c h i c a l  T r a n s fo r m e r s  fo r  L o n


D o c um e n t  C l a s s fi c a t o n [ C ] //  2 0
i i 1 9  I E E E  A u t o m at i c  S p e e c h  R e c o g n i ti o n an d

U nd e r s ta n d i n g  Wo r k s h o p  ( A S R U ) . I EEE , 
20 1 9 


6 1
] 
K i m  Y   C o n v o l u t i o n a l  N e u r a l  N e t w o r k s  fo r  S e n t e n c e  C l a s s i f
■ i c at i o n ^ ]  E p r i n t .

A rx i v , 
20 1 4 


6 2 ]Z ho ng

H , G u oZ  TuC  e t a 5 5
l .  L e g al  Ju d g m e nt  P r e d i c t i o n  v i a  T o p o l o g i c a l

p i r c a  M eth o d
L e arn n g C i // P r o c e e d i ng s o f the 2 0 1 8  C o n fe r e n c e  o n E m i l s i n


[ ]

Na t u r a l  L a n g u a g e  P r o c e s s i ng . 2 0 1 8 


6 3 ] Ya n g  Z  Ya ng D  D y e r C  5   ? 

,  e t  al  . H i e r a r c h i c al  At te nt i o n  N et w o rks  fo r  D o c u m e nt

C l a s s i fi c at i o n [ C ] //  P r o c e e d i n g s  o f  t h e  2 0 1 6  C o n fe r e n c e  o f  t h e  N or t h  A m eri c an

C h ap t e r  o f  t h e  A s s o c i a t i o n  fo r  C o m p u t at i o n a l  L i n g u i sti c s :  H um an  L an g ua g e

Te c h n o l o gi e s . 2 0 1 6 


64] 谭红 叶 , 张博文 , 张虎 等 ,

面 向 法 律 文 书 的 量 刑 预测 方 法 研 究 [



中 文信 息


学报 ,
202 0 , 
0 34 003
( )
:  1 07

1 1 4 


65] 王文广 , 陈运文 , 蔡华 等 ,

基于 混 合深度 神 经 网 络 模 型 的 司 法文书 智 能 化处


理 [



清华大学学报 ( 自 然科学版 ) ,
20 1 9 , 
v 5 9 (0 7 )
. : 1 2 -

1 8 


66] 曹晨 .
基于 裁判 书 数据挖掘 的 法 院 辅助 判 决研 究 [
D ]

河北经贸 大学 ,
20 1 9 

王子 基于 智 能推荐 的 辅助判 案系 统 的 设计与 实现 D 北 京 交通大学


67] .


. 20 1 9 

[ ] ,


68] 程豪 .
面 向 司 法大 数据 的 法条预测 与 相 似案 例 匹 配研 究 [
D ]

山 西大学 ,
2020 

60





致谢

转 眼 间 三年硕 士生活马 上就要结 束 了 , 回 想 起三年前 的 那 个五 月 , 我还站 在




阿 克 苏职业技术 学 院 的 讲 台 上 我从 未为 那 年 的 支教生活后悔过 那是 年让


一 一

。 ,

“ ”
我成长 的 经历 , 让我体会 到 了 为人师 的 感觉 , 让我体会到 了 吴老 师在 教 育 我


的 时 候有 多 不 易 ( 此处有笑 出 声 ) ; 那是

年让 我变 成 熟 的 经 历 , 让我 体验到 了



让我在 次 从学生 的 身 份 中 走 出 来 这种 感觉 与 在



工作 的感觉 年来第

, 20 ,

学校参与 学生工作 时 与 老 师们 相 处不 同 它 让我先其他 同 学 步体会 到 了 工作 的




艰辛和 学 习 生活 的 来之不 易 那也是 年让我开 阔 眼 界 的 经历 我和 我共 同 支教





的 战友们 走遍 南 疆 四 地州 , 穿越 了和 田 的沙漠公路 ,
走过 了 壮美 的 独库 公路 , 


在过红旗拉普 的 国 门 之 下 领略 了 新疆人 民淳朴 的 民风 我 非 常 感 谢这 年的经


, 。

历 它给我 的 人生增 添 了 抹不 样 的 色彩
一 一

, 

回 看我 的 研 究生三年生活 ,
印 象最深 的 , 不 是表 白 成功脱 离 20 余年单 身 生

活的 时候 不是开题 中 期挨骂 的 时候 也 不 是 团 代会 结束松 了 口 气 的 时候 




, , ,

实是 年 到 月 疫情 的 这半年 多 时 间 上 次 在 家 连续待 这么 长 时 间

202 0 1 月 8 , 

可能还是幼 儿 园 之 前 的 事 了 , 那 个时候 , 姥姥姥爷每 天 陪着我 , 姥姥陪我打打扑




克 , 姥爷教我识字 读书 看报 。 20 多 年过去 了 , 姥爷 已经离 开 了 我 。
疫情 的 半年


多时间 , 多 数 时 候 只 是 我和 姥 姥 两 人 在 家 , 姥姥 已 经有 些糊 涂 了 , 会记 不 起现 在


是几月 , 会记 不 起 自 己 的 东 西 放在 哪 里 , 也会记不起为什 么 我 在 家 待 了 多 久 以 及


什 么 时 候会 走 每 天 看着 姥 姥 就 会 深 深 地 体 会 到 父 母 家 人 把 我 拉 扯 这 么 大 有 多 不
, 

容易 。 感谢这半年 的 时 间 ,
未来 的 几十年 中 我可能 都没 有机会有这么 久 的 时 间 陪


伴我 的 家人 , 也 感 谢这 半 年你 的 时 间 , 让时间慢 了 下来 

很抱歉 占 用 了 这 么 大 的 篇 幅 说 与 学 校 和 学 习 无 关 的 事 , 但是想想 , 如果不是



要 坐 在这 写 致谢 的 话 , 我也 不会 有机会好好坐 下 来 回 想 自 己 的 生 活 了 

接下来言 归 正传 , 最 先 的 感 谢理 应给 我 的 父 母 , 是你们 把我抚养成人 , 是你



们 见证 了 我成长 的 点 滴 是你们 即 使 是在我最崩 溃 心情 最差 的 时候 也还在不 断包


, 

容着我 如 果 以 后 我有 了 孩子 我 也会争取像你们 样做好 个认真负 责有耐心




一 一

。 ,

的 家长 的 

第 二声感谢 ,
我要 说给吴老 师 , 我的恩师 , 虽然我做本科 毕 设 的 时 候吴老 师


曾 两 度 忘 记我研 究 生 会 是他 的 学 生 虽 然 我毋 庸置 疑 的 是所 有 学 生 中 基 础 最 差 的

 ,

那 个 但三年 的 学 习 中 吴老 师从未 放 弃我 从开题 到 小 论 文再 到 毕 设 不断鼓




, , ,

励着我 , 教导着我 , 给 我提 供 知 识 ,
给我提供 思 路 , 让我 成 功 的 有 了 机会现 在 坐

在这里 写我毕 设 中 的 最后 个部 分 致谢

一 一



6 



北京 邮 电 大 学 工 学硕 士学位 论 文 

第三声感谢 , 属 于 我的 女朋 友 , 刘丽杰 。 在遇 到你之前 的 24 年中 ,


单身 的

生活固 然 也是精彩 的 但终 究少 了 抹色彩 在 此之前我没有 那 么 多 照 顾 人 的 经





验 也 没有 与 女孩子独处 的 经验 我知 道我不 是 个很 出 色很合格 的 男 朋 友 




, , 。

们 起走过 的 两 年 多 之 中 我们 不 断磨 合 同 成长 你包容 了 我许许 多 多 的 缺




一 一

, , ,

“ ”

点 也 给我在 学 校 中 提供 了 个可 以 分享快乐 抒发困惑 发泄情 绪 的 小家


, , , 

个可 以 放声 大 笑 , 也可 以抱头痛哭 的 依靠 。
如 果可 以 , 我愿与你继续走下 去 

“ ”

第 四 声感谢 , 我想给我 的 几位好朋 友 、 好兄弟 。


首先 是我 亦师亦友 的好


兄弟 、 前室友 、 前辅导 员 、 现同窗同学
一 一

管 占明 , 不 知 不觉我们 己经认识 

年了 , 8 年 里生 活上 、 学 习 中 的 方方面面 , 你都 曾 帮 助 过我 ,
谢谢你 , 有你在 

在 学校 的 日 子里 , 我 不孤单 。 然 后 是张 睿和 侯 健 ,
与 侯健相 识 也有 8 年了 ,
但接


触最 多 的 还是 大 四 确 定 支教之后 也是这个时候我们 认识 了 睿 哥 大四 年和 支


, ,

教的 年中 我们 几乎 天 天 都 待 在 起 我们 是 同 学 是朋 友 也是战友 感谢


一 一

, , , , ,

你们 对我 的 帮 助 和 包 容 

第五声感谢 , 要给我 的 实验室 的 老师们 、 学长学姐们和 同 学们 。 这里尤其是



要感谢周 鹏 鹏 学 姐 我是 个很不省 心 的 学 弟 让 学姐操 了 很 多 心 感 谢学姐


一 

, , ,

路 以来的帮助和支持 。 感谢王老 师 、 石老师 、 于老师 、


肖 老 师 在 我 学 习 的 过程 中

不断点 出 我的 问 题 , 帮助我成长 。 感谢各位 同 学在学业上 的 帮 助 , 可 以 和 你们 共




同 学 习 共 同 成长 , 是我 的 幸运 , 希 望 我 们 今 后 都 有 美好 的 前 景 

第 六 声 感谢 , 献 给校 团 委 的 各 位 老 师 和 朋 友 , 晋书记 、
许书记 、 春晓哥 、 

梁哥 、 秋实姐 , 你们 永远 是我学 习 的 榜样 ;
王哥 、 田 哥 、 思思姐 , 俊哥 、 喵姐 

你们 直 是我 心 中 最好 的 大 哥 哥大姐姐 梦秋 德东 金宇 丁丁 喆姐 梓凡

、 、 、 、 、 


芊芊 阿甘 阿坤 阿桥 还有所有所有 在 团 委遇 到 的 各 位 朋 友 能与 你们 


、 、 、 , ,

工作 , 是我在北 邮 的 8 年 中 最大 的 收获 。
祝 , 团 情 永驻 

第七声感谢 也是最后 声 给学校 中 的每 位北邮人 感 谢我 的 室 友三年




一 一

, , 。

来 的包容 感 谢每 位努力 学 习 的 同 学对北 邮 的 未来 为社会 的 未来 为祖 国 的




、 、

未来作 出 的 贡献 ; 感 谢每

位 老 师 对 学 生们 的 谆 谆 教诲 ; 感 谢楼 管 、 超市大姐 

食堂大叔 保洁 阿姨等等每 位为 我们 的 美 好 校 园 生 活 无私 付 出 的 人 们

、 

七声 感谢 八年北 邮情 感谢我们 生命 中 遇 到 的每 个人 也 感 谢我 们 生 命



。 ,

中 的每 个 陌生人



62



攻读硕士学位期 间 发表论文 

攻读硕 士 学 位期 间 发 表论文



]
Guo J

Wu B

Z h o u P   B L H NN  A
 . :  Nove l C h arg e  P r e d i c ti on M o d e B as e d
l  on

B i

Aten ti o nL S TM -

C NN  H y b r i d  N e u r a l  N e tw o rk [ C ] / /  2 0 2 0  I E E E  F i th I nt er
f n at i o n a l

C o n fe r e n c e  o n D at a  S c
 i e nc e  i n C
yb e r s p ac e( D S C ) . I EEE ,
2 02 0 ? 己  El检 索

63

You might also like