Professional Documents
Culture Documents
(12)发明专利
(10)授权公告号 CN 109948510 B
(45)授权公告日 2021.06.11
(21)申请号 201910194679 .5 G06T 7/11 (2017 .01)
(22)申请日 2019 .03 .14 G06T 7/136 (2017 .01)
(56)对比文件
(65)同一申请的已公布的文献号
CN 108520522 A ,2018 .09 .11
申请公布号 CN 109948510 A
CN 108090904 A ,2018 .05 .29
(43)申请公布日 2019 .06 .28 CN 105760835 A ,2016 .07 .13
(73)专利权人 北京易道博识科技有限公司 CN 108898620 A ,2018 .11 .27
地址 100083 北京市海淀区农大南路1号院 dan deng 等 .pixellink:detecting
2号楼5层办公A-501 scene text via instance segmentation .
《arxiv .org》.2018 ,第1-8页 .
(72)发明人 朱军民 王勇 康铁钢
杨晓艺 等 .一种两步HMT 文本图像分割方
(74)专利代理机构 北京金智普华知识产权代理 法《 . 河南大学学报( 自然科学版)》.2002 ,第32
有限公司 11401 卷(第2期) ,第32-35页 .
代理人 巴晓艳
审查员 杨静
(51)Int .Cl .
G06K 9/00 (2006 .01)
G06N 3/04 (2006 .01) 权利要求书2页 说明书8页 附图6页
(54)发明名称
一种文档图像实例分割方法及装置
(57)摘要
本发明公开了一种文档图像实例分割方法
及装置, 属于计算机视觉领域。该方法包括:
将原
始图像输入到全卷积神经网络中, 所述原始图像
上包括n个类别的实例对象,n≧1;
输出原始图像
的文字方向分数图、n个实例对象分数图以及所
对应的像素链接图 ;
根据n个实例对象分数图和
像素链接图分割出n个实例对象区域轮廓, 并对
实例对象进行描述;输出实例对象分割结果, 包
括实例对象的类别和位置。本发明的方法通过将
多个对象实例分割集中在一个神经网络中, 大大
提供文档图像版面分析的速度, 也大大提高了文
档图像版面分析的精度。
CN 109948510 B
CN 109948510 B 权 利 要 求 书 1/2 页
2
CN 109948510 B 权 利 要 求 书 2/2 页
i为整数且1≤i≤n;
根据第一阈值和第二阈值对第i类实例对象的实例对象分数图以及像素链接图进行二
值化处理, 在第i类实例对象的实例对象分数图中得到实例对象像素点和背景像素点, 在像
素链接图中得到链接状态信息和非链接状态信息;
根据实例对象像素点结合链接状态信息, 得到第i类实例对象的像素点区域, 用连通域
表示像素点区域的轮廓, 并对第i类实例对象的像素点区域进行描述,
其中, 第一阈值取值范围为[0 ,1],
且第二阈值取值范围为[0 ,1]。
7 .一种文档图像的实例分割系统, 其特征在于,所述系统包括:
处理器和用于存储可执行指令的存储器;
其中, 所述处理器被配置为执行所述可执行指令, 以执行如权利要求1至5中任一项所
述的文档图像实例分割方法。
8 .一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序被
处理器执行时实现如权利要求1至5中任一项所述的文档图像实例分割方法。
3
CN 109948510 B 说 明 书 1/8 页
一种文档图像实例分割方法及装置
技术领域
[0001] 本发明涉及计算机视觉领域,
尤其是一种文档图像实例分割方法及装置。
背景技术
[0002] 在各种场景中, 需要将文档进行电子化, 比如文档图像分析、 识别、 分类、存储等都
需要使用文档中的内容信息, 这种识别称之为OCR技术, 传统的OCR版式分析方法采用图像
二值化、 连通域分析、 分步提取各种版式要素(表格、 文字、 图章)。该方法对于输入图像的要
求比较高, 一般是要求扫描图像, 这种图像分辨率固定、 背景比较单一, 版式不复杂。
[0003] 如果图像是手机拍摄、 扫描仪拍摄等情况, 基本上很难得到理想的结果, 主要原
因:
[0004] 1 .受到光照不均匀、 清晰度低、拍摄角度歪斜、 折痕多等;
[0005] 2 .图像透视变换失真、 梯形失真、 桶形失真、书页形失真等
[0006] 3 .图像分辨率不固定, 不同的手机分辨率不一样。
[0007] 4 .ROI区域占据的区域大小不确定 ,不同的远近造成拍摄的图像大小不一样。
[0008] 5 .背景复杂不定, 图像上有印章、划痕等干扰。
[0009] 文档图像OCR属于计算机视觉领域的一个重要分支, 跟人脸识别、语音识别并列,
文档图像OCR技术也是一个古老的技术, 从上个世纪60年代就开始研究的传统图像分析方
法, 到深度学习技术兴起并由此产生基于深度学习的图像分析方法。 由于文档图像中可能
存在文字、表格、 图章、插图等要素, 如果分别单独使用深度学习提取, 将非常耗费时间。如
果能够将多种文档图像要素分割统一在一个通用的神经网络中, 将大大提高文档实例分割
的速度, 有利于节省基于深度学习的文档图像分析总的时间消耗。
[0010] 如图1所示, 文档图像分割的难点在于以下几点:
[0011] 1 .文档版式多样: 需要处理的文档对象版式多, OCR之所以复杂, 就是需要处理的
版式太多, 非常不固定, 有各种证件、 发票票据、银行单据、 保险保单、 医疗票据等等, 各种文
档图像没有一个是一样的, 在我们的经验中文档不同没有一个版式是一样的。
[0012] 2 .打印方式多样: 文档中给的内容有几种方式形成, 有的是印刷上去的, 有的是激
光打印上去的 , 有的是针式打印机打印上去的 , 有的是手写上去的 , 还有一些是套打上去
的, 存在着压字、 偏移等诸多影响。
[0013] 3 .采集设备多样: 图像获取设备可以是扫描仪、 高拍仪等专用设备, 还有目前普遍
使用的手持设备如手机、 PAD、
摄像机等移动设备。
[0014] 4 .拍摄环境复杂: 由于文档图像手持设备比较多, 所有图像采集环境变得多样化、
复杂化, 各种光照环境都有可能采集图像, 包括直接在阳光下, 也有可能在光照度比较低的
房子里面, 还有在因为光照遮挡原因, 有可能在图像上形成阴影等情况。
[0015] 5 .分辨率不固定: 由于使用摄像头为主要输入设备, 使得所采集的图像没有固定
的分辨率, 字符、表格等要素的大小也不固定, 最小的字符有可能小于16像素, 最大的字符
上千像素。
4
CN 109948510 B 说 明 书 2/8 页
[0016]
6 .拍摄角度自由:
由于人手持拍摄,
各种拍摄角度就会出现,
图像倾斜、
抖动、
透视
形变、
纸张的柔性变形都会出现。
发明内容
[0017] 基于此, 有必要针对传统技术存在的问题, 提供一种基于深度学习的文档图像的
实例分割方法, 针对扫描仪、 高拍仪和手机拍摄的各种类型文档图像而设计。能够高效、准
确的分割出文档图像中的各种要素, 通过将多个对象实例分割集中在一个神经网络中, 大
大提供文档图像版面分析的速度, 也大大提高了文档图像版面分析的精度, 该方法为文档
图像分析提供了一种新的基于实例分割的技术路线。
[0018] 根据本发明的第一方面, 提供一种文档图像实例分割方法, 包括以下步骤:
[0019] 步骤1: 将原始图像输入到全卷积神经网络中, 所述原始图像上包括n个类别的实
例对象, n>1;
[0020] 步骤2: 输出原始图像的文字方向分数图、 n个实例对象分数图以及像素链接图;
[0021] 步骤3: 根据n个实例对象分数图和像素链接图分割出n个实例对象区域轮廓, 并对
实例对象进行描述; 以及
[0022] 步骤4: 输出实例对象分割结果, 包括实例对象的类别和位置。
[0023] 进一步的, 所述步骤2具体包括:
[0024] 步骤21: 通过全卷积神经网络的卷积层对原始图像进行特征提取;
[0025] 步骤22: 对原始图像进行上采样, 并融合步骤21的结果形成特征图;
[0026] 步骤23: 根据分割需求, 输出文字方向分数图、n个实例对象分数图以及像素链接
图。
[0027] 进一步的, 所述文字方向分数图中, 文字方向归一化在[0, 1],
对应[0,2π]的角度。
[0028] 进一步的, 所述n个实例对象分数图的输出值经过归一化指数函数处理, 取值范围
为[0, 1]。
[0029] 进一步的, 所述像素链接图取特征图中每个像素紧邻方向的链接信息, 每个方向
上2个分数图, 对应正链接和负链接, 输出值经过归一化指数函数处理, 取值范围为[0, 1]。
[0030] 进一步的, 所述步骤3具体包括:
[0031] 步骤31: 针对第i类实例对象的实例对象分数图设定第一阈值, 针对像素链接图设
定第二阈值, i为整数且1≤i≤n;
[0032] 步骤32: 根据第一阈值和第二阈值对第i类实例对象的实例对象分数图以及像素
链接图进行二值化处理, 在第i类实例对象的实例对象分数图中得到实例对象像素点和背
景像素点, 在像素链接图中得到链接状态信息和非链接状态信息;
[0033] 步骤33: 根据实例对象像素点结合链接状态信息, 得到第i类实例对象的像素点区
域, 用连通域表示像素点区域的轮廓, 并对第i类实例对象的像素点区域进行描述,
[0034] 其中, 第一阈值取值范围为[0 ,1],且第二阈值取值范围为[0 ,1]。
[0035] 进一步的, 所述n个类别包括线条、 图章、图形、 第一字体文本和/或第二字体文本。
[0036] 根据本发明的第二方面, 提供一种文档图像实例分割装置, 包括以下部件:
[0037] 原始图像输入部件, 用于将原始图像输入到全卷积神经网络中, 所述原始图像上
包括n个类别的实例, n>1;
5
CN 109948510 B 说 明 书 3/8 页
附图说明
[0050] 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本
发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以
根据这些附图示出的结构获得其他的附图。
[0051] 图1示出现有技术中文档图像OCR效果图;
[0052] 图2示出根据本发明的文档图像实例分割方法流程图;
[0053] 图3示出据本发明一个实施例的实例分割网络结构示意图;
[0054] 图4示出根据本发明一个实施例的直线Objectmap示意图;
[0055] 图5示出根据本发明一个实施例的打印文本Objectmap示意图;
[0056] 图6示出根据本发明一个实施例的线条分析表述示意图;
[0057] 图7示出根据本发明一个实施例的印章分析表述示意图;
[0058] 图8示出根据本发明一个实施例的插图分析表述示意图;
[0059] 图9示出根据本发明一个实施例的文本行连通域及其多边形表述示意图;
[0060] 图10示出根据本发明一个实施例的道格拉斯‑普客算法示意图;
[0061] 图11示出根据本发明一个实施例的文字定位打印体分割效果图;
[0062] 图12示出根据本发明一个实施例的文字定位手写体分割效果图;
[0063] 图13示出根据本发明一个实施例的表格线提取分割效果图;
6
CN 109948510 B 说 明 书 4/8 页
[0064] 图14示出根据本发明一个实施例的图章检测分割效果图。
[0065] 本发明目的的实现、 功能特点及优点将结合实施例,
参照附图做进一步说明。
具体实施方式
[0066] 这里将详细地对示例性实施例进行说明, 其示例表示在附图中。下面的描述涉及
附图时, 除非另有表示, 不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例
中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反, 它们仅是与如所附
权利要求书中所详述的、 本公开的一些方面相一致的装置和方法的例子。
[0067] 本公开的说明书和权利要求书中的术语“第一”、 “第二”等是用于区别类似的对
象, 而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以
互换, 以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺
序实施。此外, 术语“包括”和“具有”以及他们的任何变形, 意图在于覆盖不排他的包含, 例
如, 包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些
步骤或单元, 而是可包括没有清楚地列出的或对于这些过程、 方法、产品或设备固有的其它
步骤或单元。
[0068] 多个, 包括两个或者两个以上。
[0069] 和/或, 应当理解, 对于本公开中使用的术语“和/或”, 其仅仅是一种描述关联对象
的关联关系, 表示可以存在三种关系。例如, A和/或B,可以表示: 单独存在A,同时存在A和B,
单独存在B这三种情况。
[0070] 本发明涉及一种快速精确的文档图像实例分割方法。 针对文档图像分析目标任
务, 申请人创新性地采用了实例分割全卷积神经检测网络, 将角度检测、表格检测、图章检
测、 文字检测(手写和打印)、 插图检测等分割任务融合在一个网络之中, 从最后输出的多个
特征分数图(scoresmap)中分析得到需要分割和定位的目标对象。
[0071] 根据本发明的文档图像的实例分割方法包括:
[0072] 步骤1: 将原始图像输入到全卷积神经网络中, 所述原始图像上包括n个类别的实
例对象, n>1;
[0073] 步骤2: 输出原始图像的文字方向分数图、 n个实例对象分数图以及像素链接图;
[0074] 步骤3: 根据n个实例对象分数图和像素链接图分割出n个实例对象区域轮廓, 并对
实例对象进行描述; 以及
[0075] 步骤4: 输出实例对象分割结果, 包括实例对象的类别和位置。
[0076] 本发明还提供一种文档图像的实例分割装置, 包括以下部件:
[0077] 原始图像输入部件, 用于将原始图像输入到全卷积神经网络中, 所述原始图像上
包括n个类别的实例, n>1;
[0078] 分数图输出部件, 用于输出原始图像的文字方向分数图、 n个实例对象分数图以及
像素链接图;
[0079] 实例分割部件, 用于根据n个实例对象分数图和像素链接图分割出n个实例对象区
域轮廓, 并对实例对象进行描述; 以及
[0080] 分割结果输出部件, 用于输出实例对象分割结果, 包括实例对象的类别和位置,
[0081] 其中, 所述n个类别包括线条、 图章、图形、第一字体文本和/或第二字体文本。
7
CN 109948510 B 说 明 书 5/8 页
8
CN 109948510 B 说 明 书 6/8 页
9
CN 109948510 B 说 明 书 7/8 页
10
CN 109948510 B 说 明 书 8/8 页
11
CN 109948510 B 说 明 书 附 图 1/6 页
图1
图2
12
CN 109948510 B 说 明 书 附 图 2/6 页
图3
图4
13
CN 109948510 B 说 明 书 附 图 3/6 页
图5
图6
图7
14
CN 109948510 B 说 明 书 附 图 4/6 页
图8
图9
图10
15
CN 109948510 B 说 明 书 附 图 5/6 页
图11
图12
16
CN 109948510 B 说 明 书 附 图 6/6 页
图13
图14
17