You are on page 1of 5

DOI: 10.3969/j.issn.1000-6826.2018.05.

002

自然语言处理技术简述及在矿冶领
域的应用展望
Review and Prospect of Natural Language Processing Technology for
Mining and Metallurgy

供稿|刘韫赫1,吕凝2,徐昊2 / LIU Yun-he1, LV Ning2, XU Hao2


作为人工智能领域的关键挑战之一,尽管机器学习技术近10年来取得了显著突破,但是自然

导 语言处理任务依然是亟需攻克的研究热点问题。文章介绍了自然语言处理领域的主要任务,梳理
读 了自然语言处理的主要方法和发展,重点分析了基于深度学习的自然语言处理方法。结合矿冶领
域的知识库构建特点,对自然语言处理技术在矿冶领域的应用可行性进行了分析和展望。以深度
学习为代表的机器学习模型在处理复杂异构的自然语言时表现出更为强大的能力,能够更为精准
地挖掘知识,有效完成信息抽取任务。自然语言处理技术服务于矿冶生产,能够协助领域专家和
研究人员构建更为全面、高效、准确的知识库,同时实现更为智能的知识服务系统。

近十年是计算机技术、自动化技术、人工智 自然语言处理的主要任务
能技术取得突破性进展的10年。为构建通用、易用
的人工智能体,自然语言处理是非常重要的任务。 语音识别
如何让机器理解人类的语言,并能够对复杂语言进 自然语言处理包括语音识别和语义分析。语音
行分析和理解,是数十年来致力于人工智能领域研 识别的任务之一是将人类语音转化为对应的文字,
究的科学家们十分关注的问题。构建人工智能体的 该任务是将通信领域信号处理原理推广到自然语言
宏伟目标在于让机器帮助人类进行复杂而精准的计 领域的一个成功的尝试。简单来说,语音识别根据
算,并进行决策。计算机的决策需要一定的人类知 声音的底层特征,如语调、音速、音节、音位等声
识,而语言正是人类智慧和复杂知识的载体。有理 学特征,通过特定的处理方法,将其抽象为一个状
由认为,自然语言处理领域的进展和突破,可以提 态序列。或者说,声音本身也是一种信号的形式,
高计算机的自学习能力,同时有效推动我国智能制 它具有特定的频率特征。采用对应的特征处理方
造、智慧制造的进程。 法,语言可以被转化为特定的信号序列形式。通过

作者单位:1. 河北乐亭第一中学,河北 乐亭 063600;2. 北京科技大学自动化学院,北京 100083

6 2018年 第 5 期

万方数据
人工智能 热点聚焦
Highlights Focus

合理的模型设计和大规模的语音语料训练,计算机 预测语音信号、实现语音辨识的目的。图1是一个典
可以正确地识别出语音信号序列的形式,从而达到 型的语音识别模块的设计框图。

图1 语音识别模块设计框图

目前,处于语音识别研究第一梯队的国内研究 短对话问题类似于信息配对问题中的问答系统,通
队伍有中国科技大学科大讯飞团队、百度语音、腾 过对大量问答对话的训练得到合适的回答,从而实
讯语音等。当前的技术水平已经可以较好地完成语 现一对一的对话。长对话问题则更为复杂,要求计
音识别任务:科大讯飞团队开发的语音识别工具包 算机和人类针对某一特定的场景进行系统的交流,
甚至可以实现对于中国方言近乎百分之百的识别; 并给出符合语境的回答。长对话问题是构建对话系
在百度公司、腾讯公司推出的各种互联网产品中, 统的核心目标,也是现有技术尚未突破的难题。
语音识别技术也已经非常普遍。因此,自然语言处
自然语言处理的主要方法
理任务的主要挑战在于语义分析。

语义分析 基于规则的自然语言处理
语义分析和语言理解是目前自然语言处理领域 早在20世纪50年代,稍晚于第一台计算机研制
的重点研究方向,也是制约机器智能的一大技术瓶 成功的时候,研究人员就已经开始试图利用计算机
颈。从任务角度出发,语义分析的主要任务涉及语 技术去实现对自然语言的挖掘和处理。最初的自然
义分类问题、信息配对类问题、机器翻译类问题、 语言处理是以语法规则为出发点,力求将自然语言
结构化信息处理问题和对话类问题。 转化为和语法规则相匹配的语言单元和结构。
语义分类问题是最常见的自然语言处理问题, 早期的语法规则由语言学家手工实现。随着高
其目标是给特定的一段文字标注对应的标签,例如 级编程语言的普及,部分计算机领域的学者试图通
文档主题分类、本文情感分析等实际任务。 过编译器等结构化工具,以处理类似高级编程语言
信息配对类问题的实质是根据特定的配对方式 的形式对自然语言进行概括,试图增强对语法规则
对某一段文字匹配对应的文字,例如查询系统、简 的描述能力,这些方法在一定程度上减轻了语言学
单的问答系统。 家编制语法规则的工作。
机器翻译类问题就是通过计算机进行翻译,常见 基于规则的自然语言处理的主要瓶颈在于语言
的翻译工具有谷歌翻译、百度翻译、有道翻译等。 的流动性。一段简单的自然语言可能涉及到极为复
结构化信息处理问题主要面向自然语言中特 杂的语法结构。而人们的语言描述是变化的,这给
定的结构化信息,如词性标注、分词、命名实体识 归纳合理全面的语法规则带来了极大的困难。更为
别、句法分析、自动摘要等任务。 复杂的是,许多语言信息来自于常识,如一词多义
对话类问题可分为长对话问题和短对话问题。 等,通过语法规则实现带有常识信息的语义理解显

万方数据
人工智能
1986-2018

然是十分困难的。 值和偏置的方式模仿神经元借助神经突触传递信息

基于统计的自然语言处理 的过程,以达到学习数据内部潜在规律的目的。神
经网络模型的本质是一种数学模型,经过复杂训练
20世纪70年代,基于统计的语言处理方式日趋
的模型具有较好的分类和预测功能,能够针对输入
成为研究的主流。这一时期的代表学者是Frederick
产生与之匹配的输出。经典的神经网络有BP(Back
Jelinek 教授[1]。基于统计的自然语言处理模型从大规
Propagation)神经网络、Hopfield神经网络等。图2为
模的原始自然语言语料出发,通过已有的统计学、
基本的神经网络模型结构。
数学原理,把自然语言处理的任务转化为概率预测
的问题。简单来说,一个统计语言模型可以简单表
示为:
假定自然语言中某个字符只和该字符前面的N-1
个字符有关,对于给定的字符串S=(w1,w2,…wn),
判定该字符串为自然语言的标准为该字符串符合贝
叶斯条件如公式(1)所示。
P(w1,w2,…wn)=P(w1) ×P(w2|w1) ×P(w3|w1,w2)×…
P(wn|w1,w2,…wn-1) (1)
图2 神经网络结构
通过统计可以得到不同词出现的概率,因此
就可以有效地训练机器学习模型,达到预测语言标 在传统的神经网络研究中,人们普遍认为有监
签、辨识语义状态和规律的目的。 督训练多隐层的神经网络会产生较大的误差从而影
值得一提的是,马尔科夫模型由于其强大的序 响训练效果,直到2006年多伦多大学的Hinton教授
列预测能力,在语音识别领域、机器翻译领域、结 提出深度信念网络(Deep Belief Networks,DBNs)[4],
构化语言处理领域(如分词、拼写矫正)发挥了至关重 通过两阶段训练,结合无监督学习和有监督学习的
要的作用,是经典统计自然语言处理方法中的一座 训练方式,在机理上使深度网络完成机器学习任务
[2-3]
丰碑 。 成为可能,并极大提升了模型的机器学习能力和准
其他统计分析模型如采用矩阵奇异值分解理论 确率。
的LSI(Latent Semantic Index)模型,使用狄利克雷概 有别于经典神经网络结构,深度神经网络以
率理论的LDA(Latent Dirichlet Allocation)模型,基 多个隐层为特点,构建更为复杂的深层神经网络结
于词频统计的TF-IDF模型(Term Frequency-Inverse 构,从而使模型具有更为复杂的表现能力和强大的
Document Frequency)等都在自然语言处理任务,如 学习能力。图3为深度神经网络示意图。
主题分类等任务中取得了令人满意的效果。其他统
计学工具如主成分分析、互信息、熵等概念也都可
以应用于自然语言处理领域来提取特征。

深度学习与自然语言处理
基于深度学习的自然语言处理方法是统计自然
语言处理方法的一个分支。深度学习方法同样从大
规模的语料出发,用深度神经网络作为学习算法代
替经典的机器学习模型。
◆ 深度模型的结构框架

人工神经网络模型模拟生物系统中的神经认知
学习机制。该模型以节点为单元,通过动态训练权 图3 深度神经网络示意图

8 2018年 第 5 期

万方数据
人工智能 热点聚焦
Highlights Focus

◆ 神经语言模型与词向量的表示 理任务的同时,完成了对语义单元的稠密表示。
进行统计自然语言处理和分析一个很重要的任 图4中的神经网络语言模型首先初始化一组向量
务是对语言进行向量化表示,进而将其作为机器学 作为神经网络的输入,该网络需完成和语义相关的
习模型的输入。传统自然语言处理方法中用独热表 预测任务,即在输出层对目标词进行预测,从而达
示、词袋模型等结构表示自然语言。 到有监督训练网络的目的[5]。在网络训练完毕后,相
独热表示又叫one-hot表示方法,即构建向量, 关的词向量也在训练网络的同时训练得出。
对于语料中出现的每一个词作为向量的一位。在实 在Bengio教授提出神经语言模型后,许多深度
际语料中,出现该词则这一位为1,其他位均为0。 网络结构被用于自然语言处理任务。如循环神经网
词袋模型(Bag of words)则构建语义词典,在词向量 络(RNN,Recurrent Neural Networks)在隐含层节点
中以语义词典中的每个词作为向量的一位,在实际 间增加了链接,并可在t时刻对(t-1)时刻乃至(t-n)
语料中以该词出现的次数作为向量对应位的赋值。 时刻对t时刻的节点产生作用。这种循环结构更符
假定对以下包含两个文档的语料进行词袋模型文本 合人脑记忆的形式,从而能更为出色地处理文本领
表示: 域的序列问题。在RNN基础上,研究者们进一步
文档一:小明/喜欢/玩/足球,小刚/也/喜欢。 改良并提出长短记忆模型(LSTM,Long Short-Term
文档二:小明/也/喜欢/玩/篮球。 Memory)、双向长短记忆模型Bi-LSTM及门控循环
可构建的语义词典为:Dictionary = {1:“小 单元(GRU,Gated Recurrent Unit)等结构,设计了
明”,2:“喜欢”,3:“玩”,4:“足球”, 更为精密的循环神经网络单元。此外,在图像领域
5:“小刚”,6:“也”,7:“篮球”}。 应用极为广泛的卷积神经网络(CNN,Convolutional
构建的语料表示为: Neural Network)也被有效应用于文本分类任务。
文档一:[1,2,1,1,1,1,0]。 在深度学习模型中,Mikolov提出的Word2vec
文档二:[1,1,1,0,0,1,1]。 技术为主流的文本表示技术。这一方式沿袭了Bengio
相较于独热表示的形式,词袋模型的词向量更 提出的神经网络语言结构,通过特定的CBOW模
为稠密,但忽视了语序信息。 型和Skip-gram模型生成更为稠密的词向量 [6]。这些
神经网络模型应用于自然语言处理始于蒙特利 包含更多语义信息的词向量可以作为深度网络的输
尔大学的Bengio教授于2003年提出的神经语言模型, 入,使深度网络结构更精准地完成自然语言处理
如图4所示。这一语言模型在完成一定的自然语言处 任务。

矿冶领域中可能应用的自然语言处理

目前我国的矿冶领域在进行产业升级,有理由
认为,包含自然语言处理的人工智能技术能够有效
推动这一进程。概括来讲,除通用语音服务外,自
然语言处理技术可应用于矿冶领域的知识库构建和
知识服务。

生产语料知识库构建

和传统工业生产类似,矿冶领域的生产数据和
生产记录文档往往十分复杂,具有极为丰富的自然
语言信息。在复杂异构的领域语料库中有效抽取信
息,同时完成知识推理,是知识工程的核心内容。
图4 神经语言模型 基于自然语言处理的语义分析及分类、知识表示、

万方数据
人工智能
1986-2018

信息匹配等技术,可以在复杂的原始语料中更为有 和决策能力的知识服务系统。有别于传统知识服务
效地抽取知识。例如,选取矿山生产中的技术说明 系统以半结构化或数字形式的输出为主要形式,自
文档,应用Word2vec模型训练即可得出一组和“厂 然语言知识服务系统可提供更具人性化、更易理解
矿”一词具有相近向量的词。这种基于神经网络模 的知识服务。
型的自然语言处理技术可以更为有效地抽象文本知 图5为一组离散化的矿山浮选生产数据,图6
识,并进行计算,从而构建更为高效合理的知识库 则为由这组数据得出的一组控制规则,利用合理的
和专家系统。 自然语言处理和对话生成技术,可以得出更为精准
自然语言知识服务 和智能的知识服务,如“当前原矿品位中等偏下,
基于自然语言处理的对话生成和信息表示技术 亚铁含量偏低,加药量偏高,在浮选精矿要求中等
能够构建更为合理、更具智能并具有一定实时反应 时,请选用A方案”等。

图5 矿山浮选生产数据示例

图6 矿山浮选生产控制指令示例

合耳语音情感识别. 信号处理,2013,29(1):98
结束语 [3] Rabiner L R. A tutorial on hidden Markov models and selected
applications in speech recognition. IEEE,1989,77(2):257
经过数十年的发展,自然语言处理领域的研究 [4] 陈宇. 基于深度置信网络的中文信息抽取方法[学位论文]. 哈尔
内容经历了由规则到统计的转变。近年来,以深度 滨:哈尔滨工业大学,2014
学习为代表的机器学习模型在处理复杂异构的自然 [5] 牛力强. 基于神经网络的文本向量表示与建模研究[学位论文]. 南
京:南京大学,2016
语言时表现出更为强大的能力,能够更为精准地挖
[6] 奚雪峰,周国栋. 面向自然语言处理的深度学习研究. 自动化学
掘知识,有效完成信息抽取任务。自然语言处理技
报,2016,42(10):1445
术可以服务于矿冶领域的生产,能够协助领域专家
和研究人员构建更为全面、高效、准确的知识库, 作者简介:刘韫赫(2000—),男,河北乐亭第一中学
学生,E-mail:316473404@qq.com。
同时实现更为智能的知识服务系统。
吕凝(1997—),女,北京科技大学自动化学院测控技
术与仪器专业本科生。在全国大学生英语竞赛、美国大学
参考文献
生建模大赛、iCAN国际创新创业大赛等学科竞赛中多次
[1] Brown P,Cocke J,Pietra S D,et al. A statistical approach 获奖。E-mail:18810558627@163.com。
to language translation//Proceedings of the 12th Conference on
徐昊(1997—),男,北京科技大学自动化学院测控
Computational Linguistics,Volume 1. Budapest:John Von 技术与仪器专业本科生。在美国大学生数学建模大赛、
Neumann society for computing sciences,1988:71 全国安全创意设计大赛等学科竞赛中多次获奖。E-mail:
[2] 黄程韦,金赟,包永强,等. 嵌入马尔可夫网络的多尺度判决融 christopherxuu@163.com。

10 2018年 第 5 期

万方数据

You might also like