Professional Documents
Culture Documents
姜 Et Al 2022 融合自注意力机制的诈骗电话分类模型
姜 Et Al 2022 融合自注意力机制的诈骗电话分类模型
DOI:10.16644/j.cnki.cn33-1094/tp.2022.11.024
融合自注意力机制的诈骗电话分类模型*
姜彤彤 1,许鸿奎 1,2,周俊杰1,张子枫1,卢江坤1,胡文烨 1
(1. 山东建筑大学信息与电气工程学院,山东 济南 250000;2. 山东省智能建筑重点实验室)
摘 要: 提出一种基于融合自注意力机制和卷积神经网络的诈骗电话识别模型 CNN-SA(CNN-Self Attention Mechanism),
采用卷积神经网络捕捉序列的局部特征,自注意力机制为每个单词分配一个权重,进一步获取句子的内部依赖关系,
提高分类准确率。在电话文本数据集上的实验结果表明,所提模型的准确率可达 92%,与单一的 TextCNN 模型相比,在
精确率、召回率、F1 值指标上分别有 1.52%、1.75%、1.77% 的提升。
关键词:诈骗电话;自注意力机制;卷积神经网络;电话文本;分类
中图分类号:TP391.1 文献标识码:A 文章编号:1006-8228(2022)11-101-04
0 引言 姓名、银行卡、手机号码等个人隐私信息的泄露严重,
随着科学技术的发展,我国通信行业迅速崛起。 人们往往防不胜防,尤其在老年人群体中,电话诈骗
在智能设备使用规模和网民数量不断增加的同时,电 仍占有很高的比重,因此,不断完善对电话诈骗的治
信网络诈骗犯罪也在不断升级,给国家和人民带来了 理方案、加大打击力度刻不容缓。
巨大损失,更是在社会上造成极其恶劣的影响,尽管 传统的电话诈骗治理方式主要是基于信令数据,
近几年国家对电信诈骗的治理力度不断加大,但个别 通过对主叫号码的结构进行分析,以及结合投诉数
地区形势依旧严峻。 据,建立黑白名单库进行实时分析,实现对诈骗号码
电话诈骗是指以电话为载体,犯罪分子通过冒充 的拦截处理,但此种方式只能实现对有一定规律性的
淘宝客服、冒充熟人、冒充公检法等手段对受害人实 号码进行拦截,犯罪分子通过频繁更换号码或使用改
施诈骗的一类犯罪行为,具有诈骗套路多、诈骗金额 号软件模拟真实号码等手段可轻松绕开这种反诈骗
大、诈骗成功率高的特点。尽管各种治理手段不断地 手段,可见传统的拦截方式无法实现精准、实时拦截,
更 新 、迭 代 ,但 当 今 社 会 ,个 人 信 息 保 护 意 识 薄 弱 , 已无法适应当前的严峻形势。
收稿日期:2022-04-11
*基金项目:山东省重大科技创新工程(2019JZZY010120);山东省重点研发计划(2019GSF111054)
作者简介:姜彤彤( 1997-),
女,山东潍坊人,
硕士研究生,
主要研究方向:
自然语言处理。
·102· Computer Era No. 11 2022
机器学习的迅速发展,为电话诈骗的治理打开了 将卷积神经网络应用于文本分类。文献[6]提出一种
新思路。文献[1]针对传统的骚扰电话识别误报问题, 基于多通道卷积神经网络的分类模型来提取微博情
提出一种基于用户呼叫行为的识别算法,并引入随机 感分析任务中特有的情感信息。文献[7]将卷积神经
森林,识别精度有较大的提升。文献[2]提出基于大数 网络用于 Twitter 的极性判断任务。
据的诈骗电话分析技术,通过建立分析模型,对海量 注意力机制源于人类大脑的视觉信号处理机制,
呼叫信令进行分析,实现了通话结束后 3~5min 内输出 本质是对信息资源的高效分配,被广泛应用在图像
疑似受害用户号码,通过及时回访达到事前预防的目 处 理 、自 然 语 言 处 理 等 领 域 ,谷 歌 在 2017 年 提 出 了
的。文献[3]通过提取诈骗电话特征、分析通信行为探 Transformer 模型[8],将注意力机制的优势发挥到了极
索结果等建立基于随机森林的诈骗电话普适模型,对 致 ,同 时 具 有 并 行 计 算 和 抽 取 长 距 离 特 征 的 能 力 。
诈骗电话号码进行了有效识别。文献[4]等通过对用 Transformer 仅由自注意力机制和前馈连接层叠加组
户通话行为、上网行为、用户基本属性、手机终端信息 成,具有良好的特征抽取能力。很多学者将自注意力
等进行综合分析,建立基于机器学习的诈骗电话识别 机制用于不同的研究领域,并且取得了不错的效果,
模型,有效提高了诈骗电话的识别率。 文献[9]将其用于解决长文本的相似度计算问题,提高
机器学习的相关技术和工具在诈骗电话治理上 了对深层次的语义信息抽取能力,文献[10]将其用于
的应用,使得反诈骗手段有了较大的提升,而神经网 推荐系统来提取不同子空间的特征信息。受此启发,
络算法较传统的机器学习算法,具有算法更强大、准 本文将自注意力机制与卷积神经网络结合,用于诈骗
确率更高的优势,因此,提出了一种基于自然语言处 电话的识别任务,CNN 具有捕捉文本的局部语义特征
理技术(Natural Language Processing,NLP)的诈骗电 和并行计算的优势,利用自注意力机制对 CNN 输出的
话识别模型,首先将电话语音转成文本,本文的研究 浅层特征进一步提取其序列的内部依赖关系,提高模
是对语音识别后的文字进行处理,利用文本分类技术 型的表征能力,分类效果更好。
对文本进行预处理、特征提取、分类等操作,达到识别
2 系统模型
诈骗电话的目的,为诈骗电话的治理提供了一种新的
技术选择。 2.1 模型总体架构
1 相关工作
自然语言处理技术是近几年的研究热点,已广泛
应用于情感分析、垃圾邮件检测、词性标注、智能翻译
等领域。互联网的迅速崛起,也伴随产生了大量的数
据信息,包括文字、图片、声音等,其中,文本资源占据
了一大部分,我们获取的信息有很大一部分都来自于
文本,文本分类的目标是自动对文本进行分门别类,
帮助人们从海量的文本中挖掘出有用的信息。文本
分类的研究大致分为三类:基于规则、基于机器学习
和基于深度学习的方法。基于规则的方法是通过人
工定义的规则对文本进行分类,但这种方法依赖于专
家的领域知识,须耗费大量的人力物力,且编写的规
则只适用一个领域,迁移性差;基于机器学习的方法
以支持向量机、朴素贝叶斯、决策树等为代表,较基于
规则的方法,机器学习的方法有了很大的进步,但是
由于文本表示巨大的数据量,对机器学习算法的运行
效率提出了新的挑战;深度学习的快速发展,为学者
在文本领域的研究打开了新的大门,文献[5]首次提出 图1 CNN-SA 结构图
计算机时代 2022 年 第 11 期 ·103·
图4 TextCNN 结构图
卷积操作的过程可以表述为:
C = f ( X ⊗ W + b) ⑴
其中,X 为输入词向量,W 为权重向量,b 为偏移量,⊗
表示卷积运算,f (·) 为激活函数。
在池化层中,为减少重要信息丢失,放弃最常用
的最大池化操作,选择平均池化,可以更加突出整体
信息,通过池化运算对卷积层输出进行下采样,一方
面达到特征降维的作用,另一方面也极大减小了参数
量,可以防止过拟合。经过池化层后,每个卷积核得
图2 Skip-gram
到一个值,最后将这些值拼接起来通过全连接层输入
softmax 层进行分类。
2.4 自注意力层
注意力机制的提出,大大提高了人类对信息处理
的效率和利用率,自注意力机制是注意力机制的一种
特殊形式,较注意力机制,它更擅长捕捉特征的内部
相关性,减少了对外部信息的依赖,其原理是通过缩
放点积注意力(Scaled Dot-Product Attention,SDA)和
通过向量点积进行相似度计算得到注意力值来实现的。
SDA 的 结 构 如 图 5 所 示 ,首 先 Q、K 通 过 点 积 运 算 ,
进 行相似性计算,然后使用 softmax 函数进行归一化
图3 CBOW
计算,最后结果乘以 V,得到输出,计算过程表示为:
2.3 卷积层 QK T
Attention (Q,K,V ) = soft max ( )V ⑵
TextCNN 的原理是将卷积神经网络应用到文本 dk
分类任务中,通过设置不同大小的卷积核可以更好地 其 中 ,Q、K、V 分 别 为 查 询 矩 阵 、键 矩 阵 、值 矩 阵 ,
捕捉句子的局部特征。TextCNN 的网络结构如图 4 所 1 为调节因子,使得 Q、K 的内积不至于过大。
示,包括卷积层、池化层和全连接层。卷积层的输入 dk
·104· Computer Era No. 11 2022
3.1 数据集
3.4 结果分析
本文采用的数据集为自己构建的电话文本数据
从表 1 可以看出,提出模型 CNN-SA 的各项衡量
集,包含诈骗文本和非诈骗文本各约 5000 条,是从微
指标均明显优于单一 TextCNN、BiLSTM 和 BiGRU 模
博、知乎、百度等网站抓取整理的,其中诈骗文本包含
型以及 BiLSTM-attention 和 BiGRU-attention 模型,这
近几年频繁出现的网络贷款、网络刷单、冒充客服退
表明融合模型 CNN-SA 提取的特征信息更充分,因而
款、虚假购物、注销“校园贷”、买卖游戏币等各类电话 分类效果最好。
诈骗类型。本文实验的训练集、验证集和测试集大小 在准确率方面,
BiGRU 模型的性能要优于 BiLSTM
分别划分为 6000、3000 和 1200。 模型,
有0.42%的提升;
BiLSTM-attention较单一BiLSTM
3.2 实验环境及实验参数设置 模 型 提 高 了 0.58%,BiGRU-attention 较 单 一 BiGRU
实 验 的 硬 件 环 境 为 :操 作 系 统 为 Windows 10, 模型提高了 0.33%,这表明,引入 attention 机制可以使
GPU 为 NVIDIA GTX1650,CPU 为 i5-10300H;软 件 模型更好地提取关键信息,从而提升分类性能;而所
环境为:Python 3.7,学习框架 Pytorch 1.5。 提模型 CNN-SA 比单一 TextCNN 模型提高了 1.75%,
在电话文本数据集上,采用 Word2vec 词嵌入方法 这是因为引入自注意力机制,可以使模型更好地关注
训练词向量,
词向量的维度设置为 300 维。CNN-SA 的 序列的内部依赖关系,弥补了 TextCNN 模型只关注
参数设置为:卷积核的大小为(2,3,4),数量为 256,步长 局部信息的不足。
为 1,卷积层后采用 relu 激活函数,池化层采用平均池
4 结束语
化。经过反复实验,提出模型的最优学习率为 0.0001,
batch 为 128,epochs 为 30,dropout 的比率为 0.5。 本文针对目前电信诈骗中案发率比较高的电话
3.3 实验结果 诈骗问题,提出了一种基于 NLP 的识别方案,建立融
为验证本文提出 CNN-SA 的有效性,将电话文本 合自注意力机制和卷积神经网络的诈骗电话识别模
数据集分别在以下几种模型上进行对比实验分析。 型 CNN-SA。首先利用词嵌入模型 Word2vec 获取预
⑴ TextCNN:单一 TextCNN 模型提取序列局部 处理后的文本的词向量,并将其输入 TextCNN 模型,
特征,参数设置与 CNN-SA 中 TextCNN 模型相同。 捕捉文本的局部特征信息,再利用自注意力机制进一
⑵ BiLSTM 与 BiGRU:单 一 双 向 LSTM 与 双 向 步提取电话文本序列内部的依赖关系,最后将其输入
GRU 结构,参数设置两者相同。 softmax 层进行分类。
3 结束语 参考文献(References):
▲
通讯世界,2019(10):83-84 C E
是需要进一步解决的问题。
■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■
(上接第 104 页)
Language Processing(EMNLP),2014:1532-1543 C E
2014:655-665