You are on page 1of 5

计算机时代 2022 年 第 11 期 ·101·

DOI:10.16644/j.cnki.cn33-1094/tp.2022.11.024

融合自注意力机制的诈骗电话分类模型*
姜彤彤 1,许鸿奎 1,2,周俊杰1,张子枫1,卢江坤1,胡文烨 1
(1. 山东建筑大学信息与电气工程学院,山东 济南 250000;2. 山东省智能建筑重点实验室)
摘 要: 提出一种基于融合自注意力机制和卷积神经网络的诈骗电话识别模型 CNN-SA(CNN-Self Attention Mechanism),
采用卷积神经网络捕捉序列的局部特征,自注意力机制为每个单词分配一个权重,进一步获取句子的内部依赖关系,
提高分类准确率。在电话文本数据集上的实验结果表明,所提模型的准确率可达 92%,与单一的 TextCNN 模型相比,在
精确率、召回率、F1 值指标上分别有 1.52%、1.75%、1.77% 的提升。
关键词:诈骗电话;自注意力机制;卷积神经网络;电话文本;分类
中图分类号:TP391.1 文献标识码:A 文章编号:1006-8228(2022)11-101-04

Fraud phone classification model with self-attention mechanism


Jiang Tongtong1, Xu Hongkui1,2, Zhou Junjie1, Zhang Zifeng1, Lu Jiangkun1, Hu Wenye1
(1. School of Information and Electrical Engineering, Jinan, Shandong 250000, China;
2. Shandong Provincial Key Laboratory of Intelligent Buildings Technology)
Abstract: A fraud phone recognition model CNN-SA (CNN-Self Attention Mechanism) based on self-attention mechanism and
convolution neural network (CNN) is proposed. CNN is used to capture local characteristics, and self-attention mechanism is used
to assign a weight for each word to further extract internal dependencies of the sentences and improve classification accuracy. The
experimental results on the phone text datasets show that the proposed model's accuracy can reach 92%. Compared with the single
TextCNN model, it has 1.52%, 1.75%, and 1.77% improvement in accuracy, recall, and F1, respectively.
Key words:fraud phone; self-attention mechanism; CNN; phone text; classification

0 引言 姓名、银行卡、手机号码等个人隐私信息的泄露严重,
随着科学技术的发展,我国通信行业迅速崛起。 人们往往防不胜防,尤其在老年人群体中,电话诈骗
在智能设备使用规模和网民数量不断增加的同时,电 仍占有很高的比重,因此,不断完善对电话诈骗的治
信网络诈骗犯罪也在不断升级,给国家和人民带来了 理方案、加大打击力度刻不容缓。
巨大损失,更是在社会上造成极其恶劣的影响,尽管 传统的电话诈骗治理方式主要是基于信令数据,
近几年国家对电信诈骗的治理力度不断加大,但个别 通过对主叫号码的结构进行分析,以及结合投诉数
地区形势依旧严峻。 据,建立黑白名单库进行实时分析,实现对诈骗号码
电话诈骗是指以电话为载体,犯罪分子通过冒充 的拦截处理,但此种方式只能实现对有一定规律性的
淘宝客服、冒充熟人、冒充公检法等手段对受害人实 号码进行拦截,犯罪分子通过频繁更换号码或使用改
施诈骗的一类犯罪行为,具有诈骗套路多、诈骗金额 号软件模拟真实号码等手段可轻松绕开这种反诈骗
大、诈骗成功率高的特点。尽管各种治理手段不断地 手段,可见传统的拦截方式无法实现精准、实时拦截,
更 新 、迭 代 ,但 当 今 社 会 ,个 人 信 息 保 护 意 识 薄 弱 , 已无法适应当前的严峻形势。

收稿日期:2022-04-11
*基金项目:山东省重大科技创新工程(2019JZZY010120);山东省重点研发计划(2019GSF111054)
作者简介:姜彤彤( 1997-),
女,山东潍坊人,
硕士研究生,
主要研究方向:
自然语言处理。
·102· Computer Era No. 11 2022

机器学习的迅速发展,为电话诈骗的治理打开了 将卷积神经网络应用于文本分类。文献[6]提出一种
新思路。文献[1]针对传统的骚扰电话识别误报问题, 基于多通道卷积神经网络的分类模型来提取微博情
提出一种基于用户呼叫行为的识别算法,并引入随机 感分析任务中特有的情感信息。文献[7]将卷积神经
森林,识别精度有较大的提升。文献[2]提出基于大数 网络用于 Twitter 的极性判断任务。
据的诈骗电话分析技术,通过建立分析模型,对海量 注意力机制源于人类大脑的视觉信号处理机制,
呼叫信令进行分析,实现了通话结束后 3~5min 内输出 本质是对信息资源的高效分配,被广泛应用在图像
疑似受害用户号码,通过及时回访达到事前预防的目 处 理 、自 然 语 言 处 理 等 领 域 ,谷 歌 在 2017 年 提 出 了
的。文献[3]通过提取诈骗电话特征、分析通信行为探 Transformer 模型[8],将注意力机制的优势发挥到了极
索结果等建立基于随机森林的诈骗电话普适模型,对 致 ,同 时 具 有 并 行 计 算 和 抽 取 长 距 离 特 征 的 能 力 。
诈骗电话号码进行了有效识别。文献[4]等通过对用 Transformer 仅由自注意力机制和前馈连接层叠加组
户通话行为、上网行为、用户基本属性、手机终端信息 成,具有良好的特征抽取能力。很多学者将自注意力
等进行综合分析,建立基于机器学习的诈骗电话识别 机制用于不同的研究领域,并且取得了不错的效果,
模型,有效提高了诈骗电话的识别率。 文献[9]将其用于解决长文本的相似度计算问题,提高
机器学习的相关技术和工具在诈骗电话治理上 了对深层次的语义信息抽取能力,文献[10]将其用于
的应用,使得反诈骗手段有了较大的提升,而神经网 推荐系统来提取不同子空间的特征信息。受此启发,
络算法较传统的机器学习算法,具有算法更强大、准 本文将自注意力机制与卷积神经网络结合,用于诈骗
确率更高的优势,因此,提出了一种基于自然语言处 电话的识别任务,CNN 具有捕捉文本的局部语义特征
理技术(Natural Language Processing,NLP)的诈骗电 和并行计算的优势,利用自注意力机制对 CNN 输出的
话识别模型,首先将电话语音转成文本,本文的研究 浅层特征进一步提取其序列的内部依赖关系,提高模
是对语音识别后的文字进行处理,利用文本分类技术 型的表征能力,分类效果更好。
对文本进行预处理、特征提取、分类等操作,达到识别
2 系统模型
诈骗电话的目的,为诈骗电话的治理提供了一种新的
技术选择。 2.1 模型总体架构

1 相关工作
自然语言处理技术是近几年的研究热点,已广泛
应用于情感分析、垃圾邮件检测、词性标注、智能翻译
等领域。互联网的迅速崛起,也伴随产生了大量的数
据信息,包括文字、图片、声音等,其中,文本资源占据
了一大部分,我们获取的信息有很大一部分都来自于
文本,文本分类的目标是自动对文本进行分门别类,
帮助人们从海量的文本中挖掘出有用的信息。文本
分类的研究大致分为三类:基于规则、基于机器学习
和基于深度学习的方法。基于规则的方法是通过人
工定义的规则对文本进行分类,但这种方法依赖于专
家的领域知识,须耗费大量的人力物力,且编写的规
则只适用一个领域,迁移性差;基于机器学习的方法
以支持向量机、朴素贝叶斯、决策树等为代表,较基于
规则的方法,机器学习的方法有了很大的进步,但是
由于文本表示巨大的数据量,对机器学习算法的运行
效率提出了新的挑战;深度学习的快速发展,为学者
在文本领域的研究打开了新的大门,文献[5]首次提出 图1 CNN-SA 结构图
计算机时代 2022 年 第 11 期 ·103·

本文构建了一种基于融合自注意力机制和 CNN 是用 Word2Vec 或者 GloVe 方法预训练好的词向量组


的诈骗电话识别模型 CNN-SA,结构如图 1 所示,由词 成的嵌入层;在卷积层中,卷积核的宽度与词向量的
嵌入层、卷积层、自注意力层和分类层组成。 维度一致,高度可以自行设置为 2、3、4 等,实现对不同
2.2 词嵌入层 局部大小的特征进行提取。
电话文本输入分类模型之前,首先需要进行文本
预处理,获取文本的词向量表示。目前常用的主流方
法是以 Word2Vec[11] 和 GloVe[12] 为代表的词语的分布
式表示,这种方法可以表示出词与词之间的相似性关
系,且向量维度低,避免了维度爆炸问题。本文的词
嵌 入 层 选 择 的 是 基 于 Word2Vec 的 预 训 练 词 向 量 表
示,向量维度为 300 维,该模型按训练方式分为 Skip-
Gram 和 CBOW 两种,Skip-Gram 是由当前词来预测上
下文词,而 CBOW 正相反,是由上下文词来预测当前
词,其结构分别如图 2 和图 3 所示。

图4 TextCNN 结构图

卷积操作的过程可以表述为:
C = f ( X ⊗ W + b) ⑴
其中,X 为输入词向量,W 为权重向量,b 为偏移量,⊗
表示卷积运算,f (·) 为激活函数。
在池化层中,为减少重要信息丢失,放弃最常用
的最大池化操作,选择平均池化,可以更加突出整体
信息,通过池化运算对卷积层输出进行下采样,一方
面达到特征降维的作用,另一方面也极大减小了参数
量,可以防止过拟合。经过池化层后,每个卷积核得
图2 Skip-gram
到一个值,最后将这些值拼接起来通过全连接层输入
softmax 层进行分类。
2.4 自注意力层
注意力机制的提出,大大提高了人类对信息处理
的效率和利用率,自注意力机制是注意力机制的一种
特殊形式,较注意力机制,它更擅长捕捉特征的内部
相关性,减少了对外部信息的依赖,其原理是通过缩
放点积注意力(Scaled Dot-Product Attention,SDA)和
通过向量点积进行相似度计算得到注意力值来实现的。
SDA 的 结 构 如 图 5 所 示 ,首 先 Q、K 通 过 点 积 运 算 ,
进 行相似性计算,然后使用 softmax 函数进行归一化
图3 CBOW
计算,最后结果乘以 V,得到输出,计算过程表示为:
2.3 卷积层 QK T
Attention (Q,K,V ) = soft max ( )V ⑵
TextCNN 的原理是将卷积神经网络应用到文本 dk
分类任务中,通过设置不同大小的卷积核可以更好地 其 中 ,Q、K、V 分 别 为 查 询 矩 阵 、键 矩 阵 、值 矩 阵 ,
捕捉句子的局部特征。TextCNN 的网络结构如图 4 所 1 为调节因子,使得 Q、K 的内积不至于过大。
示,包括卷积层、池化层和全连接层。卷积层的输入 dk
·104· Computer Era No. 11 2022

向 LSTM 和双向 GRU 结构后,引入传统的 attention 机


制,提取关键特征。
⑷ CNN-SA:本文提出的一种的融合自注意力机
制和 CNN 的混合分类模型。
实验采用的评价指标为准确率 Accuracy、精确率
Precision、召回率 Recall 和 F1 值,在电话文本上的实验
结果如表 1 所示。
表1 实验结果

模型 Accuracy/% Precision/% Recall/% F1/%


TextCNN 90.25 90.75 90.26 90.22
BiLSTM 89.50 90.14 89.51 89.46
BiLSTM-attention 90.08 90.75 90.09 90.04
图5 SDA 结构图 BiGRU 89.92 90.73 89.93 89.87
BiGRU-attention 90.25 90.75 90.26 90.22
3 实验 CNN-SA 92.00 92.27 92.01 91.99

3.1 数据集
3.4 结果分析
本文采用的数据集为自己构建的电话文本数据
从表 1 可以看出,提出模型 CNN-SA 的各项衡量
集,包含诈骗文本和非诈骗文本各约 5000 条,是从微
指标均明显优于单一 TextCNN、BiLSTM 和 BiGRU 模
博、知乎、百度等网站抓取整理的,其中诈骗文本包含
型以及 BiLSTM-attention 和 BiGRU-attention 模型,这
近几年频繁出现的网络贷款、网络刷单、冒充客服退
表明融合模型 CNN-SA 提取的特征信息更充分,因而
款、虚假购物、注销“校园贷”、买卖游戏币等各类电话 分类效果最好。
诈骗类型。本文实验的训练集、验证集和测试集大小 在准确率方面,
BiGRU 模型的性能要优于 BiLSTM
分别划分为 6000、3000 和 1200。 模型,
有0.42%的提升;
BiLSTM-attention较单一BiLSTM
3.2 实验环境及实验参数设置 模 型 提 高 了 0.58%,BiGRU-attention 较 单 一 BiGRU
实 验 的 硬 件 环 境 为 :操 作 系 统 为 Windows 10, 模型提高了 0.33%,这表明,引入 attention 机制可以使
GPU 为 NVIDIA GTX1650,CPU 为 i5-10300H;软 件 模型更好地提取关键信息,从而提升分类性能;而所
环境为:Python 3.7,学习框架 Pytorch 1.5。 提模型 CNN-SA 比单一 TextCNN 模型提高了 1.75%,
在电话文本数据集上,采用 Word2vec 词嵌入方法 这是因为引入自注意力机制,可以使模型更好地关注
训练词向量,
词向量的维度设置为 300 维。CNN-SA 的 序列的内部依赖关系,弥补了 TextCNN 模型只关注
参数设置为:卷积核的大小为(2,3,4),数量为 256,步长 局部信息的不足。
为 1,卷积层后采用 relu 激活函数,池化层采用平均池
4 结束语
化。经过反复实验,提出模型的最优学习率为 0.0001,
batch 为 128,epochs 为 30,dropout 的比率为 0.5。 本文针对目前电信诈骗中案发率比较高的电话
3.3 实验结果 诈骗问题,提出了一种基于 NLP 的识别方案,建立融
为验证本文提出 CNN-SA 的有效性,将电话文本 合自注意力机制和卷积神经网络的诈骗电话识别模
数据集分别在以下几种模型上进行对比实验分析。 型 CNN-SA。首先利用词嵌入模型 Word2vec 获取预
⑴ TextCNN:单一 TextCNN 模型提取序列局部 处理后的文本的词向量,并将其输入 TextCNN 模型,
特征,参数设置与 CNN-SA 中 TextCNN 模型相同。 捕捉文本的局部特征信息,再利用自注意力机制进一
⑵ BiLSTM 与 BiGRU:单 一 双 向 LSTM 与 双 向 步提取电话文本序列内部的依赖关系,最后将其输入
GRU 结构,参数设置两者相同。 softmax 层进行分类。

⑶ BiLSTM-attention 与 BiGRU-attention:在 双 (下转第 108 页)


·108· Computer Era No. 11 2022

3 结束语 参考文献(References):

在当前大数据时代的背景下,高职院校通过构建 [1] 汪茜 . 云计算数据中心技术解决方案—以某智慧政务服务


信息系统项目为案例[D]. 南京邮电大学硕士学位论文,2021
数据共享的云数据中心,将外部和内部教学管理数据
[2] 彭统乾 . 教学管理决策支持系统中数据仓库的设计与实现[D].
整合,统一向不同部门、各级人员提供数据服务,满足
西安电子科技大学硕士学位论文,2011
数据的统计、分析和决策需求。随着数据整合不断深
[3] 罗红华 . 基于数据挖掘及数据仓库技术的研究与应用[J].
入,职业院校的学工、人事、后勤管理、办公等数据也
通讯世界,2019(10):83-84
会集成到数据中心,将构建出一个完整的数字化校园 [4] 梁奎奎 . 一种基于 Storm 平台的 ETL 方案实现[J]. 计算机
信息平台。数据仓库作为数据集成和共享的核心,需 科学,2019,46(11A):209
要保存哪些数据,清洗哪些数据是需要对数据仓库的 [5] 胡俊鹏,肖晓东,朱伟义,等 . 数据仓库维度建模方法研究[A].
粒度进行设计的,粒度是数据仓库的数据单元保存数 全国智能用电工程建设经验交流会论文集[C]. 北京:国网电
据的细化或综合程度的级别,深刻地影响存放在数据 投北京科技中心,2020:146-148

集市和仓库中的数据体量,此外数据仓库中数据来源 [6] 张军,王芬芬 . 高校数据仓库多维数据建模分析[J]. 智能计算


机与应用,2020(5)
于各业务管理系统,数据的迁移需要通过 ETL 工具实
[7] 罗红华 . 基于数据挖掘及数据仓库技术的研究与应用[J].
现,如何设计符合教学管理数据仓库需求的 ETL 工具


通讯世界,2019(10):83-84 C E
是需要进一步解决的问题。

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

(上接第 104 页)

参考文献(References): [8] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you


need. Advances in Neural Information Processing
[1] 李家樑 . 基于随机森林算法的移动电话骚扰号码识别策略
Systems,2017:5998-6008
研究[J]. 通讯世界,2019(8)
[9] 曹 小 鹏 ,周 凯 强 . 自 注 意 力 机 制 Siamese 网 络 文 本 相 似 度
[2] 王志刚 . 基于大数据的电信诈骗治理技术研究[J]. 电信工程
计算方法[J]. 微电子学与计算机,2021,38(10):15-20
技术与标准化,2017,30(4):86-89
[10] 牛 路 帅 , 彭 龑 . 基 于 多 头 注 意 力 机 制 和 位 置 信 息 的
[3] 白晶晶,张利宏 . 基于大数据挖掘技术的诈骗电话识别与
xDeepFM 推 荐 模 型 [J]. 计 算 机 应 用 研 究 , 2021, 38(10):
管理[J]. 长江信息通信,2021,34(5):126-128
3055-3059
[4] 杨建昆,夏文财 . 基于用户行为分析的诈骗电话识别[J]. 计算
[11] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed
机系统应用,2021,30(8):311-316
representations of words and phrases and their
[5] KIM Y. Convolutional neural networks for sentence
compositionality[C]// Proceedings of the 2013 26th
classification[EB/OL].2017-01-02
International Conference on Neural Information
[6] 苏小英,孟环建 . 基于神经网络的微博情感分析[J]. 计算机
Processing Systems. Red Hook: Curran Associates
技术与发展,2015,25(12):161-164
Inc.,2013:3111-3119
[7] Kalchbrenner N, Grefenstette E, Blunsom P, A convolu-
[12] Pennington J, Socher R, Manning C D. Glove: Glob al
tional neural network for modelling sentences [C] //
vectors for word representation[C]//Proceedings of the
Proc of the 52nd Annual Meeting of the Association
2014 Conference on Empirical Methods in Natural
for Computational Linguistics, Stroudburg, PA: ACL,

Language Processing(EMNLP),2014:1532-1543 C E
2014:655-665

You might also like