You are on page 1of 5

第 31 卷 第 1 期 系 统 科 学 学 报 Vol. 31 No. 1

2023 年 2 月 JOURNAL OF SYSTEMS SCIENCE Feb. 2023

基于人工智能的多样性通用数据周期推荐算法
1 2
刘思佳 ,黄 海
( 1. 中国舰船研究设计中心,湖北 武汉 430064; 2. 许昌学院 马克思主义学院,河南 许昌 461000)

摘 要: 由于目前算法为用户推荐多样性通用数据时,未考虑对数据进行清洗处理,导致多样
性通用数据周期推荐精度和效率较低,稳定性较差,为此,提出基于人工智能的多样性通用数据周
期推荐算法。采用人工智能时间序列分析方法,分类多样性通用数据中存在的异常数据,分析了时
间序列模型受各类异常值的影响,对多样性通用数据进行清洗。运用均衡接近度灰关联方法,计算
数据之间的相似度,构建用户的增强二部图直接信任机制,利用 JMSD 相关系数对多样性通用数据
进行评分,选取评分较高的数据推荐给用户,实现多样性通用数据的周期推荐。实验结果表明,所
提算法的稳定性较好,平均绝对误差较小,能够有效提高多样性通用数据周期推荐精度和效率。
关键词: 人工智能; 多样性通用数据; 时间序列分析; 均衡接近度灰关联方法; 数据周期推荐
中图分类号: N949; TP301. 6 文献标识码: A 文章编号: 1005-6408( 2023) 01-0061-05

[4]
引言 博 等根据用户历史评分数据建立用户 —数据的
异构网络,根据构建的网络获取数据的相似性 ,结合
在机器学习领域中数据周期推荐算法属于重要
矩阵分解算法和注意力机制获取用户对不同数据的
研究内容,其主要目的是根据用户的历史行为数据
关注度,分析用户喜好,实现数据推荐。该算法具有
获取用户的偏好和兴趣,在此基础上为用户推荐合
[1] 一定的准确性,但为用户推荐数据所用的时间较长 ,
适的内容和产品 。 用户偏好通常分为隐式偏好
存在数据推荐效率低的问题。
和显式偏好两种。挖掘并表示用户的偏好兴趣是数
为了解决上述算法中存在的问题,提出基于人
据周期推荐算法的核心内容。用户通过推荐算法可
工智能的多样性通用数据周期推荐算法 。
以获取多样性个性化信息,包括服饰、电影和餐饮
等,各大互联网将推荐技术作为核心技术 ,数据周期 1 基于人工智能时间序列分析的数据清洗
推荐算法不仅可以为公司带来经济收益而且可以为 人工智能是社会科学和自然科学的交叉领域,
公司提供相关决策支持,能够满足不同用户的多样 涉及控制论、神经生理学等多学科领域
[5 - 6]
。 时间
[2]
化需求 。为了将推荐技术应用到更多领域中,需 序列分析方法属于计算机人工智能学科中的一种 ,
要对数据周期推荐算法进行分析和研究 。 本文利用人工智能方法中的时间序列分析方法对多
[3]
曹占伟 等提出结合 LDA( Latent Dirichlet Al- 样性通用数据进行清洗处理。
location) 主题模型的矩阵分解推荐算法,通过 LDA 由于采集间隔的不确定性和通用数据的周期
算法获取项目—主体分布,设置主题数时将困惑度 ,
性 无法确定异常数据产生的时间 T 以及时间序列
作为修正函数,结合 KL( Kullback-Leibler) 散度和余 的参数
[7 - 8]

弦相似度构建数据的相似度矩阵,在原始数据评分 基于人工智能的多样性通用数据周期推荐算法
训练集的基础上对数据评分,并将评分结果存储到 的数据清洗具体步骤如下。
训练集中,利用 ALS( Alternating Least Square) 矩阵 ( 1) 假设异常值不存在于多样性通用数据中,
分解算法对训练集中存在的评分进行排序 ,选取评 在此背景下构建观测序列 Z t 的时间序列模型,并通
分高的数据推荐给用户完成数据推荐 。该算法能够 过下式计算初始残差 e^ t :
有效减小预测误差,但存在覆盖率低的问题。 张青

收稿日期: 2021-11-15
作者简介: 刘思佳,硕士,工程师,研究方向: 人工智能。
— 61 —
系统科学学报 第 31 卷 第 1 期

^ ( B) ∇ d
φ 对时间序列进行修正的过程中,引入噪声点的
e^ t = Z t π^ ( B) = Zt . ( 1)
θ^ ( B) 可能性较高,为了消除噪声点,所提算法利用迭代方
式中,π( B) 代表的是残差影响算子,π^ ( B) 为其对应 法对时间序列进行处理
[9 - 10]
,利用修正后残差标准
的初始值; φ ^ ( B) 代表的是逆算子; θ^ ( B) 代表的是平
差 σ 和残差 e t,IO 、e t,AO 计算统计量 T AO 、T IO ,并重复
2 t' t'
a
稳算子。 步骤 ( 4 ) ,完成异常数 据 识 别 后,停 止 迭 代。 如 果
设 σ^ a 代表的是残差方差对应的初始估计 ,可通
2
λ Tmax < C,多样性通用数据中的异常值被修复 。
过初始残差 e^ t 计算得到: ( 5) 假设完成内循环后,在 T1 ,T2 ,…,T K 时刻
n
( 1) ( 1) ( 1)
∑ e^ 2t 存在 K 个异常数据,设 ω1 ,ω2 ,…,ω K 代表的是
i =1
2
σ^ a = . ( 2) 异常数据在数据推荐过程中产生的影响,对异常数
n
( 1)
式中,n 代表的是序列数量。 据进行修正,获得时间序列 Z t 。 此时返回 ( 3) 进
( 1)
( 2) 利用干预模型对原始时间序列进行拟合处 行外循环,利 用 时 间 序 列 参 数 θ ( B) 、φ ( 1) ( B) 、
( 1)
理的前提条件是大于原始残差值且水平迁移 ; 如果 π ( B) 获得时间序列模型对应的残差 e ( 1) :
残差序列小于原始的残差值,则进行外循环。 K
e ( 1) = π ( 1) ( B) [ Z (t 1) - ∑ ( 1)
ωj ν j ( B) I t j ] .
( 1) ( T)
( 3) 通过获取的模型在外循环中对观测点对应 j =1
t t
的检验统计量 T AO 、T IO 进行计算。 ( 8)
( 1)
设置 λ Tmax = max{ | T
t
AO | ,| T | } 以及常数 C,其
t
IO 其中,ν j ( B) 代表的是异常值对应的影响因子,其
中 T max 代 表 的 是 出 现 最 大 值 时 对 应 的 时 刻,如 果 计算公式如下:

{
λ Tmax > C 表明多样性通用数据中存在异常数据,在 θ
( 1)
( B)
( 1) ( 1) IO,
内循环中对异常数据进行修正。 ν j ( B) = φ ( B) ∇ d ( 9)
( 4) 如果 λ Tmax = | T TAOmax | > C,表明在 T max 时刻多 1 AO.
样性通用数据中存在异常数据 AO,用 ω ^ AO 描述异常 ( 6) 完成外循环后,联合估计噪声点对应的时
^ AO 可通过下
数据 AO 对模型拟合过程产生的影响,ω 间序列Z t :
式计算得到: K ( 1)
( T) θ ( B)
n -T Zt = ∑ ω j ν j ( B) I t j
+ ( 1) at ( 10)
φ ( B) ∇ d
e T,AO - ∑ πi eT +i,AO j =1

^ AO =
ω
i =1
n -T . ( 3) 式中,a t 代表的是白噪声序列。 将利用上式获取的
∑ π
2
i 数据代替原始多样性通用数据,完成多样性通用数
i =0
据的清洗。
式中,e T,AO 、e T + i,AO 均代表的是拟合残差序列; π i 为
π( B) 的相应参数。 2 多样性通用数据周期推荐算法
利用下式获得序列 Z t : 基于人工智能的多样性通用数据周期推荐算
Z t = Z t - ω^ AO I (t T) . ( 4) 法,利用灰色均衡方法对数据之间的相似度进行计
( T) 算,数据在所有多样性通用数据中的活跃度和流行
式中,I t代表的是脉冲函数。
度即为数据与数据之间均衡度的总和,在用户—数
通过下式获得新残差 e t,AO :
^ AO π^ ( B) I (t T) . 据评分矩阵中,通过下式计算数据 i 与其他数据 j 之
e t,AO = e^ t - ω ( 5)
T max 间的均衡接近度总和 B i :
如果 λ Tmax = | T IO | > C,表明 Tmax 时刻的多样性 m

通用数据中存在异常数据 IO,设 ω
^ IO = eT,IO 代表的是 Bi = ∑ B ki . ( 11)
k =1
异常数据 IO 在模型拟合过程中产生的影响,其中
式中,
Bki 代表的是数据 k 与数据 i 之间的均衡接近度。
eT,IO 为残差,
通过下式修正原始数据, 获得新序列 Z t : 如果数据在均衡接近度灰关联的基础上对应的
^θ( B) 相似度求和值越高,表明可以推荐的初始多样性通
Zt = Zt - ^ I ( T) . ( 6)
^ ( B) ∇ d ω IO t
φ [11 - 12]
用数据越多,为用户分配的数据比例越高 。在
通过下式对残差进行修正,获得新残差 e t,IO : 均衡接近度灰关联基础上构建的数据 —用户有向图
^ IO I (t T) .
e t,IO = e t - ω ( 7) 如图 1 所示。
— 62 —
刘思佳等 基于人工智能的多样性通用数据周期推荐算法

值,当 Ftrust( u,ν ) 的值为 0 时,表明用户之间的信


任度极低; 当 Ftrust( u,ν ) 的值为 1 时,表明用户之
间的信任度极高,Ftrust( u,ν) 的表达式为:
m
e ji e ji Bi
Ftrust( u,ν) = ∑ .
len( m ji ) j = 1 len( u i ) len( u i )
( 15)
式中,e ji 为布尔类型; len( m ji ) 代表的是 u i 评价数据
m j 的数据权重总和。
设 pre( u,ν) 代表的是偏好对应地调整信任度,
其计算公式如下:
1
pre( u,ν) = 1 - .
图1 传统的数据—用户模型 1 + exp( -| u u - u ν | ×| s u - s ν | )
与传统方法构建数据—用二部图类似,基于均 ( 16)
衡接近度灰关联的用户—数据是根据相应的权重将 式中,s i 代表的是用户偏好。
数据关注度和数据流行度重新反馈给用户 : 在上式的基础上构建增强信任公式 :
n
Bi e ij × U i Atrust( u,ν) = Ftrust( u,ν) × pre( u,ν) . ( 17)
A ij = ∑ . ( 12)
i = 1 len( u i ) len( u i ) 在均方偏差 MSD 的基础上通过 JMSD 系数度量全
式中,A ij 代表的 是 用 户 u i 对 数 据 m j 关 注 的 总 数; 局信任,JMSD 系数 ISim uν 的计算公式如下:
len( u i ) 描述的是 u i 对数据评价的权重总和; U i 代 ISim uν = MSD uν × Jac uν . ( 18)
表的是用户集合; e ij 代表的是布尔类型。 式中,Jac uν 代表的是 Jaccard 相似性。
[13]
数据—用户有向图 重新将用户对数据的关 在 JMSD 系数 ISim uν 的基础上计算数据之间的
注度反馈给用户,如图 2 所示。 相似系数 sim( u,ν) :
ν) = λISimuν + ( 1 - λ) × Atrust uν . ( 19)
sim( u,
式中,λ 代表的是相似性系数,通过下式对数据进行
[14]
评分,选取评分高的数据为用户进行周期推荐 :

P ui =
∑ sim( u,ν) × ( r νi - rν )
. ( 20)
∑ sim( u,ν)
式中,
rνi 代表的是数据的预测评分; rν 代表的是平均值。

3 实验与分析
为了验证基于人工智能的多样性通用数据周期
推荐算法的整体有效性,将推荐算法平均绝对误差、
覆盖 率、F1 指 数 和 推 荐 时 间 作 为 实 验 指 标,在
图2 改进的数据———用户模型 MATLAB仿真软件平台上,分别采用所提算法、文献
用 f( u i ) 描述用户得到的反馈资源总和,其计算 [3]算法、文献[15]算法和文献[5]算法进行仿真对
公式如下: 比测试。
m
e ji 通过平均绝对误差 MAE 指标验证不同算法的
f( u i ) = ∑ A . ( 13)
j =1 len( m ji ) ij 推荐精度,平均绝对误差越小,表明算法的推进精度
在上述公式的基础上获得下式: 越高。平均绝对误差 MAE 的计算公式如下:
m m
e ji e ji Bi N
f( u i ) = ∑ ∑ u.
j =1 len( m ji ) j =1 len( u i ) len( u i ) i ∑
i =1
| ri - rp |
MAE = . ( 21)
( 14) N
设 Ftrust( u,ν) 代表的是在数据交互作用之后, 式中,r i 代表的是数据实际评分; r p 代表的是数据预
用户之间的直接信任值,通常情况下在[0,1]内取 测评分; N 代表的是数据集中存在的评分数量。 得
— 63 —
系统科学学报 第 31 卷 第 1 期

到所提算法、文献[3]算法、文献[15]算法和文献
[5]算法的平均绝对误差对比结果如图 3 所示。

图4 不同算法的覆盖率

图3 不同算法的平均绝对误差
根据图 3 中的数据可知,所提算法在测试过程
中,获得的平均绝对误差小于 0. 4,而文献[3]算法、
文献[15]算法和文献[5]算法的平均绝对误差在
0. 8 附近波动。 通过对比可知,所提算法的平均绝
对误差较小,表明该算法可准确地实现多样性通用
数据的周期推荐,能够有效提高推荐精度。 因为所
提算法采用工人智能技术,对多样性通用数据进行
了清洗处理,提高了数据推荐的精度。
覆盖率 RC 属于重要指标,能够有效反映推荐
算法的稳定性,其覆盖率越高,表明算法的稳定性越
好。覆盖率 RC 的计算公式如下:
图5 不同算法的 F1 指数
M
RC = . ( 22) 根据图 5 可知,当迭代次数为 400 次时,所提算
| Ω|
式中,| Ω | 代表评分在数据集内的总数量; M 代表预 法的平均 F1 指 数 为 0. 92,而 文 献[3]算 法、文 献
测评分的总数。 [15]算法 和 文 献[5]算 法 的 平 均 F1 指 数 分 别 为
对图 4 进行分析可知,所提算法的覆盖率随时 0. 50 和 0. 50。 由此可知,与文献[3]算法、文
0. 51、
间变化的波动较小,其平均覆盖率达到 92. 0% ,而 献[15]算法和文献[5]算法相比,所提算法的 F1 指
文献[3]算法、文献[15]算法和文献[5]算法的覆盖 标的数值较接近于 1,表明其在多样性通用数据周
率随时间 变 化 的 波 动 较 大,其 平 均 覆 盖 率 分 别 为 期推荐过程中的整体性能较好。
50. 0% 和 45. 4% 。 由此可知,所提算法的
46. 4% 、 推荐时间能够有效反映算法推荐效率,其推荐
覆盖率较高,表明所提算法的稳定性较好。 时间越短,算法推荐效率越高。 采用上述算法在不
通过 F1 指标对所提算法、文献[3]算法和文献 同数据集下对用户进行数据推荐,对比不同算法的
[15]算法的总体性能进行评估,其 F1 指标的数值 推荐时间,测试结果如表 1 所示。
越接近于 1,表明算法的总体性能越好。F1 指标的 表1 不同算法的推荐时间

计算公式如下: 推荐时间 / s
数据量
2 × precision × RC 文献[3] 文献[15] 文献[5]
F1 = . ( 23) / MB 所提算法
precision + RC 算法 算法 算法
100 2. 94 5. 67 9. 56 12. 9
式中,
precision 代表的是精度, 可通过下式计算得到:
200 4. 87 9. 48 12. 4 15. 4
MAE
precision = 1 - . ( 24) 300 6. 92 12. 6 19. 7 22. 9
r max - r min
400 9. 12 15. 9 23. 4 25. 9
式中,r min 代表的是最低评分值; r max 代表的是最高评 500 12. 6 22. 4 26. 9 29. 7
分值。不同算法的 F1 指数如图 5 所示。
— 64 —
刘思佳等 基于人工智能的多样性通用数据周期推荐算法

根据表 1 中的数据可知,
随着多样性通用数据量 研究, 36( 6) : 1638-1642.
2019,
[4]张青博,王斌,崔宁宁,等. 基于注意力机制的规范化矩阵分解推
的增加,
不同算法的推荐时间随之增大。当多样性通
荐算法[J]. 软件学报, 31( 3) : 778-793.
2020,
用数据量为 500 MB 时,所提算法的推荐时间为 12. 6
[5]沈一民,何涵,曹培森,等. 基于人工智能代理的电力负荷态势感
而文献[3]算法、文献[15]算法和文献[5]算法的
s, 知及调控方法研究[J]. 电子设计工程, 29( 9) : 112-115.
2021,
26. 9 s 和 29. 7 s。由此可知,
推荐时间分别为 22. 4 s、 [6]王刊良,张楠,胡鹏,等. 大数据、人工智能与管理信息系统研究
所提算法可在较短时间内完成多样性通用数据的周 专栏介绍[J]. 管理科学, 33( 1) : 1-2.
2020,
[7]时珉,尹瑞,胡傲宇,等. 基于滑动标准差计算的光伏阵列异常数
期推荐,表明算法的推荐效率高。
据清洗办法[J]. 电力系统保护与控制, 48( 6) : 108-114.
2020,
结束语 [8]孙源. 基于 Word2Vec 的 SCI 地址字段数据清洗方法研究[J]. 情
报杂志, 38( 2) : 195-200.
2019,
网络中的数据在互联网不断普及的背景下急速 [9]王浩然,周强. 基于全变分模型和高斯曲率滤波的红外图像条纹
增长,
很多大型网站在此背景下的日均访问量呈直线 噪声去除算法[J]. 激光杂志, 40( 10) : 86-89.
2019,
上升。用户在大量冗余数据中无法在短时间内获取 [10]王满利,田子建,桂伟峰,等. 基于高斯曲率优化和非下采样剪

自己所需的数据,
增加网站负担的同时降低了用户满 切波变换的高密度混合噪声去除算法[J]. 光子学报,2019,48
( 9) : 211-226.
意度,
为了解决上述问题提出了数据推荐算法,根据
[11]季小雨,
姚育楠,
曾智. 基于灰色关联度分析方法的江苏省个人卫
用户的评分信息、评论信息和购买记录等信息,推荐
生支出影响因素研究[J]. 中国卫生经济, 39( 11) : 40-43.
2020,
相关内容。目前数据周期推荐算法存在平均绝对误 [12]陆煜锌,方彦军. 基于改进灰色关联的异构网络任务调度仿真
差高、
覆盖率低、F1 指数低和推荐效率低的问题。提 [J]. 计算机仿真, 37( 10) : 398-402.
2020,
出基于人工智能的多样性通用数据周期推荐算法,解 [13]田立亭,程林,李荣,等. 基于加权有向图的园区综合能源系统
多场景能效评价方法[J]. 中国电机工程学报,2019,39 ( 22 ) :
决了上述问题,
为各大网站的发展奠定了基础。
6471-6483.
参考文献
[14]马芳珍,别立谦,李晓东. 重新审视读者自主荐购对资源建设的
[1]胡恒德,袁景凌,陈旻骋,等. 一种预填补社团聚类的兴趣点推荐
多重价值: 基于北京大学图书馆读者推荐数据的分析[J]. 大学
算法[J]. 小型微型计算机系统, 40( 2) : 305-309.
2019,
图书馆学报, 38( 1) : 57-62.
2020,
[2]刘真,田靖玉,苑宝鑫,等. 基于知识聚合和迁移的跨领域推荐算
[15]吴宾,娄铮铮,叶阳东. 一种面向多源异构数据的协同过滤推荐
法[J]. 电子学报, 48( 10) : 1928-1932.
2020,
算法[J]. 计算机研究与发展, 56( 5) : 1034-1047.
2019,
[3]曹占伟,胡晓鹏. 一种结合主题模型的推荐算法[J]. 计算机应用

Artificial Intelligence-based Diversity General


Data Cycle Recommendation Algorithm
LIU Si-jia1 ,HUANG Hai2
( 1. China Ship Development and Design Center,Wuhan 430064,China;
2. School of Marxism Studies,Xuchang University,Xuchang 461000,China)
Abstract: At present,the algorithm does not consider cleaning the data when recommending diversi-
fied general data for users,resulting in low precision,efficiency and poor stability. Therefore,a diversi-
fied general data cycle recommendation algorithm based on artificial intelligence is proposed. The artifi-
cial intelligence time series analysis method is used to classify the abnormal data in the diversity general
data,analyze the influence of various abnormal values on the time series model,and clean the diversity
general data. Using the balanced proximity grey correlation method,the paper calculates the similarity
between datas,constructs the user’s enhanced bipartite graph direct trust mechanism,score the diversi-
fied general data by using the jmsd correlation coefficient,and select the data with higher score to recom-
mend to the user,so as to realize the periodic recommendation of diversified general data. Experimental
results show that the proposed algorithm has good stability and small average absolute error,and can ef-
fectively improve the accuracy and efficiency of diversified general data cycle recommendation.
Key words: artificial intelligence; diversified general data; time series analysis; balanced proximity
grey correlation method; data cycle recommendation

— 65 —

You might also like