Professional Documents
Culture Documents
基于人工智能的多样性通用数据周期推荐算法 刘思佳
基于人工智能的多样性通用数据周期推荐算法 刘思佳
基于人工智能的多样性通用数据周期推荐算法
1 2
刘思佳 ,黄 海
( 1. 中国舰船研究设计中心,湖北 武汉 430064; 2. 许昌学院 马克思主义学院,河南 许昌 461000)
摘 要: 由于目前算法为用户推荐多样性通用数据时,未考虑对数据进行清洗处理,导致多样
性通用数据周期推荐精度和效率较低,稳定性较差,为此,提出基于人工智能的多样性通用数据周
期推荐算法。采用人工智能时间序列分析方法,分类多样性通用数据中存在的异常数据,分析了时
间序列模型受各类异常值的影响,对多样性通用数据进行清洗。运用均衡接近度灰关联方法,计算
数据之间的相似度,构建用户的增强二部图直接信任机制,利用 JMSD 相关系数对多样性通用数据
进行评分,选取评分较高的数据推荐给用户,实现多样性通用数据的周期推荐。实验结果表明,所
提算法的稳定性较好,平均绝对误差较小,能够有效提高多样性通用数据周期推荐精度和效率。
关键词: 人工智能; 多样性通用数据; 时间序列分析; 均衡接近度灰关联方法; 数据周期推荐
中图分类号: N949; TP301. 6 文献标识码: A 文章编号: 1005-6408( 2023) 01-0061-05
[4]
引言 博 等根据用户历史评分数据建立用户 —数据的
异构网络,根据构建的网络获取数据的相似性 ,结合
在机器学习领域中数据周期推荐算法属于重要
矩阵分解算法和注意力机制获取用户对不同数据的
研究内容,其主要目的是根据用户的历史行为数据
关注度,分析用户喜好,实现数据推荐。该算法具有
获取用户的偏好和兴趣,在此基础上为用户推荐合
[1] 一定的准确性,但为用户推荐数据所用的时间较长 ,
适的内容和产品 。 用户偏好通常分为隐式偏好
存在数据推荐效率低的问题。
和显式偏好两种。挖掘并表示用户的偏好兴趣是数
为了解决上述算法中存在的问题,提出基于人
据周期推荐算法的核心内容。用户通过推荐算法可
工智能的多样性通用数据周期推荐算法 。
以获取多样性个性化信息,包括服饰、电影和餐饮
等,各大互联网将推荐技术作为核心技术 ,数据周期 1 基于人工智能时间序列分析的数据清洗
推荐算法不仅可以为公司带来经济收益而且可以为 人工智能是社会科学和自然科学的交叉领域,
公司提供相关决策支持,能够满足不同用户的多样 涉及控制论、神经生理学等多学科领域
[5 - 6]
。 时间
[2]
化需求 。为了将推荐技术应用到更多领域中,需 序列分析方法属于计算机人工智能学科中的一种 ,
要对数据周期推荐算法进行分析和研究 。 本文利用人工智能方法中的时间序列分析方法对多
[3]
曹占伟 等提出结合 LDA( Latent Dirichlet Al- 样性通用数据进行清洗处理。
location) 主题模型的矩阵分解推荐算法,通过 LDA 由于采集间隔的不确定性和通用数据的周期
算法获取项目—主体分布,设置主题数时将困惑度 ,
性 无法确定异常数据产生的时间 T 以及时间序列
作为修正函数,结合 KL( Kullback-Leibler) 散度和余 的参数
[7 - 8]
。
弦相似度构建数据的相似度矩阵,在原始数据评分 基于人工智能的多样性通用数据周期推荐算法
训练集的基础上对数据评分,并将评分结果存储到 的数据清洗具体步骤如下。
训练集中,利用 ALS( Alternating Least Square) 矩阵 ( 1) 假设异常值不存在于多样性通用数据中,
分解算法对训练集中存在的评分进行排序 ,选取评 在此背景下构建观测序列 Z t 的时间序列模型,并通
分高的数据推荐给用户完成数据推荐 。该算法能够 过下式计算初始残差 e^ t :
有效减小预测误差,但存在覆盖率低的问题。 张青
收稿日期: 2021-11-15
作者简介: 刘思佳,硕士,工程师,研究方向: 人工智能。
— 61 —
系统科学学报 第 31 卷 第 1 期
^ ( B) ∇ d
φ 对时间序列进行修正的过程中,引入噪声点的
e^ t = Z t π^ ( B) = Zt . ( 1)
θ^ ( B) 可能性较高,为了消除噪声点,所提算法利用迭代方
式中,π( B) 代表的是残差影响算子,π^ ( B) 为其对应 法对时间序列进行处理
[9 - 10]
,利用修正后残差标准
的初始值; φ ^ ( B) 代表的是逆算子; θ^ ( B) 代表的是平
差 σ 和残差 e t,IO 、e t,AO 计算统计量 T AO 、T IO ,并重复
2 t' t'
a
稳算子。 步骤 ( 4 ) ,完成异常数 据 识 别 后,停 止 迭 代。 如 果
设 σ^ a 代表的是残差方差对应的初始估计 ,可通
2
λ Tmax < C,多样性通用数据中的异常值被修复 。
过初始残差 e^ t 计算得到: ( 5) 假设完成内循环后,在 T1 ,T2 ,…,T K 时刻
n
( 1) ( 1) ( 1)
∑ e^ 2t 存在 K 个异常数据,设 ω1 ,ω2 ,…,ω K 代表的是
i =1
2
σ^ a = . ( 2) 异常数据在数据推荐过程中产生的影响,对异常数
n
( 1)
式中,n 代表的是序列数量。 据进行修正,获得时间序列 Z t 。 此时返回 ( 3) 进
( 1)
( 2) 利用干预模型对原始时间序列进行拟合处 行外循环,利 用 时 间 序 列 参 数 θ ( B) 、φ ( 1) ( B) 、
( 1)
理的前提条件是大于原始残差值且水平迁移 ; 如果 π ( B) 获得时间序列模型对应的残差 e ( 1) :
残差序列小于原始的残差值,则进行外循环。 K
e ( 1) = π ( 1) ( B) [ Z (t 1) - ∑ ( 1)
ωj ν j ( B) I t j ] .
( 1) ( T)
( 3) 通过获取的模型在外循环中对观测点对应 j =1
t t
的检验统计量 T AO 、T IO 进行计算。 ( 8)
( 1)
设置 λ Tmax = max{ | T
t
AO | ,| T | } 以及常数 C,其
t
IO 其中,ν j ( B) 代表的是异常值对应的影响因子,其
中 T max 代 表 的 是 出 现 最 大 值 时 对 应 的 时 刻,如 果 计算公式如下:
{
λ Tmax > C 表明多样性通用数据中存在异常数据,在 θ
( 1)
( B)
( 1) ( 1) IO,
内循环中对异常数据进行修正。 ν j ( B) = φ ( B) ∇ d ( 9)
( 4) 如果 λ Tmax = | T TAOmax | > C,表明在 T max 时刻多 1 AO.
样性通用数据中存在异常数据 AO,用 ω ^ AO 描述异常 ( 6) 完成外循环后,联合估计噪声点对应的时
^ AO 可通过下
数据 AO 对模型拟合过程产生的影响,ω 间序列Z t :
式计算得到: K ( 1)
( T) θ ( B)
n -T Zt = ∑ ω j ν j ( B) I t j
+ ( 1) at ( 10)
φ ( B) ∇ d
e T,AO - ∑ πi eT +i,AO j =1
^ AO =
ω
i =1
n -T . ( 3) 式中,a t 代表的是白噪声序列。 将利用上式获取的
∑ π
2
i 数据代替原始多样性通用数据,完成多样性通用数
i =0
据的清洗。
式中,e T,AO 、e T + i,AO 均代表的是拟合残差序列; π i 为
π( B) 的相应参数。 2 多样性通用数据周期推荐算法
利用下式获得序列 Z t : 基于人工智能的多样性通用数据周期推荐算
Z t = Z t - ω^ AO I (t T) . ( 4) 法,利用灰色均衡方法对数据之间的相似度进行计
( T) 算,数据在所有多样性通用数据中的活跃度和流行
式中,I t代表的是脉冲函数。
度即为数据与数据之间均衡度的总和,在用户—数
通过下式获得新残差 e t,AO :
^ AO π^ ( B) I (t T) . 据评分矩阵中,通过下式计算数据 i 与其他数据 j 之
e t,AO = e^ t - ω ( 5)
T max 间的均衡接近度总和 B i :
如果 λ Tmax = | T IO | > C,表明 Tmax 时刻的多样性 m
通用数据中存在异常数据 IO,设 ω
^ IO = eT,IO 代表的是 Bi = ∑ B ki . ( 11)
k =1
异常数据 IO 在模型拟合过程中产生的影响,其中
式中,
Bki 代表的是数据 k 与数据 i 之间的均衡接近度。
eT,IO 为残差,
通过下式修正原始数据, 获得新序列 Z t : 如果数据在均衡接近度灰关联的基础上对应的
^θ( B) 相似度求和值越高,表明可以推荐的初始多样性通
Zt = Zt - ^ I ( T) . ( 6)
^ ( B) ∇ d ω IO t
φ [11 - 12]
用数据越多,为用户分配的数据比例越高 。在
通过下式对残差进行修正,获得新残差 e t,IO : 均衡接近度灰关联基础上构建的数据 —用户有向图
^ IO I (t T) .
e t,IO = e t - ω ( 7) 如图 1 所示。
— 62 —
刘思佳等 基于人工智能的多样性通用数据周期推荐算法
P ui =
∑ sim( u,ν) × ( r νi - rν )
. ( 20)
∑ sim( u,ν)
式中,
rνi 代表的是数据的预测评分; rν 代表的是平均值。
3 实验与分析
为了验证基于人工智能的多样性通用数据周期
推荐算法的整体有效性,将推荐算法平均绝对误差、
覆盖 率、F1 指 数 和 推 荐 时 间 作 为 实 验 指 标,在
图2 改进的数据———用户模型 MATLAB仿真软件平台上,分别采用所提算法、文献
用 f( u i ) 描述用户得到的反馈资源总和,其计算 [3]算法、文献[15]算法和文献[5]算法进行仿真对
公式如下: 比测试。
m
e ji 通过平均绝对误差 MAE 指标验证不同算法的
f( u i ) = ∑ A . ( 13)
j =1 len( m ji ) ij 推荐精度,平均绝对误差越小,表明算法的推进精度
在上述公式的基础上获得下式: 越高。平均绝对误差 MAE 的计算公式如下:
m m
e ji e ji Bi N
f( u i ) = ∑ ∑ u.
j =1 len( m ji ) j =1 len( u i ) len( u i ) i ∑
i =1
| ri - rp |
MAE = . ( 21)
( 14) N
设 Ftrust( u,ν) 代表的是在数据交互作用之后, 式中,r i 代表的是数据实际评分; r p 代表的是数据预
用户之间的直接信任值,通常情况下在[0,1]内取 测评分; N 代表的是数据集中存在的评分数量。 得
— 63 —
系统科学学报 第 31 卷 第 1 期
到所提算法、文献[3]算法、文献[15]算法和文献
[5]算法的平均绝对误差对比结果如图 3 所示。
图4 不同算法的覆盖率
图3 不同算法的平均绝对误差
根据图 3 中的数据可知,所提算法在测试过程
中,获得的平均绝对误差小于 0. 4,而文献[3]算法、
文献[15]算法和文献[5]算法的平均绝对误差在
0. 8 附近波动。 通过对比可知,所提算法的平均绝
对误差较小,表明该算法可准确地实现多样性通用
数据的周期推荐,能够有效提高推荐精度。 因为所
提算法采用工人智能技术,对多样性通用数据进行
了清洗处理,提高了数据推荐的精度。
覆盖率 RC 属于重要指标,能够有效反映推荐
算法的稳定性,其覆盖率越高,表明算法的稳定性越
好。覆盖率 RC 的计算公式如下:
图5 不同算法的 F1 指数
M
RC = . ( 22) 根据图 5 可知,当迭代次数为 400 次时,所提算
| Ω|
式中,| Ω | 代表评分在数据集内的总数量; M 代表预 法的平均 F1 指 数 为 0. 92,而 文 献[3]算 法、文 献
测评分的总数。 [15]算法 和 文 献[5]算 法 的 平 均 F1 指 数 分 别 为
对图 4 进行分析可知,所提算法的覆盖率随时 0. 50 和 0. 50。 由此可知,与文献[3]算法、文
0. 51、
间变化的波动较小,其平均覆盖率达到 92. 0% ,而 献[15]算法和文献[5]算法相比,所提算法的 F1 指
文献[3]算法、文献[15]算法和文献[5]算法的覆盖 标的数值较接近于 1,表明其在多样性通用数据周
率随时间 变 化 的 波 动 较 大,其 平 均 覆 盖 率 分 别 为 期推荐过程中的整体性能较好。
50. 0% 和 45. 4% 。 由此可知,所提算法的
46. 4% 、 推荐时间能够有效反映算法推荐效率,其推荐
覆盖率较高,表明所提算法的稳定性较好。 时间越短,算法推荐效率越高。 采用上述算法在不
通过 F1 指标对所提算法、文献[3]算法和文献 同数据集下对用户进行数据推荐,对比不同算法的
[15]算法的总体性能进行评估,其 F1 指标的数值 推荐时间,测试结果如表 1 所示。
越接近于 1,表明算法的总体性能越好。F1 指标的 表1 不同算法的推荐时间
计算公式如下: 推荐时间 / s
数据量
2 × precision × RC 文献[3] 文献[15] 文献[5]
F1 = . ( 23) / MB 所提算法
precision + RC 算法 算法 算法
100 2. 94 5. 67 9. 56 12. 9
式中,
precision 代表的是精度, 可通过下式计算得到:
200 4. 87 9. 48 12. 4 15. 4
MAE
precision = 1 - . ( 24) 300 6. 92 12. 6 19. 7 22. 9
r max - r min
400 9. 12 15. 9 23. 4 25. 9
式中,r min 代表的是最低评分值; r max 代表的是最高评 500 12. 6 22. 4 26. 9 29. 7
分值。不同算法的 F1 指数如图 5 所示。
— 64 —
刘思佳等 基于人工智能的多样性通用数据周期推荐算法
根据表 1 中的数据可知,
随着多样性通用数据量 研究, 36( 6) : 1638-1642.
2019,
[4]张青博,王斌,崔宁宁,等. 基于注意力机制的规范化矩阵分解推
的增加,
不同算法的推荐时间随之增大。当多样性通
荐算法[J]. 软件学报, 31( 3) : 778-793.
2020,
用数据量为 500 MB 时,所提算法的推荐时间为 12. 6
[5]沈一民,何涵,曹培森,等. 基于人工智能代理的电力负荷态势感
而文献[3]算法、文献[15]算法和文献[5]算法的
s, 知及调控方法研究[J]. 电子设计工程, 29( 9) : 112-115.
2021,
26. 9 s 和 29. 7 s。由此可知,
推荐时间分别为 22. 4 s、 [6]王刊良,张楠,胡鹏,等. 大数据、人工智能与管理信息系统研究
所提算法可在较短时间内完成多样性通用数据的周 专栏介绍[J]. 管理科学, 33( 1) : 1-2.
2020,
[7]时珉,尹瑞,胡傲宇,等. 基于滑动标准差计算的光伏阵列异常数
期推荐,表明算法的推荐效率高。
据清洗办法[J]. 电力系统保护与控制, 48( 6) : 108-114.
2020,
结束语 [8]孙源. 基于 Word2Vec 的 SCI 地址字段数据清洗方法研究[J]. 情
报杂志, 38( 2) : 195-200.
2019,
网络中的数据在互联网不断普及的背景下急速 [9]王浩然,周强. 基于全变分模型和高斯曲率滤波的红外图像条纹
增长,
很多大型网站在此背景下的日均访问量呈直线 噪声去除算法[J]. 激光杂志, 40( 10) : 86-89.
2019,
上升。用户在大量冗余数据中无法在短时间内获取 [10]王满利,田子建,桂伟峰,等. 基于高斯曲率优化和非下采样剪
自己所需的数据,
增加网站负担的同时降低了用户满 切波变换的高密度混合噪声去除算法[J]. 光子学报,2019,48
( 9) : 211-226.
意度,
为了解决上述问题提出了数据推荐算法,根据
[11]季小雨,
姚育楠,
曾智. 基于灰色关联度分析方法的江苏省个人卫
用户的评分信息、评论信息和购买记录等信息,推荐
生支出影响因素研究[J]. 中国卫生经济, 39( 11) : 40-43.
2020,
相关内容。目前数据周期推荐算法存在平均绝对误 [12]陆煜锌,方彦军. 基于改进灰色关联的异构网络任务调度仿真
差高、
覆盖率低、F1 指数低和推荐效率低的问题。提 [J]. 计算机仿真, 37( 10) : 398-402.
2020,
出基于人工智能的多样性通用数据周期推荐算法,解 [13]田立亭,程林,李荣,等. 基于加权有向图的园区综合能源系统
多场景能效评价方法[J]. 中国电机工程学报,2019,39 ( 22 ) :
决了上述问题,
为各大网站的发展奠定了基础。
6471-6483.
参考文献
[14]马芳珍,别立谦,李晓东. 重新审视读者自主荐购对资源建设的
[1]胡恒德,袁景凌,陈旻骋,等. 一种预填补社团聚类的兴趣点推荐
多重价值: 基于北京大学图书馆读者推荐数据的分析[J]. 大学
算法[J]. 小型微型计算机系统, 40( 2) : 305-309.
2019,
图书馆学报, 38( 1) : 57-62.
2020,
[2]刘真,田靖玉,苑宝鑫,等. 基于知识聚合和迁移的跨领域推荐算
[15]吴宾,娄铮铮,叶阳东. 一种面向多源异构数据的协同过滤推荐
法[J]. 电子学报, 48( 10) : 1928-1932.
2020,
算法[J]. 计算机研究与发展, 56( 5) : 1034-1047.
2019,
[3]曹占伟,胡晓鹏. 一种结合主题模型的推荐算法[J]. 计算机应用
— 65 —