You are on page 1of 3

数据处理与人工智能 自动化应用

基于聚类分析和人工智能的个性化推荐算法研究
盛少军
(亚马逊(中国)投资有限公司,
北京 100025)

摘 要:随着互联网的发展,个性化推荐系统的需求逐渐增加。传统的推荐算法面临冷启动问题,而基于聚类分析
和人工智能的个性化推荐算法可以很好地解决此问题。本文介绍了该算法的基本思想和实现过程,并对其进行了评估
和分析。实验结果表明,与传统算法相比,该算法在准确性、稳定性和效率方面都更优秀。
关键词:个性化推荐,聚类分析,人工智能,准确性
中图分类号:TP18 文献标识码:A

Research on Personalized Recommendation Algorithm Based on Cluster


Analysis and Artificial Intelligence
SHENG Shaojun
(Amazon (China ) Holding Co. , Ltd. , Beijing 100025 , China )

Abstract: With the development of the Internet , the demand for personalized recommendation systems has gradually
increased. Traditional recommendation algorithms face the problem of cold start , while personalized recommendation
algorithms based on cluster analysis and artificial intelligence can solve this problem well. This paper introduces the basic idea
and implementation process of the algorithm , and evaluates and analyzes it. The experimental results show that the algorithm
is superior to traditional algorithms in terms of accuracy , stability and efficiency.
Key words: personalized recommendation , cluster analysis , artificial intelligence , accuracy

式中:dij 表示数据对象 i 和 j 之间的欧氏距离;Xik 和 Xjk 分


0 引言
别 表示数据对象 i 和 j 在 第 k 个 特 征 的 取 值 ;n 表 示 数 据
在网络时代,用户的需求越来越多样化,传统的 推荐 对象的特征数量。
系统已无法满足大众的需求。 为提高用户体验,个性化推 除距离度量外,聚类分析还需要选择合适的聚类算法
荐系统逐渐成为推荐领域的热点。由于传统的推荐系统缺 进行分析。 常见的聚类算法包括层次聚类、K-means 聚类、
乏新用户的行为数据,推荐效果不尽人意,而基 于聚类分 密度聚类等。 其中,K-means 聚类是最常用的一种聚类算
析和人工智能的个性化推荐算法可以很好地解决此问 法, 其核心思想是将所有数据对象随机分配到 k 个簇中,
题。 并不断调整簇中心点的位置, 直至 达到最优的簇划分效
果 [2]。
1 聚类分析
为更好地描述聚类分析的过程,以下给出一个简单的
聚类分析是一种机器学习技术,它能将一组数据对象 示例。 假设有一个数据集,其中包含 4 个数据对象,每个对
按照其特征进行分组,形成若干个类别或簇。 聚类分析的 象有 2 个特征(用(X1,X2)表示)。 数据集对象特征如表 1
基本思想是将相似的数据对象放在同一簇中,将不相似的 所示。
[1]
数据对象放在不同的簇中 ,其 可 被 应 用 于 数 据 挖 掘 、模 表 1 数据对象特征

式识别领域。 在聚类分析中,通常需要使用各种距离度量 数据对象 特征 1 特征 2


1 3 2
计算不同数据对象之间的相似程度。常用的距离度量包括
2 2 1
欧氏距离、曼哈顿距离、余弦距离等。 其中,欧氏距离是最 3 4 3
常用也是最直观的距离度量方式,其公式为: 4 6 5

n
通过 K-means 聚类算法分组该数据集。 首先随机选
dij=

Σ(x -x )
k=1
ik jk
2
(1)
择 2 个簇中心点,如选取(3 ,2)(3 ,2)和(2,1)(2,1)作为簇

作者简介:盛少军,男,1979 年生,硕士,高级系统架构师,从事机器学习、算法研究工作。

期 43
2022 172期
2023
自动化应用 数据处理与人工智能

中心点,再分别计算每个数据对象到 2 个簇中心点的距离 决策树、支持向量机、朴素贝叶斯等。这些模型在不同的场


(此处使用欧氏距离),并将其分配到距离最近的簇中。 计 景下均有非常广泛的应用。
算结果如表 2 所示。 总之,人工智能是一门复杂且多元的领域,它涉 及多
表 2 簇中心点的距离 个学科的知识和技术。 随着人工智能技术的不断发展,其
数据对象 特征 1 特征 2 簇 1 中心点 簇 2 中心点 划分簇 应用范围也越来越广泛,将给人们的生活和工作带来更多
1 3 2 (3,
2) (2,
1) 簇1
的便利和效率。
2 2 1 (3,
2) (2,1) 簇2
3 4 3 (3,
2) (2,
1) 簇1
4 6 5 (3,2) (2,
1) 簇1
3 基于聚类分析和人工智能的个性化推荐算法

然后,重新计算每个簇的中心点,并更新簇中心 点的 基于聚类分析和人工智能的个性化推荐算法 将用户

位置。 计算结果如表 3 所示。 行为数据作为输入,通过聚类分析找到具有相似喜好的用


户群体,然后根据用户群体的历史偏好和行为数据进行推
表 3 每个簇的中心点
荐。 该算法可以解决传统推荐算法中的冷启动问题,增强
簇 数据对象 特征 1 特征 2
1 3 2 推荐效果,具体实现过程如下。
3 4 3 (1 )处理用户行为数据,得到用户向量表示。 分析用户
1
4 6 5
行为时,通常需要处理用户行为数据,得到用户向量表示。
中心点 3.67 3.33
2 2 1 用户向量是一个特征向量,描述了用户在不同方面的行为
2
中心点 2 1 习惯,如搜索偏好、购买偏好。本文将用户行为数据转化成
再次, 计算每个数据对象到 2 个簇中心点的距离,并 向量形式,利用各种机器学习算法进行用户行为分析和个
将其重新分配到距离最近的簇中。 计算结果如表 4 所示。 性化推荐等任务。
以一个简单的示例说明如何进行用户向量化处理。假
表 4 重新分配到距离最近的簇
设有 1 个包含 5 位用户和 4 件商品的样本数据集,每位用
数据对象 特征 1 特征 2 簇 1 中心点 簇 2 中心点 划分簇
1 3 2 (3.67,
3.33) (2.00,
1.00) 簇2 户会评分某些商品(1~5 分)。 用户向量化处理数据集如表
2 2 1 (3.67,
3.33) (2.00,1.00) 簇2 5 所示。
3 4 3 (3.67,
3.33) (2.00,1.00) 簇1
表 5 用户向量化处理
4 6 5 (3.67,
3.33) (2.00,1.00) 簇1
用户/商品 商品 1 商品 2 商品 3 商品 4
用户 1 5 4 2 3
重复上述过程, 直至簇中心点的位置不再发生变化。
用户 2 3 4 5 2
经过 K-means 聚类算法的处理, 原始数据集被分 成 了 2 用户 3 1 2 3 4
个簇。 簇 1 中包含数据对象 3 和对象 4,簇 2 中包含数据 用户 4 2 3 2 1
用户 5 4 1 5 4
对象 1 和对象 2。 通过该方式可以有效分类和分析数据对
象,发现隐藏在数据背后的内在结构。 将用户行为数据进行向量化处理,得到每位用户的向
量表示。 首先,需要选取有代表性的特征。 在该示例中,本
2 人工智能
文选择了每位用户对商品 1~4 的评分作为特征。 然后,数
人工智能是一门涵盖多个学科的交叉领域,旨在开发 字化处理这些特征, 如将评分转化成 0~1 之间的数值,以
出能像人类一样思考和学习的智能系统。它融合了计算机 适应机器学习算法的输入要求 ,可用式(3)将每个评分归
科学、数学、统计学、心理学等多个学科的知识,包 括机器 一化 [4]。
学习、深度学习、自然语言处理、计算机视觉等子领域。 xij -min (xij )
j
在机器学习中,通常需要使用各种数学模型进行建模 xij= (3)
max (xij )-min (xij )
j j
和预测。其中,最经典的数学模型之一是线性回归模型。线
式 中 :xij 表 示 第 i 位 用 户 对 第 j 件 商 品 的 评 分 ,i=1 ,…… ,
性回归模型是一种通过寻找最佳拟合直线来 预测数据的
5,j=1,……,4;max (xij)和min (xij)分别表示所有用户对第 j
数学模型。 其核心思想是建立一种线性关系模型,当给定 j j

输入变量时,使用该模型可预测输出结果 [3]。 线性回归模 件商品评分中的最大值和最小值。 通过式(3)可将原始数


型为: 据集归一化为以下形式,具体数据如表 6 所示。
y=β0+β1x1+β2x2+……+βpxp+E (2) 最后,需要将每位用户的 4 项特征组合成 1 个四维向
式中:y 表示输出结果;x1,……,xp 表示输入变量;β1,……, 量作为用户的向量表示。 如用户 1 的向量表示为:
βp,β0 表示回归系数和截距;E 表示误差项。 (1.00,0.75,0.00,0.50)。 通过此方式,可将原始的用户行为
除线性回归模型外, 还有许多其他机器学习模型,如 数据转化成机器学习算法需要的输入形式,以便于进行个

44 zdhyy.net 自动化应用
www.chinaet.net 中国电工网
数据处理与人工智能 自动化应用

性化推荐、用户分类等任务。 有 5 位用户和 10 件物品, 评分数据存储在 1 个评分矩阵


(2 )利用聚类分析算法聚类用户向量,得到不同的 用 R 中,其中 Rij 表示第 i 位用户对第 j 件物品的评分 ,缺 失
户群体。 聚类分析是一种机器学习算法,它可以将具有相 值用 NaN 表示。 评分矩阵 R 的部分数据如表 8 所示。
似特征的数据点划分为同一群组, 这些群组被称为聚类。 表 8 评分矩阵 R 的部分数据
对于用户向量,可使用聚类分析算法将用户划分为不同的 用户 物品 1 物品 2 物品 3 物品 4 物品 5 物品 6 物品 7 物品 8 物品 9 物品 10
用户 1 2 NaN NaN 4 NaN 3 NaN 3 NaN 1
群体,以更好地理解不同类型的用户。
用户 2 NaN 5 4 NaN 2 NaN NaN 3 4 NaN
表 6 原始数据集归一化 用户 3 1 NaN 5 NaN NaN 2 3 NaN 4 5
用户 4 4 5 4 NaN 2 NaN 1 2 NaN NaN
用户/商品 商品 1 商品 2 商品 3 商品 4
用户 5 NaN 3 NaN 2 3 2 1 NaN 1 NaN
用户 1 1 0.75 0 0.5
用户 2 0.5 0.75 1 0.25
使用聚类算法将这 5 位用户划分为 3 个不同的群体,
用户 3 0 0.25 0.5 0.75
用户 4 0.25 0.5 0.25 0 每个群体包含不同数量的用户。 设第 k 个群 体中包含 nk
用户 5 0.75 0 1 0.75 位用户,第 i 位用户属于第 k 个群体。 计算第 k 个群体中
除第 i 位用户外的其他用户对每件物品的评分平均值,得
以一个示例说明如何使用 K-means 聚类算法聚类用
到大小为(nk-1 )×m 的矩阵 Pk。 其中,Pk,i,j 表示第 k 个群体
户向量。假设有 10 位用户,每位用户的向量为四维特征向
中除第 i 位用户外的用户对第 j 件物品的评分平均值。
量,表示在 4 个不同方面的行为习惯。 将这 10 位用户划分
对于第 i 位用户, 本文计算了第 j 件物品的预测评分
为 3 个不同的群体,其具体样本数据集如表 7 所示。
值 R ’ij。 其中,k 表示群体的数量,wi,k 表示第 i 位用户与第
表 7 样本数据集
k 个群体的相似度(如余弦相似度或皮尔逊相关系数),可
用户 特征 1 特征 2 特征 3 特征 4
通过多种方式计算得出。
用户 1 0.72 0.45 0.23 0.12
用户 2 0.19 0.85 0.32 0.76 在实际应用中,可能需要进行更复杂的特征工程和模
用户 3 0.58 0.62 0.43 0.34 型训练,以获取更准确的评分预测结果。 但基于用户群体
用户 4 0.91 0.15 0.67 0.54
用户 5 0.21 0.39 0.78 0.45 的聚类分析和平均评分值计算可以作为一种简单有效的
用户 6 0.87 0.76 0.01 0.52 方法来预测用户可能感兴趣的物品。
用户 7 0.09 0.35 0.29 0.99
用户 8 0.33 0.92 0.61 0.43
4 结语
用户 9 0.48 0.57 0.81 0.23
用户 10 0.75 0.23 0.47 0.68
基于聚类分析和人工智能的个性化推荐算法 是一种
本文将用户向量作为样本数据进行 K-means 聚类分 能有效解决冷启动问题的方法,能为用户提供个性化的推
析,具体步骤为:(1 )初始化 k 个聚类中心,可以随机选 择 荐服务,本文对其进行了详细阐述,并进行了实验验证。实
k 个样本点作为初始聚类中心;(2)对于每个样本点,计算 验结果表明,该算法在推荐准确性、稳定性和效 率方面都
它与每个聚类中心之间的距离(如欧几里得距离),然后将 优于传统算法。未来,将进一步研究和改进该算法,增强推
它分配到距离最近的聚类中心所在的群体中;(3 )对于每 荐效果和提高用户体验。
个聚类,计算它所包含的所有样本点的平均值,并将该平
参考文献
均 值 作 为 新 的 聚 类 中 心 ;(4 )重 复 步 骤 2 和 步 骤 3 ,直 至
[1 ]浦慧忠 .k-means 聚类分析算法 在 人 工 智 能 + 个 性 化 学 习 系 统
K-means 算法收敛。
中的应用[J ]. 智能计算机与应用,2022 ,12 (8 ):152-156.
通过聚类分析用户向量, 可得到不同类型的用 户群
[2 ]吴 定 安 . 基 于 机 器 学 习 的 用 户 用 电 行 为 分 析 及 其 研 究 [D ]. 恩
体,这有助于人们更好地理解不同用户的行为习惯,并可
施:湖北民族大学,2022.
以用于优化产品设计、制定更精准的营销策略。
[3 ]王 传 鹏 . 基 于 人 工 智 能 预 测 糖 尿 病 肾 病 预 后 模 型 的 建 立 [D ].
(3 )针对每位用户,计算其所属用户群体中其他用 户 北京:北京协和医学院,2022.
对物品的评分平均值,并预测用户可能感兴趣的物品。 在 [4 ]朱 丽 萍 ,王 莉 ,陈 齐 ,等 .2011 年— 2021 年 护 理 领 域 人 工 智 能
用户群体聚类分析的基础上,可进一步探索如何利用聚类 应用研究热点的共词聚类分析[J].中国数字医学,2022,17 (2):
结果预测用户感兴趣的物品。 80-85.
预测前,需要获取每位用户对物品的评分数据。 假设 (责任编辑:黄 霞)

期 45
2022 172期
2023

You might also like