基于聚类分析和人工智能的个性化推荐算法研究

数据处理与人工智能自动化应用
基于聚类分析和人工智能的个性化推荐算法研究
盛少军
（亚马逊（中国）投资有限公司，
北京 100025）
摘要：随着互联网的发展，个性化推荐系统的需求逐渐增加。传统的推荐算法面临冷启动问题，而基于聚类分析
和人工智能的个性化推荐算法可以很好地解决此问题。本文介绍了该算法的基本思想和实现过程，并对其进行了评估
和分析。实验结果表明，与传统算法相比，该算法在准确性、稳定性和效率方面都更优秀。
关键词：个性化推荐，聚类分析，人工智能，准确性
中图分类号：TP18 文献标识码：A
Research on Personalized Recommendation Algorithm Based on Cluster

Analysis and Artificial Intelligence
SHENG Shaojun
（Amazon （China ） Holding Co. ， Ltd. ， Beijing 100025 ， China ）
Abstract: With the development of the Internet ， the demand for personalized recommendation systems has gradually
increased. Traditional recommendation algorithms face the problem of cold start ， while personalized recommendation
algorithms based on cluster analysis and artificial intelligence can solve this problem well. This paper introduces the basic idea
and implementation process of the algorithm ， and evaluates and analyzes it. The experimental results show that the algorithm
is superior to traditional algorithms in terms of accuracy ， stability and efficiency.
Key words: personalized recommendation ， cluster analysis ， artificial intelligence ， accuracy
式中：dij 表示数据对象 i 和 j 之间的欧氏距离；Xik 和 Xjk 分

0 引言
别表示数据对象 i 和 j 在第 k 个特征的取值；n 表示数据
在网络时代，用户的需求越来越多样化，传统的推荐对象的特征数量。
系统已无法满足大众的需求。为提高用户体验，个性化推除距离度量外，聚类分析还需要选择合适的聚类算法
荐系统逐渐成为推荐领域的热点。由于传统的推荐系统缺进行分析。常见的聚类算法包括层次聚类、K-means 聚类、
乏新用户的行为数据，推荐效果不尽人意，而基于聚类分密度聚类等。其中，K-means 聚类是最常用的一种聚类算
析和人工智能的个性化推荐算法可以很好地解决此问法，其核心思想是将所有数据对象随机分配到 k 个簇中，
题。并不断调整簇中心点的位置，直至达到最优的簇划分效
果［2］。
1 聚类分析
为更好地描述聚类分析的过程，以下给出一个简单的
聚类分析是一种机器学习技术，它能将一组数据对象示例。假设有一个数据集，其中包含 4 个数据对象，每个对
按照其特征进行分组，形成若干个类别或簇。聚类分析的象有 2 个特征（用（X1，X2）表示）。数据集对象特征如表 1
基本思想是将相似的数据对象放在同一簇中，将不相似的所示。
［1］
数据对象放在不同的簇中，其可被应用于数据挖掘、模表 1 数据对象特征
式识别领域。在聚类分析中，通常需要使用各种距离度量数据对象特征 1 特征 2

1 3 2
计算不同数据对象之间的相似程度。常用的距离度量包括
2 2 1
欧氏距离、曼哈顿距离、余弦距离等。其中，欧氏距离是最 3 4 3
常用也是最直观的距离度量方式，其公式为： 4 6 5
n
通过 K-means 聚类算法分组该数据集。首先随机选
dij=
■
Σ（x -x ）
k=1
ik jk
2
（1）
择 2 个簇中心点，如选取（3 ，2）（3 ，2）和（2，1）（2，1）作为簇
作者简介：盛少军，男，1979 年生，硕士，高级系统架构师，从事机器学习、算法研究工作。
期 43
2022 172期
2023
自动化应用数据处理与人工智能
中心点，再分别计算每个数据对象到 2 个簇中心点的距离决策树、支持向量机、朴素贝叶斯等。这些模型在不同的场

（此处使用欧氏距离），并将其分配到距离最近的簇中。计景下均有非常广泛的应用。
算结果如表 2 所示。总之，人工智能是一门复杂且多元的领域，它涉及多
表 2 簇中心点的距离个学科的知识和技术。随着人工智能技术的不断发展，其
数据对象特征 1 特征 2 簇 1 中心点簇 2 中心点划分簇应用范围也越来越广泛，将给人们的生活和工作带来更多
1 3 2 （3，
2）（2，
1）簇1
的便利和效率。
2 2 1 （3，
2）（2，1）簇2
3 4 3 （3，
2）（2，
1）簇1
4 6 5 （3，2）（2，
1）簇1
3 基于聚类分析和人工智能的个性化推荐算法
然后，重新计算每个簇的中心点，并更新簇中心点的基于聚类分析和人工智能的个性化推荐算法将用户
位置。计算结果如表 3 所示。行为数据作为输入，通过聚类分析找到具有相似喜好的用

户群体，然后根据用户群体的历史偏好和行为数据进行推
表 3 每个簇的中心点
荐。该算法可以解决传统推荐算法中的冷启动问题，增强
簇数据对象特征 1 特征 2
1 3 2 推荐效果，具体实现过程如下。
3 4 3 （1 ）处理用户行为数据，得到用户向量表示。分析用户
1
4 6 5
行为时，通常需要处理用户行为数据，得到用户向量表示。
中心点 3.67 3.33
2 2 1 用户向量是一个特征向量，描述了用户在不同方面的行为
2
中心点 2 1 习惯，如搜索偏好、购买偏好。本文将用户行为数据转化成
再次，计算每个数据对象到 2 个簇中心点的距离，并向量形式，利用各种机器学习算法进行用户行为分析和个
将其重新分配到距离最近的簇中。计算结果如表 4 所示。性化推荐等任务。
以一个简单的示例说明如何进行用户向量化处理。假
表 4 重新分配到距离最近的簇
设有 1 个包含 5 位用户和 4 件商品的样本数据集，每位用
数据对象特征 1 特征 2 簇 1 中心点簇 2 中心点划分簇
1 3 2 （3.67，
3.33）（2.00，
1.00）簇2 户会评分某些商品（1～5 分）。用户向量化处理数据集如表
2 2 1 （3.67，
3.33）（2.00，1.00）簇2 5 所示。
3 4 3 （3.67，
3.33）（2.00，1.00）簇1
表 5 用户向量化处理
4 6 5 （3.67，
3.33）（2.00，1.00）簇1
用户/商品商品 1 商品 2 商品 3 商品 4
用户 1 5 4 2 3
重复上述过程，直至簇中心点的位置不再发生变化。
用户 2 3 4 5 2
经过 K-means 聚类算法的处理，原始数据集被分成了 2 用户 3 1 2 3 4
个簇。簇 1 中包含数据对象 3 和对象 4，簇 2 中包含数据用户 4 2 3 2 1
用户 5 4 1 5 4
对象 1 和对象 2。通过该方式可以有效分类和分析数据对
象，发现隐藏在数据背后的内在结构。将用户行为数据进行向量化处理，得到每位用户的向
量表示。首先，需要选取有代表性的特征。在该示例中，本
2 人工智能
文选择了每位用户对商品 1～4 的评分作为特征。然后，数
人工智能是一门涵盖多个学科的交叉领域，旨在开发字化处理这些特征，如将评分转化成 0～1 之间的数值，以
出能像人类一样思考和学习的智能系统。它融合了计算机适应机器学习算法的输入要求，可用式（3）将每个评分归
科学、数学、统计学、心理学等多个学科的知识，包括机器一化［4］。
学习、深度学习、自然语言处理、计算机视觉等子领域。 xij -min （xij ）
j
在机器学习中，通常需要使用各种数学模型进行建模 xij= （3）
max （xij ）-min （xij ）
j j
和预测。其中，最经典的数学模型之一是线性回归模型。线
式中：xij 表示第 i 位用户对第 j 件商品的评分，i=1 ，…… ，
性回归模型是一种通过寻找最佳拟合直线来预测数据的
5，j=1，……，4；max （xij）和min （xij）分别表示所有用户对第 j
数学模型。其核心思想是建立一种线性关系模型，当给定 j j
输入变量时，使用该模型可预测输出结果［3］。线性回归模件商品评分中的最大值和最小值。通过式（3）可将原始数

型为：据集归一化为以下形式，具体数据如表 6 所示。
y=β0+β1x1+β2x2+……+βpxp+E （2）最后，需要将每位用户的 4 项特征组合成 1 个四维向
式中：y 表示输出结果；x1，……，xp 表示输入变量；β1，……，量作为用户的向量表示。如用户 1 的向量表示为：
βp，β0 表示回归系数和截距；E 表示误差项。（1.00，0.75，0.00，0.50）。通过此方式，可将原始的用户行为
除线性回归模型外，还有许多其他机器学习模型，如数据转化成机器学习算法需要的输入形式，以便于进行个
44 zdhyy.net 自动化应用
www.chinaet.net 中国电工网
数据处理与人工智能自动化应用
性化推荐、用户分类等任务。有 5 位用户和 10 件物品，评分数据存储在 1 个评分矩阵

（2 ）利用聚类分析算法聚类用户向量，得到不同的用 R 中，其中 Rij 表示第 i 位用户对第 j 件物品的评分，缺失
户群体。聚类分析是一种机器学习算法，它可以将具有相值用 NaN 表示。评分矩阵 R 的部分数据如表 8 所示。
似特征的数据点划分为同一群组，这些群组被称为聚类。表 8 评分矩阵 R 的部分数据
对于用户向量，可使用聚类分析算法将用户划分为不同的用户物品 1 物品 2 物品 3 物品 4 物品 5 物品 6 物品 7 物品 8 物品 9 物品 10
用户 1 2 NaN NaN 4 NaN 3 NaN 3 NaN 1
群体，以更好地理解不同类型的用户。
用户 2 NaN 5 4 NaN 2 NaN NaN 3 4 NaN
表 6 原始数据集归一化用户 3 1 NaN 5 NaN NaN 2 3 NaN 4 5
用户 4 4 5 4 NaN 2 NaN 1 2 NaN NaN
用户/商品商品 1 商品 2 商品 3 商品 4
用户 5 NaN 3 NaN 2 3 2 1 NaN 1 NaN
用户 1 1 0.75 0 0.5
用户 2 0.5 0.75 1 0.25
使用聚类算法将这 5 位用户划分为 3 个不同的群体，
用户 3 0 0.25 0.5 0.75
用户 4 0.25 0.5 0.25 0 每个群体包含不同数量的用户。设第 k 个群体中包含 nk
用户 5 0.75 0 1 0.75 位用户，第 i 位用户属于第 k 个群体。计算第 k 个群体中
除第 i 位用户外的其他用户对每件物品的评分平均值，得
以一个示例说明如何使用 K-means 聚类算法聚类用
到大小为（nk-1 ）×m 的矩阵 Pk。其中，Pk，i，j 表示第 k 个群体
户向量。假设有 10 位用户，每位用户的向量为四维特征向
中除第 i 位用户外的用户对第 j 件物品的评分平均值。
量，表示在 4 个不同方面的行为习惯。将这 10 位用户划分
对于第 i 位用户，本文计算了第 j 件物品的预测评分
为 3 个不同的群体，其具体样本数据集如表 7 所示。
值 R ’ij。其中，k 表示群体的数量，wi，k 表示第 i 位用户与第
表 7 样本数据集
k 个群体的相似度（如余弦相似度或皮尔逊相关系数），可
用户特征 1 特征 2 特征 3 特征 4
通过多种方式计算得出。
用户 1 0.72 0.45 0.23 0.12
用户 2 0.19 0.85 0.32 0.76 在实际应用中，可能需要进行更复杂的特征工程和模
用户 3 0.58 0.62 0.43 0.34 型训练，以获取更准确的评分预测结果。但基于用户群体
用户 4 0.91 0.15 0.67 0.54
用户 5 0.21 0.39 0.78 0.45 的聚类分析和平均评分值计算可以作为一种简单有效的
用户 6 0.87 0.76 0.01 0.52 方法来预测用户可能感兴趣的物品。
用户 7 0.09 0.35 0.29 0.99
用户 8 0.33 0.92 0.61 0.43
4 结语
用户 9 0.48 0.57 0.81 0.23
用户 10 0.75 0.23 0.47 0.68
基于聚类分析和人工智能的个性化推荐算法是一种
本文将用户向量作为样本数据进行 K-means 聚类分能有效解决冷启动问题的方法，能为用户提供个性化的推
析，具体步骤为：（1 ）初始化 k 个聚类中心，可以随机选择荐服务，本文对其进行了详细阐述，并进行了实验验证。实
k 个样本点作为初始聚类中心；（2）对于每个样本点，计算验结果表明，该算法在推荐准确性、稳定性和效率方面都
它与每个聚类中心之间的距离（如欧几里得距离），然后将优于传统算法。未来，将进一步研究和改进该算法，增强推
它分配到距离最近的聚类中心所在的群体中；（3 ）对于每荐效果和提高用户体验。
个聚类，计算它所包含的所有样本点的平均值，并将该平
参考文献
均值作为新的聚类中心；（4 ）重复步骤 2 和步骤 3 ，直至
［1 ］浦慧忠 .k-means 聚类分析算法在人工智能 + 个性化学习系统
K-means 算法收敛。
中的应用［J ］. 智能计算机与应用，2022 ，12 （8 ）：152-156.
通过聚类分析用户向量，可得到不同类型的用户群
［2 ］吴定安 . 基于机器学习的用户用电行为分析及其研究［D ］. 恩
体，这有助于人们更好地理解不同用户的行为习惯，并可
施：湖北民族大学，2022.
以用于优化产品设计、制定更精准的营销策略。
［3 ］王传鹏 . 基于人工智能预测糖尿病肾病预后模型的建立［D ］.
（3 ）针对每位用户，计算其所属用户群体中其他用户北京：北京协和医学院，2022.
对物品的评分平均值，并预测用户可能感兴趣的物品。在［4 ］朱丽萍，王莉，陈齐，等 .2011 年— 2021 年护理领域人工智能
用户群体聚类分析的基础上，可进一步探索如何利用聚类应用研究热点的共词聚类分析［J］.中国数字医学，2022，17 （2）：
结果预测用户感兴趣的物品。 80-85.
预测前，需要获取每位用户对物品的评分数据。假设（责任编辑：黄霞）
期 45
2022 172期
2023

基于聚类分析和人工智能的个性化推荐算法研究

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于聚类分析和人工智能的个性化推荐算法研究

Uploaded by

Copyright:

Available Formats

数据处理与人工智能自动化应用

Research on Personalized Recommendation Algorithm Based on Cluster

式中：dij 表示数据对象 i 和 j 之间的欧氏距离；Xik 和 Xjk 分

式识别领域。在聚类分析中，通常需要使用各种距离度量数据对象特征 1 特征 2

中心点，再分别计算每个数据对象到 2 个簇中心点的距离决策树、支持向量机、朴素贝叶斯等。这些模型在不同的场

然后，重新计算每个簇的中心点，并更新簇中心点的基于聚类分析和人工智能的个性化推荐算法将用户

位置。计算结果如表 3 所示。行为数据作为输入，通过聚类分析找到具有相似喜好的用

输入变量时，使用该模型可预测输出结果［3］。线性回归模件商品评分中的最大值和最小值。通过式（3）可将原始数

性化推荐、用户分类等任务。有 5 位用户和 10 件物品，评分数据存储在 1 个评分矩阵

You might also like

基于聚类分析和人工智能的个性化推荐算法研究

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于聚类分析和人工智能的个性化推荐算法研究

Uploaded by

Copyright:

Available Formats

数据处理与人工智能 自动化应用

Research on Personalized Recommendation Algorithm Based on Cluster

式中：dij 表示数据对象 i 和 j 之间的欧氏距离；Xik 和 Xjk 分

式识别领域。 在聚类分析中，通常需要使用各种距离度量 数据对象 特征 1 特征 2

中心点，再分别计算每个数据对象到 2 个簇中心点的距离 决策树、支持向量机、朴素贝叶斯等。这些模型在不同的场

然后，重新计算每个簇的中心点，并更新簇中心 点的 基于聚类分析和人工智能的个性化推荐算法 将用户

位置。 计算结果如表 3 所示。 行为数据作为输入，通过聚类分析找到具有相似喜好的用

输入变量时，使用该模型可预测输出结果 ［3］。 线性回归模 件商品评分中的最大值和最小值。 通过式（3）可将原始数

性化推荐、用户分类等任务。 有 5 位用户和 10 件物品， 评分数据存储在 1 个评分矩阵

You might also like

数据处理与人工智能自动化应用

式识别领域。在聚类分析中，通常需要使用各种距离度量数据对象特征 1 特征 2

中心点，再分别计算每个数据对象到 2 个簇中心点的距离决策树、支持向量机、朴素贝叶斯等。这些模型在不同的场

然后，重新计算每个簇的中心点，并更新簇中心点的基于聚类分析和人工智能的个性化推荐算法将用户

位置。计算结果如表 3 所示。行为数据作为输入，通过聚类分析找到具有相似喜好的用

输入变量时，使用该模型可预测输出结果［3］。线性回归模件商品评分中的最大值和最小值。通过式（3）可将原始数

性化推荐、用户分类等任务。有 5 位用户和 10 件物品，评分数据存储在 1 个评分矩阵