LTE A飞蜂窝系统小区切换与接纳控制算法研究

分类号：ＴＰ３９３单位代码：１１２３２
密级：
◆ｆ京信息科枝太雩
工学硕士学位论文
ＬＴＥ—Ａ飞蜂窝系统小区切换与接纳控
制算法研究
学院：计算机学院
学科（专业）：计算机系统结构
堂导．
ｑ √ ‘
２０１２０２０２１０
作者：王鸿鲁
指导教师：陈昕教授
完成日期：二。一五年一月三日
万方数据
学位论文版权使用授权书
本人完全了解北京信息科技大学关于收集、保存、使用学位论
文的规定，按照学校要求提交学位论文的印刷本和电子版本。学校
有权保留学位论文并向中国科学技术信息研究所等国家主管部门或
其指定机构送交论文的电子版和纸质版，允许论文被查阅和借阅，
可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。学校
有权适当复制、公布论文的全部或部分内容。学校有权将本人的学
位论文加入《中国优秀硕士学位论文全文数据库》和编入《中国知
识资源总库》。
学位论文作者签名：豇喝善
西ｆ厂荦／；月１日
口公开口保密（年月）（保密的学位论文在解密后应遵
守此协议）
指导教师签名：学位论文作者签名：
年月曰年月日
万方数据
硕士学位论文原创性声明
本人郑重声明：所呈交的论文题目为《ｍ．Ａ飞蜂窝系统小区切换
与接纳控制算法研究》学位论文，是本人在导师指导下，进行研究工作
所取得的成果。尽我所知，除了文中特别加以标注的内容外，本学位论
文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的
作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，
均已在文中以明确方式标明并表示了谢意。本学位论文原创性声明的法
律责任由本人承担。
作者签字：Ｄ喝鲁
气。Ｊ厂年歹月］日
分类号：单位代码：１１２３２
万方数据
摘要
摘要
第三代合作伙伴计划通过引入飞蜂窝系统，解决ＬＴＥ．Ａ宏蜂窝系统中室内
无线信号强度弱与覆盖范围不足的问题。ＬＴＥ．Ａ飞蜂窝系统由“宏小区”和
“飞小区”组成，通过小区间的切换和接纳控制，确保移动用户通信的连续
性。本文围绕ＬＴＥ．Ａ飞蜂窝系统的小区切换与接纳控制问题，运用马尔科夫决
策过程（ＭＤＰ，ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）、强化学习和随机网络演算理论，构建

了移动用户小区切换问题的ＭＤＰ模型，设计了基于功率控制与休眠唤醒机制的
接纳控制算法。
首先，针对飞蜂窝基站覆盖范围小和部署密度高的特点，运用马尔科夫决策
过程理论，综合考虑用户的数据流到达、缓冲队列大小、移动速度、可用带宽与
时延等多种切换指标，提出并构建了小区切换与频谱资源分配的联合优化ＭＤＰ
模型。基于强化学习理论，设计了ＭＤＰ模型的求解算法ＭＤＰＱ。
其次，针对高速移动用户与非实时业务请求的特点，运用随机网络演算理论，
结合功率控制与休眠唤醒机制，提出了一种接纳控制算法ＰＣＳＷＡＣ，具体包括
估算用户驻留时间的ＤＴＥＡ算法、估算用户平均期望传输时间ＡＥＴＴＡ算法和终
端功率自适应调整机制，实现了终端功率的自适应调整与飞蜂窝基站工作模式的
动态切换。
最后，对所提出的小区切换算法与接纳控制算法进行了数值分析与仿真验
证。仿真结果表明，所提出的ＭＤＰＱ算法收敛较快，可有效减少频繁且不必要
的小区切换。同时，所提出的接纳控制算法ＰＣＳＷＡＣ，可有效降低切换时延、
飞蜂窝基站能耗和移动终端能耗。
关键词：飞蜂窝：小区切换：接纳控制；马尔可夫决策过程；随机网络演算
万方数据
Ａｂｓｔｒａｃｔ
Ｔｏｅｘｔｅｎｄｉｎｄｏｏｒｗｉｒｅｌｅｓｓｃｏｖｅｒａｇｅａｎｄｓｔｒｅｎｇｔｈｅｎｔｈｅｓｉｇｎａｌｉｎｔｅｎｓｉｔｙｆｏｒｉｎｄｏｏｒ
ｍｏｂｉｌｅｕｓｅｒｓ，ｔｈｅＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ（３ＧＰＰ）ｅｍｐｌｏｙｓｆｅｍｔｏｃｅｌｌ
ｃｏｎｓｉｓｔｓｏｆｍａｃｒｏｃｅｌｌｓ
ｔｅｃｈｎｏｌｏｇｙｉｎＬＴＥ．Ａｎｅｔｗｏｒｋｓ．ＡｎＬＴＥ．Ａｆｅｍｔｏｃｅｌｌｓｙｓｔｅｍ
ａｎｄｆｅｍｔｏｃｅｌｌｓ．ａｎｄｇｕａｒａｎｔｅｅｓ山ｅｃｏｍｍｕｎｉｃａｔｉｏｎｃｏｎｔｉｎｕｉｔｙｏｆｍｏｂｉｌｅ

ｕｓｅｒｓｂｙ
ｍｅａｎｓｏｆｃｅｌｌｈａｎｄｏｖｅｒａｎｄａｃｃｅｓｓｃｏｎｔｒ０１．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｓｔｕｄｙｃｅｌｌｈａｎｄｏｖｅｒａｎｄ
ａｃｃｅｓｓｃｏｎｔｒｏｌｐｒｏｂｌｅｍｓｉｎＬＴＥ．Ａｆｅｍｔｏｃｅｌｌｓｙｓｔｅｍ，ｕｓｉｎｇＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ
（ＭＤＰ），ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ（ｅＬ），ａｎｄＳｔｏｃｈａｓｔｉｃＮｅｔｗｏｒｋＣａｌｃｕｌｕｓ（ＳＮＣ）
ｔｈｅｏｒｙ．Ｓｐｅｃｉｆｉｃａｌｌｙ，ｗｅｍｏｄｅｌｔｈｅｈａｎｄｏｖｅｒｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｏｆｍｏｂｉｌｅ

ｕｓｅｒｓａｓａ
ＭＤＰ，ａｎｄｐｒｏｐｏｓｅａｎａｃｃｅｓｓｃｏｎｔｒｏｌａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｐｏｗｅｒｃｏｎｔｒｏｌａｎｄ
ｓｌｅｅｐ／ｗａｋｅｕｐｍｅｃｈａｎｉｓｍｓ．
Ｆｉｒｓｔ，ｉｎｌｉｇｈｔｏｆｔｈｅｓｍａｌｌｃｏｖｅｒａｇｅａｎｄｈｉｇｈｄｅｐｌｏｙｍｅｎｔｄｅｎｓｉｔｙｏｆ

ＦｅｍｔｏＢａｓｅ
Ｓｔａｔｉｏｎ（ＦＢＳ），ｗｅｆｏｒｍｕｌａｔｅｔｈｅｈａｎｄｏｖｅｒｄｅｃｉｓｉｏｎａｎｄｓｐｅｃｔｒｕｍａｌｌｏｃａｔｉｏｎｐｒｏｂｌｅｍ
ａｓａＭＤＰｗｈｅｒｅａｖａｒｉｅｔｙｏｆｆａｃｔｏｒｓｈａｖｅｂｅｅｎｔａｋｅｎｉｎｔｏｃｏｎｓｉｄｅｒａｔｉｏｎ，ｉｎｃｌｕｄｉｎｇ

ａｎｄ
ｐａｃｋｅｔｓａｒｒｉｖａｌ，ｂｕｆｆｅｒｓｉｚｅ，ｖｅｌｏｃｉｔｙ，ａｖａｉｌａｂｌｅｂａｎｄｗｉｄｔｈｄｅｌａｙ．Ｍｅａｎｗｈｉｌｅ，ｗｅ
ａｐｐｌｙＲＬｔｏｄｅｓｉｇｎｉｎｇａｎ
ａｌｇｏｒｉｔｈｍｎａｍｅｄＭＤＰＱｆｏｒｓｏｌｖｉｎｇｔｈｅＭＤＰｍｏｄｅｌ．
Ｔｈｅｎ，ｂａｓｅｄｏｎａｎｉｎ．ｄｅｐｔｈｓｔｕｄｙｏｆｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｈｉｇｈ－ｖｅｌｏｃｉｔｙｍｏｂｉｌｅ
ｕｓｅｒｓａｎｄｎｏｎｒｅａｌ—ｔｉｍｅｓｅｒｖｉｃｅｒｅｑｕｅｓｔｓ，ｗｅｕｔｉｌｉｚｅｐｏｗｅｒｃｏｎｔｒｏｌａｎｄｓｌｅｅｐ／ｗａｋｅｕｐ
ｍｅｃｈａｎｉｓｍｓｔｏｄｅｓｉｇｎａｎａｃｃｅｓｓｃｏｎｔｒｏｌａｌｇｏｒｉｔｈｍｎａｍｅｄＰＣＳＷＡＣｕｓｉｎｇＳＮＣｔｈｅｏｒｙ
Ｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｃｏｍｐｒｉｓｅｓｏｆｔｈｒｅｅｍａｊｏｒｃｏｍｐｏｎｅｎｔｓ：（１）ａｄｗｅｌｌｔｉｍｅ
ｅｓｔｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍ（ＤＴＥＡ）；（２）ａｎａｖｅｒａｇｅｅｘｐｅｃｔｔｒａｎｓｍｉｓｓｉｏｎｔｉｍｅａｌｇｏｒｉｔｈｍ

（ＡＥＴＴＡ）；ａｎｄ（３）ａｎａｄａｐｔｉｖｅｐｏｗｅｒｃｏｎｔｒｏｌｍｅｃｈａｎｉｓｍａｔｍｏｂｉｌｅｔｅｒｍｉｎａｌｓ．ＩｔＣａｎ
ａｃｈｉｅｖｅｎｏｔｏｎｌｙａｄａｐｔｉｖｅｐｏｗｅｒｃｏｎｔｒｏｌａｔｍｏｂｉｌｅｔｅｒｍｉｎａｌｓ，ｂｕｔａｌｓｏｄｙｎａｍｉｃ
ｓｗｉｔｃｈｉｎｇｏｆＦＢＳｗｏｒｋｉｎｇｓｔａｔｅｓ．
Ｆｉｎａｌｌｙ，ｗｅｃｏｎｄｕｃｔｓｉｍｕｌａｔｉｏｎｓｔｏｖｅｒｉｆｙｔｈｅｅｆｆｉｃａｃｙｏｆｔｈｅｐｒｏｐｏｓｅｄｃｅｌｌ
ｈａｎｄｏｖｅｒａｌｇｏｒｉｔｈｍａｎｄｔｈｅａｃｃｅｓｓｃｏｎｔｒ０１ａｌｇｏｒｉｔｈｍ．Ｓｉｍｕｌａｔｉｏｎｒｅｓｕｌｔｓｓｈｏｗｔｈａｔ，ｔｈｅ
ｐｒｏｐｏｓｅｄＭＤＰＱａｌｇｏｒｉｔｈｍｃｏｎｖｅｒｇｅｓｆａｓｔ，ａｎｄｃａｎｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｔｈｅｎｕｍｂｅｒｏｆ
ｕｎｎｅｃｅｓｓａｒｙｈａｎｄｏｖｅｒｓａｍｏｎｇｆｅｍｔｏｃｅｌｌｓ．Ｍｏｒｅｏｖｅｒ，ｔｈｅｐｒｏｐｏｓｅｄＰＣＳＷＡＣ
ａｌｇｏｒｉｔｈｍＣａｎｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｈａｎｄｏｖｅｒｄｅｌａｙｗｈｉｌｅｃｏｎｓｅｒｖｉｎｇｅｎｅｒｇｙｏｎｓｕｍｐｔｉｏｎ
ｏｆＦＢＳａｎｄｍｏｂｉｌｅｔｅｒｍｉｎａｌｓ．
ＫＥＹＷＯＲＤＳ：Ｆｅｍｔｏｃｅｌｌ，ｃｅｌｌｈａｎｄｏｖｅｒ，ａｃｃｅｓｓｃｏｎｔｒｏｌ，Ｍａｒｋｏｖｄｅｃｉｓｉｏｎ
ｐｒｏｃｅｓｓ，ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ｓｔｏｃｈａｓｔｉｃｎｅｔｗｏｒｋｃａｌｃｕｌｕｓ
万方数据
目录
目录
摘要………………………………………………………………………………………………………………．Ｉ
ＡＢＳＴＲＡＣＴ．．．．．…………………．．…．．．．．．．．．．．．．．．．．…………．．．．．．．．．．．．．．．．．．．．…．．．．．．．．．．．．．．．…．．…．．．．．．．．ＩＩ
图目录………………………………………………………………………………Ｖ
表目录……………………………………………………………………………．．ＶＩ
第一章绪论…………………………………………………………………．１
１．１研究背景……………………………………………………………………．．１
１．２国内外研究现状……………………………………………………………．．２
１．２．１小区切换…………………………………………………………………２
１．２．２接纳控制…………………………………………………………………３
１．３研究内容与创新点…………………………………………………………～５
１．４论文组织结构………………………………………………………………．．６
第二章马尔可夫决策过程与强化学习方法研究……………………７
２．１马尔可夫决策过程理论研究………………………………………………一７
２．１．１马尔可夫决策过程的基本模型……………………………………………７
２．１．２马尔可夫决策过程问题求解……………………………………………．１０
２．２强化学习理论研究…………………………………………………………１３
２．２．１强化学习系统的主要组成要素…………………………………………．１４
２．２．２强化学习算法…………………………………………………………………１６
２．３本章小结……………………………………………………………………１７
第三章基于ＭＤＰ的ｍ—Ａ飞蜂窝小区切换算法研究……………１８
３．１系统模型……………………………………………………………………１８
３．１．１可用带宽……………………………………………………………………１９
３．１．２数据包到达与缓存队列…………………………………………………１９
３．１．３移动速度……………………………………………………………………．１９
３．１．４业务类型………………………………………………………………．１９
３．２小区切换与信道分配策略联合优化ＭＤＰ模型…………………………．２０
３．２．１状态空间………………………………………………………………．２０
３．２．２行为空间…………………………………………………………………………………．．２１
３．２．３系统转移方程……………………………………………………………２１
３．２．４效用函数………………………………………………………………．２２
万方数据
目录
３．２．５目标方程………………………………………………………………．２３
３．３ＭＤＰ模型求解算法设计……………………………………………………２３
３．４本章小结……………………………………………………………………２５
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究………２６
４．１系统模型……………………………………………………………………２６
４．２接纳控制算法设计…………………………………………………………．２８
４．２．１估算用户驻留时间………………………………………………………．２８
４．２．２估算平均期望传输时间…………………………………………………２９
４．２．３自适应调整终端功率……………………………………………………３１
４．３接纳控制算法性能分析……………………………………………………３３
４．４本章小结……………………………………………………………………３３
第五章仿真分析与验证……………………………………………３５
５．１小区切换算法模型仿真与性能分析………………………………………３５
５．２接纳控制算法模型仿真与性能分析………………………………………３８
５．３本章小结……………………………………………………………………４０
第六章结论与展望…………………………………………………４１
６．１结｛仑…………………………………………………………………………………………………．４ｌ
６．２展望…………………………………………………………………………………………………．４ｌ
参考文献……………………………………………………………………………～４３
附录Ａ英文缩略词表………………………………………………………………４７
个人简历在校期间发表的学术论文与参与研究的课题情况……………………４９
万方数据
图目录
图目录
图２．１决策时刻与决策周期………………………………………………………．．８
图２．２一个ＭＤＰ状态空间的聚合………………………………………………．１２
图２．３强化学习框架图……………………………………………………………１４
图２．４强化学习四要素……………………………………………………………１４
图３．１ＬＴＥ．Ａ飞蜂窝系统切换场景………………………………………………１８
图４．１ＬＴＥ．Ａ飞蜂窝系统接纳控制场景…………………………………………２７
图４．２ＬＴＥ．Ａ飞蜂窝系统切换场景………………………………………………２８
图４．３二状态马尔科夫链…………………………………………………………３０
图５．１仿真环境……………………………………………………………………３５
图５．２收敛速率……………………………………………………………………．３７
图５．３平均切换次数………………………………………………………………３７
图５．４缓存数据大小ＶＳ功耗……………………………………………………．．３８
图５．５速度ｖｓ功耗………………………………………………………………．．３９
图５．６缓存数据ＶＳ切换时延……………………………………………………．．３９
图５．７速度ＶＳ切换时延…………………………………………………………．．４０
万方数据
表目录
表目录
表２．１策略迭代算法………………………………………………………………１１
表２．２值迭代算法…………………………………………………………………１１
表２．３ＭＤＰ状态空间化简算法…………………………………………………．．１２
表２．４ＭＤＰ状态空间化简算法…………………………………………………．．１３
表３．１飞蜂窝系统各类业务对ＱｏＳ的要求……………………………………．．２０
表３．２ＭＤＰＱ算法…………………………………………………………………２４
表４．１接纳控制算法………………………………………………………………２７
表４．２ＤＴＥＡ算法…………………………………………………………………２９
表４．３ＡＥＴＴＡ算法…………………………………………………………………３０
表４．４物理层测量…………………………………………………………………３２
表５．１路径损耗模型………………………………………………………………３６
表５．２ＭＤＰＱ算法仿真参数设置…………………………………………………３６
表５．３ＰＣＳＷＡＣ算法仿真参数设置………………………………………………３８
万方数据
第一章绪论
第一章绪论
１．１研究背景
随着ｉＰｈｏｎｅ、ｉＰａｄ等移动智能设备的广泛普及和Ｆａｃｅｂｏｏｋ、Ｔｗｉｔｔｅｒ、人人
网等社交网络的蓬勃发展，无线移动通信业务已由传统的短信、语音服务转变为
在线视频等数据密集型应用服务【ｌ】，用户对高速移动通信数据业务的需求日趋迫
切。统计表明，超过６０％的移动语音业务和９０％以上的无线数据业务是在室内
发生的［２］，４５％的家庭用户和３０％的企业用户面临室内无线信号强度弱和覆盖范
围不足的问题【３】。为了解决这些问题，第三代合作伙伴计划（３ＧＰＰ，３ｒｄＧｅｎｅｒａｔｉｏｎ
ＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）引入飞蜂窝作为下一代无线通信技术ＬＴＥ．Ａ（ＬｏｎｇＴｅｒｍ

ＥｖｏｌｕｔｉｏｎＡｄｖａｎｃｅｄ）的重要组成部分【４Ｊ。
飞蜂窝作为一种低功耗、低成本、小范围覆盖和即插即用的无线接入点（ＡＰ，
ＡｃｃｅｓｓＰｏｉｎｔ），具有白配置、自优化和自愈合的特点Ｉ川。飞蜂窝基站（ＦＢＳ，Ｆｅｍｔｏ
ＢａｓｅＳｔａｔｉｏｎ）工作在移动运营商的授权频段上，可为智能手机等各类移动终端
（ＭＴ．ＭｏｂｉｌｅＴｅｒｍｉｎａｌ）提供高速的网络连接，有效解决了室内信号强度弱与覆
盖不足的问题。此外，飞蜂窝可提高宏蜂窝容量，降低宏蜂窝负载，进一步保障
了用户的服务质量（ＱｏＳ，ＱｕａｌｉｔｙｏｆＳｅｒｖｉｃｅ）。
飞蜂窝市场前景广阔，但其大规模部署与应用仍面临诸多技术难题与挑战。
特别是，越来越多的数据通信正从计算机设备转移到嵌入式等各类终端设备，各
类终端设备的移动性需求与日俱增。然而，飞蜂窝的引入改变了宏蜂窝的网络架
构，导致宏蜂窝中的小区切换（ＣＨ，ＣｅｌｌＨａｎｄｏｖｅｒ）与接纳控制（ＡＣ，Ａｃｃｅｓｓ
Ｃｏｎｔｒ０１）算法无法直接应用于ＬＴＥ．Ａ飞蜂窝系统。同时，飞蜂窝具有的部署密
度高、覆盖范围小、基站间协调性低的特点，导致ＬＴＥ．Ａ飞蜂窝系统中的移动
性管理更加复杂与困难。因此，如何设计合理有效的小区切换与接纳控制算法，
在实现快速无缝切换的同时，减少频繁且不必要的切换，保证用户ＱｏＳ，成为
ＬＴＥ．Ａ飞蜂窝系统中亟需解决的关键问题【６Ｊ。
本文围绕ＬＴＥ．Ａ飞蜂窝系统小区切换与接纳控制问题展开研究。一方面，
通过构建小区切换与频谱资源分配的联合优化模型，研究ＬＴＥ．Ａ飞蜂窝系统中
的小区切换决策问题，以降低切换过程中信令开销和掉话率，最大化ＬＴＥ．Ａ飞
蜂窝系统容量。另一方面，运用随机网络演算理论，结合功率控制与休眠唤醒机
制，研究ＬＴＥ．Ａ飞蜂窝系统中的接纳控制问题，以减少不必要的切换，降低飞
蜂窝基站和移动终端能耗。
万方数据
第一章绪论
１．２国内外研究现状
目前，国内外对ＬＴＥ—Ａ飞蜂窝系统的小区切换‘７司和接纳控制【９－１３１问题进行
了广泛而深入的研究，并取得了以下研究成果，下面分别对小区切换与接纳控制
的研究现状进行综述。
１．２．１小区切换
小区切换问题主要研究如何实现无缝切换，提高切换性能，如最小化切换时
延、信令负载、切换频率等。
１．基于物理层测量参数的小区切换算法
物理层测量参数包括接收信号强度（ＲＳＳ，ＲｅｃｅｉｖｅｄＳｉｇｎａｌＳｔｒｅｎｇｔｈ）Ｌｌ４Ｉ、接
收的干扰功率（ＲＩＰ，Ｒｅｃｅｉｖｅｄｉｎｔｅｒｆｅｒｅｎｃｅｐｏｗｅｒ）［１５Ｊ和接收的信号质量（ＲＳＱ，

ＲｅｃｅｉｖｅｄＳｉｇｎａｌＱｕａｌｉｔｙ）［圳。Ｌ．Ｌｕａｎ等人１１７Ｊ提出了一种基于ＲＳＳ与延迟触发时
间（ＴＴＴ，ＴｉｍｅＴｏＴｒｉｇｇｅｒ）的切换决策算法，可根据用户的移动速度和ＳＩＮＲ水
平，动态调整门限阈值和ＴＴＴ参数，提高切换成功概率。ＹＺｈａｎｇ等人【ｌ副利用
统计阈值（ＳｔａｔｉｓｔｉｃａｌＴｈｒｅｓｈｏｌｄ）替代ＴＴＴ参数，避免了“乒乓效应”，降低了掉
线率。Ｄ．Ｘｅｎａｋｉｓ等人【旧】提出的能效优先的切换决策算法，可根据ＲＳＳ和参考
信号接收功率（ＲＳＲＰ，ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌＲｅｃｅｉｖｉｎｇＰｏｗｅｒ）自适应调整切换滞后余
量（ＨＨＭ，ＨａｎｄｏｖｅｒＨｙｓｔｅｒｅｓｉｓＭａｒｇｍ）值，降低移动终端的功耗。

物理层测量参数的波动性导致该类切换算法的可靠性不高，且单一的切换指
标无法完全反映网络的整体性能，需综合考虑其他因素进行切换决策。
２．基于多属性决策的小区切换算法
在ＬＴＥ．Ａ飞蜂窝系统中，不同用户切换需求的侧重点不同，且影响最优目
标小区选择的因素众多，仅考虑单一切换因素不能反映真实的网络状况，无法保
证用户ＱｏＳ。为克服该问题，很多研究者采用多属性决策（ＭＡＤＭ，Ｍｕｌｔｉｐｌｅ
ＡｔｔｒｉｂｕｔｅｓＤｅｃｉｓｉｏｎＭａｋｉｎｇ）进行切换决策，常用的ＭＡＤＭ算法包括简单加权法
（ＳＡＷ，ＳｉｍｐｌｅＡｄｄｉｔｉｖｅＷｅｉｇｈｔｉｎｇ）［２０】，灰色关联分析法（ＧＲＡ，ＧｒｅｙＲｅｌａｔｉｏｎａｌ
Ａｎａｌｙｓｉｓ）［２１］，层次分析法（ＡＨＰ，ＡｎａｌｙｔｉｃａｌＨｉｅｒａｒｃｈｙＰｒｏｃｅｓｓ）［２２１，以及逼近理
想解排序法（ＴＯＰＳＩＳ，ＴｅｃｈｎｉｑｕｅｆｏｒＯｒｄｅｒＰｒｅｆｅｒｅｎｃｅｂｙＳｉｍｉｌａｒｉｔｙｔｏＩｄｅａｌ
Ｓｏｌｕｔｉｏｎ）［２３１。ＹＫ．Ｓａｌｉｈ等人１２０］构建了小区切换的非协作竞争博弈模型，利用广
义ＳＡＷ验证切换决策模型的有效性，提高了跨区用户的满意度。Ｒ．Ｖｅｒｍａ等人
洲提出的切换决策算法，以ＡＨＰ法确定各切换相关属性的权重，并利用ＧＲＡ
对候选小区进行排序，保证了移动用户的ＱｏＳ。Ｑｉｎｇ．ｍｉｎＬＳＭ等人【２２Ｊ结合ＳＩＮＲ
和ＡＨＰ提出－３＊改进的ＳＡＷ垂直切换算法，综合考虑了ＳＩＮＲ、所需带宽、流
量成本和可用带宽等多个属性，提高了切换性能。Ｃｈａｍｏｄｒａｋａｓ等人【２３Ｊ采用模糊
万方数据
第一章绪论
集的ＴＯＰＳＩＳ法来选择最优目标小区，以平衡网络性能与能耗，综合考虑用户偏
好、网络状态、ＱｏＳ和能耗多个切换指标。
基于多属性决策的切换算法兼顾了多种影响切换性能的因素，可选取整体性
能最优的小区作为目标小区，可靠性高。然而，该类算法不能用精确数值反映非
确定性因素，且计算复杂性较高、灵活性差，在实际应用中有一定局限性。
３．基于效用函数的小区切换算法
基于效用函数的切换算法一般会构建包含多种性能参数的效用函数，旨在最
大化目标函数，权衡多种因素对用户ＱｏＳ和网络性能的影响。Ｃ．Ｓｕｎ等人［２４］提
出一种基于约束马尔科夫决策过程（ＣＭＤＰ，ＣｏｎｓｔｒａｉｎｔＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）
的垂直切换算法，算法考虑了带宽、时延、信令开销、以及掉线率，改善了切换
性能。Ｐ．Ｍａｃｈ等人１２５Ｊ设计了一种垂直切换策略，策略考虑了服务中断时间、ＱｏＳ
衰减、切换次数和服务速率，减少了服务中断次数，并保证了用户的ＱｏＳ需求。
Ｈ．Ｚｈｏｕ等人【２６Ｊ提出了一种基于贝叶斯估计的切换算法，考虑了用户公平性和网
络容量，减少了不必要的切换。Ｊ．Ｐａｎ等人Ｌ２７Ｊ提出了一种基于ＭＤＰ的切换决策
算法，提高了系统容量，降低了信令开销。
基于效用函数的切换算法权衡了多种影响切换性能的参数，可适应不同的切
换场景，灵活性高。如何选取参数，以构建有效体现切换性能的目标函数，并权
衡各参数的权重，是影响切换算法有效性的关键。
除了以上几类经典的小区切换算法外，小区切换算法的研究还有很多其它方
向，如Ｚ．Ｒｅｎ等人１２８】利用移动用户的上下文感知信息来自适应调整切换参数，
降低了通信中断率。Ｈ．Ｍ．Ｔｕ等人【２９】结合快速软切换（ｆａｓｔｓｏｆｔｈａｎｄ．ｏｆｆ）、更软
切换（ｍｏｒｅｓｏｆｔｅｒｈａｎｄ．ｏｆｆ）和基于载波聚合（ＣＡ，ＣａｒｒｉｅｒＡｇｇｒｅｇａｔｉｏｎ）的切换
技术，提出一种基于预测的切换机制，提高系统吞吐量的同时，降低了移动终端
的能耗和中断概率。ＹＳｏｎｇ等人【３０】提出一种考虑链路质量和基站功耗的垂直切
换机制，最小化了基站能耗。Ｈ．Ｔａｎｇ等人【３１】利用飞蜂窝问的Ｘ接口交换相邻飞
蜂窝基站间的协作信息，降低了蜂窝间的干扰。ＮＷ．Ｓｕｎｇ等人【３２Ｊ通过预测用户
位置，减小邻小区列表（ＮＣＬ，ＮｅｉｇｈｂｏｒＣｅｌｌＬｉｓｔｓ）长度，并构建了预测关联博

弈模型，以选择最优的目标小区，在最大化系统吞吐量的同时，降低了切换频率。
１．２．２接纳控制
接纳控制问题的研究旨在实现准入判决和拥塞控制，保证用户ＱｏＳ，如最小
化掉话率等。目前，飞蜂窝系统中主要的接纳控制方法有以下几种。
１．基于预留资源的接纳控制算法
万方数据
第一章绪论
该类算法通常按照一定的比例预留部分无线资源，以保证跨区用户的切换成
功率。根据资源预留比例是否能随当前小区负载状况进行动态调整，分为固定资
源预留算法与动态资源预留算法。Ｌｉｎｇ等人【３３Ｊ提出一种加权比例公平（ＷＰＥ
ＷｅｉｇｈｔｅｄＰｒｏｐｏｒｔｉｏｎａｌＦａｉｒ）接纳控制算法，在求解最优权重的基础上，保证用户
的ＱｏＳ。Ｌ．Ｌｅ等人【３４］基于半马尔科夫决策过程（ＳＭＤＰ，Ｓｅｍｉ．ＭａｒｋｏｖｉａｎＤｅｃｉｓｉｏｎ
Ｐｒｏｃｅｓｓ）模型，提出了一种０ＦＤＭＡ飞蜂窝系统中网络层接纳控制与ＭＡＣ层信
道机会调度的跨层控制算法，该算法可收敛到功率调整博弈的纳什均衡点。
２．基于经济效用的接纳控制算法
混合接入模式具有其他接入方式所不可比拟的优势，基于经济效用的接纳控
制算法通常从经济角度研究如何设计激励机制，以促使飞蜂窝拥有者采用混合接
入模式。Ｊ．Ⅵｎ等人【３５］提出了一种混合接入模式的激励机制，研究在不同的飞蜂
窝接入点下如何设置准入比例，以最大化宏蜂窝服务提供商收益。ＣｈｅｎＹ１３６Ｊ和
ＣｈａｉＣ［３７１分别从时域和频域的角度出发，建立了二层序贯博弈模型，在最大化运
营商收益的同时，保证了移动用户的ＱｏＳ。ＹＹｉ等人ｐ酬建立了三层Ｓｔａｃｋｅｌｂｅｒｇ
博弈的频谱租赁框架，通过纳什均衡得到了最优的频谱租赁价格、频谱租赁比例
和开放接入比例，最大化了运营商和飞蜂窝拥有者的效用。Ｙ．Ｃｈｅｎ等人【３９Ｊ提出
一种基于逆向拍卖的接入权限竞价框架，最大化了社会福利（ｓｏｃｉａｌｗｅｌｆａｒｅ）。
３．与其他技术联合优化的接纳控制算法
接纳控制模式决定了用户占用资源的方式和跨层干扰的程度，直接影响网络
性能。同时，接纳控制的实施涉及到频谱分配、功率分配和移动性管理等问题。
因此，将接入控制与吞吐量［４０１、频谱资源分配［４１｜、小区关联（ｃｅｌｌａｓｓｏｃｉａｔｉｏｎ［４２】
和安全性【４３】等其他技术联合设计与优化，成为异构网络接纳控制中的研究热点。
综上所述，目前国内外对ＬＴＥ．Ａ飞蜂窝系统小区切换与接纳控制算法的研
究虽取得一些成果，但仍存在一些局限性，具体表现在（１）大部分小区切换算
法仅考虑如何选择最优的目标基站，没有考虑切入目标基站后频谱资源分配对系
统性能的影响。同时，仅用单一的切换指标进行切换决策，无法完全反映网络的
实际状况。（２）大部分己有的接纳控制算法主要研究准入控制、拥塞避免和混合
接入的激励策略，对如何在考虑业务类型的基础上，通过接纳控制降低系统能耗
的研究较少。针对以上两点不足，本文运用马尔科夫决策过程（ＭＤＰ，Ｍａｒｋｏｖ
ＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）、强化学习（ＲＬ，ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）和随机网络演算（ＳＮＣ，
ＳｔｏｃｈａｓｔｉｃＮｅｔｗｏｒｋＣａｌｃｕｌｕｓ）理论，构建了移动用户小区切换与频谱资源分配联
合优化的ＭＤＰ模型，设计了基于功率控制与休眠唤醒机制的接纳控制算法。
万方数据
第一章绪论
１．３研究内容与创新点
本课题拟运用马尔科夫决策过程、强化学习和随机网络演算等理论，对
ＬＴＥ．Ａ飞蜂窝系统的小区切换与接纳控制问题展开研究。一方面，运用马尔科
夫决策过程理论，提出并构建了小区切换与频谱资源分配联合优化的ＭＤＰ模
型，设计了基于Ｑ．Ｌｅａｒｎｉｎｇ的求解精度高、收敛速度快的近似求解算法。另一
方面，运用随机网络演算理论，结合功率控制与休眠唤醒机制，提出并设计了高
效的接纳控制算法，降低了切换时延、飞蜂窝基站能耗与移动终端能耗。具体研
究内容如下：
（１）马尔可夫决策过程与强化学习理论研究
马尔科夫决策过程作为决策与控制问题建模的理论工具，可有效刻画ＬＴＥ．Ａ
飞蜂窝系统中无线信道的时变性、状态空问的多维性、以及数据到达的随机性。
强化学习方法不受外部变量影响，在状态转移模型未知的情形下，仍可对ＭＤＰ
模型进行有效求解。。
（２）基于ＭＤＰ的ＬＴＥ－Ａ飞蜂窝小区切换算法研究
针对飞蜂窝基站覆盖范围小和部署密度高的特点，运用马尔科夫决策过程理
论，综合考虑用户的数据流到达、缓冲队列大小、移动速度、可用带宽与时延等
多种切换指标，提出并构建了小区切换与频谱资源分配的联合优化ＭＤＰ模型。
基于强化学习理论，设计了一种ＭＤＰ模型的求解算法ＭＤＰＱ。
（３）基于功率控制与休眠唤醒机制的接纳控制算法研究
针对高速移动用户与非实时业务请求的特点，运用随机网络演算理论，结合
功率控制与休眠唤醒机制，提出并设计了一种兼顾能效和切换时延的接纳控制算
法ＰＣＳＷＡＣ，具体包括估算用户驻留时间的ＤＴＥＡ算法、估算用户平均期望传
输时问ＡＥＴＴＡ算法和终端功率自适应调整机制，实现了终端功率的自适应调整
与飞蜂窝基站工作模式的动态切换。
本文的创新点主要体现在小区切换算法与接纳控制算法两个方面：
（１）小区切换算法
首先，所提出的ＭＤＰＱ算法，在进行小区切换决策的同时，兼顾了频谱资
源分配，实现了小区切换与频谱资源分配的联合优化，而已有的研究成果中，大
多仅考虑小区切换。其次，所构建的ＭＤＰ模型综合考虑用户的数据流到达、缓
冲队列大小、移动速度、可用带宽与时延等切换性能指标，目标函数综合考虑了
吞吐量、信令开销、以及掉线惩罚（ｄｒｏｐｐｉｎｇｐｅｎａｌｔｙ），相较于仅用单一指标进
行决策的小区切换算法，更能反映真实的网络状况。第三，结合强化学习理论，
提出并设计了收敛快速的马尔科夫决策过程模型求解算法。
（２）接纳控制算法
万方数据
第一章绪论
首先，不同于大多数已有的接纳控制算法，所提出的ＰＣＳＷＡＣ算法以最小
化系统能耗为目标，且为飞蜂窝基站和移动终端分别设计了休眠唤醒机制和自适
应功率调整机制。其次，运用随机网络演算理论，研究ＬＴＥ．Ａ飞蜂窝系统的接
纳控制问题，拓展了随机网络演算理论的应用范围。第三，ＰＣＳＷＡＣ算法综合
考虑了移动终端的切换决策与飞蜂窝基站的接纳控制。
１．４论文组织结构
本文对ＬＴＥ．Ａ飞蜂窝系统小区切换和接纳控制问题展开研究，运用马尔科
夫决策过程、强化学习和随机网络演算理论，构建了移动用户小区切换与频谱资
源分配的联合优化ＭＤＰ模型，提出并设计了基于功率控制与休眠唤醒机制的接
纳控制算法。全文共六章，各章概要如下：
第一章阐述了ＬＴＥ—Ａ飞蜂窝系统背景与移动性管理存在的问题，归纳总结
了小区切换与接纳控制问题的国内外研究现状，在概述课题主要研究内容的基础
上，指出了本文的主要创新点。
第二章研究了马尔科夫决策过程的基本模型，对比分析了各种ＭＤＰ基本算
法，阐述了强化学习系统的主要组成元素，研究了基本的强化学习算法。
第三章针对飞蜂窝基站覆盖范围小和部署密度高的特点，运用马尔科夫决策
过程理论，提出并构建了小区切换与频谱资源分配的联合优化ＭＤＰ模型，并基
于强化学习理论设计了ＭＤＰ模型的求解算法。
第四章针对高速移动用户与非实时业务请求的特点，运用随机网络演算理
论，结合功率控制与休眠唤醒机制，提出了一种接纳控制算法，实现了终端功率
的自适应调整与飞蜂窝基站工作模式的动态切换。
第五章通过构建ＬＴＥ—Ａ飞蜂窝系统移动场景，验证了所提出的小区切换算
法ＭＤＰＱ和接纳控制算法ＰＣＳＷＡＣ的性能。
第六章对全文研究内容进行总结，并对下一步工作进行了展望。
万方数据
第二章马尔可夫决策过程与强化学习方法研究
第二章马尔可夫决策过程与强化学习方法
研究
马尔科夫决策过程作为一种可对优化、决策、控制等问题进行建模与分析的
有效理论工具，能够刻画ＬＴＥ—Ａ飞蜂窝系统的无线信道的时变性、状态空间的
多维性、以及数据到达的随机性，可用于ＬＴＥ．Ａ飞蜂窝系统中小区切换模型的
构建。强化学习方法不受外部随机变量影响，在状态转移模型未知的情形下，便
可对ＭＤＰ模型进行有效求解。本章在论述马尔科夫决策过程基本模型的基础上，
对比分析了各种ＭＤＰ基本算法。阐述了强化学习系统的主要组成元素，并对基
本的强化学习算法进行了研究。
２．１马尔可夫决策过程理论研究
马尔可夫决策过程，亦称马尔可夫型随机动态规划，它是确定性的动态规划
（ＤＰ，ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）与马尔可夫过程（ＭＰ，ＭａｒｋｏｖＰｒｏｃｅｓｓ）相结合的
产物。一个经典的ＭＤＰ执行流程１４４１为：（１）决策者观察系统所处状态；（２）
根据当前状态，从可用行为空间选取某一行为；（３）实施该行为，系统状态发
生变化：（４）决策者再根据新的状态进行决策，依次反复进行。系统状态转移
概率具有无后效性，又称为马尔可夫性，即下一决策时刻的系统状态仅依赖于当
前时刻系统所处的状态与决策行为，而与系统的历史状态无关。
２．１．１马尔可夫决策过程的基本模型
２．１．１．１决策时刻
决策时刻（ＤＥｓ。ＤｅｃｉｓｉｏｎＥｐｏｃｈｓ）是指决策者做出并实施决策的时间点。所
有决策时刻的集合，记为Ｔ。Ｔ为非负实轴上的子集，并支持两种分类标准。根
据Ｔ是否离散，分为离散集和连续集；根据Ｔ是否有限，分为有限集和无限集。
当Ｔ为离散集时，决策者在所有决策时刻进行决策的选择与实施。当Ｔ为连续
集时，进行决策的情形具体分为三种：（１）在每个决策时刻均进行决策；（２）
在某个事件发生时的随机点进行决策，如缓冲队列的分组到达；（３）决策者自
主选择适当的时问进行决策。当连续做出决策时，该序贯决策问题（ＳＤＰ，
ＳｅｑｕｅｎｔｉａｌＤｅｃｉｓｉｏｎＰｒｏｂｌｅｍ）最好采用基于动态系统方程的控制论方法进行分
析。
万方数据
进行离散决策时，时间被划分为决策周期，即任意相邻决策时刻问的时间长
度。如图２．１所示，决策时刻相当于每个决策周期的起始时刻。针对有限阶段的
决策，决策时刻的集合用丁＝｛１，２，…，Ｎ）表示；针对无限阶段的决策，决策阶段
的集合用丁＝｛１，２，…）表示。
决策时刻决策时刻决策时刻决策时刻决策时刻

ｌ２３４Ｎ
卜——————卜—————＿１－＿———————√卢———————一
‘——。——、——一＾——、，——７——，——
决策周期决策周期决策周期决策周期
Ｎ一１
１２３
图２．１决策时刻与决策周期
２．１．１．２状态与行为
在每个决策时刻，与决策问题相关的各个参数的值，反映了当前系统所处的
状态，可将状态理解为对系统的描述。系统可能处于的所有状态的集合，构成了
系统的状态集，又称为状态空间，记为Ｓ。行为是决策者在当前状态Ｓ，Ｊ∈Ｓ下所
做的决策，是决策时刻系统的输入，记为一，。决策者在各个状态下，所能做出
的所有决策的集合，构成系统的行为集，又称为行为空问，记为爿，Ａ＝ｕ懋爿，。
其中，状态集与行为集可为以下四种集合中的任一种：（１）任意的有限集（ｆｉｎｉｔｅ
ｓｅｔｓ）；（２）任意的可数无限集（ｃｏｕｎｔａｂｌｅｉｎｆｉｎｉｔｅｓｅｔｓ）；（３）有限维欧氏空
间的紧致集（ｃｏｍｐａｃｔｓｕｂｓｅｔｓ）；（４）完备离散度量空间的非空Ｂｏｒｅｌ子集。
２．１．１．３回报与转移概率
在每个决策时刻，决策者总是根据当前决策时刻所观察到的系统状态
Ｓ，ｓ∈Ｓ，从当前可用的行为空间彳中，选取并实施行为，决策者将得到回报，并
根据转移概率决定下一决策时刻系统的状态。
决策者得到的回报由回报函数定义，回报函数可理解为系统的输出。在决策
时刻ｆ，回报函数定义为系统状态Ｓ∈Ｓ和决策者行为ａ∈４。的实值函数，记为
Ｉ（ｓ，ｄ）。若‘（ｓ，口）为正值，则可将回报看作收益；若‘（ｓ，ａ）为负值，则可将回
报看作成本。
一般来讲，决策者当前决策时刻所得回报还依赖于下一决策时刻系统所处的
状态。若决策时刻，时，系统处于状态ｓ，决策者采取行为ａ后，系统在下一决
策时刻（ｔ＋１）的状态为ｓ。，则可将所得回报记为‘《ｓ，口，ｓ。）。在决策时刻ｆ，回报
的期望为：
‘（驴）＝∑，；（叩，ｓ。）只（ｓ’Ｉｓ，口）．
万方数据
其中，非负函数只（Ｓ１ｓ，口１是转移概率函数，且满足以下约束：
∑只（ｓ１Ｉ印）＝１．
ｊ。￡Ｓ
马尔可夫决策过程的五个元素，可记为五元组：
｛丁，ｓ，４，只（・Ｉｓ，口），ｌ（胃，以）｝．
其中，回报函数和转移概率函数具有马尔可夫特性，即它们的取值只依赖于当前
决策时刻的系统状态与决策者采取的行为，而与更早决策时刻的系统状态和决策
者行为无关。
２．１．１．４决策规则与策略
决策规则（ＤｅｃｉｓｉｏｎＲｕｌｅ）是指决策者根据当前系统状态选择行为的规则。
在每个决策时刻，决策者可根据马尔可夫链选择确定的某个行为，也可根据以往
的历史经验随机选择某个行为。
定义２．１（策略规则函数）在决策时刻ｚ，系统状态为Ｓ，策略规则函数定
义为状态空间到当前状态下可采取行为集合的映射：
Ｚ：Ｓｊ４．
定义２．２（确定决策规则）在决策时刻ｆ，若对于任意状态Ｓ∈Ｓ，均满足
谚（Ｓ１－－－）彳。，则称该规则为确定决策规则。
确定决策规则具有无记忆性和确定性的特点。其中，无记忆性是指系统当前
状态只取决于前一个决策时刻的系统状态与决策者行为，确定性是指决策者在当
前决策时刻的每个状态下所能采取行为的集合均是唯一的。
定义２．２（随机决策规则）在决策时刻ｆ，若为行为集指定一个概率分布
吼（・），使系统的状态空间映射到行为空间的概率分布函数上：
Ｚ：Ｓ专ｑ（Ａ１．
则称该类决策规则为随机决策规则。
根据决策规则是否具有历史依赖性，即谚是否依赖于系统以往状态与决策
者行为的序列忽＝（Ｘ１ａ１，…，Ｓｔ＿１ａｔ小Ｓｔ），可分为依赖历史的决策规则和具有马尔

科夫性的决策规则。
将以上分类标准进行结合，决策规则可具体分为依赖历史的随机性决策规则
（ＨＲ）、马尔可夫的随机决策规则（ＭＲ）、依赖历史的确定决策规则（ＨＤ）
和马尔可夫的确定决策规则（ＭＤ）。
定义２１３（策略）马尔可夫决策过程的策略是指一系列决策规则的序列，
记为：
万＝（４，ｄ２，…，ｄＮ１），Ｚ∈蹲，ｆ＝１，２，…，Ｎ一１．
其中，Ｋ代表ＨＲ、ＭＲ、ＨＤ和ＭＤ中的任意一种策略。
万方数据
定义２．３（平稳性）若对每个ｔ∈Ｔ，都有Ｚ＝ｄ，则称策略万＝（匾，ｄ：，…，氏一，）
为平稳策略，记为ｄ。。
在每个决策时刻，决策者根据当前系统所处状态，以预先设定的策略从当前
可用行为空间中选取并实施某一行为，通过回报函数得到执行该行为的回报，系
统根据转移概率转移到下一决策时刻系统所处的状态。ＭＤＰ作为序贯决策过程
的子集，其目标旨在寻找最优的策略，以最大化或最小化目标函数。几种经典的
目标函数为：
（１）有限时段期望总回报
％＝Ｅ｛∑，；（％ｑ）｝，薯∈Ｓ．（２．１）
（２）无限时段期望总回报
矿２（ｓ）＝憋疋｛∑‘（１，ｑ）｝，＿ｃＳ．
“—’∞ Ｊ●、。Ｊ
（２．２）
（３）无限时段期望折扣总回报
啊沪艘ｔ｛善＾（∽）｝舻Ｓ．（２．３）
（４）无限时段期望平均回报
ｐ４（ｓ）＝熙专疋｛喜，；（％ｑ）｝＾∈ｓ．ｃ２ｍ
２．１．２马尔可夫决策过程问题求解
２．１．２．１策略迭代算法
策略迭代又称为策略空间逼近法，是一种基于贝尔曼（Ｂｅｌｌｍａｎ）最优方程
的算法，如表２．１所示。若已知回报函数月和状态转移概率尸，则可利用策略迭
代算法，逼近最优的平稳策略序列万‘及对应的值函数矿‘序列。策略迭代算法主
要利用公式２．５和公式２．６来改进策略。
Ｑ”（叩－－ｒ（驴）＋ｙ∑ｐ（ｓ‘ｌ驴）旷（ｓ’），
ｊＥＳ
（２．５）
万１（ｓ）＝ａｒｇＩｎ硪（ｓ）：
口Ｅ４
（２．６）
由于策略有限，且通过迭代可不断改进当前策略，经有限次迭代后一定会收
敛于最优策略。
万方数据
第一章马尔可夫决策过程与强化学习方法研究
表２．１策略迭代算法
策略迭代算法
１：初始化：设定初始策略万。
２：策略估计ｔ
计算策略万下的值函数矿。
『７４（ｓ）＝ｒ（ｓ．石（ｓ））＋ｙ∑ｐ（ｓ’ｌｓ．．，ｒ（ｓ））ｌ’。（ｓ’ｌ
３：策略改进：
利用公式２．５和公式２．６，求得３－＋。
４：收敛性判断：
ｉｆ石。＝石ｔｈｅｎ
跳转到第５步；
ｅｌｓｅ
令刀＝刀，跳转到第２步。
ｅｎｄｉｆ
５：返回最优策略。
由于每次迭代都需求解方程组，复杂度较大，故策略迭代算法只适用于状态
空问和行为空间较小的ＭＤＰ问题。
２．１．２．２值迭代算法
zkq 20160118
值迭代算法利用Ｂｅｌｌｍａｎ公式，通过不断迭代来改进值函数，并逐次逼近最
优平稳策略，具体算法如表２．２所示。
表２．２值迭代算法
值迭代算法
１：初始化：
选择初始值函数矿。和￡，并设Ｆ／＝０。
２：对于每个状态ｓ∈Ｓ，计算Ｖ…１（ｓ）：
州ｓ）２翟∽口）＋ｙ萎ｐ（ｓ。ｈ口）矿（ｓ’）卜
３：收敛性判断：
ｉｆ眇“一Ｖ”卜Ｅｔｈｅｎ
跳转到第４步；
ｅｌｓｅ
令ｎ＝甩＋１，跳转到第２步。
ｅｎｄｉｆ
４：对于每个状态ｓ∈ｓ，选择以下策略：
ｒ１
万（ｓ）∈ａｒｇｍａｘ｛ｒ（ｓ，口）＋ｙ∑．ｐ（ｓ’Ｉｓ，ａ）矿”“（ｓ）｝
…。ｓＥｓ、‘‘Ｊ
５：返回最优策略。
万方数据
值迭代算法在迭代过程中需要遍历系统中的所有状态来计算值函数，当状态
空间较大时，面临“状态空问爆炸”问题。
２．１．２．３贪心算法
贪心算法是一种近似算法，又称近视策略（ｍｙｏｐｉｃｐｏｌｉｃｙ），在求解ＭＤＰ
模型时，贪心算法仅关注当前决策时刻的回报，而不考虑当前决策对未来回报的
影响，可描述为公式２．７：
（２．７）
ｍ２蹬【占。ｑ）
、‘”
“，…１．一
贪心算法得到的是每个决策时刻的局部最优解，如何选择最优贪心策略是该
类算法设计的关键。虽然贪心算法所得策略未必最优，但因其无需对值函数进行
迭代更新，因而时间复杂度低，为求解ＭＤＰ问题提供了一种的简单求解方案。
２．１．２．４基于状态聚合的算法
策略迭代算法和值迭代算法都面临“状态空间爆炸”的问题，为克服该问题，
基于状态聚合的算法旨在将状态空间进行聚合化简，以降低问题规模。
鼹膨髑
zkq 20160118
图２．２一个ＭＤＰ状态空间的聚合
图２．２描述了一种对状态空间的划分方法，对各虚线方框中的每个状态而言，
假设系统以较大的概率转移到其起始状态所在虚线方框内的某个状态，而转移出
其起始所在的虚线方框的概率很小，便可对该ＭＤＰ采取状态聚合。一种经典的
ＭＤＰ状态聚合算法［４５］，如表２．３所示。
表２．３ＭＤＰ状态空间化简算法
ＭＤＰ状态空间化简算法
１：将状态空间Ｓ进行划分：｛Ｓ，ｓ２，…，最｝
２：ｆｏｒｉ＝１ｔｏ聆
３：若该状态不在Ｓｉ，则将该状态的概率置０；
４：若该状态在Ｓｉ，则归一化处理其转移概率：
５：基于，ｒ＝ｒｒＰ，求解Ｓ内状态稳态概率；
６：求解Ｓ到Ｓｊ的转移概率弓＝∑。ｚｒｋＰ目
７：ｅｎｄｆｏｒ
万方数据
２．１．２．５基于近似动态规划的算法
近似动态规划（ＡＤＰ，ＡｐｐｒｏｘｉｍａｔｅＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）【１６，４６］作为一种求

解大规模ＤＰ问题的近似求解方法，可有效解决ＭＤＰ中的“状态空间爆炸”问
题。在ＡＤＰ中，值函数如式２．８所示。
（２．８）
Ｖ（ｓ，）－…ｍａ玑ｘ、，ＳＩ，ｑ）＋葩｛矿（一＋，）ｊ．
在式２．８中，“状态空间爆炸”问题主要体现在：（１）状态空间太大，导
致存储空间不足；（２）外部随机变量分布未知，导致期望难以计算。ＡＤＰ采用
基于值函数近似与后决策状态的前向ＤＰ方法解决上述问题。一种可行的基于
ＭｏｎｔｅＣａｒｌｏ仿真的前向动态规划算法如表２．４所示。
表２．４ＭＤＰ状态空间化简算法
基于ＭｏｎｔｅＣａｒｌｏ仿真的前向动态规划算法
１：初始化
对每个状态ｓ，初始化矿（ｓ）；
选择初始状态ｓ。；
２：ｆｏｒｆ＝０ｔｏＴｄｏ
３：求解
奇，倒ｍａｘ。）｛尺（∽）＋ｄＥ｛Ｖ（ｓ，＋。）训
zkq 20160118
并令ａ．为以上最大化问题的解。
４：利用下式对Ｖ（ｓ１进行更新
旷（ｓ，）卜（１一研）旷（暑）＋巩ｔ。
５：根据ＭｏｎｔｅＣａｒｌｏ仿真确定随机变量样本
彬＝∽，人，）
６：系统演进到下一个状态
ｑ。。＝ｍｊｎ｛［ｇ。一丢％（岛）嘞］＋五。，，曰）
２．２强化学习理论研究
强化学习作为一类机器学习方法，刻画了系统环境状态到学习者行为的映
射，旨在最大化智能系统的累积回报。如图２．３所示，Ａｇｅｎｔ和环境构成了强化
学习系统的基本框架。Ａｇｅｎｔ是指学习者或决策者，它可感知所处环境，并采取
某种行为对环境施加影响。环境则可理解为所有与Ａｇｅｎｔ交互的对象。Ａｇｅｎｔ通
过不断尝试，逐渐找到最优策略。
万方数据
行为
图２．３强化学习框架图
Ａｇｅｎｔ在与动态环境的即时交互中，感知并获取环境的状态信息，并选择某
种行为作用于环境；受Ａｇｅｎｔ行为影响，环境状态发生变化，并反馈一个奖或罚
的强化信号（ＲＳ，ＲｅｉｎｆｏｒｃｅｍｅｎｔＳｉｇｎａｌ）给Ａｇｅｎｔ；Ａｇｅｎｔ根据得到的强化信号和
当前的环境状态选择下一步行为，通过反复试错与不断选择，最终可学习到适应
环境的最优策略。在学习过程中，Ａｇｅｎｔ会利用ＲＳ不断评价自身行为：若某种
行为得到环境正的回报，则Ａｇｅｎｔ未来采取该行为的概率增加：若某种行为得到
环境负的回报，则Ａｇｅｎｔ未来采取该行为的概率降低。其中，来自环境的ＲＳ又
被称为回报（Ｒｅｗａｒｄ）。试错搜索（ｔｒｉａｌ．ａｎｄ．ｅｒｒｏｒｓｅａｒｃｈ）和延迟回报（ｄｅｌａｙｅｄ
ｒｅｗａｒｄ）是强化学习最显著的两个特征。Ａｇｅｎｔ所选择的行为不仅影响当前时刻
的瞬时回报，还影响下一时刻的回报及环境状态。
zkq 20160118
２．２．１强化学习系统的主要组成要素
除环境和决策者Ａｇｅｎｔ外，强化学习系统还包括策略、奖赏函数、值函数和
环境模型四个重要的组成要素，如图２．４所示。
图２．４强化学习四要素
２．２．１．１策略
策略，亦称决策函数，规定了每种环境状态下Ａｇｅｎｔ的行为选择方式。一般
来说，策略是从Ａｇｅｎｔ感知到的环境状态集合Ｓ中的任一状态Ｓ到该状态下所采
取行为集合４中的某一行为口的映射，即策略万：Ｓ—Ａ。策略是强化学习系统的
３．４
万方数据
核心，具有随机性，其优劣直接影响Ａｇｅｎｔ行为的选择和系统的整体性能。
２．２．１．２奖赏函数
奖赏函数，亦称回报函数，规定了强化学习问题的目标，是Ａｇｅｎｔ评价行为
与改善策略的基础。一般来说，奖赏函数是Ａｇｅｎｔ感知环境的每种状态，或状态
行为对（Ｓｔａｔｅ—ＡｃｔｉｏｎＰａｉｒ），到某一标量数值的映射。例如，若该值为正数，则
表示Ａｇｅｎｔ在当前状态下采取的行为对自身有利，得到奖赏；若该值为负数，则
表示Ａｇｅｎｔ在当前状态下采取的行为对自身不利，得到惩罚。在强化学习过程中，
Ａｇｅｎｔ的最终目标是最大化得到的总奖赏值。奖赏函数一般是客观且确定的，并
为如何选择最优策略提供依据。
２．２．１＿３值函数
奖赏函数仅能反映对当前状态或状态．行为对的即时评价，不能描述Ａｇｅｎｔ
整个学习过程的优劣。值函数（ＶａｌｕｅＦｕｎｃｔｉｏｎ），亦称评价函数，旨在从长远
的角度评价某一状态或状态．行为对的好坏。如公式２．９所示，状态只的值函数定
义为：Ａｇｅｎｔ在状态Ｓｔ，根据策略万，采取行为记及后续策略后，所得无限时域
zkq
累积折扣奖赏的期望，记为矿“）。 20160118
，，０。、
Ｋ（‘）＝疋Ｉ∑Ｙ７ｒ（‰，‰）｜．
＼ｉ＝０／
（２．９）
其中，Ｙ∈（ｏ，１］为衰减系数，，．（薯州ａ卜Ｈ）Ｎｔ＋ｉ时刻的即时奖赏。
由公式２．９可知，值函数是对奖赏函数的预测，是选择行为与制定策略的依
据。在选择行为时，Ａｇｅｎｔ选择使值函数值最大的行为，而不是使即时奖赏函数
值最大的行为，因为从长远看，依据值函数选择行为获得的累积折扣奖赏的期望
最大。不同于奖赏函数由环境直接给出，值函数往往是通过观察Ａｇｅｎｔ整个生命
周期中的状态序列，反复评估得到的。实际上，如何高效快速的评估值函数是大
部分强化学习算法研究的关键。
２．２．１．４环境模型
若给定当前状态与采取的行为，环境模型可推导出下一状态，并给出即时奖
励。环境模型常被用来进行规划，即采取并实施某一行为前，预测并分析下一步
可能处于的各种状态与所得到的奖赏。
从不同角度出发，可将Ａｇｅｎｔ面临的复杂、动态的开放环境分为以下几类：
如果Ａｇｅｎｔ可感知所有的环境信息，则状态完全可观察环境，否则，状态部分可
观察环境。如果Ａｇｅｎｔ在不同场景中所学知识无关，则为非插曲式（ｎｏｎ．ｅｐｉｓｏｄｉｃ）
万方数据
环境，否则，为插曲式（ｅｐｉｓｏｄｉｃ）环境。如果状态转移依赖于某种概率分布，
则为不确定性环境，否则，为确定性环境。对于不确定环境而言，根据概率分布
是否稳定，又可细分为动态环境与静态环境。
２．２．２强化学习算法
２．２．２．１动态规划
动态规划‘４７１是２０世纪５０年代由ＲｉｃｈａｒｄＢｅｌｌｍａｎ提出的求解决策过程最优
化的数学方法，通过将多阶段决策过程（ｍｕｌｔｉｓｔｅｐｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ）‘４８１分解为一

系列单阶段问题，在利用并分析各阶段关系的基础上，逐个求解各个决策过程，
以寻求最优策略。常见的动态规划方法有策略迭代、值迭代和改进的策略迭代等。
２．２．２．２蒙特卡罗算法
ＤＰ方法要求环境状态是完全可观察的，而事实上，Ａｇｅｎｔ往往仅能观察到
部分环境信息，基于此，研究者们提出了蒙特卡罗算法（ＭＣ，ＭｏｎｔｅＣａｒｌｏ
Ｍｅｔｈｏｄｓ）［４９］。ＭＣ算法在与环境的交互中，完成值函数的评估，获得状态、行
zkq 20160118
为及奖赏序列，并最终找到最优策略。作为一种模型无关（ｍｏｄｅｌ．ｆｒｅｅ）的学习
方法，ＭＣ一般利用平均样本奖赏值对强化学习问题进行求解。
如式２．１０所示，ＭＣ算法通过逼近的方法完成值函数的评估。
矿（薯）＜－－矿（‘）－Ｉ－１ｚｌ置－Ｖ（ｓ，）１．（２．１０）
其中，Ｒ＝，；＋，＋肛＋：＋ｙ２‘＋３＋…＝ｌ叫＋ｒｇ＋Ｊ是累计折扣奖赏值。
ＭＣ算法求解某个状态的值函数时，对其他状态的值函数没有依赖，且ＭＣ
算法对马尔可夫性的要求不严格，适用于求解状态部分可感知的问题。
２．２．２．３瞬时差分算法
瞬时差分算法（ＴＤ，ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）［５０１是ＤＰ方法和ＭＣ方法的结合，
兼具ＤＰ方法和ＭＣ方法的特点。与ＤＰ方法类似，ＴＤ方法可利用部分已学到
的经验更新状态值函数，而不必等待最终结果。ＴＤ（０）算法是一种最简单的
ＴＤ算法，如式２．１１所示。
Ｈｔ）÷一矿（■）＋口［巧“＋ｙＨ‘＋１）一Ｈｓ）】．（２．１１）
其中，口∈（ｏ，１】为学习步长，ｙ∈（０，１】为折扣因子。
一般来说，ＭＣ方法以式２．１２的估计作为目标，而ＤＰ方法以式２．１３的估计
作为目标。ＭＣ的目标值是估计值，因为式２．１２的期望值是未知的，利用样本回
万方数据
报值来代替真实的期望回报。ＤＰ的目标是估计值，并不是因为环境模型能提供
期望回报，而是因为使用当前估计值ｙ（‘＋，）来代替未知的Ｖ。（墨＋，）。ＴＤ的目标
是估计值则源于其简化了式２．１３的期望值，并使用当前估计值矿来替代真实的
ｙ４。
（２．１２）
Ｖ”（Ｓ）＝疋忸旧＝Ｊ），
ｒ田、
＝乓｛∑ｙ‘ｒｔｍ，［Ｓｔ＝ｓ｝，
Ｌｋ＝ＯＪ
ｒ ∞ 、
＝疋协＋ｙ∑ｙ‘‰＋：Ｉｓ，＝Ｊ｝，
Ｌｋ＝ＯＪ
＝Ｅ｛ｏ。＋７Ｖ。（ｓｆ＋１）Ｉｓ，＝ｓ｝．（２．１３）
２．２．２．４Ｑ学习
Ｑ学习（Ｑ．Ｌｅａｒｎｉｎｇ）是一种与模型无关的ＲＬ算法【５１１，由Ｗａｔｌｄｎｓ在１９８９
年提出，旨在求解ＭＤＰ环境模型下的学习问题。Ｗａｔｋｉｎｓ定义了一种记录状态一
行为对的函数，称为Ｑ函数，记为Ｑ（‘，ａ１），用以表示在状态‘，采取行为ａｔ及
后续策略的期望累计折扣奖赏。
单步Ｑ—ｌｅａｒｎｉｎｇ中Ｑ函数的更新如式２．１４所示。
Ｑ（薯，ａｔ）卜Ｑ（薯，ｑ）＋口ｆ‘＋。＋厂ｍ警Ｑ（‘“，ｑ“）一Ｑ（薯，ｑ）ｆ．（２．１４）
在Ｑ．Ｌｅａｒｎｉｎｇ中，策略和值函数被记录在由状态．行为对构成的二维表中，
该表被称为Ｑ．Ｔａｂｌｅ。Ｑ．Ｔａｂｌｅ中的所有行为均有可能被Ａｇｅｎｔ执行，为了搜索最
优Ｑ函数，Ａｇｅｎｔ需试验每种状态下可采取的所有行为。已有研究证明１５２】，以任
意顺序将式２．１４重复应用于每一个状态．行为对，并使其Ｑ值更新次数达到无穷
大，则Ｑ必将收敛到Ｑ‘，从而得到最优策略。
２．３本章小结
本章对马尔科夫决策过程与强化学习理论进行了研究。一方面，阐述马尔科
夫决策过程的基本模型，归纳并对比了多种ＭＤＰ基本算法的工作原理与优缺点。
另～方面，在研究强化学习系统组成元素的基础上，深入分析了基本的强化学习
算法适用场景与特点。
万方数据
第三章基于ＭＤＰ的ＬＴＥ．Ａ飞蜂窝小区切换算法研究
第三章基于ＭＤＰ的ＬＴＥ．Ａ飞蜂窝小区切
换算法研究
本章针对飞蜂窝基站部署密度高、覆盖范围小、用户移动性低的特点，将小
区切换决策与频谱资源分配的联合优化建模为ＭＤＰ优化模型，综合考虑了用户
的数据流到达、缓冲队列大小、移动速度、可用带宽与时延等切换性能指标。鉴
于无线信道的时变性、状态空间的多维性、以及数据到达的随机性，提出了一种
基于强化学习的ＭＤＰ模型求解算法ＭＤＰＱ。
３．１系统模型
～
一叁一
曼ＭＹＩＩｊＩ拿●０Ｉ｜ｉＩ¨：｝ＩＩｊ拿：：：ｊ！ＩｊＩｊｏｊ：｜Ｉ㈠
＼ § ａ §：ｌｌ！｝
考察如图３．１所示的ＬＴＥ．Ａ飞蜂窝系统切换场景，ＭＴ为决策者。假设宏基站
（ＭＢＳ，ＭａｃｒｏＢａｓｅＳｔａｔｉｏｎ）和飞蜂窝基站共享全部频谱，且总带宽被分为Ⅳ。个
可变宽度（Ｖａｒｉａｂｌｅ．ｗｉｄｔｈ）的连续信道，令形表示该正交频分多址接入（ＯＦＤＭＡ，
ＯｒｔｈｏｇｏｎａｌＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）系统中所有信道的集合，则有
Ｉ形ＩｉⅣ。。信道模型采用加性高斯白噪声（ＡＷＧＮ，ＡｄｄｉｔｉｖｅｗｈｉｔｅＧａｕｓｓｉａｎＮｏｉｓｅ）
信道，且每个时槽内ＭＴ仅占用一个信道。在决策时刻ｆ，ＭＴ可观测到的系统状
态包括：（１）时槽ｆ中可用的空闲信道：（２）在Ｉｆ一１，ｆ）内，到达ＭＴ的分组数：（３）
ＭＴ的缓冲队列长度。
目前，大部分小区切换［５３－５５１算法仅考虑如何选择最优的目标基站，没有考虑
切入目标基站后频谱资源分配对系统性能的影响。仅用单一的切换指标进行切换
万方数据
第三章基于ＭＤＰ的ＬＴＥ．Ａ飞蜂窝小区切换算法研究
决策，无法完全反映网络的实际状况。本章综合考虑多种影响小区切换的因素，
运用马尔可夫决策过程理论，建立了小区切换与频谱资源分配的联合优化ＭＤＰ
模型，并基于强化学习理论，设计了一种联合优化ＭＤＰ模型的求解算法。
所提出的小区切换算法ＭＤＰＱ，综合考虑了以下因素对切换决策的影响。
３．１．１可用带宽
可用带宽反映了目标小区的信道状况，当接入小区的用户较多时，系统分配
给各用户的可用带宽降低。根据各小区的可用带宽状况，可有效阻止高负载情形
下新用户的接入，进而保证己接入该小区的用户的吞吐量和ＱｏＳ。时延敏感型业
务对可用带宽的要求较高，若系统可用带宽不足，会导致较高的掉话率，直接影
响用户ＱｏＳ。所构建的ＭＤＰ模型，考虑了可用带宽对小区切换决策的影响。
３．１．２数据包到达与缓存队列
数据包到达速率与用户的缓存队列长度直接影响网络的数据传输速率与无
线资源分配。然而，大多数已有的小区切换算法１２４，２７，３０１假设用户的数据包以常速
率到达，且缓存队列足够大，并不能反映ＬＴＥ．Ａ飞蜂窝系统的真实情况。所提
出的小区切换算法，考虑了数据包到达速率、数据包大小，以及缓存队列长度。
为描述数据业务的突发性与随机性，假设数据包到达服从泊松到达（ＰＡ，Ｐｏｉｓｓｏｎ
Ａｒｒｉｖａｌ）ｏ且用户缓存队列长度有限。
３．１．３移动速度
飞蜂窝的覆盖范围小，来自宏蜂窝的高速移动用户若进入部署大量飞蜂窝的
热点区域，会导致大量频繁且不必要的切换。虽然ＬＴＥ．Ａ飞蜂窝对用户移动性
的支持较强，但对用户移动速度的评估会增大设计成本与能耗，并导致大量的信
令开销，影响网络性能。所提出的小区切换算法采用高斯一马尔可夫移动模型
（Ｇａｕｓｓ—Ｍａｒｋｏｖｍｏｂｉｌｉｔｙｍｏｄｅｌ）［５６］作为用户的移动模型，以研究用户移动速度
对小区切换决策的影响。
３．１．４业务类型
在ＬＴＥ．Ａ飞蜂窝系统中，不同业务类型具有不同ＱｏＳ要求，如表３．１所示。
３ＧＰＰ定义了ＱｏＳ的体系结构，大致将业务分为会话类、流媒体类、交互类和背
景类［５７】。其中，会话类和流媒体类对时延和抖动的要求较高，但可以接受一定的
万方数据
第三章基于ＭＤＰ的ＬＴＥ－Ａ飞蜂窝小区切换算法研究
丢包率，如语音、视频电话等；交互类和背景类可以容忍一定的时延，但对丢包
率要求较高，如文件传输、Ｅｍａｉｌ等。
表３．１飞蜂窝系统各类业务对ＱｏＳ的要求
ＱｏＳ类别会话类流媒体类交互类背景类
时延严格限制（实时）限制（实时）宽松（非实时）无限制（非实时）
抖动严格限制限制宽松无限制
丢包率较低较低较高较高
数据速率稳定较稳定可变可变
在ＬＴＥ—Ａ飞蜂窝系统中，宏蜂窝与飞蜂窝对各类业务具有不同的支持能力。
飞蜂窝采用“尽力而为”（ＢＥ，Ｂｅｓｔ—Ｅｆｆｏｒｔ）的因特网作为回程网，可提供较高的
数据传输速率，但支持实时业务的能力较差；宏蜂窝的数据传输速率较低，但可
有效支持实时业务。因此，所提出的小区切换算法重点研究飞蜂窝问非实时性业
务的小区切换问题，考虑了切换时延对目标小区选择的影响。
３．２小区切换与信道分配策略联合优化ＭＤＰ模型
ＬＴＥ．Ａ飞蜂窝系统小区切换的ＭＤＰ模型可表述如下。
３．２．１状态空间
系统状态定义为
Ｓ＝｛１，２，．一，Ｎ｝Ｘ甲１×Ｄ１…×、壬，～ＸＤ川×Ｑ×ＡＸＶ．（３．１）
其中，×表示笛卡尔积（Ｃａｒｔｅｓｉａｎｐｒｏｄｕｃｔ）；｛１，２，…，Ⅳ｝表示可为移动用户提供服
务的小区ｌＤ的集合；甲“＝｛≯１，…，≯％｝，ｍ∈｛１，…，Ⅳ｝是Ⅳ。维的０一ｌ向量，表明了当
前决策时刻小区ｍ的信道占用状况，若≯。，ｉ∈ｆ１，…，Ⅳ。｝为０，则表示信道ｉ空闲，
否则，信道ｉ被其他用户占用；Ｄ“∈扯…，ｄ一２｝表示移动用户从当前服务小区切
换到候选小区ｍ∈｛１，…，Ｎ｝的切换时延，吃为切换到小区ｍ的最大切换时延；Ｑ
表示当前决策时刻移动用户的传输队长，即移动用户缓存的分组数，Ｑ的取值受
移动用户队列的到达过程和当前服务小区信道的分配情况影响；人表示当前决策
时刻结束时到达移动用户的分组数，并假设所有数据包的到达时相互独立的；矿
表示当前决策时刻移动用户的移动速度。
万方数据
第三章基于ＭＤＰ的ＬＴＥ—Ａ飞蜂窝小区切换算法研究
３．２．２行为空间
移动用户的行为包括两部分：彳＝｛｛匆｝，｛０）），巨∈｛１，…，Ｎ）表示移动用户根
据当前决策时刻的系统状态做出的切换决策，用户可以选择驻留在当前服务小
区，也可以从当前服务小区切换到邻小区列表中的某个小区；｛ｏ）为。一ｌ变量，
表示是否将信道／分配给移动用户。若ｘ』的值为ｌ，则将信道Ｊ分给用户；若一的
值为０，则不将信道Ｌ『分给用户。
３．２．３系统转移方程
决策时刻ｆ，移动用户的状态为向量ｔ＝｛ｆ，甲：，叫，…，甲ｙ，∥，吼，Ａ，ｖｆ｝，其中，
ｉ表示为移动用户提供服务的小区，、壬，，，ｍＥ｛ｌ，…，Ⅳ｝表示小区ｍ的信道分配状
况，彰１，ｍ∈ｆ１，…，Ⅳ）表示移动用户从当前服务小区切换Ｎｄ，Ａｍ的切换时延，ｇ，
表示决策时刻，初始时移动用户服务队列的长度，＾表示决策周期ｔ内到达移动
用户服务队列的分组数，ｖ，为决策时刻ｆ移动用户的移动速度。当移动用户执行
动作口，后，系统转移到下一状态ｔ＋，＝｛Ｊ，、壬，：小以１，．一，１王，盖，，《，，ｇ小丑小ｖ，卅｝，且
Ｓｔ＋，仅取决于状态‘和行为ａ，，而与之前的状态无关【２刀。从状态‘Ｎ状Ｎｓ，＋。的转
移概率是每个维度下系统状态的联合概率，可得：
ｒＮ
尸Ｓｔ＋ｌＩＩ，ｑ）：ｊＰ（吼＋・ｌｑｔ）ＰＶｔ＋ｌ
Ｉｕ）ｆ。：ｉ。尸（Ｙ川，４＋・ｌ甲ｒ，４），Ｊ２ｑ．（３．２）
【０，ｕ，≠ｑ
其中，Ｊｐ（吼＋，Ｉｇ，）为移动用户传输队长的转移概率，尸（ｖ＋．Ｉｕ）为移动用户速度的
转移概率，Ｐ（甲川，Ｚ＋。ｌ甲，，Ｚ）为移动用户可用带宽和切换时延的转移概率。
在决策时刻ｔ，若当前服务基站ｆ在信道ｆ上的传输功率为珐，，则移动用户Ⅳ
在ＡＷＧＮ信道／上的频谱效率（ｓｐｅｃｔｒａｌｅｆｆｉｃｉｅｎｃｙ）为：
吒，－ｌｏｇ：［１＋等一“磷（３．３）
其中，红。。，是基站ｉ与移动用户“间在信道ｕ『上的信道增益，其值与移动用户“到
基站ｉ的距离以及信道７的工作频率相关，１９＂２为噪声功率，ｔ。，为用户“在信道７
上受到来自临近基站的同频干扰。
移动用户传输队长的转移概率尸（％。Ｉ吼），其值取决于［ｔ，ｔ＋１）内移动用户的
分组到达五、切换时延彰＋。以及己发送的分组数。下一决策时刻ｆ＋１，移动用户
的缓存队列初始长度为：
ｒｒ］＋１
吼＋１＝ｍｉｌ｛ｌ吼一∑巳ｔＸｔｋ（ｔ－ａ＇，＋’）ｌ＋以＋，厶｝
ｋｅ．ｄＪ
（３．４）
¨ Ｊ
其中，【厂（ｘ）】＋＝ｍａｘ｛ｆ（ｘ），０），吨表示决策时刻ｆ是否将信道ｋ分配给移动用户，
万方数据
第三章基于ＭＤＰ的Ｌ丁Ｅ—Ａ飞蜂窝小区切换算法研究
三表示移动用户的最大传输队长，即移动用户缓冲区的大小。
移动用户速度的转移概率Ｐ（ｕ“Ｊｖｆ）取决于用户的移动模型，假设用户采用
高斯一马尔可夫移动模型【５６１，则在决策时刻ｔ＋１，用户的移动速率ｕ。和移动方向
现，分别如式３。５和式３．６所示：
ｖ“＝叫＋（１一口）石＋４１一甜２匕．，（３．５）
（３．６）
磁＋ｌ＝册哆＋（１一口）掰＋、，ｌ一口２豫．．
其中，口∈［０，１］为该移动模型的记忆参数，用于描述用户移动速率和移动方向在
相邻时槽上的相关性。当口为０时，用户做布朗运动，此时移动相关性最低。随
着ａ的增大，用户移动相关性逐渐增大。矿和而分别为移动用户的平均速度和移
动方向的平均偏差。ｖ：代表均值为０，方差为ｄ。且与ｖ，无关的高斯随机变量，
记为Ｎ（Ｏ，吼）：聊。代表均值为ｏ，方差为Ｏ＂ｍ且与ｍｔ无关的高斯随机变量，记
为Ｎ（ｏ，吒，）。Ｏ－，和吒用于调节相邻前后决策时刻速率和方向的变化范围。
由于同一个服务区的不同网络，往往由不同的网络运营商使用不同的无线接
入技术进行管理和配置瞄…。因此，假设每个网络节点的带宽和延迟的概率函数相
互独立。
３．２．４效用函数
在决策时刻ｚ，处于ｓ，状态的移动用户执行动作ａｔ后，将会收到回报
Ｒ（‘，ｑ），并根据状态转移概率Ｐ（％，ｌ薯，ｑ）转移到下一系统状态。为了在最大
化用户实际吞吐量的同时，降低不同网络间的信令开销，保证用户的ＱｏＳ，回报
函数Ｒ（ｔ，ｑ）由吞吐量函数、信令开销函数和掉线惩罚函数三部分构成。
吞吐量函数定义为系统在时槽ｆ内的实际吞吐量：
ｒ１
厂（‘，ｑ）＝ｍｉｎ
Ｌ
ｃＬ，∑ｃⅣ黾ｔ－彰叫）｝／￡．
七∈∥ Ｊ
（３．７）
其中，∥叫为决策时刻ｔ移动用户从服务小区ｆ切换到目标小区，的切换时延。
信令开销函数定义为：
舀ｆｓ，缉１：ｊＫ∞’７≠ａｔ．
蜀（ｓ，ｑ）＝｛。‘叩．．（３．８）
Ｌｕ，ｌ—ａｔ
其中，墨。为从服务小区ｉ切换到目标小区时的信令开销。
掉线惩罚函数定义为：
０．畎ｎ。＜一枷
哆一％
ｇ：（Ｓｔａｔ）＝ ‰ ≤ 咋弛宅苫９
ｖｍ“一Ｖｍｉｎ
ｖｍ。≤Ｕ
万方数据
其中，ｖｍｉ。和ｖｍ。为影响用厂＝Ｉ掉线概率的速度阈值，随着移动用户移动速率的增
加，掉线率增加。
吞吐量函数反映了用户从当前服务小区中获得的吞吐量收益，信令开销函数
则描述了从当前服务小区切换到目标小区给网络带来的信令负载，掉线惩罚函数
则反映了用户移动速率对用户ＱｏＳ的影响。为了权衡网络性能与用户服务质量，
总回报函数定义为为：
（３．１０）
足（ＳＩｑ）＝厂（Ｉ，ｑ）一ｗｌｇｌ（‘，ｑ）一。％９２（‘，ｑ），
其中，ｗ１和ｗ’为权重因子。
３．２．５目标方程
在初始状态ｓ和策略万下，值函数定义为无限时段期望折扣总回报：
ｒ∞ 、
矿（Ｊ）＝Ｅ｛∑∥置（‘，万（‘））ｈ－－＇－－Ｓ｝，
Ｌｌ＝０Ｊ
（３．１１）
其中，Ｅｆ．１表示策略７／＂和初始状态Ｓ下的无限时域累积折扣奖赏的期望。ｙ∈【ｏ，１］
为折扣因子，若ｙ为０，则未来回报对系统状态无影响；ｙ越接近ｌ，则未来的
行为对当前回报的影响越大。ｚｃ（ｓ，）是ｚ时刻的策略。
该优化问题的最终目标是寻找最优策略，以最大化无限时域累积折扣奖赏的
期望。最优策略可通过求解最优值函数获得，根据式３．１１，最优值函数定义为：
Ｖ＋（Ｓ）＝ｍａｘＶ５（ｓ），（３．１２）
求解最优值函数，可得出最优策略７／＂＋ｆｓ）和最大累积折扣奖赏的期望∥（ｓ）。
３．３ＭＤＰ模型求解算法设计
上述ＭＤＰ模型可以通过经典迭代算法进行求解。首先，构建ＭＤＰ模型的
Ｂｅｌｌｍａｎ递推方程：
（３．１３）
¨（薯）＝ｍａｘ｛足（薯，ｑ）＋归¨＋】（Ｓｔ＋ｌｌＳｔｑ）｝．
屿
设定一个任意的值函数Ｋ（ｓ，）的初始值，并迭代计算式３．１３，则最终ａｔ将收敛于
最优小区切换策略。然而，每更新一次式３．１３中的值函数需要访问所有的状态。
在ＬＴＥ－Ａ飞蜂窝系统小区切换与频谱资源分配联合优化问题中，访问所有状态
将会带来巨大的计算开销。同时，由于真实系统中难以精确测量系统的状态转移
概率。因此，经典的值迭代算法在实际环境中无法实施，必须设计近似算法对问
题进行求解。针对以上分析，本文提出了一种基于Ｑ—ｌｅａｒｎｉｎｇ的强化学习算法
ＭＤＰＱ来求解式３．１２中的值函数。
为求解式３．１２所定义ＭＤＰ模型，需定义最优Ｑ值函数：
万方数据
㈢１４’
Ｑ＋（驴）＝Ｅ№，ａｒ）｝＋ｙ萋‰（ａ，）ｍ‰ａ。ｘ。Ｑ‘（ｓｌ＋ｌ，ａｔ＋１），
由公式３．１４可知，最优值函数可转化为矿＋（ｓ）＝ｍ刚ａｘＱ＋（ｓ，口），因此，如果可
以求得每个状态－行为对的Ｑ值函数，就可利用７１＂＋（Ｊ）＝ａｒｇｍａｘＱ‘Ｓ，ａ）确定最优
策略。Ｑ函数的更新规则，如式３．１５所示：
Ｑ（Ｉ，ａｔ）：＝（１一∥）Ｑ（‘，ｑ）＋∥（月（ｓ，，ａ，）＋ｙ鼍野Ｑ（‘＋ｐａｔ＋１））．（３．１５）
其中，∥∈（ｏ，１）为学习速率。已有文献‘５２１证明，该更新规则可收敛于最优值函数。
所提出的基于Ｑ—Ｌｅａｒｎｉｎｇ的强化学习算法ＭＤＰＱ，如表３．２所示。
表３．２ＭＯＰＱ算法
ＭＤＰＱ算法
１：初始化Ｑ—Ｔａｂｌｅ，
对Ｖｑ∈４，ＳＩ∈Ｓ，将Ｑ（Ｉ，ｑ）值设为０。
２：今玎＝１．
３：初始化＆
４：ｆｏｒｆ＝ＯｔｏＴｄｏ
５：利用￡一ｇｒｅｅｄｙ生成一个随机数￡：
ｉｆＰ＜￡ｔｈｅｎ
从行为空间Ａ中，随机选取一种行为；
ｅｌｓｅ
从行为空间Ａ中，选择最大的Ｑ值：
ｑ＝ａｒｇｍａｘＱ，（丑，ｑ）；
ｅｎｄｉｆ
６：更新外部变量彬＋，＝彬＋，（ｗ”），并计算系统下一状态：
Ｓｔ＋１＝ｓ”（Ｓｉ，ａ，，彬＋１）；
７：计算吼：
吼２
ｒ（薯，ａ，］＋ｒ。ｍａ。ｘ。Ｑ，＋・（ｓ“，ｑ＋，）。
８：利用式３．１５更新Ｑ．
９：１１＋＋．
１０：ｉｆ一≤Ｎｔｈｅｎ
跳转到第１步。
ｅｎｄｉｆ
１ｌ：ｅｎｄｆｏｒ
１２：ｒｅｔｕｒｎＱ因子
万方数据
第三章基于ＭＤＰ的Ｌ丁Ｅ．Ａ飞蜂窝小区切换算法研究
３．４本章小结
本章深入分析丫影响小区切换决策的因素，阐述了综合考虑多种切换指标的
必要性。运用马尔可夫决策过程理论，以最大化吞吐量、信令开销和掉线惩罚的
效用函数为目标，构建了小区切换与频谱资源分配的联合优化ＭＤＰ模型，设计
了一种基于强化学习的ＭＤＰ模型求解算法。
万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究
第四章基于功率控制与休眠唤醒机制的接
纳控制算法研究
本章围绕ＬＴＥ－Ａ飞蜂窝系统的接纳控制问题，以降低ＬＴＥ．Ａ飞蜂窝系统能
耗和切换时延为目标，提出了一种基于功率控制与休眠唤醒机制的ＬＴＥ—Ａ飞蜂
窝系统接纳控制方案。该方案综合考虑了移动终端功率的自适应调整与飞蜂窝基
站工作模式的动态切换，设计了合理有效的接纳控制算法ＰＣＳＷＡＣ。在保证用
户ＱｏＳ的同时，降低了ＬＴＥ—Ａ飞蜂窝系统的能耗和切换时延。
４．１系统模型
相较于覆盖范围大、问隔距离远的宏蜂窝，飞蜂窝具有覆盖范围小、部署密
度高的特点。在飞蜂窝基站密集部署的热点区域，为保证用户的数据传输速率和
用户体验（ＱｏＥ，ＱｕａｌｉｔｙｏｆＥｘｐｅｆｉｅｎｃｅ），移动终端需在各飞蜂窝小区间频繁切换，
导致较高的信令负载和掉线率，增加了移动终端和飞蜂窝基站的能耗。同时，对
于高速或非实时业务请求的移动用户而言，在途经的飞蜂窝小区内的驻留时间极
短，并能容忍一定的时延，往往尚未或刚刚完成切换，便已经离开了所途径的飞
蜂窝小区的覆盖范围。因此，有必要对高速移动与非实时业务请求用户的小区切
换请求进行接纳控制，以减少不必要的切换，降低系统能耗。
目前，大部分己有的ＬＴＥ．Ａ飞蜂窝系统接纳控制算法主要研究准入控制【３３ｌ、
拥塞避免刚和混合接入的激励策叫３５］［３６］１３７１１３８１１３９］，对如何在考虑业务类型的基础
上，通过接纳控制降低系统能耗的研究较少。考虑到目前ＬＴＥ．Ａ系统主要通过
谱资源分配［５９－６０】、功率控制［３４，６１。６３】和休眠／唤醒机制【６ａ－６５］最小化系统能耗，本章借
鉴功率控制与休眠／唤醒机制的思想，提出了一种基于自适应功率调整与休眠／唤
醒机制的接纳控制算法ＰＣＳＷＡＣ。
考察如图４．１所示的ＬＴＥ．Ａ飞蜂窝系统接纳控制场景，在宏基站覆盖范围内，
随机分布着若干飞蜂窝基站。飞蜂窝基站有“休眠”和“激活”两种工作状态，
若飞蜂窝基站覆盖范围内无用户，则飞蜂窝基站切换到“休眠”状态；否则，飞
蜂窝基站切换到“激活”状态。假设总带宽被等分为Ⅳ。个宽度为△．厂子信道，令
∥表示该ＯＦＤＭＡ系统中所有子信道的集合，则有ｌ形Ｉ州。。当移动终端进入“休
眠”飞蜂窝基站的覆盖范围后，将触发飞蜂窝基站的ＰＣＳＷＡＣ算法，通过估算移
动终端在该ＦＢＳ覆盖范围内的驻留时间兹。与平均期望传输时间诺。ｍ。进行接纳
控制。若允许ＭＴ接入该ＦＢＳ，则将该ＦＢＳ从“休眠”状态下唤醒，同时，激活移
万方数据
动终端的自适应功率调整机制。
激活状态
、ＦＢＳ
穆动终端ＭＴ
图４．１ＬＴＥ．Ａ飞蜂窝系统接纳控制场景
为便于对ＰＣＳＷＡＣ算法进行描述，给出该策略涉及参数的定义：
定义４．１（驻留时间）移动用户“进入飞蜂窝基站邱Ｓ覆盖范围后，从“开
始与ＦＢＳ通信的时刻到终止与
，在甜户用为称，度长间
Ｕ时的问刻时ＦＢＳ，
的信通
该ＦＢＳ内的驻留时间，记作艺０。，
定义４．２（平均期望传输时间）用户甜缓存数据量与飞蜂窝基站用遇所能
提供的平均数据传输速率之商，称为平均期望传输时问，记作ｆ＝。删。
ＰＣＳＷＡＣ算法的具体步骤如表４．１所示。
表４．１接纳控制算法
接纳控制算法
ｌ：用户“向ＦＢＳｊ发出切换请求，触发接纳控制机制。
２：估算ＦＢＳｉ的可用频带数目Ｍ．胡。
３：估算“在ＦＢＳｊ的％，：
利用表４．２的ＤＴＥＡ算法；
４：估算“缓存数据的平均期望传输时间诺鲥甜
利用表４．３的ＡＥＴＴＡ算法，并得用户所需频带数目
Ｎ。，Ｂ。
５：判断是否将ＦＢＳｉ从“体眠”状态唤醒：
ｉｆ‰＞嗤：删，玑、ｍ＜Ｍ∞ｔｈｅｎ
将ＦＢＳｉ从“休眠”状态切换到“激活”状态；
触发“的功率自适应调整机制；
ｅｌｓｅ
拒绝用户甜切换到ＦＢＳｉ。
ｅｎｄｉｆ
６：接纳控制结束。
２７
万方数据
所提出接纳控制算法，旨在精确预测驻留时问僦，，和平均期望传输时间
，唧ｕ，ｉ。州的基础上，决定是否唤醒“休眠”状态的飞蜂窝基站，以保证用户ＱｏＳ，降
低ＬＴＥ．Ａ飞蜂窝系统能耗，减少用户频繁且不必要的切换。
４．２接纳控制算法设计
本节将详细阐述如何估算ＰＣＳＷＡＣ算法中的用户驻留时间、平均期望传输
时间，以及如何实现移动终端发射功率的自适应调整。
４．２．１估算用户驻留时间
要预测用户在飞蜂窝中的驻留时问，需首先判断用户进入飞蜂窝覆盖范围时
的移动方向与移动速度。假设用户采用高斯．马尔可夫移动模型，如式３．５和式
３．６所示，将移动模型的记忆因子口设置为ｌ。为了便于计算，传播模型中仅考
虑路径损耗，不考虑快衰落及阴影衰落的影响。
图４．２ＬＴＥ－Ａ飞蜂窝系统切换场景
考察如图４．２所示的移动场景。在时刻，，，用户甜与飞蜂窝基站ＦＢＳｋ问的信
号功率、用户１．１与宏基站ＭＢＳ，问的信号功率、飞蜂窝基站船叉与宏基站ＭＢＳ，间
的信号功率，分别记作田哝ｋ、ＳＮＲⅢ＂，和ＳＮＲｊ：Ｍ，。在ＬＴＥ－Ａ飞蜂窝系统ｒｔｌ，
ＳＮＲ：Ｆ的值可由飓叉直接测得，的值则通过，与船ｓ。问的回程网络
（，ｌｎｅｔｗｏｒｋ）
ｕａｈｋｃａｂＳ传给尼投。Ｓ根ＮＲ据：０
知ＢＭ可】６６【准标
３ＧＰＰ，在路径损耗模型、信
号功率己知的情形下，可计算用户“与飞蜂窝基站船Ｓ间的距离硌、用户“与
宏基站ＭＢＳｊｌ＇ｎｑ的距离戤，、飞蜂窝基站飓叉与宏基站ＭＢＳｊ间的距离ｄ乏Ｍ．。
估算驻留时间，山棚的ＤＴＥＡ算法，如表４．２所示。
万方数据
表４．２ＤＴＥＡ算法
估算驻留时间ＤＴＥＡ算法
假设：用户甜在ｔｉ时刻进入ＦＢＳｋ的覆盖范剧：
１：根据ＳＮ氆Ｆ，、ＳＮＲ＇知．、ＳＮＲ是Ｍｊ分别计算ｄ峨ｔｌ、ｄ峨ｔｉ、ｄ‰。
２：同理，根据吣、ＳＮＲ勃，、吨，分别计算ｄ。ｒｉｌ。ｌ、瞄、磁砘。
Ｂ：。，。。。ｓｆ』！！。！掣］，
３：由反余弦定理可得：
‰…ｃｏｓｆ躞掣１．
可得Ｂ＋，＿‘＝巴＋．一包，用户“在垃＝‘＋。一‘内的移动距离为：
削＝√（‰）２＋㈨）２－２噍貔ｃｏｓｑ＾，
可推出，移动速度为：
～ｃｏｓｆ掣］
１，＝—ａ—ｄ，
移动方向为：
４：基于上式，可得驻留时间
ｆ＾。Ⅳ一２Ｒｃｏｓ０，，出一２Ｒｃｏｓ０，．（ｔ＋Ｉ．‘）．
４．２．２估算平均期望传输时间
本文利用随机网络演算理论估算用户数据的平均期望传输时间。随机网络演
算作为一种网络性能分析工具，可得到ＬＴＥ．Ａ飞蜂窝系统端到端的时延边界。
定义４．１（ｖ．ｂ．ｃ随机到达曲线）【６７１若对于任意ｆ≥０，ｘ≥０，有
Ｐｒ｛叩｛彳（蹦）一口（蹦）｝＞０ｌ＜ｆ（ｘ），
Ｌ…∑Ｉ ’
（４．１）
成立，则称数据流４具有界限函数为ｆ∈Ｆ的ｖ．ｂ．Ｃ随机到达曲线口∈Ｆ，记作
Ａ（ｔ）～曲（／１，口）。
定义４．２若对于任意ｆ≥０，有
Ｐｒ｛Ａｏ∥Ｏ）一Ａ＋（ｔ）＞ｘ｝≤ｇ（工）．（４．２）
成立，则称系统为数据流爿提供具有界限函数为ｇ∈亏的弱随机服务曲线卢（ｆ），
记作Ｓ～。（ｇ，卢）。
定理４．１‘６８１若系统的输入流彳具有ｖ．ｂ．ｃ随机到达曲线爿（ｆ）－。（ｆ，口），且系
万方数据
统为输入流４提供弱随机服务曲线Ｓ～。，（ｇ，声），则对所有的ｔ≥０，ｘ≥０，系统的
随机延迟上界Ｄ（ｔ１为：
Ｐｒ｛Ｄ（ｔ）≥ｈ（ａ＋ｘ，∥）｝≤ｆｏｇ（ｘ）．（４．３）
假设用户的业务流到达服从马尔可夫调制０Ｎ／０ＦＦ到达过程，该过程为离散
时间的二状态马尔可夫链，ＯＮ．ＯＦＦ数据源在激活和休眠两个状态之间相互转
换，如图４．３所示。参数五和“分别表示从激活状态到休眠状态、休眠状态到激
活状态的转移速率。
图４．３二状态马尔科夫链
已有研究证吲６７１，对于任意醴＞０和０＞ｏ而言，二状态马尔可夫链具有ｖ．ｂ．ｃ
随机到达曲线口（ｆ）＝ｐ（臼）“具有的边界函数为：
厂（ｘ）＝亡备已一．（４．４）
其中，ｐ（臼）＝寺卜忡＋而ｉ鬲瓦）。
假设基站具有常服务速率ＣＭｂｐｓ，其值可根据香农公式求得。在此假定下，
基站提供的确定性的服务曲线∥（ｆ）＝ｃ・ｆ，在时问（ｓ，ｔ］内，基站提供的服务速率
为ｃ（ｆ—ｓ）。
估算平均期望传输时间氍。。把ｄ的ＡＥＴＴＡ算法，如表４．３所示。
表４．３ＡＥＴＴＡ算法
估算平均期望传输时间ＡＥＴＴＡ算法
ｌ：初始化
计算并初始化ＦＢＳｉ当前可周信道个数Ｍ。；
初始化分配给用户“的子信道个数虬＝０；
２：令帆＝１．
３：确定随机到达曲线
求解公式：
ｐ（ｏ）＝‰・ｈ
其中，／ｚ＇ｏｎ＝＿生为ＯＮ状态下的稳态概率，ｈ为业务流
几十“
的到达速率。
万方数据
续表
估算平均期望传输时间ＡＥＴＴＡ算法
４：确定服务速率与确定服务曲线：
当前服务速率为：
Ｖ＝帆Ａｆｌ０９０＋Ｉ咽ＳＩ），
用户提供的确定服务曲线为：
∥（ｆ）＝Ｖ记
５：导出时延违约概率：
Ｐｒ｛Ｄ（／）＞ｈ（ｏｔ＋ｘ，功｝≤，＠ｇ（ｘ），
其中，ｈ（ａ＋ｘ，卢）＝ｔａ。Ⅳ
６：更新Ⅳ＋＋
ｉｆ
Ｐｒ｛Ｄ（，）＞ｈ（ｏｔ＋ｘ，纠｝＞５ｔｈｅｎ
ⅣＩ，十＋，尉ｌ转到第３步；
ｅｌｓｅ
Ｎ。Ｂ＝Ｎ。，
ｅｎｄｉｆ
７：计算ｌｅ…ａｐ刚ｅｄ２
虬，旧Ａｆｌｏｇ（１＋ＲＳＳＩ）’
８：ｒｅｔｕｒｎ瑶ｕ，ｔ哪ｃｄ，虬∥
４．２．３自适应调整终端功率
通过利用ＬＴＥ—Ａ飞蜂窝系统提供的物理层测量参数，可实现移动终端发射功
率的自适应调整。其基本思想是若能保证用户的ＳＩＮＲ大于某个阈值死，则可使
用户在小区切换过程中不掉线。同时，通过调整用户功率，可间接改变用户的
ＳＩＮＲ。结合基站提供的ＲＳＲＰ、ＲＩＰ等物理层参数，便可求得死。调节用户发射
功率，使用户的ＳＩＮＲ略高于记为死，不仅可以确保用户从当前服务小区到目标
小区的无缝切换，还可以降低移动终端设备的能耗。
下面通过理论分析验证该思想的可行性：
令ｃ０和ｃ：分别表示采用子信道ｋ∈矽的宏基站与飞蜂窝基站的集合，吮
和ｕ：分别表示采用子信道ｋ的宏用户（ＭＵＥ，ＭａｃｒｏｃｅｌｌＵｓｅｒＥｑｕｉｐｍｅｎｔ）年ｌｌ飞蜂窝
用户（ＦＵＥ，ＦｅｍｔｏｃｅｌｌＵｓｅｒＥｑｕｉｐｍｅｎｔ）Ｉ构集合，连接到基站Ｓ∈∞ｔ．３ＣＦｋ的用户
“∈Ｕ，ｋｕｕ乞在子信道ｋ上的平均ＳＩＮＲ为：
如。：譬岛．
ｈ“ｌ：＋《ｊ
”。‘
（４．５）
其中，Ｐ。为用户Ⅳ的发射功率，ｇ匕，为用户甜到基站Ｓ在子信道ｋ上的信道增益，
盯；为当前服务基站Ｓ接收到的ＡＷＧＮ噪声功率，ｒ为服务基站Ｓ接收到的干扰。
露＝∑只吕ｋ．＋，＋∑ｐ，ｇＩ，＋∑‰‰ｋ＋，＋∑以ｇ乞，．（４．６）
万方数据
其中，（喜＼｛Ｓ）和啡＼｛Ｓ）分别为除当前服务基站Ｓ外，其他使用信道ｋ的宏基站
与飞蜂窝基站的集合；吮＼｛Ｕ）和啡＼｛“）分别为除用户“外，其他使用信道ｋ的
宏用户与飞蜂窝用户的集合；只、Ｐｊ、Ｐ。、见分别为采用子信道ｋ宏基站、飞
蜂窝基站、宏用户及飞蜂窝用户的功率；ｇ＿，、ｇ＿。、或＋，、如。分别为采用
子信道ｋ宏基站、飞蜂窝基站、宏用户及飞蜂窝用户到当前服务基站ｓ的信道增
益。
令甲，。表示用户Ｕ的相邻小区列表ＮＣＬ中的候选小区的集合。若要实现小区
间的无缝切换，需保证用户Ｕ的ＳＩＮＲ大于阈值死。根据公式４．５可知，保持用户甜
２“ｋ
与目标小区Ｃ∈、王，。，问链路不中断的最小发射功率为：
‰，：圣【茎±型
Ａ＿ｃ．（．．．）
Ｌ４．／Ｊ
ｇ“＿＋ｃ
表４．４给出了３ＧＰＰ规定的一系列ＬＴＥ．Ａ物理层测量（ｐｈｙｓｉｃａｌｌａｙｅｒ
ｍｅａｓｕｒｅｍｅｎｔｓ）［６６１参数，利用这些物理层测量参数，可估算终端的平均发射功率。
表４．４物理层测量参数
量度指标标记
参考信号接收功率（ＲｓＲ只ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌＲｅｃｅｉｖｉｎｇＰｏｗｅｒ）尺５１ＲＰ－＋。

下行参考信号发射功率
（ＤＬＲＳＴｘ，ＤｏｗｎｌｉｎｋＲｅｆｅｒｅｎｃｅＳｉｇｎａｌＴｒａｎｓｍｉｔｔｅｄＰｏｗｅｒ）
译
接收的干扰功率（Ｉ姑Ｒｅｃｅｉｖｅｄｉｎｔｅｒｆｅｒｅｎｃｅｐｏｗｅｒ）Ｉ，
其中，ＲＳＲＰ。．＋。为移动终端“测得的参考信号接收功率，酽为当前服务小区ｃ的
下行参考信号传输功率，Ｌ为当前服务基站ｃ接收到的干扰功率。根据３ＧＰＰ标
准【６６］定义，可将Ｒ．里Ｒ￡．＋。和ｌｃ的表达式定义为：
ＲＳＲＰ。，＋。＝Ｂ。Ｙ・＆．＋。，（４．８）
厂、
ｔ＝Ｉ∑Ｂ吕ｋ。。＋∑马吐。＋∑岛，‰ｋ＋。＋∑岛如。＋Ｚ
—ｅ雌
Ｊｅ（善、仁ｊ
Ｉ．（４．９）
Ｌ，ｅ嘻＼｛ｃ｝ｍｅ［ＪｋＭ／
假设信道增益具有对称性，则由公式４．８可得：
‰兰‰，：型》．
＆．＋。兰＆．＋。２—ｉ意２．（４．１０）４
Ｌ．１０
根据公式４．７、公式４．９和公式４．１０，可推出用户在当前服务小区ｓ的发射功率，
如式４．１１所示：
（４．１１）
￡皇只＃淼－ｐｔＲＳＩ．
同理，可推出用户在候选小区ｃ的发射功率：
万方数据
。＝簪黼掣．㈧，２，
因此，利用式４．１ｌ＊ＦＩ式４．１２便可以实现用户发射功率的自适应调整，进而在
降低移动终端功耗的同时，实现小区问的无缝切换。
４．３接纳控制算法性能分析
为了验证ＰＣＳＷＡＣ算法在降低能耗方面的有效性，将ＰＣＳＷＡＣ算法与
Ａｓｈｒａｆ【６５］【６９１所提出的接纳控制算法进行对比分析。
假设一段时问内移动终端进行小区切换的切换次数服从洎松分布，则时间段
Ｔ内发生ｋ次切换的概率例如式４．１３所示：
ｍ刀：掣ｅ～．（４．１３）
其中，旯＝一１，ｔ为用户接收的飞蜂窝基站的ＳＮＲ超过切换阈值的时间长度。
ｆ
由式４．１３可知，若时间段Ｔｌ内未发生切换，则ｋ＝０，可知用户未从宏基站
ＭＢＳ切换到飞蜂窝基站ＦＢＳｉ的概率为
Ｐ（ｏ，１：）＝已一艄．（４．１４）
Ａｓｈｒａ晰提出的接纳控制算法的平均功耗为：
毛曲可＝Ｅ＋；｝毒［Ｐ＿‘×Ｂ＋１－ｅ－４＇）×Ｅ］．（４．１５）
其中，Ｅ为用户进入ＦＢＳｉ覆盖范围前，用户数据传输的平均能耗，颤为“休眠”
状态下的功耗，Ｅ。为“激活”状态下的功耗。
相比于Ａｓｈｒａ晰提出的算法，ＰＣＳＷＡＣ算法在用户进入ＦＢＳｉ范围后并不直
接进行切换，还需要判断在驻留时间内是否能够完成缓存队列中数据的传输，其
平均能耗为：
ＥｅｃｓｗＡｃ＝Ｅ＋将ｅ吨×乓＋１－－ｅ－４ｆ＇ｅ－丑ｔｇ＇ＨＸＥｓ＋１－ｅ－４＇ｋ＂）×Ｅ）卜㈣
根据式４．１５和式４．１６可知：
ＥＰ（．晰（、＜Ｅ４ｘ埘．
可见，ＰＣＳＷＡＣ算法可以有效降低ＬＴＥ—Ａ飞蜂窝系统能耗。
４．４本章小结
本章深入分析了ＰＣＳＷＡＣ算法的研究动机与设计思路，给出了该接纳控制
算法的设计流程。详细阐述了ＰＣＳＷＡＣ算法中关键步骤的求解方案，包括利用
万方数据
ＳＮＲ估算驻留时间的ＤＴＥＡ算法，利用随机网络演算理论估算平均期望传输时
间的ＡＥＴＴＡ算法，以及利用ＬＴＥ．Ａ物理层测量参数ＲＳＲＰ实现移动终端功率自
适应调整基本思想。通过与Ａｓｈｒａｆ提出的接纳控制算法进行对比，对ＰＣＳＷＡＣ
算法在降低能耗方面的有效性进行了理论分析。
万方数据
第五章仿真分析与验证
本章通过构建ＬＴＥ．Ａ飞蜂窝系统移动场景，验证所提出的小区切换算法
ＭＤＰＱ和接纳控制算法ＰＣＳＷＡＣ的有效性。一方面，通过将ＭＤＰＱ算法与ＭＤＰＶ
算法进行对比，验证了ＭＤＰＱ在收敛速度与减少频繁且不必要的切换方面更优。
另一方面，通过将ＰＣＳＷＡＣ算法与Ａｓｈｒａｆ提出的接纳控制算法进行对比，验证
了ＰＣＳＷＡＣ算法在降低系统能耗与切换时延方面更优。
５．１小区切换算法模型仿真与性能分析
本章采用双条纹模型（ｄｕａｌｓｔｒｉｐｅｍｏｄｅｌ）［７１】验证所提出的小区切换算法
ＭＤＰＱ和接纳控制算法ＰＣＳＷＡＣ的有效性，仿真环境如图５．１所示。
入
钨黜黜黔
／／ｊ
０交戡
々
｛
＼。
＼
、＿／
／
一一一一
一
。鳆殛戮：８８瓣
甲
一、、．
白飞蜂绷。旷键、督一一翘

８宏用户（叩）
Ｉ双条纹街区
△膦瑚、、“
图５．１仿真环境
在宏蜂窝覆盖范围内，随机部署着多个飞蜂窝街区（ＦｅｍｔｏＢｌｏｃｋ），每个飞
蜂窝街区由一条宽度为１０ｍ的街道和两个由公寓排列成的条纹构成，每个条纹
包括两行十列ｌＯｒｅ×ｌＯｒｅ的正方形公寓。为了描述每问公寓中是否安装有飞蜂窝
基站，引入了飞蜂窝基站的部署密度参数，记为ｂ。为了描述飞蜂窝基站是否处
于激活状态，引入了飞蜂窝基站的激活比例参数，记为＿。假设所有的飞蜂窝基
站均采用开放接入模式，且随机部署在每间公寓内。假设公寓均是单层，基站与
移动终端ＭＴ间的路径损耗模型如表５．１所示。
万方数据
表５．１路径损耗模型
场景路径损耗模型
ＭＴ
ＭＴ在室外ＰＬ（ｄＢ）＝１５．３＋３７．６ｌｏｇＩｏＲ
到
ＭＢＳＭＴ在室内ＰＬ（ｄＢ）＝１５．３＋３７．６ｌｏｇｌｏＲ＋ｚ。
ＭＴ与ＦＢＳ
ＰＬ（ｄＢ）＝３８．４６＋２０ｌｏｇ】ｏＲ＋０．７ｄ２，Ｊ，，‰，＋ｑ＋厶，
在同一房间内
ＭＴ
到ＭＴ在室外ｅＬ（ａＢ）＿－ｙ＋ｏ．７吐Ｄ，幽，＋ｇ＋厶．＋ｋ．
ＦＢＳ
ＭＴ与ＦＢＳ
ＰＬ（ｄＢ）＝／＋ｏ．７ｄ，Ｄ，，，幽，十ｑ８ｋ，十三ｄＨ。＋厶。：
在不同房间内
其中，．厂＝ｍａｘ（１５．３＋３７．６ｌｏｇｌｏＲ，３８．４６＋２０１０９】ｏＲ），Ｒ表示基站与移动终端ＭＴ
问的距离，单位为米（ｍ）；畋肌。胁表示基站与移动终端间之间的室内距离；ｑ表
示基站与移动终端ＭＴ问的墙壁数。
为估算ＭＤＰＱ算法的性能，将其与文献［２７】所提出的基于ＭＤＰ和值迭代的
小区切换算法ＭＤＰＶ进行对比。假设宏基站的载波频率为２ＧＨｚ，可用带宽为
５ＭＨｚ，且被分为Ⅳ。＝１０个变长带宽的连续信道。假设用户数据包的到达服从泊
松分布，具体的仿真参数如表５．２所示。
表５．２ＭＤＰＱ算法仿真参数设置
３６
万方数据
迭代次数
图５．２收敛速率
图５．２描绘了算法迭代次数与平均回报问的关系，可反映算法的收敛速率。
ＭＤＰＱ算法迭代４００次后便可收敛到最大平均累积折扣回报的期望，而ＭＤＰＶ
算法要迭代８００次才能达到收敛，ＭＤＰＱ算法的收敛速率更快。由算法最终收
敛到的最大平均累积折扣回报的期望可知，ＭＤＰＱ算法可使用户得到更多的回
报。
巅
《
蛙
尽
露
｝
建代次数
图５．３平均切换次数
图５．３，Ａ显ｍ示］＇ＭＤＰＱ算法与ＭＤＰＶ算法在不同迭代周期所对应的平均切换次
数。随着迭代次数的增加，移动终端的平均切换次数在两ｆｏｏｄ，区切换算法下都具
有递增的趋势，这是因为仿真时间越长，移动终端发生切换的总次数越多。在每
个迭代周期中，采ｆ：ｆ］ＭＤＰＱ算法时的平均切换次数低于采用ＭＤＰＶ算法时的平均
切换次数，这是因为ＭＤＰＱ算法在进行小区切换时，考虑了频谱资源的分配，减
少了不必要的切换。
万方数据
５．２接纳控制算法模型仿真与性能分析
为估算ＰＣＳＷＡＣ算法的性能，将其与Ａｓｈｒａｆ【６５１１６９］所提出的接纳控制算法进
行对比分析。假设宏基站的载波频率为２ＧＨｚ，可用带宽为１０ＭＨｚ，且被等分为
２０个连续子信道。用户数据包的到达服从泊松分布，所采用的路径损耗模型如
表５．１所示，其他具体的仿真参数如表５．３所示。
表５．３ＰＣＳＷＡＣ算法仿真参数设置
图５．４缓存数据大小ＶＳ功耗
图５．４描绘了ＬＴＥ．Ａ飞蜂窝系统平均功耗与用户缓存数据大小问的关系。随
着用户缓存数据的增大，采用Ａｓｈｒａｆ所提出的算法的飞蜂窝系统的功耗基本不
万方数据
变，而采用ＰＣＳＷＡＣ算法的飞蜂窝系统的功耗耗逐渐降低。相较于Ａｓｈｒａｆ所提
出的算法，ＰＣＳＷＡＣ算法更节能。这是因为ＰＣＳＷＡＣ算法不仅采用了休眠唤醒
机制，而且对切换的有效性进行了判断，能够减少不必要的切换，从而使飞蜂窝
基站更多的保持在休眠状态，降低了能耗。
图５．５速度ＶＳ功耗
图５．５描绘了ＬＴＥ．Ａ飞蜂窝系统平均功耗与用户移动速度问的关系。相较于
Ａｓｈｒａｆ所提出的算法，ＰＣＳＷＡＣ算法更节能。这是因为采用Ａｓｈｒａｆ所提出的算
法的飞蜂窝系统，只要有用户进入飞蜂窝的覆盖范围，飞蜂窝基站便会工作在正
常工作模式下，耗能较多。采用ＰＣＳＷＡＣ算法的飞蜂窝系统，当用户进入飞蜂
窝覆盖范围后，飞蜂窝基站会进行系统驻留时间的估算，对于高速移动用户，或
者该飞蜂窝无法提供有效数据传输服务的用户，飞蜂窝基站忽略其切换请求，减
少了不必要的切换，降低了能耗。
图５．６缓存数据ＶＳ切换时延
万方数据
图５．６描绘了用户缓存数据大小与平均切换时延问的关系。随着用户缓存数
据的增大，采用ＰＣＳＷＡＣ算法的飞蜂窝系统的平均切换时延逐渐降低，而采用
Ａｓｈｒａｆ所提出的算法的飞蜂窝系统的平均切换时延固定在３４７ｍｓ。这是因为
ＰＣＳＷＡＣ算法能有效减少用户的不必要的切换，降低移动用户的切换次数，进
而降低平均切换时延。
岔
Ｅ
烈
营
赵
尽
速厦（‰俑）
图５．７速度ＶＳ切换时延
图５．７描绘了用户移动速度与平均切换时延的关系。随着用户移动速度的增
加，采用ＰＣＳＷＡＣ算法的飞蜂窝系统的平均切换时延逐渐降低，而采用Ａｓｈｒａｆ
所提出的算法的飞蜂窝系统的平均切换时延固定在３４７ｍｓ。这是因为对于高速移
动用户而言，在途经的飞蜂窝中的驻留时间较短，用户发出的小区切换请求属于
不必要的切换，ＰＣＳＷＡＣ算法可以忽略此类不必要的切换，而Ａｓｈｒａｆ所提出的
算法不能减少不必要的切换。
５．３本章小结
本章对所提出小区切换算法ＭＤＰＱ和接纳控制算法ＰＣＳＷＡＣ进行了仿真验
证。针对ＭＤＰＱ算法，通过考察平均期望回报与迭代次数的关系，验证了ＭＤＰＱ
算法的收敛性；通过对比分别采用ＭＤＰＱ与ＭＤＰＶ的飞蜂窝系统的平均切换次
数，验证了ＭＤＰＱ算法在减少不必要的切换方面的有效性。针对ＰＣＳＷＡＣ算法，
分别考察了移动用户缓存数据大小和移动速度对ＬＴＥ．Ａ飞蜂窝系统功耗和平均
切换时延的影响。仿真结果表明，ＰＣＳＷＡＣ算法可有效降低ＬＴＥ．Ａ飞蜂窝系统
能耗和切换时延。
万方数据
第六章结论与展望
６．１结论
近年来，为解决ＬＴＥ—Ａ宏蜂窝系统中室内无线信号强度弱与覆盖范围不足
的问题，３ＧＰＰ在宏蜂窝中引入了飞蜂窝系统，构成了ＬＴＥ．Ａ飞蜂窝双层异构网
络。飞蜂窝的大规模部署与应用，在提高宏蜂窝容量与频谱效率的同时，降低
了宏蜂窝负载，进一步保障了室内用户的ＱｏＳ。
本文围绕ＬＴＥ—Ａ飞蜂窝系统的小区切换与接纳控制问题展开研究。
首先，运用马尔科夫决策过程和强化学习理论，提出一种兼顾频谱资源分配
的小区切换算法ＭＤＰＱ。一方面，该算法实现了小区切换与频谱资源分配的联
合优化，在降低切换过程中的信令开销和掉话率的同时，最大化了ＬＴＥ．Ａ飞蜂
窝系统容量。另一方面，该算法综合考虑了用户的数据流到达、缓冲队列大小、
移动速度、可用带宽与时延等多种切换指标对小区切换的影响，相较于仅用单一
指标进行决策的小区切换算法，更能反映真实的网络状况。
其次，运用随机网络演算理论，提出一种基于功率控制与休眠唤醒机制的接
纳控制算法ＰＣＳＷＡＣ。一方面，该算法通过估算移动用户的驻留时问和平均期
望传输时问，实现了飞蜂窝基站工作模式的动态切换。另一方面，该算法利用
ＬＴＥ．Ａ飞蜂窝物理层测量参数，实现了移动终端发射功率的自适应动态调整。
最后，对所提出的小区切换算法与接纳控制算法进行了数值分析与仿真验
证。仿真结果表明，ＭＤＰＱ算法收敛较快，可有效减少频繁且不必要的小区切
换：ＰＣＳＷＡＣ算法可有效降低切换时延、飞蜂窝基站能耗和移动终端能耗。
６．２展望
本文虽在ＬＴＥ．Ａ飞蜂窝小区切换与接纳控制算法研究方面取得一些成果，
但仍有一些问题需进一步研究，概括如下：
（１）小区切换ＭＤＰ模型求解算法优化
本文提出的基于强化学习理论的ＭＤＰ模型求解算法，每个移动终端均独立
进行学习与决策，忽略了其他用户行为对自身目标小区选择的影响，算法收敛速
度较慢。因此，下一步将研究如何设计一种协作式的强化学习算法，使各移动终
端共享学习信息，以进一步提高算法的收敛速度。
（２）算法设计环境更复杂
在小区切换算法中，本文假设移动终端在每个时槽内只能占用一个信道。在
万方数据
接纳控制算法中，传播模型仅考虑路径损耗，忽略了快衰落及阴影衰落的影响。
这些假设不能反映实际的网络环境，因此，下一步将对所提出的算法在实际应用
中的有效性进行验证。
（３）小区切换算法与接纳控制算法的联合应用
本文所提出的小区切换算法与接纳控制算法是相互独立的，而在实际场景
中，小区切换过程中会涉及到接纳控制判断。此外，小区切换与接纳控制的独立
还损失了在降低切换次数与切换时延方面的最优性。因此，下一步将综合小区切
换与接纳控制两个方面对ＬＴＥ．Ａ飞蜂窝移动性管理进行研究。
４２
万方数据
参考文献
参考文献
［１］Ｃｉｓｃｏ．ＣｉｓｃｏＶｉｓｕａｌＮｅｔｗｏｒｋｉｎｇ：ＧｌｏｂａｌＭｏｂｉｌｅＤａｔａＴｒ墒ｃＦｏｒｅｃａｓｔＵｐｄｍｅ，２０１３－２０１８『Ｒ１，
２０１３：１－４０．
［２］ＺｈａｎｇＱ，ｚｈｕＸ，ＷＵＬ，ｅｔａ１．Ａｃｏｌｏｒｉｎｇ—ｂａｓｅｄｒｅｓｏｕｒｃｅａｌｌｏｃａｔｉｏｎｆｏｒＯＦＤＭＡｆｅｍｔｏｃｅｌｌ
ｎｅｔｗｏｒｋｓ［Ｃ］ＨＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅｒＷＣＮＣ’１３）．

正ＥＥ，Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，２０１３：６７３．６７８．
【３】ＺａｈｉｒＴ，ＡｒｓｈａｄＫ，ＮａｋａｔａＡ，ｅｔａ１．Ｉｎｔｅｒｆｅｒｅｎｃｅｍａｎａｇｅｍｅｎｔｉｎｆｅｍｔｏｃｅｌｌｓ［Ｊ］．
ＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，ＩＥＥＥ，２０１３，１５（１）：２９３－３１１．
［４】ＭａｈｍｕｄＳＡ，ＫｈａｎＧＭ，ＺａｆａｒＨ，ｅｔａ１．ＡＳｕｒｖｅｙｏｎＦｅｍｔｏｃｅｌｌｓ：ＢｅｎｅｆｉｔｓＤｅｐｌｏｙｍｅｎｔ
ＭｏｄｅｌｓａｎｄＰｒｏｐｏｓｅｄＳｏｌｕｔｉｏｎｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆａｐｐｌｉｅｄｒｅｓｅａｒｃｈａｎｄｔｅｃｈｎｏｌｏｇｙ，２０１３，１１（５）：
７３３．７５４．
［５】Ｇ６ｄｏｒＧＪａｋ６Ｚ，ＫｎａｐｐＡ，ｅｔａ１．ＡｓｕｒｖｅｙｏｆｈａｎｄｏｖｅｒｍａｎａｇｅｍｅｎｔｉｎＵＥ－ｂａｓｅｄｍｕｌｔｉ－ｔｉｅｒ
ｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ：Ｒｅｑｕｉｒｅｍｅｎｔｓ，ｃｈａｌｌｅｎｇｅｓａｎｄｓｏｌｕｔｉｏｎｓ［Ｊ］．ＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋｓ．
２０１５ｆ７６）：１７．４１．
［６】ＧｕｏＴ，ＷａｎｇＮ，ＴａｆａｚｏｌｌｉＲ．Ｌｏｃａｌｍｏｂｉｌｉｔｙｍａｎａｇｅｍｅｎｔｆｏｒｎｅｔｗｏｒｋｅｄｆｅｍｔｏｃｅｌｌｓｂａｓｅｄｏｎ
Ｘ２ｔｒａｆｆｉｃｆｏｒｗａｒｄｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙ，２０１３．６２（１）：３２６．３４０．
【７】ＡｍｉｒｒｕｄｉｎＮＡ，ＡｒｉｆｔｉｎＳＨＳ，ＭａｌｉｋＮＮＮＡ，ｅｔａ１．ＭｏｂｉｌｉｔｙＰｒｅｄｉｃｔｉｏｎｉｎＬｏｎｇＴｅｒｍ
Ｅｖｏｌｕｔｉｏｎ（ＬＴＥ）ＦｅｍｔｏｃｅｌＩＮｅｔｗｏｒｋ明．ＨａｎｄｂｏｏｋｏｆＲｅｓｅａｒｃｈｏｎＰｒｏｇｒｅｓｓｉｖｅＴｒｅｎｄｓｉｎ
ＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇ．２０ｌ４．１：９９．
［８］ＤｈａｈｒｉＣ，ＯｈｔｓｕｋｉＴ．Ｃｅｌｌｓｅｌｅｃｔｉｏｎｆｏｒｏｐｅｎ．ａｃｃｅｓｓｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ：Ｌｅａｒｎｉｎｇｉｎ
ｃｈａｎｇｉｎｇｅｎｖｉｒｏｎｍｅｎｔ［Ｊ］．ＰｈｙｓｉｃａｌＣｏｍｍｕｎｉｃａｔｉｏｎ．２０１４．１３：４２．５２．
『９１ＡｈｍｅｄＡＵ，ＡｚｉｚＦＢ，ＭａｓｕｍＴＭ，ｅｔａ１．Ｒｅｓｏｕｒｃｅａｌｌｏｔａｔｉｏｎｉｎｈｙｂｒｉｄａｃｃｅｓｓｃｏｎｔｒｏｌ
ｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｔａｒｇｅｔｉｎｇｉｎｔｅｒ－ｃｅｌｌｉｎｔｅｒｆｅｒｅｎｃｅｒｅｄｕｃｔｉｏｎ［Ｃ］＃ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ
ＥｌｅｃｔｒｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ（ＥＩＣＴ’１４）．ＩＥＥＥ．２０１４：１－５．
［１０】ＨｕｂｅｒＫＤ，ＭａｎｓｆｉｅｌｄＷＧＦｌｙｎｎＪＪ．Ｒｅｃｉｐｒｏｃａｌａｄｄｉｔｉｏｎｏｆａｔｔｒｉｂｕｔｅｆｉｅｌｄｓｉｎａｃｃｅｓｓ
ｃｏｎｔｒ０１ｌｉｓｔｓａｎｄｐｒｏｆｉｌｅｓｆｏｒｆｅｍｔｏｅｅｌｌｃｏｖｅｒａｇｅｍａｎａｇｅｍｅｎｔ：Ｕ．Ｓ．Ｐａｔｅｎｔ８．８５０．０４８［Ｐ１．
２０１４．９．３０．
［１１］ＬｉＣ，ＤｎａｎＨ，ＢａＨ，ｅｔａ１．ＡｃｃｅｓｓｃｏｎｔｒｏｌｆｏｒｈｙｂｒｉｄｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｂａｓｅｄｏｎＡＧＶ
ｍｅｃｈａｎｉｓｍ［Ｃ］＃１６ｔｈＩｎｔｅｒｎａｆｉｏｎａ】ＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｄＣｏｍｍｕｎｉｃａｔｉｏｎＴｅｃｈｎｏｌｏ，．ｏｙ
（ＩｆＡＣＴ’１４１，ＩＥＥＥ．２０１４：１０５５．１０５８．
［１２］ＤｅｓｈｐａｎｄｅＭＭ，ＰｉｃａＦ，Ｈ０１＂１１ＧＢ，ｅｔａ１．Ｒｅｇｉｓ廿ａｔｉｏｎａｎｄａｃｃｅｓｓｃｏｎｔｒｏｌｉｎｆｅｍｔｏｅｅｌｌ
ｄｅｐｌｏｙｍｅｎｔｓ：Ｕ．Ｓ．Ｐａｔｅｎｔ８，６２６，１６２『Ｐ１．２０１４．１．７．
［１３】ＨｏＬＴＷ．Ｆｅｍｔｏｃｅｌｌｂａｓｅｓｔａｔｉｏｎ，ａｎｄａｍｅｔｈｏｄｏｆｃｏｎｔｒｏｌｌｉｎｇａｆｅｍｔｏｃｅｌｌｂａｓｅｓｔａｔｉｏｎ：Ｕ．Ｓ．
Ｐａｔｅｎｔ
８．７２５．１５０［Ｐ］．２０１４．５．１３．
［１４】ＫａｌｂｋｈａｎｉＨ，ＹｏｕｓｅｆｉＳ，ＳｈａｙｅｓｔｅｈＭＧＡｄａｐｔｉｖｅｈａｎｄｏｖｅｒａｌｇｏｒｉｔｈｍｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓ
ｆｅｍｔｏｃｅｌｌｕｌａｒｎｅｔｗｏｒｋｓｂａｓｅｄｏｎｒｅｃｅｉｖｅｄｓｉｇｎａｌｓｔｒｅｎｇｔｈａｎｄ
ｓｉｇｎａｌ－ｔｏ－ｉｎｔｅｒｆｅｒｅｎｃｅ－ｐｌｕｓ－ｎｏｉｓｅｒａｔｉｏｐｒｅｄｉｃｔｉｏｎ［Ｊ］．ＩＥＴＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１４，８（１７１：

３０６ｌ－３０７１．
［１５］ＧｕｐｔａＡＫ，ＤｈｉｌｌｏｎＨＳ，ＶｉｓｈｗａｎａｔｈＳ，ｅｔａ１．ＤｏｗｎｌｉｎｋｃｏｖｅｒａｇｅｐｒｏｂａｂｉｌｉｔｙｉｎＭＩＭ０
ＨｅｔＮｅｔｓｗｉｔｈｆｌｅｘｉｂｌｅｃｅｌｌｓｅｌｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥＧｌｏｂｅｃｏｍ，Ａｕｓｔｉｎ。Ｅ（．２０１４：１．５．
【１６】ＡｌｋｈａｔｉｂＡ，ＫｉｎｇＰＡｎａｐｐｒｏｘｉｍａｔｅｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇａｐｐｒｏａｃｈｔｏｄｅｃｉｓｉｏｎｍａｋｉｎｇｉｎ

ｔｈｅｐｒｅｓｅｎｃｅｏｆｕｎｃｅｒｔａｉｎｔｙｆｏｒｓｕｒｆａｃｔａｎｔ—ｐｏｌｙｍｅｒｆｌｏｏｄｉｎｇ［Ｊ］．ＣｏｍｐｕｔａｔｉｏｎａｌＧｅｏｓｃｉｅｎｃｅｓ．
２０１４．１８ｆ２１：２４３．２６３．
［１７】ＬｕａｎＬ，ＷｕＭ，ＳｈｅｎＪ，ｅｔａ１．Ｏｐｔｉｍｉｚａｔｉｏｎｏｆｈａｎｄｏｖｅｒａｌｇｏｒｉｔｈｍｓｉｎｍｈｉ曲－ｓｐｅｅｄ
ｒａｉｌｗａｙｎｅｔｗｏｒｋｓ［Ｊ］．ＪＤＣＴＡ，２０１２，６（５）：７９—８７．
［１８】ＺｈａｎｇＹ，ＷｕＭ，ＧｅＳ，ｅｔａ１．Ｏｐｔｉｍｉｚａｔｉｏｎｏｆｔｉｍｅ－ｔｏ－ｔｒｉｇｇｅｒｐａｒａｍｅｔｅｒｏｎｈａｎｄｏｖｅｒ
ｐｅｒｆｏｒｍａｎｃｅｉｎＬＴＥｈｉｇｈ－ｓｐｅｅｄｒａｉｌｗａｙｎｅｔｗｏｒｋｓ［Ｃ］／／１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎ
ＷｉｒｅｌｅｓｓＰｅｒｓｏｎａｌＭｕｌｔｉｍｅｄｉａＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＷＰＭＣ’１２），ＩＥＥＥ，２０１２：２５１－２５５．

［１９］ＸｅｎａｋｉｓＤ，ＰａｓｓａｓＮ，ＭｅｒａｋｏｓＬ，ｅｔａ１．Ｅｎｅｒｇｙ．ｅｆｆｉｃｉｅｎｔａｎｄｉｎｔｅｒｆｅｒｅｎｃｅ．ａｗａｒｅｈａｎｄｏｖｅｒ
ｄｅｃｉｓｉｏｎｆｏｒｔｈｅＵ１Ｅ－Ａｄｖａｎｃｅｄｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋ『Ｃ１／／ＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＩＣＣ’１３１，ＩＥＥＥ，２０１３：２４６４．２４６８．
［２０】ＳａｌｉｈＹＫ，ＨａｎｇＳｅｅＯ，ＩｂｒａｈｉｍＲＷｅｔａ１．Ａｎｏｖｅｌｎｏｎｃｏｏｐｅｒａｔｉｖｅｇａｍｅｃｏｍｐｅｔｉｎｇｍｏｄｅｌ
４３
万方数据
参考文献
ｕｓｉｎｇｇｅｎｅｒａｌｉｚｅｄｓｉｍｐｌｅａｄｄｉｔｉｖｅｗｅｉｇｈｔｉｎｇｍｅｔｈｏｄｔｏｐｅｒｆｏｒｍｎｅｔｗｏｒｋｓｅｌｅｃｔｉｏｎｉｎ

ｈｅｔｅｒｏｇｅｎｅｏｕｓｗｉｒｅｌｅｓｓｎｅｔｗｏｒｋｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｍａｌｏｆＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍｓ．２０１４．
ＶｅｒｍａＲ，ＳｉｎｇｈＮＥＧＲＡＢａｓｅｄＮｅｔｗｏｒｋＳｅｌｅｃｔｉｏｎｉｎＨｅｔｅｒｏｇｅｎｅｏｕｓⅥｈｅｌｅｓｓＮｅｔｗｏｒｋｓ『Ｊ１
『２１１
Ｗｉｒｅｌｅｓｓｐｅｒｓｏｎａｌｃｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１３，７２（２）：１４３７－１４５２．
［２２】Ｑｉｎｇ－ｍｉｎＬＳＭ，Ｚｈｅｎｇ－ｋｕｎＰＳＭ．ＡＳｉｍｐｌｅＡｄｄｉｔｉｖｅＷｅｉｇｈｔｉｎｇＶｅｒｔｉｃａｌＨａｎｄｏｆｆ
ＡｌｇｏｆｉｔｈｍＢａｓｅｄｏｎＳＩＮＲａｎｄＡＨＰｆｏｒＨｅｔｅｒｏｇｅｎｅｏｕｓＷｉｒｅｌｅｓｓＮｅｔｗｏｒｋｓ［Ｊ１．Ｊｏｕｒｎａｌｏｆ
Ｅｌｅｃｔｒｏｎｉｃｓ＆ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，２０１１．３３（１）：２３５．２３９．
『２３１ＣｈａｍｏｄｒａｋａｓＩ，ＭａｒｔａｋｏｓＤ．Ａｕｔｉｌｉｔｙ．ｂａｓｅｄｆｕｚｚｙＴＯＰＳＩＳｍｅｔｈｏｄｆｏｒｅｎｅｒｇｙｅｍｃｉｅｎｔ
ｎｅｔｗｏｒｋｓｅｌｅｃｔｉｏｎｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｗｉｒｅｌｅｓｓｎｅｔｗｏｒｋｓ［Ｊ］．ＡｐｐｌｉｅｄＳｏｆｔＣｏｍｐｕｔｉｎｇ，２０１２，
１２（７１：１９２９—１９３８．
『２４１ＳｕｎＣ，Ｓｔｅｖｅｎｓ－ＮａｖａｒｒｏＥ，ＷｒｏｎｇＶＷＳ．ＡｃｏｎｓｔｒａｉｎｅｄＭＤＰ．ｂａｓｅｄｖｅｒｔｉｃａｌｈａｎｄｏｆｆ
ｄｅｃｉｓｉｏｎａｌｇｏｒｉｔｈｍｆｏｒ４Ｇｗｉｒｅｌｅｓｓｎｅｔｗｏｒｋｓｒｃｌ／／ＩＥＥＥＩｎｔｃｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｃｏｎ
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＩＣＣ’０８），ＩＥＥＥ，２００８：２１６９－２１７４．
『２５１ＭａｃｈＲＢｅｃｖａｌ＂Ｚ．ＶｅｒｔｉｃａｌＨａｎｄｏｖｅｒＤｅｃｉｓｉｏｎｉｎＨｅｔｅｒｏｇｅｎｅｏｕｓＷｉｒｅｌｅｓｓＮｅｔｗｏｒｋｓｗｉｔｈ
Ｆｅｍｔｏｃｅｌｌｓ［Ｊ］．ＥｌｅｃｔｒｏｎｉｃｓａｎｄＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，２０１４，２０（２）：９３—１０１．

『２６１ＺｈｏｕＨ，ＨｕＤ，ＭａｏＳ，ｅｔａ１．Ｃｅｌｌａｓｓｏｃｉａｔｉｏｎａｎｄｈａｎｄｏｖｅｒｍａｎａｇｅｍｅｎｔｉｎｆｅｍｔｏｃｅｌｌ
ｎｅｔｗｏｒｋｓ［Ｃ］＃ＩＥＥＥⅥｈｅｌｅｓｓＣ：ｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＷＣＮＣ’１３）．
ＩＥＥＥ．２０１３：６６１．６６６．
『２７１ＰａｎＪ，ＺｈａｎｇＷ．ＡｎＭＤＰ－ＢａｓｅｄＨａｎｄｏｖｅｒＤｅｃｉｓｉｏｎＡｌｇｏｒｉｔｈｍｉｎＨｉｅｒａｒｃｈｉｃａｌＵ甚

Ｎｅｔｗｏｒｋｓ［Ｃ］／／２０１２ＩＥＥＥＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙＣｏｎｆｅｒｅｎｃｅｆＶ７Ｉ℃’１２），ＩＥＥＥ，２０１２：１．５．
『２８１ＲｅｎＺ。ＦｅｒｔｌＰ’ＬｉａｏＱ，ｅｔａ１．Ｓｔｒｅｅｔ．ｓｐｅｃｉｆｉｃｈａｎｄｏｖｅｒｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｖｅｈｉｃｕｌａｒｔｅｒｍｉｎａｌｓｉｎ
ｆｕｔｕｒｅｃｅｌｌｕｌａｒｎｅｔｗｏｒｋｓ［Ｃ１／／ＩＥＥＥ７７ｔｈＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙＣｏｎｆｅｒｅｎｃｅ（ＶＴＣ’１３）。ＩＥＥＥ。
２０１３：１—５．
『２９１ＴｕＨＭ，ＬｉｎＪＳ，ＣｈａｎｇＴＳ，ｅｔａ１．Ｐｒｅｄｉｃｔｉｏｎ－ｂａｓｅｄｈａｎｄｏｖｅｒｓｃｈｅｍｅｓｆｏｒ
ｒｅｌａｙ－ｅｎｈａｎｃｅｄ
【丁Ｅ．Ａｓｙｓｔｅｍｓ［Ｃ］＃ＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ
ＩＥＥＥ
ｆＷＣＮＣ’１２），ＩＥＥＥ，２０１２：２８７９．２８８４．
『３０１ＳｏｎｇＹ＇ＫｏｎｇＰ，ＨａｎＹ．Ｐｏｗｅｒ－ＯｐｔｉｍｉｚｅｄＶｅｒｔｉｃａｌＨａｎｄｏｖｅｒＳｃｈｅｍｅｆｏｒＨｅｔｅｒｏｇｅｎｅｏｕｓ
ＷｉｒｅｌｅｓｓＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＬｅｔｔｅｒｓ。２０１４．１８（２）：２７７—２８０．
『３１１ＴａｎｇＨ，ＨｏｎｇＰ，ＸｕｅＫ．ＨｅＮＢ．ａｉｄｅｄｖｉｒｔｕａｌ－ｈａｎｄｏｖｅｒｆｏｒｒａｎｇｅｅｘｐａｎｓｉｏｎｉｎＬ］陋
ｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓｆＪｌ．ｃｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｓ，Ｊｏｕｒｎａｌｏｆ，２０１３，１５（３）：３１２－３２０．
『３２１ＳｕｎｇＮＷ：ＰｈａｍＮＴ＇ＹｏｏｎＨ，ｅｔａ１．Ｂａｓｅｓｔａｔｉｏｎａｓｓｏｃｉａｔｉｏｎｓｃｈｅｍｅｓｔｏｒｅｄｕｃｅｕｎｎｅｃｅｓｓａｒｙ
ｈａｎｄｏｖｅｒｓｕｓｉｎｇ１０ｃａｔｉｏｎａｗａｒｅｎｅｓｓｉｎｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ『Ｊ１．Ｗｉｒｅｌｅｓｓｎｅｔｗｏｒｋｓ，２０１３，１９（５）：
７４１－７５３．
『３３１ＬｉｎｇＺＢＱ．ＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｉｎＨｙｂｒｉｄＡｃｃｅｓｓＯＦＤＭＡＦｅｍｔｏｃｅｌｌＮｅｔｗｏｒｋｓ［Ｊ］．Ｊｏｕｒｎａｌ
Ｔｅｃｌｍｏｌｏｇｙ，２０１１．３３（１１）：２５６９—２５７４．
ｏｆＥｌｅｃｔｒｏｎｉｃｓ＆Ｉｎｆｏｒｍａｔｉｏｎ
［３４】Ｌｅａ１．ＱｏＳ—ａｗａｒｅａｎｄｅｎｅｒｇｙ—ｅｆｆｉｃｉｅｎｔｒｅｓｏｕｒｃｅ

ＬＢ，ＮｉｙａｔｏＤ，ＨｏｓｓａｉｎＥ，ｅｔｍａｎａｇｅｍｅｎｔｉｎ
０ＦＤＭＡｆｅｍｔｏｃｅｌｌｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１３，１２ｆ１１：
１８０－１９４．
『３５１ＹｉｎＪ，ＳｕｎＧＹａｎｇＦ’ｅｔａ１．Ｉｎｃｅｎｆｉｖｅｍｅｃｈａｎｉｓｍｆｏｒａｃｃｅｓｓｐｅｒｍｉｓｓｉｏｎａｎｄｓｐｅｃｔｒｕｍｔｒａｄｉｎｇ
ｉｎｆｅｍｔｏｃｅｌＩｎｅｔｗｏｒｋ［Ｃ］／／ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＩＣＥ）．ＩＥ髓．
２０１３：５９５９—５９６３．
［３６】ＣｈｅｎＹＺｈａｎｇＪ，ＺｈａｎｇＱ．Ｕｔｉｌ埘一ａｗａｒｅｒｅｆｕｎｄｉｎｇｆｒａｍｅｗｏｒｋｆｏｒｈｙｂｒｉｄａｃｃｅｓｓｆｅｍｔｏｃｅｌｌ
ｎｅｔｗｏｒｋ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１２，１１ｆ５１：１６８８－１６９７．

『３７１ＣｈａｉＣＨ．ＳｈｉｈＹＹＰａｎｇＡＣ．Ａｓｐｅｃｔｒｕｍ－ｓｈａｒｉｎｇｒｅｗａｒｄｉｎｇｆｒａｍｅｗｏｒｋｆｏｒｃｏ—ｃｈａｎｎｅｌ
ｈｙｂｒｉｄａｃｃｅｓｓｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ［Ｃ］／／Ｐｒｏｃ．ＩＥＥＥ仆ⅢＯＣＯＭ．ⅢＥＥ．２０１３：５６５—５６９．
［３８］ＹｉＹ，ＺｈａｎｇＪ，ＺｈａｎｇＱ，ｅｔａ１．Ｓｐｅｃｔｒｕｍｌｅａｓｉｎｇｔｏｆｅｍｔｏｓｅｒｖｉｃｅｐｒｏｖｉｄｅｒｗｉｔｈｈｙｂｒｉｄ
ａｃｃｅｓｓｌＣ］／／Ｐｒｏｃ．ⅢＥＥＩＮＦＯＣＯＭ．ＩＥＥＥ．２０１２：１２１５一１２２３．
『３９１ＣｈｅｎＹ＇ＺｈａｎｇＪ，ＺｈａｎｇＯ，ｅｔａ１．Ａｒｅｖｅｒｓｅａｕｃｔｉｏｎｆｒａｍｅｗｏｒｋｆｏｒａｃｃｅｓｓｐｅｒｍｉｓｓｉｏｎ
ｔｒａｎｓａｃｔｉｏｎｔｏｐｒｏｍｏｔｅｈｙｂｒｉｄａｃｃｅｓｓｉｎｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋＩＣｌ＃Ｐｒｏｃ．ＩＥＥＥＩＮＦＯＣｏＭ．ＩＥＥＥ．
２０１２：２７６１．２７６５．
［４０］ＣｈｅｕｎｇＷＣ，ＱｕｅｋＴＱＳ，ＫｏｕｎｔｏｕｒｉｓＭ．Ｔｈｒｏｕｇｈｐｕｔｏｐｔｉｍｉｚａｔｉｏｎ，ｓｐｅｃｔｒｕｍａｌｌｏｃａｔｉｏｎ，

ａｎｄａｃｃｅｓｓｃｏｎｔｒｏｌｉｎｔｗｏ－ｔｉｅｒｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ『Ｊ１．ＩＥＥＥＪｏｕｍａｌｏｎＳｅｌｅｃｔｅｄＡｔｅａｓｉｎ
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１２，３０（３１：５６１．５７４．
『４１１ＬｉＣ，ＷｕＪ。ＦｅｎｇＺ，ｅｔａ１．ＪｏｉｎｔＡｃｃｅｓｓＣｏｎｔｒ０１ａｎｄＳｕｂｃｈａｎｎｅｌＡｌｌｏｃａｔｉｏｎＳｃｈｅｍｅｆｏｒ
Ｆｅｍｔｏｃｅｌｌ．ＢａｓｅｄＭ２ＭＮｅｔｗｏｒｋＵｓｉｎｇａＴｒｕｔｈｍｌＭｅｃｈａｎｉｓｍ［Ｊ］．ＩｎｔｅｍａｔｉｏｎａｌＪｏｕｒｎａｌｏｆ
ＤｉｓｔｒｉｂｕｔｅｄＳｅｎｓｏｒＮｅｔｗｏｒｋｓ．２０１３．２０１３：１—１１．
ｆ４２１ＣｈｅａｎｇＷＣ，ＱｕｅｋＴＯＳ。ＫｏｕｎｔｏｕｒｉｓＭ．Ａｃｃｅｓｓｃｏｎｔｒｏｌａｎｄｅｅｌ】ａｓｓｏｃｉａｔｉｏｎｉｎｔｗｏ—ｔｉｅｒ
万方数据
参考文献
ｎｅｔｗｏｒｋｓ［Ｃ］／／ｌＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｌｃａｆｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ

ｆｅｍｔｏｃｅｌｌ
（ＷＣＮＣ’１２１．ＩＥＥＥ．２０１２：８９３．８９７．
『４３］ＣｈｅｎＣＭ．ＷｕＴＹＴｓｏ＆ｅｔａ１．ＳｅｃｕｒｉｔｙＡｎａｌｙｓｉｓａｎｄＩｍｐｒｏｖｅｍｅｎｔｏｆＦｅｍｔｏｃｅｌｌＡ。ｃｃｅｓｓ
Ｃｏｎｔｒｏｌ［Ｍ１／／ＮｅｔｗｏｒｋａｎｄＳｙｓｔｅｍＳｅｃｕｒｉｔｙ．ＳｐｒｉｎｇｅｒＩｎｔｅｒｎａｔｉｏｎａｌＰｕｂｌｉｓｈｉｎｇ，２０１４：
２２３．２３２．
『４４１ＢｏｒｋａｒＶＳ，ＧｈｏｓｈＭＫ．ＲｅｃｅｎｔｔｒｅｎｄｓｉｎＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓ［Ｊ］．Ｊｏｕｍａｌｏｆｔｈｅ

ＩｎｄｉａｎＩｎｓｔｉｔｕｔｅｏｆＳｃｉｅｎｃｅ。２０１３。７５（１）：１－５．
【４５］林闯，万剑雄，向旭东，孟坤，王元卓．计算机系统与计算机网络中的动态优化：模型，
求解与应用［Ｊ］．计算机学报，２０１２，３５（７）：１３３９．１３５７．
ｆ４６１ＧｕｐＷ，ＬｉｕＥＨｅＤ，ｅｔａ１．ＲｅａｃｔｉｖｅｐｏｗｅｒｃｏｎｔｒｏｌｏｆＤＦＩＧｗｉｎｄｆａｒｍｕｓｉｎｇｏｎｌｉｎｅ
ｓｕｐｐｌｅｍｅｎｔａｒｙｌｅａｍｉｎｇｃｏｎｔｒｏｌｌｅｒｂａｓｅｄｏｎａｐｐｒｏｘｉｍａｔｅｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ［Ｃ］＃

ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ０ＪＣＮＮ’１４）．１ＥＥＥ．２０１４：１４５３－１４６０．
［４７】ＫｕｒｚｈａｎｓｋｉＡＢ，ＶａｒａｉｙａＥＴｈｅＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇＡｐｐｒｏａｃｈ［Ｍ］／／Ｄｙｎａｍｉｃｓａｎｄ

ＣｏｎｔｒｏｌｏｆＴｒａｊｅｃｔｏｒｙＴｈｂｅｓ．ＳｐｒｉｎｇｅｒＩｎｔｅｒｎａｔｉｏｎａｌＰｕｂｌｉｓｈｉｎｇ．２０１４：４７．８６．
『４８１Ａ１一ＣｈａｌａｂｉＡ，ＣａｌｖｏＡ，ＣｈｉｐＡ。ｅｔａ１．Ａｎａｌｙｓｉｓｏｆａｍｙｏｔｒｏｐｈｉｃ１ａｔｅｒａｌｓｃｌｅｒｏｓｉｓａｓａ
ｍｕｌｔｉｓｔｅｐｐｒｏｃｅｓｓ：ａｐｏｐｕｌａｔｉｏｎ・ｂａｓｅｄｍｏｄｅｌｌｉｎｇｓｔｕｄｙ【Ｊ】．ＴｈｅＬａｎｃｅｔＮｅｕｒｏｌｏｇｙ，２０１４，
１３（１１１：１１０８—１１１３，

ｆ４９１ＢｏｄａＤ，ＫｏｖａｃｓＲ，ＧｉｌｌｅｓｐｉｅＤ，ｅｔａ１．Ｓｅｌｅｃｔｉｖｅｔｒａｎｓｐｏｒｔｔｈｒｏｕｇｈａｍｏｄｅｌｃａｔｃｉｕｍｃｈａｎｎｅｌ
ｓｔｕｄｉｅｄｂｙＬｏｃａｌＥｑｕｉｌｉｂｒｉｕｍＭｏｎｔｅＣａｒｌｏｓｉｍｕｌａｔｉｏｎｓｃｏｕｐｌｅｄｔｏｔｈｅＮｅｒｎｓｔ＿＿Ｐｌａｎｃｋ
ｅｑｕａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＬｉｑｕｉｄｓ．２０１４，１８９：１００．１１２．
『５０１ＴｅｉｃｈｍａｎｎＪ，ＢｒｏｏｍＭ，ＡｌｏｎｓｏＥ．Ｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｔｅｍｐｏｒａｌｄｉｆｆｅｒｅｎｃｅｌｅａｒｎｉｎｇｉｎ
ｏｐｔｉｍａｌｄｉｅｔｍｏｄｅｌｓ［Ｊ］．ＪｏｕｍａＩｏｆｔｈｅｏｒｅｔｉｃａｌｂｉｏｌｏｇｙ，２０１４．３４０：１１．１６．
ｆ５１１Ｌｅｗｉｓ，ＦｒａｎｋＬ．，ａｎｄＤｅｒｏｎｇＬｉｕ，ｅｄｓ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｎｄａｐｐｒｏｘｉｍａｔｅｄｙｎａｍｉｃ
ｐｒｏｇｒａｍｍｉｎｇｆｏｒｆｅｅｄｂａｃｋｃｏｎｔｒ０１．Ｖ０１．１７．ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ．２０１３．
［５２］ＳａａｄＨ，ＭｏｈａｍｅｄＡ，ＥｌＢａｔｔＴ．ＡＣｏｏｐｅｒａｔｉｖｅＱ－ＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｆｏｒＯｎｌｉｎｅＰｏｗｅｒ
ＡｌｌｏｃａｔｉｏｎｉｎＦｅｍｔｏｃｅｌｌＮｅｔｗｏｒｋｓ［Ｃ］／／ＩＥＥＥ７８ｔｈＶｊＭｃｕｌａｒＴｅｃｈｎｏｌｏｇｙＣｏｎｆｅｒｅｎｃｅ
（ＶＴＣ’１３）．ＩＥＥＥ．２０１３：１．６．
［５３］ＪｉａｏＹＭａＬ，ＸｕＹ．ＲｅｓｅａｒｃｈｏｎｖｅｒｔｉｃａｌｈａｎｄｏｖｅｒｉｎＬ１１Ｅｔｗｏ．ｔｉｅｒＭａｃｒｏｃｅｌｌ／Ｆｅｍｔｏｃｅｌｌ
ＳｙｓｔｅｍｓｂａｓｅｄＯｌｌｆｕｚｚｙｎｅｕｒａｌｎｅｔｗｏｒｋ『Ｃ１／／ＩｎｔｅｍａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｉｎｇ，
ＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＮｅｔｗｏｒｋｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ（ＩＣＣＣＮＴ）。ＩＥＥＥ．２０１４：１．５．
『５４１ＨｕｎｇＭＳ，ＰａｎＪＹ，ＨｕａｎｇＺＥ．ＡｎａｌｙｓｉｓｏｆＨａｎｄｏｖｅｒＤｅｃｉｓｉｏｎｗｉｔｈＡｄａｐｆｉｖｅ０ｆｆｓｅｔｉｎ
Ｎｅｘｔ．ＧｅｎｅｒａｔｉｏｎＨｙｂｒｉｄＭａｃｒｏ／Ｆｅｍｔｏ－ｅｅｌｌＮｅｔｗｏｒｋｓ［Ｃ］＃ＴｅｎｔｈＩｎｔｅｍａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ
ＩｎｔｅｌｌｉｇｅｎｔＩｎｆｏｒｍａｔｉｏｎＨｉｄｉｎｇａｎｄＭｕｌｔｉｍｅｄｉａＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＩＨ．ＭＳＰ’１４１，ＩＥＥＥ，２０１４：
７２９．７３４．
【５５］Ｋａｙｍａｋｇｍ垂ｌｕＰ＇ＳｅｎｅｌＫ，ＡｋａｒＭ．ＤｅｌａｙＢａｓｅｄＨａｎｄｏｖｅｒＡｌｇｏｒｉｔｈｍＤｅｓｉｇｎｆｏｒＦｅｍｔｏｃｅｌｌ
Ｎｅｔｗｏｒｋｓ［Ｍ］／／ＩｎｔｅｍｅｔｏｆＴｈｉｎｇｓ，ＳｍａｒｔＳｐａｃｅｓ，ａｎｄＮｅｘｔＧｅｎｅｒａｔｉｏｎＮｅｔｗｏｒｋｓａｎｄＳｙｓｔｅｍｓ．
ＳｐｒｉｎｇｅｒＩｎｔｅｍａｔｉｏｎａｌＰｕｂｌｉｓｈｉｎｇ．２０１４：２０５．２１８．
［５６】ＦｅｒｒａｇｕｔＪ，Ｍａｎｇｕｅｓ・ＢａｆａｌｌｕｙＪ．ＡｄｉｓｔｒｉｂｕｔｅｄｐａｇｉｎｇｍｅｃｈａｎｉｓｍｏｖｅｒｔｈｅＸ２ｉｎｔｅｒｆａｃｅｆｏｒ
ａｌｌ—ｗｉｒｅｌｅｓｓＮｅｔｗｏｒｋｓｏｆＳｍａｌｌＣｅｌｌｓ［Ｃ］＃７ｔｈＩＦＩＰＷｉｒｅｌｅｓｓａｎｄＭｏｂｉｌｅＮｅｔｗｏｒｋｉｎｇ
Ｃｏｎｆｅｒｅｎｃｅ（ＷＭＮＣ’１４）．ＩＥＥＥ．２０１４：１．７．
［５７］３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ，ＱｕａｌｉｖｙｏｆＳｅｒｖｉｃｅ（ＱｏＳ）ｃｏｎｃｅｐｔａｎｄａｒｃｈｉｔｅｃｔｕｒｅ［Ｓ】，
３ＧＰＰＴＳ２３．１０７Ｖ１２．０．０．２０１４．
『５８］Ｓｔｅｖｅｎｓ－ＮａｖａｒｒｏＥ，ＬｉｎＹＷｏｎｇＶＷＳ．ＡｎＭＤＰ—ｂａｓｅｄｖｅｒｔｉｃａＩｈａｎｄｏｆｆｄｅｃｉｓｉｏｎａｌｇｏｒｉｔｈｍ

ｆｏｒｈｅｔｅｒｏｇｅｎｅｏｕｓｗｉｒｅｌｅｓｓｎｅｔｗｏｒｋｓ『Ｊ１．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙ，２００８，
５７ｆ２１：１２４３－１２５４．
［５９】ＺｈｅｎｇＺ，ＨａｒｅａｌｍｎｅｎＪ，ＹａｎｇＹＯｎｕｐｌｉｎｋｐｏｗｅｒｃｏｎｔｒｏｌｏｐｔｉｍｉｚａｔｉｏｎａｎｄｄｉｓｔｒｉｂｕｔｅｄ
ｒｅｓｏｕｒｃｅａｌｌｏｃａｔｉｏｎｉｎｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ［Ｃ］＃ＩＥＥＥ７３ｒｄＶ曲ｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙＣｏｎｆｅｒｅｎｃｅ
ｆＶＴＣ’１１），ＩＥＥＥ。２０１ｌ：１．５．
【６０】ＣａｏＧＹａｎｇＤ，ＺｈａｎｇＸ．Ａｄｉｓｔｒｉｂｕｔｅｄａｌｇｏｒｉｔｈｍｃｏｍｂｉｎｉｎｇｐｏｗｅｒｃｏｎｔｒｏｌａｎｄｓｃｈｅｄｕｌｉｎｇ
ｆｏｒｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ［Ｃｌ＃ＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ
（ＷＣＮＣ’１２）．ＩＥＥＥ。２０１２：２２８２．２２８７．
［６１】ＬｅｅＢＢ，ＹＵＪ，硒ｍＳＪ．ＡＤｉｓｔｒｉｂｕｔｅｄａｎｄＩｎｔｅｌｌｉｇｅｎｔＰｏｗｅｒＣｏｎｔｒｏｌＳｃｈｅｍｅｉｎ
Ｌ１１Ｅ－ＡｄｖａｎｃｅｄＦｅｍｔｏｃｅｌｌＮｅｔｗｏｒｋｓ［Ｍ］／／ＦｕｔｕｒｅＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，Ａｐｐｌｉｃａｔｉｏｎ．ａｎｄ
Ｓｅｎ，ｉｃｅ．ＳｐｒｉｎｇｅｒＮｅｔｈｅｒｌａｎｄｓ．２０１２：３１７．３２５．
［６２】ＫａｎｇＸ，ＺｈａｎｇＲ，ＭｏｔａｎｉＭ．Ｐｒｉｃｅ．ｂａｓｅｄｒｅｓｏｕｒｃｅａｌｌｏｃａｔｉｏｎｆｏｒｓｐｅｃｔｒｕｍ．ｓｈａｒｉｎｇ
ｆｅｍｔｏｃｅｌｌｎｅｔｗｏｒｋｓ：Ａｓｔａｃｋｅｌｂｅｒｇｇａｍｅａｐｐｒｏａｃｈ［Ｙ１．ＩＥＥＥＪｏｕｍａｌｏｎＳｅｌｅｃｔｅｄＡｔｅａｓｉｎ
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１２．３０ｆ３１：５３８．５４９．
万方数据
参考文献
［６３］ＸｉｅＲ，ＹｕＦＲＪｉＨ．Ｅｎｅｒｇｙ－ｅｆｆｉｃｉｅｎｔｓｐｅｃｔｒｕｍｓｈａｒｉｎｇａｎｄｐｏｗｅｒａｌｌｏｃａｔｉｏｎｉｎｃｏｇｎｉｔｉｖｅ

ｒａｄｉｏｆｅｍｔｏｅｅｌｌｎｅｔｗｏｒｋｓ［Ｃ］／／Ｐｒｏｃ．ｏｆｌＥＥＥＩＮＦＯＣＯＭ．ＩＥＥＥ．２０１２：１６６５．１６７３．
［６４］ＳａｋｅｒＬ，ＥｌａｙｏｕｂｉＳＥ，ＣｏｍｂｅｓＲｅｔ
ａ１．Ｏｐｔｉｍａｌｃｏｎｔｒｏｌｏｆｗａｋｅｕｐｍｅｃｈａｎｉｓｍｓｏｆ
ｆｅｍｔｏｃｅｌｌｓｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＪｏｕｒｎａｌｏｎＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ．
２０１２，３０ｆ３】：６６４－６７２．
［６５］ＡｓｈｒａｆＩ，ＨｏＬＴＷ，ＣｌａｕｓｓｅｎＨ．Ｉｍｐｒｏｖｉｎｇｅｎｅｒｇｙｅｆｆｉｃｉｅｎｃｙｏｆｆｅｍｔｏｃｅｌｌｂａｓｅｓｔａｔｉｏｎｓｖｉａ
ｕｓｅｒｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｆｅｎｃｅ
ａｃｔｉｖｉｔｙ
（ＷＣＮＣ）．ＩＥＥＥ．２０１０：１．５．
【６６】３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ，ＥｖｏｌｖｅｄＵｎｉｖｅｒｓａｌＴｅｒｒｅｓｔｒｉａｌＲａｄｉｏＡｃｃｅｓｓ饵．ＵＴＲＡ）；
Ｐｈｙｓｉｃａｌｌａｙｅｒ；Ｍｅａｓｕｒｅｍｅｎｔｓ［Ｓ］，３ＧＰＰＴＳ３６。２１４Ｖ１２．１．０．２０１４．
［６７］３ｉａｎｇＹｕｍｉｎｇ．Ａｎｏｔｅｏｎａｐｐｌｙｉｎｇｓｔｏｃｈａｓｔｉｃｎｅｔｗｏｒｋｃａｌｃｕｌｕｓ．２０１０．
【６８］陈听，张磊，向旭东，万剑雄．基于随机网络演算的ＬＴＥ网络端到端时延分析［Ｊ］．计
算机学报，２０１２，３５（１）：４６．５２．
【６９］ＣｌａｕｓｓｅｎＨ，ＡｓｈｒａｆＩ，ＨｏＬＴＷ．Ｄｙｎａｍｉｃｉｄｌｅｍｏｄｅｐｒｏｃｅｄｕｒｅｓｆｏｒｆｅｍｔｏｃｅｌｌｓ［Ｊ］．ＢｅｌｌＬａｂｓ
ＴｅｃｈｎｉｃａｌＪｏｕｒｎａｌ，２０１０．１５（２）：９５．１１６．
［７０】ＣｈｅｎＹＳ，ｗｕＣＹ‘Ａｇｒｅｅｎｈａｎｄｏｖｅｒｐｒｏｔｏｃｏｌｉｎｔｗｏ．ｔｉｅｒＯＦＤＭＡｍａｃｒｏｃｅｌｌ－ｆｅｍｔｏｃｅｌｌ

ｎｅｔｗｏｒｋｓ［Ｊ］．ＭａｔｈｅｍａｔｉｃａｌａｎｄＣｏｍｐｕｔｅｒＭｏｄｅｌｌｉｎｇ．２０１３．５７（１１１：２８１４—２８３１－
［７１］３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔＳｉｍｕｌａｔｉｏｎＡｓｓｕｍｐｔｉｏｎｓａｎｄＰａｒａｍｅｔｅｒｓｆｏｒＦｄｄＨｅｎｂ
ＲｆＲｅｑｕｉｒｅｍｅｎｔｓ［Ｓ］，Ｒ４—０９２０４２，２００９．
万方数据
附录Ａ英文缩略词表
缩略词英文全称中文全称
３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐ
３ＧＰＰ第三代合作伙伴计划
Ｐｒｏｉｅｃｔ
ＡＣＡｃｃｅｓｓＣｏｎｔｒｏｌ接纳控制
ＡｐｐｒｏｘｉｍａｔｅＤｙｎａｍｉｃ
ＡＤＰ近似动态规划
Ｐｒｏｇｒａｍｍｉｎｇ
ＡＨＰＡｎａｌｙｔｉｃａｌＨｉｅｒａｒｃｈｙＰｒｏｃｅｓｓ层次分析法
处闲ＧＮＡｄｄｉｔｉｖｅ鼢ｉｔｅＧａｕｓｓｉａｎＮｏｉｓｅ加性高斯自噪声
ＢＥＢｅｓｔＥ圩ｏｒｔ尽力服务
ＣＡＣａｒｒｉｅｒＡｇｇｒｅｇａｔｉｏｎ载波聚合
ＣｏｎｓｔｒａｉｎｔＭａｒｋｏｖＤｅｃｉｓｉｏｎ
ＣＭＤＰ约束马尔科夫决策过程
Ｐｒｏｃｅｓｓ
ＤＥｓＤｅｃｉｓｉｏｎＥｐｏｃｈｓ决策时刻

ＤｏｗｎｌｉｎｋＲｅｆｅｒｅｎｃｅＳｉｇｎａｌ
ＤＬＲＳＴｘ下行参考信号发射功率
ＴｒａｎｓｍｉｔｔｅｄＰｏｗｅｒ
ＤＰＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ动态规划

姆ＡｃｃｅｓｓＰｏｉｎｔ接入点
ＦＢＳＦｅｍｔｏＢａｓｅＳｔａｔｉｏｎ飞蜂窝基站
ＦＵＥＦｅｍｔｏｃｅｌｌＵｓｅｒＥｑｕｉｐｍｅｎｔ飞蜂窝用户
ＧＲＡＧｒｅｙＲｅｌｍｉｏｎａｌＡｎａｌｙｓｉｓ灰色关联分析法
ＨＨＭＨａｎｄｏｖｅｒＨｙｓｔｅｒｅｓｉｓＭａｒｇｉｎ切换滞后余量
ＬＴＥＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ长期演进计划
ＬｒＥ．ＡＬｏｎｇＴｅｒｌＴｌＥｖｏｌｕｔｉｏｎ．Ａｄｖａｎｃｅｄ高级长期演进
ＭｕｌｔｉｐｌｅＡｔｔｒｉｂｕｔｅｓＤｅｃｉｓｉｏｎ
ＭＡＤＭ多属性决策
Ｍａｋｉｎｇ
ＭＢＳＭａｃｒｏＢａｓｅＳｔａｔｉｏｎ宏基站
ＭＣＭｏｎｔｅＣａｒｌｏＭｅｔｈｏｄｓ蒙特卡罗算法
ＭＤＰＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ马尔科夫决策过程
ＭＰＭａｒｋｏｖＰｒｏｃｅｓｓ马尔可夫过程
ＭＴＭｏｂｉｌｅＴｅｒｍｉｎａｌ移动终端
ＭＵＥＭａｃｒｏｃｅｌｌＵｓｅｒＥｑｕｉＦ｝ｍｅｎｔ宏用户
ＮＣＬＮｅｉｇｈｂｏｒＣｅｌｌＬｉｓｔｓ邻，Ｊ、区歹０表
ＯｒｔｈｏｇｏｎａｌＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎ
０ＦＤＭＡ正交频分多址接入
ＭｕｌｔｉｐｌｅＡｃｃｅｓｓ
ＰＡＰｏｉｓｓｏｎＡｒｒｉｖａｌ泊松到达
４７
万方数据
缩略词英文全称中文全称
ＱｏＳＱｕａｌｉｔｙｏｆＳｅｒｖｉｃｅ服务质量
ＱｏＥＱｕａｌｉｔｙｏｆＥｘｐｅｒｉｅｎｃｅ用户体验质量

ＲＩＰＲｅｃｅｉｖｅｄｉｎｔｅｒｆｅｒｅｎｃｅｐｏｗｅｒ接收的干扰功率
ＲＬＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ强化学习
ＲＳＲｅｉｎｆｏｒｃｅｍｅｎｔＳｉｇｎａｌ强化信号
ＲＳＱＲｅｃｅｉｖｅｄＳｉｇｎａｌＱｕａｌｉｔｙ接收的信号质量

ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌＲｅｃｅｉｖｉｎｇ
ＲＳＲＰ参考信号接收功率
Ｐｏｗｅｒ
ＲＳＳＲｅｃｅｉｖｅｄＳｉｇｎａｌＳｔｒｅｎｇｔｈ接收信号强度

ＳＡＷＳｉｍｐｌｅＡｄｄｉｔｉｖｅＷｅｉｇｈｔｉｎｇ简单加权法
ＳＤＰＳｅｑｕｅｎｔｉａｌＤｅｃｉｓｉｏｎＰｒｏｂｌｅｍ序贯决策
Ｓｅｍｉ．ＭａｒｋｏｖｉａｎＤｅｃｉｓｉｏｎ
ＳＭＤＰ半马尔科夫决策过程
Ｐｒｏｃｅｓｓ
ＳＮＣＳｔｏｃｈａｓｔｉｃＮｅｔｗｏｒｋＣａｌｃｕｌｕｓ随机网络演算

ＴＤＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ瞬时差分
ＴｅｃｈｎｉｑｕｅｆｏｒＯｒｄｅｒＰｒｅｆｅｒｅｎｃｅ
ＴＯＰＳＩＳ逼近理想解排序法
ｂｙＳｉｍｉｌａｒｉｔｙｔｏＩｄｅａｌＳｏｌｕｔｉｏｎ
ＴＴＴＴｉｍｅＴｏＴｒｉｇｇｅｒ延迟触发时间
ＷＰＦＷｅｉｇｈｔｅｄＰｒｏｐｏｒｔｉｏｎａｌＦａｉｒ加权比例公平
万方数据
个人简历在校期间发表的学术论文与参与研究的课题情况
个人简历在校期间发表的学术论文与参与
研究的课题情况
个人简历：
王鸿鲁，男，１９８８年７月生，山东莱芜人。
２００８．０９—２０１２．０６，山东科技大学计算机科学与技术专业学习，获工学学士学位。
２０１２．０９．．至今，北京信息科技大学计算机学院计算机系统结构专业学习，攻读硕士学
俯。
参与科研项目：
［１］２０１４．０１—２０１７．１２，国家自然科学基金面上项目“ＬＴＥ．Ａ飞蜂窝系统的动态资源分配与
性能评价研究”（编号：６１３７００６５）
［２］２０１２．１０—２０１３．０４，中国航空工业集团公司第６１３研究所“大容量高带宽存储管理技术
研究与应用开发”项目
［３］２０１３．１２～２０１４．０５，中国航空］：业集团公司第６１３研究所“机载高分辨率图像实时加解
密系统研究与开发”项目
发表论文：
［１］王鸿鲁，陈听，高潮欣，韩友等．基于ＧＳＰＮ的数据中心动态能耗管理研究【Ｊ］．系统仿
真学报，２０１４，２６（１２）：３００７．３０１４．（中文核心期刊）
［２］ＸｉｎＣｈｅｎ，ＨｏｎｇｌｕＷａｎｇ，ＸｕｄｏｎｇＸｉａｎｇ，ＣｈａｏｘｉｎＧａｏ．ＪｏｉｎｔＨａｎｄｏｖｅｒＤｅｃｉｓｉｏｎａｎｄ
ＣｈａｎｎｅｌＡｌｌｏｃａｔｉｏｎｆｏｒＬＴＥ－ＡＦｅｍｔｏｃｅｌｌＮｅｔｗｏｒｋｓ．ＧａｍｅＴｈｅｏｒｙｆｏｒＮｅｔｗｏｒｋｓ（ＧａｍｅＮｅｔｓ），

２０１４：７０．７４．（Ｅｌ检索源）
［３］ＢｉＹｕ—ｒｉｎｇ，ＣｈｅｎＸｉｎ，ＷａｎｇＨｏｎｇ—ｌｕａｎｄＬｉｕＺｏｎｇ—Ｑｉ．ＡｎＡｄａｐｔｉｖｅＳｐｅｃｔｒｕｍＡｌｌｏｃａｔｉｏｎ
ＡｌｇｏｒｉｔｈｍｉｎＦｅｍｔｏｃｅｌｌＮｅｔｗｏｒｋｓＵｓｉｎｇＱ—ｌｅａｒｎｉｎｇ．ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＪｏｕｍａｌ，
２０１３（１２）：７３５３．７３６０．（Ｅｌ检索：２０１４２４１７８０５８２３）
４９
万方数据
致谢
致谢
回想２０１２年的夏天，我来到北信科的场景仍历历在目，仿若昨天。两年半
的读研生涯，一路走来，得到许多老师和同学的关怀和帮助，谨以此文表达我对
他们深深的谢意。
“春风化雨，师恩难忘”，首先感谢我的导师陈昕教授对我悉心的指导和帮
助。陈老师在研究生培养上始终把“育人”作为第一目标，常常跟我讲做人和做
事的道理，“只有广阔的胸襟，才有远大的视野”，“人生的精采是一天一天充满
希望活出来的，与环境和周围无关，关健是你心有多大并踏实付出”等一系列精
辟的见解将使我终生受益。在科研上，陈老师总能用深入浅出的语言讲清楚复杂
的原理。在工作上，陈老师严谨认真，诲人不倦。在生活上，陈老师总能给与我
指导，使得我能够突破藩篱，积极乐观的面对所遇到的压力和困难。在此，向陈
老师表达我衷心的敬意和感激之情，祝福老师身体健康！
感谢在清华网络技术研究室攻读博士的向旭东师兄，在我写小论文和做毕设
时，向师兄给与了很多计算模型、算法和实验方面的帮助，并对我的大论文提出
了宝贵的修改意见，感谢向师兄一直以来的付出。
感谢已经毕业的刘宗奇师兄、蔡俊师兄、张辉师兄和毕玉婷师姐，在我刚进
团队和后期学习中，你们给了我很多学术和生活方面的指导。
感谢与我同一个课题小组的司远、李龙飞和高潮欣，以及其他两位舍友李煜
和霍磊，和你们一起交流学术、反思生活、探讨人生的过程，是我硕士生涯很愉
快的经历，感谢你们一直以来的帮助。感谢贾玉栋、汪凯、纪建伟、韩友、宋亚
鹏等师弟，和你们一起讨论学术的经历很难忘。
感谢计算机学院的各位老师和开放系统实验室的同学对我的关心与帮助，和
你们一起的时光很难忘，希望我们的友谊长存。
感谢我的家人、同学、舍友、朋友们，他们总能够在我需要帮助的时候，帮
助我、开导我、鼓励我。
最后，感谢参与本文评审和答辩的各位专家学者，在此表达诚挚的感谢。
王鸿鲁
２０１５年３月
万方数据

LTE A飞蜂窝系统小区切换与接纳控制算法研究

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

LTE A飞蜂窝系统小区切换与接纳控制算法研究

Uploaded by

Copyright:

Available Formats

分类号：ＴＰ３９３ 单位代码：１１２３２

口公开 口保密（ 年 月） （保密的学位论文在解密后应遵

策过程（ＭＤＰ，Ｍａｒｋｏｖ Ｄｅｃｉｓｉｏｎ Ｐｒｏｃｅｓｓ）、强化学习和随机网络演算理论，构建

ｍｏｂｉｌｅ ｕｓｅｒｓ，ｔｈｅ Ｔｈｉｒｄ Ｇｅｎｅｒａｔｉｏｎ Ｐａｒｔｎｅｒｓｈｉｐ Ｐｒｏｊｅｃｔ（３ＧＰＰ）ｅｍｐｌｏｙｓ ｆｅｍｔｏｃｅｌｌ

ａｎｄ ｆｅｍｔｏｃｅｌｌｓ．ａｎｄ ｇｕａｒａｎｔｅｅｓ山ｅ ｃｏｍｍｕｎｉｃａｔｉｏｎ ｃｏｎｔｉｎｕｉｔｙ ｏｆ ｍｏｂｉｌｅ

ａｃｃｅｓｓ ｃｏｎｔｒｏｌ ｐｒｏｂｌｅｍｓ ｉｎ ＬＴＥ．Ａ ｆｅｍｔｏｃｅｌｌ ｓｙｓｔｅｍ，ｕｓｉｎｇ Ｍａｒｋｏｖ Ｄｅｃｉｓｉｏｎ Ｐｒｏｃｅｓｓ

（ＭＤＰ），Ｒｅｉｎｆｏｒｃｅｍｅｎｔ Ｌｅａｒｎｉｎｇ（ｅＬ），ａｎｄ Ｓｔｏｃｈａｓｔｉｃ Ｎｅｔｗｏｒｋ Ｃａｌｃｕｌｕｓ（ＳＮＣ）

ｔｈｅｏｒｙ．Ｓｐｅｃｉｆｉｃａｌｌｙ，ｗｅ ｍｏｄｅｌ ｔｈｅ ｈａｎｄｏｖｅｒ ｄｅｃｉｓｉｏｎ ｐｒｏｃｅｓｓ ｏｆ ｍｏｂｉｌｅ

ＭＤＰ，ａｎｄ ｐｒｏｐｏｓｅ ａｎ ａｃｃｅｓｓ ｃｏｎｔｒｏｌ ａｌｇｏｒｉｔｈｍ ｂａｓｅｄ ｏｎ ｐｏｗｅｒ ｃｏｎｔｒｏｌ ａｎｄ

Ｆｉｒｓｔ，ｉｎ ｌｉｇｈｔ ｏｆ ｔｈｅ ｓｍａｌｌ ｃｏｖｅｒａｇｅ ａｎｄ ｈｉｇｈ ｄｅｐｌｏｙｍｅｎｔ ｄｅｎｓｉｔｙ ｏｆ

Ｓｔａｔｉｏｎ（ＦＢＳ），ｗｅ ｆｏｒｍｕｌａｔｅ ｔｈｅ ｈａｎｄｏｖｅｒ ｄｅｃｉｓｉｏｎ ａｎｄ ｓｐｅｃｔｒｕｍ ａｌｌｏｃａｔｉｏｎ ｐｒｏｂｌｅｍ

ａｓ ａ ＭＤＰ ｗｈｅｒｅ ａ ｖａｒｉｅｔｙ ｏｆ ｆａｃｔｏｒｓ ｈａｖｅ ｂｅｅｎ ｔａｋｅｎ ｉｎｔｏ ｃｏｎｓｉｄｅｒａｔｉｏｎ，ｉｎｃｌｕｄｉｎｇ

Ｔｈｅｎ，ｂａｓｅｄ ｏｎ ａｎ ｉｎ．ｄｅｐｔｈ ｓｔｕｄｙ ｏｆ ｔｈｅ ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ ｏｆ ｈｉｇｈ－ｖｅｌｏｃｉｔｙ ｍｏｂｉｌｅ

Ｔｈｅ ｐｒｏｐｏｓｅｄ ａｌｇｏｒｉｔｈｍ ｃｏｍｐｒｉｓｅｓ ｏｆ ｔｈｒｅｅ ｍａｊｏｒ ｃｏｍｐｏｎｅｎｔｓ：（１）ａ ｄｗｅｌｌ ｔｉｍｅ

ｅｓｔｉｍａｔｉｏｎ ａｌｇｏｒｉｔｈｍ（ＤＴＥＡ）；（２）ａｎ ａｖｅｒａｇｅ ｅｘｐｅｃｔ ｔｒａｎｓｍｉｓｓｉｏｎ ｔｉｍｅ ａｌｇｏｒｉｔｈｍ

Ｆｉｎａｌｌｙ，ｗｅ ｃｏｎｄｕｃｔ ｓｉｍｕｌａｔｉｏｎｓ ｔｏ ｖｅｒｉｆｙ ｔｈｅ ｅｆｆｉｃａｃｙ ｏｆ ｔｈｅ ｐｒｏｐｏｓｅｄ ｃｅｌｌ

ｕｎｎｅｃｅｓｓａｒｙ ｈａｎｄｏｖｅｒｓ ａｍｏｎｇ ｆｅｍｔｏｃｅｌｌｓ．Ｍｏｒｅｏｖｅｒ，ｔｈｅ ｐｒｏｐｏｓｅｄ ＰＣＳＷＡＣ

ＫＥＹ ＷＯＲＤＳ：Ｆｅｍｔｏｃｅｌｌ，ｃｅｌｌ ｈａｎｄｏｖｅｒ，ａｃｃｅｓｓ ｃｏｎｔｒｏｌ，Ｍａｒｋｏｖ ｄｅｃｉｓｉｏｎ

ｐｒｏｃｅｓｓ，ｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇ，ｓｔｏｃｈａｓｔｉｃ ｎｅｔｗｏｒｋ ｃａｌｃｕｌｕｓ

Ｐａｒｔｎｅｒｓｈｉｐ Ｐｒｏｊｅｃｔ）引入飞蜂窝作为下一代无线通信技术ＬＴＥ．Ａ（Ｌｏｎｇ Ｔｅｒｍ

收的干扰功率（ＲＩＰ，Ｒｅｃｅｉｖｅｄ ｉｎｔｅｒｆｅｒｅｎｃｅ ｐｏｗｅｒ）［１５Ｊ和接收的信号质量（ＲＳＱ，

量（ＨＨＭ，Ｈａｎｄｏｖｅｒ Ｈｙｓｔｅｒｅｓｉｓ Ｍａｒｇｍ）值，降低移动终端的功耗。

（ＳＡＷ，Ｓｉｍｐｌｅ Ａｄｄｉｔｉｖｅ Ｗｅｉｇｈｔｉｎｇ）［２０】，灰色关联分析法（ＧＲＡ，Ｇｒｅｙ Ｒｅｌａｔｉｏｎａｌ

Ａｎａｌｙｓｉｓ）［２１］，层次分析法（ＡＨＰ，Ａｎａｌｙｔｉｃａｌ Ｈｉｅｒａｒｃｈｙ Ｐｒｏｃｅｓｓ）［２２１，以及逼近理

想解排序法（ＴＯＰＳＩＳ，Ｔｅｃｈｎｉｑｕｅ ｆｏｒ Ｏｒｄｅｒ Ｐｒｅｆｅｒｅｎｃｅ ｂｙ Ｓｉｍｉｌａｒｉｔｙ ｔｏ Ｉｄｅａｌ

降低了通信中断率。Ｈ．Ｍ．Ｔｕ等人【２９】结合快速软切换（ｆａｓｔ ｓｏｆｔ ｈａｎｄ．ｏｆｆ）、更软

切换（ｍｏｒｅ ｓｏｆｔｅｒ ｈａｎｄ．ｏｆｆ）和基于载波聚合（ＣＡ，Ｃａｒｒｉｅｒ Ａｇｇｒｅｇａｔｉｏｎ）的切换

位置，减小邻小区列表（ＮＣＬ，Ｎｅｉｇｈｂｏｒ Ｃｅｌｌ Ｌｉｓｔｓ）长度，并构建了预测关联博

（ＤＰ，Ｄｙｎａｍｉｃ Ｐｒｏｇｒａｍｍｉｎｇ）与马尔可夫过程（ＭＰ，Ｍａｒｋｏｖ Ｐｒｏｃｅｓｓ）相结合的

产物。一个经典的ＭＤＰ执行流程１４４１为： （１）决策者观察系统所处状态； （２）

集时，进行决策的情形具体分为三种： （１）在每个决策时刻均进行决策； （２）

Ｓｅｑｕｅｎｔｉａｌ Ｄｅｃｉｓｉｏｎ Ｐｒｏｂｌｅｍ）最好采用基于动态系统方程的控制论方法进行分

决策时刻 决策时刻 决策时刻 决策时刻 决策时刻

间的紧致集（ｃｏｍｐａｃｔ ｓｕｂｓｅｔｓ）； （４）完备离散度量空间的非空Ｂｏｒｅｌ子集。

者行为的序列忽＝（Ｘ１ ａ１，…，Ｓｔ＿１ ａｔ小Ｓｔ），可分为依赖历史的决策规则和具有马尔

近似动态规划（ＡＤＰ，Ａｐｐｒｏｘｉｍａｔｅ Ｄｙｎａｍｉｃ Ｐｒｏｇｒａｍｍｉｎｇ）【１６，４６］作为一种求

化的数学方法，通过将多阶段决策过程（ｍｕｌｔｉｓｔｅｐ ｄｅｃｉｓｉｏｎ ｐｒｏｃｅｓｓ）‘４８１分解为一

＝Ｅ｛ｏ。＋７Ｖ。（ｓｆ＋１）Ｉ ｓ，＝ｓ｝． （２．１３）

Ｏｒｔｈｏｇｏｎａｌ Ｆｒｅｑｕｅｎｃｙ Ｄｉｖｉｓｉｏｎ Ｍｕｌｔｉｐｌｅ Ａｃｃｅｓｓ）系统中所有信道的集合，则有

ＱｏＳ类别 会话类 流媒体类 交互类 背景类

时延 严格限制（实时） 限制（实时） 宽松（非实时） 无限制（非实时）

尸Ｓｔ＋ｌ ＩＩ，ｑ）：ｊＰ（吼＋・ｌｑｔ）Ｐ Ｖｔ＋ｌ

１０： ｉｆ一≤Ｎ ｔｈｅｎ

ｆ＾。Ⅳ一２Ｒｃｏｓ０， ， 出一２Ｒｃｏｓ０，． （ｔ＋Ｉ．‘）．

参考信号接收功率（ＲｓＲ只Ｒｅｆｅｒｅｎｃｅ Ｓｉｇｎａｌ Ｒｅｃｅｉｖｉｎｇ Ｐｏｗｅｒ） 尺５１ＲＰ－＋。

接收的干扰功率（Ｉ姑Ｒｅｃｅｉｖｅｄ ｉｎｔｅｒｆｅｒｅｎｃｅ ｐｏｗｅｒ） Ｉ，

白飞蜂绷。 旷键、 督一一翘

ｎｅｔｗｏｒｋｓ［Ｃ］Ｈ ＩＥＥＥ Ｗｉｒｅｌｅｓｓ Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ ａｎｄ Ｎｅｔｗｏｒｋｉｎｇ Ｃｏｎｆｅｒｅｎｃｅ ｒＷＣＮＣ’１３）．

［１０】Ｈｕｂｅｒ Ｋ Ｄ，Ｍａｎｓｆｉｅｌｄ Ｗ Ｇ Ｆｌｙｎｎ Ｊ Ｊ．Ｒｅｃｉｐｒｏｃａｌ ａｄｄｉｔｉｏｎ ｏｆ ａｔｔｒｉｂｕｔｅ ｆｉｅｌｄｓ ｉｎ ａｃｃｅｓｓ

ｓｉｇｎａｌ－ｔｏ－ｉｎｔｅｒｆｅｒｅｎｃｅ－ｐｌｕｓ－ｎｏｉｓｅ ｒａｔｉｏ ｐｒｅｄｉｃｔｉｏｎ［Ｊ］．ＩＥＴ Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，２０ １ ４，８（１ ７１：

［１ ５］Ｇｕｐｔａ Ａ Ｋ，Ｄｈｉｌｌｏｎ Ｈ Ｓ，Ｖｉｓｈｗａｎａｔｈ Ｓ，ｅｔ ａ１．Ｄｏｗｎｌｉｎｋ ｃｏｖｅｒａｇｅ ｐｒｏｂａｂｉｌｉｔｙ ｉｎ ＭＩＭ０

ＨｅｔＮｅｔｓ ｗｉｔｈ ｆｌｅｘｉｂｌｅ ｃｅｌｌ ｓｅｌｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥ Ｇｌｏｂｅｃｏｍ，Ａｕｓｔｉｎ。Ｅ（．２０１４：１．５．

【１ ６】Ａｌｋｈａｔｉｂ Ａ，Ｋｉｎｇ Ｐ Ａｎ ａｐｐｒｏｘｉｍａｔｅ ｄｙｎａｍｉｃ ｐｒｏｇｒａｍｍｉｎｇ ａｐｐｒｏａｃｈｔｏ ｄｅｃｉｓｉｏｎ ｍａｋｉｎｇ ｉｎ

Ｗｉｒｅｌｅｓｓ Ｐｅｒｓｏｎａｌ Ｍｕｌｔｉｍｅｄｉａ Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＷＰＭＣ’１２），ＩＥＥＥ，２０１２：２５１－２５５．

ｕｓｉｎｇ ｇｅｎｅｒａｌｉｚｅｄ ｓｉｍｐｌｅ ａｄｄｉｔｉｖｅ ｗｅｉｇｈｔｉｎｇ ｍｅｔｈｏｄ ｔｏ ｐｅｒｆｏｒｍ ｎｅｔｗｏｒｋ ｓｅｌｅｃｔｉｏｎ ｉｎ

Ｆｅｍｔｏｃｅｌｌｓ［Ｊ］．Ｅｌｅｃｔｒｏｎｉｃｓ ａｎｄ Ｅｌｅｃｔｒｉｃａｌ Ｅｎｇｉｎｅｅｒｉｎｇ，２０１４，２０（２）：９３—１０１．

『２７１ Ｐａｎ Ｊ，Ｚｈａｎｇ Ｗ．Ａｎ ＭＤＰ－Ｂａｓｅｄ Ｈａｎｄｏｖｅｒ Ｄｅｃｉｓｉｏｎ Ａｌｇｏｒｉｔｈｍ ｉｎ Ｈｉｅｒａｒｃｈｉｃａｌ Ｕ甚

［３４】Ｌｅ ａ１．ＱｏＳ—ａｗａｒｅ ａｎｄ ｅｎｅｒｇｙ—ｅｆｆｉｃｉｅｎｔ ｒｅｓｏｕｒｃｅ

ｎｅｔｗｏｒｋ［Ｊ］．ＩＥＥＥ Ｔｒａｎｓａｃｔｉｏｎｓ ｏｎ Ｗｉｒｅｌｅｓｓ Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１２，１１ｆ５１：１６８８－１６９７．

［４０］Ｃｈｅｕｎｇ Ｗ Ｃ，Ｑｕｅｋ Ｔ Ｑ Ｓ，Ｋｏｕｎｔｏｕｒｉｓ Ｍ．Ｔｈｒｏｕｇｈｐｕｔ ｏｐｔｉｍｉｚａｔｉｏｎ，ｓｐｅｃｔｒｕｍ ａｌｌｏｃａｔｉｏｎ，

ｎｅｔｗｏｒｋｓ［Ｃ］／／ｌＥＥＥ Ｗｉｒｅｌｅｓｓ Ｃｏｍｍｕｎｌｃａｆｉｏｎｓ ａｎｄ Ｎｅｔｗｏｒｋｉｎｇ Ｃｏｎｆｅｒｅｎｃｅ

『４４１ Ｂｏｒｋａｒ Ｖ Ｓ，Ｇｈｏｓｈ Ｍ Ｋ．Ｒｅｃｅｎｔ ｔｒｅｎｄｓ ｉｎ Ｍａｒｋｏｖ ｄｅｃｉｓｉｏｎ ｐｒｏｃｅｓｓｅｓ［Ｊ］．Ｊｏｕｍａｌ ｏｆ ｔｈｅ

ｓｕｐｐｌｅｍｅｎｔａｒｙ ｌｅａｍｉｎｇ ｃｏｎｔｒｏｌｌｅｒ ｂａｓｅｄ ｏｎ ａｐｐｒｏｘｉｍａｔｅ ｄｙｎａｍｉｃ ｐｒｏｇｒａｍｍｉｎｇ［Ｃ］＃

分类号：ＴＰ３９３单位代码：１１２３２

口公开口保密（年月）（保密的学位论文在解密后应遵

策过程（ＭＤＰ，ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）、强化学习和随机网络演算理论，构建

ｍｏｂｉｌｅｕｓｅｒｓ，ｔｈｅＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ（３ＧＰＰ）ｅｍｐｌｏｙｓｆｅｍｔｏｃｅｌｌ

ａｎｄｆｅｍｔｏｃｅｌｌｓ．ａｎｄｇｕａｒａｎｔｅｅｓ山ｅｃｏｍｍｕｎｉｃａｔｉｏｎｃｏｎｔｉｎｕｉｔｙｏｆｍｏｂｉｌｅ

ａｃｃｅｓｓｃｏｎｔｒｏｌｐｒｏｂｌｅｍｓｉｎＬＴＥ．Ａｆｅｍｔｏｃｅｌｌｓｙｓｔｅｍ，ｕｓｉｎｇＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ

（ＭＤＰ），ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ（ｅＬ），ａｎｄＳｔｏｃｈａｓｔｉｃＮｅｔｗｏｒｋＣａｌｃｕｌｕｓ（ＳＮＣ）

ｔｈｅｏｒｙ．Ｓｐｅｃｉｆｉｃａｌｌｙ，ｗｅｍｏｄｅｌｔｈｅｈａｎｄｏｖｅｒｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｏｆｍｏｂｉｌｅ

ＭＤＰ，ａｎｄｐｒｏｐｏｓｅａｎａｃｃｅｓｓｃｏｎｔｒｏｌａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｐｏｗｅｒｃｏｎｔｒｏｌａｎｄ

Ｆｉｒｓｔ，ｉｎｌｉｇｈｔｏｆｔｈｅｓｍａｌｌｃｏｖｅｒａｇｅａｎｄｈｉｇｈｄｅｐｌｏｙｍｅｎｔｄｅｎｓｉｔｙｏｆ

Ｓｔａｔｉｏｎ（ＦＢＳ），ｗｅｆｏｒｍｕｌａｔｅｔｈｅｈａｎｄｏｖｅｒｄｅｃｉｓｉｏｎａｎｄｓｐｅｃｔｒｕｍａｌｌｏｃａｔｉｏｎｐｒｏｂｌｅｍ

ａｓａＭＤＰｗｈｅｒｅａｖａｒｉｅｔｙｏｆｆａｃｔｏｒｓｈａｖｅｂｅｅｎｔａｋｅｎｉｎｔｏｃｏｎｓｉｄｅｒａｔｉｏｎ，ｉｎｃｌｕｄｉｎｇ

Ｔｈｅｎ，ｂａｓｅｄｏｎａｎｉｎ．ｄｅｐｔｈｓｔｕｄｙｏｆｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｈｉｇｈ－ｖｅｌｏｃｉｔｙｍｏｂｉｌｅ

Ｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｃｏｍｐｒｉｓｅｓｏｆｔｈｒｅｅｍａｊｏｒｃｏｍｐｏｎｅｎｔｓ：（１）ａｄｗｅｌｌｔｉｍｅ

ｅｓｔｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍ（ＤＴＥＡ）；（２）ａｎａｖｅｒａｇｅｅｘｐｅｃｔｔｒａｎｓｍｉｓｓｉｏｎｔｉｍｅａｌｇｏｒｉｔｈｍ

Ｆｉｎａｌｌｙ，ｗｅｃｏｎｄｕｃｔｓｉｍｕｌａｔｉｏｎｓｔｏｖｅｒｉｆｙｔｈｅｅｆｆｉｃａｃｙｏｆｔｈｅｐｒｏｐｏｓｅｄｃｅｌｌ

ｕｎｎｅｃｅｓｓａｒｙｈａｎｄｏｖｅｒｓａｍｏｎｇｆｅｍｔｏｃｅｌｌｓ．Ｍｏｒｅｏｖｅｒ，ｔｈｅｐｒｏｐｏｓｅｄＰＣＳＷＡＣ

ＫＥＹＷＯＲＤＳ：Ｆｅｍｔｏｃｅｌｌ，ｃｅｌｌｈａｎｄｏｖｅｒ，ａｃｃｅｓｓｃｏｎｔｒｏｌ，Ｍａｒｋｏｖｄｅｃｉｓｉｏｎ

ｐｒｏｃｅｓｓ，ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ｓｔｏｃｈａｓｔｉｃｎｅｔｗｏｒｋｃａｌｃｕｌｕｓ

ＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）引入飞蜂窝作为下一代无线通信技术ＬＴＥ．Ａ（ＬｏｎｇＴｅｒｍ

收的干扰功率（ＲＩＰ，Ｒｅｃｅｉｖｅｄｉｎｔｅｒｆｅｒｅｎｃｅｐｏｗｅｒ）［１５Ｊ和接收的信号质量（ＲＳＱ，

量（ＨＨＭ，ＨａｎｄｏｖｅｒＨｙｓｔｅｒｅｓｉｓＭａｒｇｍ）值，降低移动终端的功耗。

（ＳＡＷ，ＳｉｍｐｌｅＡｄｄｉｔｉｖｅＷｅｉｇｈｔｉｎｇ）［２０】，灰色关联分析法（ＧＲＡ，ＧｒｅｙＲｅｌａｔｉｏｎａｌ

Ａｎａｌｙｓｉｓ）［２１］，层次分析法（ＡＨＰ，ＡｎａｌｙｔｉｃａｌＨｉｅｒａｒｃｈｙＰｒｏｃｅｓｓ）［２２１，以及逼近理

想解排序法（ＴＯＰＳＩＳ，ＴｅｃｈｎｉｑｕｅｆｏｒＯｒｄｅｒＰｒｅｆｅｒｅｎｃｅｂｙＳｉｍｉｌａｒｉｔｙｔｏＩｄｅａｌ

降低了通信中断率。Ｈ．Ｍ．Ｔｕ等人【２９】结合快速软切换（ｆａｓｔｓｏｆｔｈａｎｄ．ｏｆｆ）、更软

切换（ｍｏｒｅｓｏｆｔｅｒｈａｎｄ．ｏｆｆ）和基于载波聚合（ＣＡ，ＣａｒｒｉｅｒＡｇｇｒｅｇａｔｉｏｎ）的切换

位置，减小邻小区列表（ＮＣＬ，ＮｅｉｇｈｂｏｒＣｅｌｌＬｉｓｔｓ）长度，并构建了预测关联博

（ＤＰ，ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）与马尔可夫过程（ＭＰ，ＭａｒｋｏｖＰｒｏｃｅｓｓ）相结合的

产物。一个经典的ＭＤＰ执行流程１４４１为：（１）决策者观察系统所处状态；（２）

集时，进行决策的情形具体分为三种：（１）在每个决策时刻均进行决策；（２）

ＳｅｑｕｅｎｔｉａｌＤｅｃｉｓｉｏｎＰｒｏｂｌｅｍ）最好采用基于动态系统方程的控制论方法进行分

决策时刻决策时刻决策时刻决策时刻决策时刻

间的紧致集（ｃｏｍｐａｃｔｓｕｂｓｅｔｓ）；（４）完备离散度量空间的非空Ｂｏｒｅｌ子集。

者行为的序列忽＝（Ｘ１ａ１，…，Ｓｔ＿１ａｔ小Ｓｔ），可分为依赖历史的决策规则和具有马尔

近似动态规划（ＡＤＰ，ＡｐｐｒｏｘｉｍａｔｅＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）【１６，４６］作为一种求

化的数学方法，通过将多阶段决策过程（ｍｕｌｔｉｓｔｅｐｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ）‘４８１分解为一

＝Ｅ｛ｏ。＋７Ｖ。（ｓｆ＋１）Ｉｓ，＝ｓ｝．（２．１３）

ＯｒｔｈｏｇｏｎａｌＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）系统中所有信道的集合，则有

ＱｏＳ类别会话类流媒体类交互类背景类

时延严格限制（实时）限制（实时）宽松（非实时）无限制（非实时）

尸Ｓｔ＋ｌＩＩ，ｑ）：ｊＰ（吼＋・ｌｑｔ）ＰＶｔ＋ｌ

１０：ｉｆ一≤Ｎｔｈｅｎ

ｆ＾。Ⅳ一２Ｒｃｏｓ０，，出一２Ｒｃｏｓ０，．（ｔ＋Ｉ．‘）．

参考信号接收功率（ＲｓＲ只ＲｅｆｅｒｅｎｃｅＳｉｇｎａｌＲｅｃｅｉｖｉｎｇＰｏｗｅｒ）尺５１ＲＰ－＋。

接收的干扰功率（Ｉ姑Ｒｅｃｅｉｖｅｄｉｎｔｅｒｆｅｒｅｎｃｅｐｏｗｅｒ）Ｉ，

白飞蜂绷。旷键、督一一翘

ｎｅｔｗｏｒｋｓ［Ｃ］ＨＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅｒＷＣＮＣ’１３）．

［１０】ＨｕｂｅｒＫＤ，ＭａｎｓｆｉｅｌｄＷＧＦｌｙｎｎＪＪ．Ｒｅｃｉｐｒｏｃａｌａｄｄｉｔｉｏｎｏｆａｔｔｒｉｂｕｔｅｆｉｅｌｄｓｉｎａｃｃｅｓｓ

ｓｉｇｎａｌ－ｔｏ－ｉｎｔｅｒｆｅｒｅｎｃｅ－ｐｌｕｓ－ｎｏｉｓｅｒａｔｉｏｐｒｅｄｉｃｔｉｏｎ［Ｊ］．ＩＥＴＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１４，８（１７１：

［１５］ＧｕｐｔａＡＫ，ＤｈｉｌｌｏｎＨＳ，ＶｉｓｈｗａｎａｔｈＳ，ｅｔａ１．ＤｏｗｎｌｉｎｋｃｏｖｅｒａｇｅｐｒｏｂａｂｉｌｉｔｙｉｎＭＩＭ０

ＨｅｔＮｅｔｓｗｉｔｈｆｌｅｘｉｂｌｅｃｅｌｌｓｅｌｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥＧｌｏｂｅｃｏｍ，Ａｕｓｔｉｎ。Ｅ（．２０１４：１．５．

【１６】ＡｌｋｈａｔｉｂＡ，ＫｉｎｇＰＡｎａｐｐｒｏｘｉｍａｔｅｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇａｐｐｒｏａｃｈｔｏｄｅｃｉｓｉｏｎｍａｋｉｎｇｉｎ

ＷｉｒｅｌｅｓｓＰｅｒｓｏｎａｌＭｕｌｔｉｍｅｄｉａＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＷＰＭＣ’１２），ＩＥＥＥ，２０１２：２５１－２５５．

ｕｓｉｎｇｇｅｎｅｒａｌｉｚｅｄｓｉｍｐｌｅａｄｄｉｔｉｖｅｗｅｉｇｈｔｉｎｇｍｅｔｈｏｄｔｏｐｅｒｆｏｒｍｎｅｔｗｏｒｋｓｅｌｅｃｔｉｏｎｉｎ

Ｆｅｍｔｏｃｅｌｌｓ［Ｊ］．ＥｌｅｃｔｒｏｎｉｃｓａｎｄＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，２０１４，２０（２）：９３—１０１．

『２７１ＰａｎＪ，ＺｈａｎｇＷ．ＡｎＭＤＰ－ＢａｓｅｄＨａｎｄｏｖｅｒＤｅｃｉｓｉｏｎＡｌｇｏｒｉｔｈｍｉｎＨｉｅｒａｒｃｈｉｃａｌＵ甚

［３４】Ｌｅａ１．ＱｏＳ—ａｗａｒｅａｎｄｅｎｅｒｇｙ—ｅｆｆｉｃｉｅｎｔｒｅｓｏｕｒｃｅ

ｎｅｔｗｏｒｋ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１２，１１ｆ５１：１６８８－１６９７．

［４０］ＣｈｅｕｎｇＷＣ，ＱｕｅｋＴＱＳ，ＫｏｕｎｔｏｕｒｉｓＭ．Ｔｈｒｏｕｇｈｐｕｔｏｐｔｉｍｉｚａｔｉｏｎ，ｓｐｅｃｔｒｕｍａｌｌｏｃａｔｉｏｎ，

ｎｅｔｗｏｒｋｓ［Ｃ］／／ｌＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｌｃａｆｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ

『４４１ＢｏｒｋａｒＶＳ，ＧｈｏｓｈＭＫ．ＲｅｃｅｎｔｔｒｅｎｄｓｉｎＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓ［Ｊ］．Ｊｏｕｍａｌｏｆｔｈｅ

ｓｕｐｐｌｅｍｅｎｔａｒｙｌｅａｍｉｎｇｃｏｎｔｒｏｌｌｅｒｂａｓｅｄｏｎａｐｐｒｏｘｉｍａｔｅｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ［Ｃ］＃

［４７】ＫｕｒｚｈａｎｓｋｉＡＢ，ＶａｒａｉｙａＥＴｈｅＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇＡｐｐｒｏａｃｈ［Ｍ］／／Ｄｙｎａｍｉｃｓａｎｄ

１３（１１１：１１０８—１１１３，

『５８］Ｓｔｅｖｅｎｓ－ＮａｖａｒｒｏＥ，ＬｉｎＹＷｏｎｇＶＷＳ．ＡｎＭＤＰ—ｂａｓｅｄｖｅｒｔｉｃａＩｈａｎｄｏｆｆｄｅｃｉｓｉｏｎａｌｇｏｒｉｔｈｍ

［６３］ＸｉｅＲ，ＹｕＦＲＪｉＨ．Ｅｎｅｒｇｙ－ｅｆｆｉｃｉｅｎｔｓｐｅｃｔｒｕｍｓｈａｒｉｎｇａｎｄｐｏｗｅｒａｌｌｏｃａｔｉｏｎｉｎｃｏｇｎｉｔｉｖｅ

［７０】ＣｈｅｎＹＳ，ｗｕＣＹ‘Ａｇｒｅｅｎｈａｎｄｏｖｅｒｐｒｏｔｏｃｏｌｉｎｔｗｏ．ｔｉｅｒＯＦＤＭＡｍａｃｒｏｃｅｌｌ－ｆｅｍｔｏｃｅｌｌ

ＤＥｓＤｅｃｉｓｉｏｎＥｐｏｃｈｓ决策时刻

ＤＰＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ动态规划

缩略词英文全称中文全称

ＱｏＳＱｕａｌｉｔｙｏｆＳｅｒｖｉｃｅ服务质量

ＱｏＥＱｕａｌｉｔｙｏｆＥｘｐｅｒｉｅｎｃｅ用户体验质量

ＲＳＱＲｅｃｅｉｖｅｄＳｉｇｎａｌＱｕａｌｉｔｙ接收的信号质量

ＲＳＳＲｅｃｅｉｖｅｄＳｉｇｎａｌＳｔｒｅｎｇｔｈ接收信号强度

ＳＮＣＳｔｏｃｈａｓｔｉｃＮｅｔｗｏｒｋＣａｌｃｕｌｕｓ随机网络演算

［２］ＸｉｎＣｈｅｎ，ＨｏｎｇｌｕＷａｎｇ，ＸｕｄｏｎｇＸｉａｎｇ，ＣｈａｏｘｉｎＧａｏ．ＪｏｉｎｔＨａｎｄｏｖｅｒＤｅｃｉｓｉｏｎａｎｄ

ＣｈａｎｎｅｌＡｌｌｏｃａｔｉｏｎｆｏｒＬＴＥ－ＡＦｅｍｔｏｃｅｌｌＮｅｔｗｏｒｋｓ．ＧａｍｅＴｈｅｏｒｙｆｏｒＮｅｔｗｏｒｋｓ（ＧａｍｅＮｅｔｓ），

ＡｌｇｏｒｉｔｈｍｉｎＦｅｍｔｏｃｅｌｌＮｅｔｗｏｒｋｓＵｓｉｎｇＱ—ｌｅａｒｎｉｎｇ．ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＪｏｕｍａｌ，