You are on page 1of 59

分类号:TP393 单位代码:11232

密级:

◆f京信息科枝太雩

工学硕士学位论文

LTE—A飞蜂窝系统小区切换与接纳控
制算法研究

学院: 计算机学院

学科(专业): 计算机系统结构
堂导.
q √ ‘
2012020210

作者: 王鸿鲁

指导教师: 陈昕教授

完成日期: 二。一五年一月三日

万方数据
学位论文版权使用授权书

本人完全了解北京信息科技大学关于收集、保存、使用学位论

文的规定,按照学校要求提交学位论文的印刷本和电子版本。学校

有权保留学位论文并向中国科学技术信息研究所等国家主管部门或

其指定机构送交论文的电子版和纸质版,允许论文被查阅和借阅,

可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。学校

有权适当复制、公布论文的全部或部分内容。学校有权将本人的学

位论文加入《中国优秀硕士学位论文全文数据库》和编入《中国知

识资源总库》。

学位论文作者签名:豇喝善
西f厂荦/;月1日

口公开 口保密( 年 月) (保密的学位论文在解密后应遵

守此协议)

指导教师签名: 学位论文作者签名:

年 月 曰 年 月 日

万方数据
硕士学位论文原创性声明

本人郑重声明:所呈交的论文题目为《m.A飞蜂窝系统小区切换
与接纳控制算法研究》学位论文,是本人在导师指导下,进行研究工作

所取得的成果。尽我所知,除了文中特别加以标注的内容外,本学位论

文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的

作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,

均已在文中以明确方式标明并表示了谢意。本学位论文原创性声明的法

律责任由本人承担。

作者签字:D喝鲁
气。J厂年歹月 ]日

分类号: 单位代码:11232

万方数据
摘要

摘要
第三代合作伙伴计划通过引入飞蜂窝系统,解决LTE.A宏蜂窝系统中室内
无线信号强度弱与覆盖范围不足的问题。LTE.A飞蜂窝系统由“宏小区”和
“飞小区”组成,通过小区间的切换和接纳控制,确保移动用户通信的连续

性。本文围绕LTE.A飞蜂窝系统的小区切换与接纳控制问题,运用马尔科夫决

策过程(MDP,Markov Decision Process)、强化学习和随机网络演算理论,构建


了移动用户小区切换问题的MDP模型,设计了基于功率控制与休眠唤醒机制的
接纳控制算法。

首先,针对飞蜂窝基站覆盖范围小和部署密度高的特点,运用马尔科夫决策
过程理论,综合考虑用户的数据流到达、缓冲队列大小、移动速度、可用带宽与

时延等多种切换指标,提出并构建了小区切换与频谱资源分配的联合优化MDP

模型。基于强化学习理论,设计了MDP模型的求解算法MDPQ。
其次,针对高速移动用户与非实时业务请求的特点,运用随机网络演算理论,

结合功率控制与休眠唤醒机制,提出了一种接纳控制算法PCSWAC,具体包括
估算用户驻留时间的DTEA算法、估算用户平均期望传输时间AETTA算法和终
端功率自适应调整机制,实现了终端功率的自适应调整与飞蜂窝基站工作模式的
动态切换。

最后,对所提出的小区切换算法与接纳控制算法进行了数值分析与仿真验

证。仿真结果表明,所提出的MDPQ算法收敛较快,可有效减少频繁且不必要
的小区切换。同时,所提出的接纳控制算法PCSWAC,可有效降低切换时延、
飞蜂窝基站能耗和移动终端能耗。

关键词:飞蜂窝:小区切换:接纳控制;马尔可夫决策过程;随机网络演算

万方数据
Abstract

To extend indoor wireless coverage and strengthen the signal intensity for indoor

mobile users,the Third Generation Partnership Project(3GPP)employs femtocell

consists of macrocells
technology in LTE.A networks.An LTE.A femtocell system

and femtocells.and guarantees山e communication continuity of mobile


users by

means of cell handover and access contr01.In this paper,we study cell handover and

access control problems in LTE.A femtocell system,using Markov Decision Process

(MDP),Reinforcement Learning(eL),and Stochastic Network Calculus(SNC)

theory.Specifically,we model the handover decision process of mobile


users as a

MDP,and propose an access control algorithm based on power control and

sleep/wakeup mechanisms.

First,in light of the small coverage and high deployment density of


Femto Base

Station(FBS),we formulate the handover decision and spectrum allocation problem

as a MDP where a variety of factors have been taken into consideration,including


and
packets arrival,buffer size,velocity,available bandwidth delay.Meanwhile,we

apply RL to designing an
algorithm named MDPQ for solving the MDP model.

Then,based on an in.depth study of the characteristics of high-velocity mobile

users and non real—time service requests,we utilize power control and sleep/wakeup

mechanisms to design an access control algorithm named PCSWAC using SNC theory

The proposed algorithm comprises of three major components:(1)a dwell time

estimation algorithm(DTEA);(2)an average expect transmission time algorithm


(AETTA);and(3)an adaptive power control mechanism at mobile terminals.It Can

achieve not only adaptive power control at mobile terminals,but also dynamic
switching of FBS working states.

Finally,we conduct simulations to verify the efficacy of the proposed cell

handover algorithm and the access contr01 algorithm.Simulation results show that,the

proposed MDPQ algorithm converges fast,and can effectively reduce the number of

unnecessary handovers among femtocells.Moreover,the proposed PCSWAC

algorithm Can effectively reduce handover delay while conserving energy onsumption
of FBS and mobile terminals.

KEY WORDS:Femtocell,cell handover,access control,Markov decision

process,reinforcement learning,stochastic network calculus

万方数据
目录

目录

摘要……………………………………………………………………………………………………………….I

ABSTRACT.....…………………..….................…………....................…...............…..…........II

图目录………………………………………………………………………………V

表目录……………………………………………………………………………..VI

第一章绪论………………………………………………………………….1
1.1研究背景……………………………………………………………………..1

1.2国内外研究现状……………………………………………………………..2

1.2.1小区切换…………………………………………………………………2

1.2.2接纳控制…………………………………………………………………3

1.3研究内容与创新点…………………………………………………………~5

1.4论文组织结构………………………………………………………………..6

第二章马尔可夫决策过程与强化学习方法研究……………………7
2.1马尔可夫决策过程理论研究………………………………………………一7
2.1.1马尔可夫决策过程的基本模型……………………………………………7

2.1.2马尔可夫决策过程问题求解…………………………………………….10

2.2强化学习理论研究…………………………………………………………13

2.2.1强化学习系统的主要组成要素………………………………………….14

2.2.2强化学习算法…………………………………………………………………16

2.3本章小结……………………………………………………………………17

第三章基于MDP的m—A飞蜂窝小区切换算法研究……………18
3.1系统模型……………………………………………………………………18

3.1.1可用带宽……………………………………………………………………19

3.1.2数据包到达与缓存队列…………………………………………………19
3.1.3移动速度…………………………………………………………………….19

3.1.4业务类型……………………………………………………………….19

3.2小区切换与信道分配策略联合优化MDP模型………………………….20

3.2.1状态空间……………………………………………………………….20

3.2.2行为空间…………………………………………………………………………………..21

3.2.3系统转移方程……………………………………………………………21

3.2.4效用函数……………………………………………………………….22

万方数据
目录

3.2.5目标方程……………………………………………………………….23

3.3 MDP模型求解算法设计……………………………………………………23

3.4本章小结……………………………………………………………………25

第四章基于功率控制与休眠唤醒机制的接纳控制算法研究………26
4.1系统模型……………………………………………………………………26

4.2接纳控制算法设计………………………………………………………….28

4.2.1估算用户驻留时间……………………………………………………….28

4.2.2估算平均期望传输时间…………………………………………………29

4.2.3自适应调整终端功率……………………………………………………3 1

4.3接纳控制算法性能分析……………………………………………………33

4.4本章小结……………………………………………………………………33

第五章仿真分析与验证……………………………………………35
5.1小区切换算法模型仿真与性能分析………………………………………35

5.2接纳控制算法模型仿真与性能分析………………………………………38

5.3本章小结……………………………………………………………………40

第六章结论与展望…………………………………………………41
6.1结{仑………………………………………………………………………………………………….4l

6.2展望………………………………………………………………………………………………….4l

参考文献……………………………………………………………………………~43

附录A英文缩略词表………………………………………………………………47

个人简历在校期间发表的学术论文与参与研究的课题情况……………………49

万方数据
图目录

图目录

图2.1 决策时刻与决策周期………………………………………………………..8

图2.2 一个MDP状态空间的聚合……………………………………………….12

图2.3 强化学习框架图……………………………………………………………14

图2.4 强化学习四要素……………………………………………………………14

图3.1 LTE.A飞蜂窝系统切换场景………………………………………………18

图4.1 LTE.A飞蜂窝系统接纳控制场景…………………………………………27

图4.2 LTE.A飞蜂窝系统切换场景………………………………………………28

图4.3 二状态马尔科夫链…………………………………………………………30

图5.1 仿真环境……………………………………………………………………35

图5.2 收敛速率…………………………………………………………………….37

图5.3 平均切换次数………………………………………………………………37

图5.4 缓存数据大小VS功耗……………………………………………………..38
图5.5 速度vs功耗………………………………………………………………..39

图5.6 缓存数据VS切换时延……………………………………………………..39

图5.7 速度VS切换时延…………………………………………………………..40

万方数据
表目录

表目录

表2.1策略迭代算法………………………………………………………………11

表2.2值迭代算法…………………………………………………………………1 1

表2.3 MDP状态空间化简算法…………………………………………………..12

表2.4 MDP状态空间化简算法…………………………………………………..13

表3.1 飞蜂窝系统各类业务对QoS的要求……………………………………..20

表3.2 MDPQ算法…………………………………………………………………24

表4.1接纳控制算法………………………………………………………………27

表4.2 DTEA算法…………………………………………………………………29

表4.3 AETTA算法…………………………………………………………………30

表4.4物理层测量…………………………………………………………………32

表5.1路径损耗模型………………………………………………………………36

表5.2 MDPQ算法仿真参数设置…………………………………………………36

表5.3 PCSWAC算法仿真参数设置………………………………………………38

万方数据
第一章绪论

第一章绪论

1.1研究背景
随着iPhone、iPad等移动智能设备的广泛普及和Facebook、Twitter、人人

网等社交网络的蓬勃发展,无线移动通信业务已由传统的短信、语音服务转变为
在线视频等数据密集型应用服务【l】,用户对高速移动通信数据业务的需求日趋迫

切。统计表明,超过60%的移动语音业务和90%以上的无线数据业务是在室内
发生的[2],45%的家庭用户和30%的企业用户面临室内无线信号强度弱和覆盖范
围不足的问题【3】。为了解决这些问题,第三代合作伙伴计划(3GPP,3rd Generation

Partnership Project)引入飞蜂窝作为下一代无线通信技术LTE.A(Long Term


Evolution Advanced)的重要组成部分【4J。
飞蜂窝作为一种低功耗、低成本、小范围覆盖和即插即用的无线接入点(AP,

AccessPoint),具有白配置、自优化和自愈合的特点I川。飞蜂窝基站(FBS,Femto
Base Station)工作在移动运营商的授权频段上,可为智能手机等各类移动终端

(MT.Mobile Terminal)提供高速的网络连接,有效解决了室内信号强度弱与覆

盖不足的问题。此外,飞蜂窝可提高宏蜂窝容量,降低宏蜂窝负载,进一步保障

了用户的服务质量(QoS,Quality ofService)。
飞蜂窝市场前景广阔,但其大规模部署与应用仍面临诸多技术难题与挑战。

特别是,越来越多的数据通信正从计算机设备转移到嵌入式等各类终端设备,各
类终端设备的移动性需求与日俱增。然而,飞蜂窝的引入改变了宏蜂窝的网络架

构,导致宏蜂窝中的小区切换(CH,Cell Handover)与接纳控制(AC,Access
Contr01)算法无法直接应用于LTE.A飞蜂窝系统。同时,飞蜂窝具有的部署密
度高、覆盖范围小、基站间协调性低的特点,导致LTE.A飞蜂窝系统中的移动

性管理更加复杂与困难。因此,如何设计合理有效的小区切换与接纳控制算法,

在实现快速无缝切换的同时,减少频繁且不必要的切换,保证用户QoS,成为
LTE.A飞蜂窝系统中亟需解决的关键问题【6J。
本文围绕LTE.A飞蜂窝系统小区切换与接纳控制问题展开研究。一方面,

通过构建小区切换与频谱资源分配的联合优化模型,研究LTE.A飞蜂窝系统中
的小区切换决策问题,以降低切换过程中信令开销和掉话率,最大化LTE.A飞

蜂窝系统容量。另一方面,运用随机网络演算理论,结合功率控制与休眠唤醒机
制,研究LTE.A飞蜂窝系统中的接纳控制问题,以减少不必要的切换,降低飞

蜂窝基站和移动终端能耗。

万方数据
第一章绪论

1.2国内外研究现状
目前,国内外对LTE—A飞蜂窝系统的小区切换‘7司和接纳控制【9-131问题进行

了广泛而深入的研究,并取得了以下研究成果,下面分别对小区切换与接纳控制
的研究现状进行综述。

1.2.1 小区切换

小区切换问题主要研究如何实现无缝切换,提高切换性能,如最小化切换时
延、信令负载、切换频率等。

1.基于物理层测量参数的小区切换算法
物理层测量参数包括接收信号强度(RSS,Received Signal Strength)Ll 4I、接

收的干扰功率(RIP,Received interference power)[15J和接收的信号质量(RSQ,


Received Signal Quality)[圳。L.Luan等人117J提出了一种基于RSS与延迟触发时
间(TTT,Time To Trigger)的切换决策算法,可根据用户的移动速度和SINR水
平,动态调整门限阈值和TTT参数,提高切换成功概率。Y Zhang等人【l副利用

统计阈值(Statistical Threshold)替代TTT参数,避免了“乒乓效应”,降低了掉
线率。D.Xenakis等人【旧】提出的能效优先的切换决策算法,可根据RSS和参考
信号接收功率(RSRP,Reference Signal Receiving Power)自适应调整切换滞后余

量(HHM,Handover Hysteresis Margm)值,降低移动终端的功耗。


物理层测量参数的波动性导致该类切换算法的可靠性不高,且单一的切换指

标无法完全反映网络的整体性能,需综合考虑其他因素进行切换决策。

2.基于多属性决策的小区切换算法
在LTE.A飞蜂窝系统中,不同用户切换需求的侧重点不同,且影响最优目

标小区选择的因素众多,仅考虑单一切换因素不能反映真实的网络状况,无法保

证用户QoS。为克服该问题,很多研究者采用多属性决策(MADM,Multiple
Attributes Decision Making)进行切换决策,常用的MADM算法包括简单加权法

(SAW,Simple Additive Weighting)[20】,灰色关联分析法(GRA,Grey Relational

Analysis)[21],层次分析法(AHP,Analytical Hierarchy Process)[221,以及逼近理

想解排序法(TOPSIS,Technique for Order Preference by Similarity to Ideal

Solution)[231。YK.Salih等人120]构建了小区切换的非协作竞争博弈模型,利用广

义SAW验证切换决策模型的有效性,提高了跨区用户的满意度。R.Verma等人
洲提出的切换决策算法,以AHP法确定各切换相关属性的权重,并利用GRA
对候选小区进行排序,保证了移动用户的QoS。Qing.min LSM等人【22J结合SINR
和AHP提出-3*改进的SAW垂直切换算法,综合考虑了SINR、所需带宽、流

量成本和可用带宽等多个属性,提高了切换性能。Chamodrakas等人【23J采用模糊

万方数据
第一章绪论

集的TOPSIS法来选择最优目标小区,以平衡网络性能与能耗,综合考虑用户偏

好、网络状态、QoS和能耗多个切换指标。
基于多属性决策的切换算法兼顾了多种影响切换性能的因素,可选取整体性
能最优的小区作为目标小区,可靠性高。然而,该类算法不能用精确数值反映非
确定性因素,且计算复杂性较高、灵活性差,在实际应用中有一定局限性。

3.基于效用函数的小区切换算法
基于效用函数的切换算法一般会构建包含多种性能参数的效用函数,旨在最

大化目标函数,权衡多种因素对用户QoS和网络性能的影响。C.Sun等人[24]提
出一种基于约束马尔科夫决策过程(CMDP,Constraint Markov Decision Process)

的垂直切换算法,算法考虑了带宽、时延、信令开销、以及掉线率,改善了切换

性能。P.Mach等人125J设计了一种垂直切换策略,策略考虑了服务中断时间、QoS
衰减、切换次数和服务速率,减少了服务中断次数,并保证了用户的QoS需求。
H.Zhou等人【26J提出了一种基于贝叶斯估计的切换算法,考虑了用户公平性和网
络容量,减少了不必要的切换。J.Pan等人L27J提出了一种基于MDP的切换决策

算法,提高了系统容量,降低了信令开销。
基于效用函数的切换算法权衡了多种影响切换性能的参数,可适应不同的切

换场景,灵活性高。如何选取参数,以构建有效体现切换性能的目标函数,并权
衡各参数的权重,是影响切换算法有效性的关键。

除了以上几类经典的小区切换算法外,小区切换算法的研究还有很多其它方
向,如Z.Ren等人128】利用移动用户的上下文感知信息来自适应调整切换参数,

降低了通信中断率。H.M.Tu等人【29】结合快速软切换(fast soft hand.off)、更软

切换(more softer hand.off)和基于载波聚合(CA,Carrier Aggregation)的切换

技术,提出一种基于预测的切换机制,提高系统吞吐量的同时,降低了移动终端
的能耗和中断概率。Y Song等人【30】提出一种考虑链路质量和基站功耗的垂直切

换机制,最小化了基站能耗。H.Tang等人【31】利用飞蜂窝问的X接口交换相邻飞
蜂窝基站间的协作信息,降低了蜂窝间的干扰。NW.Sung等人【32J通过预测用户

位置,减小邻小区列表(NCL,Neighbor Cell Lists)长度,并构建了预测关联博


弈模型,以选择最优的目标小区,在最大化系统吞吐量的同时,降低了切换频率。

1.2.2接纳控制

接纳控制问题的研究旨在实现准入判决和拥塞控制,保证用户QoS,如最小
化掉话率等。目前,飞蜂窝系统中主要的接纳控制方法有以下几种。

1.基于预留资源的接纳控制算法

万方数据
第一章绪论

该类算法通常按照一定的比例预留部分无线资源,以保证跨区用户的切换成
功率。根据资源预留比例是否能随当前小区负载状况进行动态调整,分为固定资

源预留算法与动态资源预留算法。Ling等人【33J提出一种加权比例公平(WPE
Weighted Proportional Fair)接纳控制算法,在求解最优权重的基础上,保证用户

的QoS。L.Le等人【34]基于半马尔科夫决策过程(SMDP,Semi.Markovian Decision

Process)模型,提出了一种0FDMA飞蜂窝系统中网络层接纳控制与MAC层信

道机会调度的跨层控制算法,该算法可收敛到功率调整博弈的纳什均衡点。
2.基于经济效用的接纳控制算法
混合接入模式具有其他接入方式所不可比拟的优势,基于经济效用的接纳控

制算法通常从经济角度研究如何设计激励机制,以促使飞蜂窝拥有者采用混合接

入模式。J.Ⅵn等人【35]提出了一种混合接入模式的激励机制,研究在不同的飞蜂
窝接入点下如何设置准入比例,以最大化宏蜂窝服务提供商收益。Chen Y 136J和
Chai C[371分别从时域和频域的角度出发,建立了二层序贯博弈模型,在最大化运

营商收益的同时,保证了移动用户的QoS。Y Yi等人p酬建立了三层Stackelberg
博弈的频谱租赁框架,通过纳什均衡得到了最优的频谱租赁价格、频谱租赁比例
和开放接入比例,最大化了运营商和飞蜂窝拥有者的效用。Y.Chen等人【39J提出

一种基于逆向拍卖的接入权限竞价框架,最大化了社会福利(social welfare)。

3.与其他技术联合优化的接纳控制算法
接纳控制模式决定了用户占用资源的方式和跨层干扰的程度,直接影响网络
性能。同时,接纳控制的实施涉及到频谱分配、功率分配和移动性管理等问题。
因此,将接入控制与吞吐量[401、频谱资源分配[41|、小区关联(cell association[42】

和安全性【43】等其他技术联合设计与优化,成为异构网络接纳控制中的研究热点。

综上所述,目前国内外对LTE.A飞蜂窝系统小区切换与接纳控制算法的研
究虽取得一些成果,但仍存在一些局限性,具体表现在(1)大部分小区切换算

法仅考虑如何选择最优的目标基站,没有考虑切入目标基站后频谱资源分配对系
统性能的影响。同时,仅用单一的切换指标进行切换决策,无法完全反映网络的

实际状况。(2)大部分己有的接纳控制算法主要研究准入控制、拥塞避免和混合
接入的激励策略,对如何在考虑业务类型的基础上,通过接纳控制降低系统能耗

的研究较少。针对以上两点不足,本文运用马尔科夫决策过程(MDP,Markov
Decision Process)、强化学习(RL,Reinforcement Learning)和随机网络演算(SNC,
Stochastic Network Calculus)理论,构建了移动用户小区切换与频谱资源分配联

合优化的MDP模型,设计了基于功率控制与休眠唤醒机制的接纳控制算法。

万方数据
第一章绪论

1.3研究内容与创新点
本课题拟运用马尔科夫决策过程、强化学习和随机网络演算等理论,对

LTE.A飞蜂窝系统的小区切换与接纳控制问题展开研究。一方面,运用马尔科

夫决策过程理论,提出并构建了小区切换与频谱资源分配联合优化的MDP模

型,设计了基于Q.Learning的求解精度高、收敛速度快的近似求解算法。另一
方面,运用随机网络演算理论,结合功率控制与休眠唤醒机制,提出并设计了高
效的接纳控制算法,降低了切换时延、飞蜂窝基站能耗与移动终端能耗。具体研
究内容如下:

(1)马尔可夫决策过程与强化学习理论研究

马尔科夫决策过程作为决策与控制问题建模的理论工具,可有效刻画LTE.A
飞蜂窝系统中无线信道的时变性、状态空问的多维性、以及数据到达的随机性。

强化学习方法不受外部变量影响,在状态转移模型未知的情形下,仍可对MDP
模型进行有效求解。。
(2)基于MDP的LTE-A飞蜂窝小区切换算法研究

针对飞蜂窝基站覆盖范围小和部署密度高的特点,运用马尔科夫决策过程理
论,综合考虑用户的数据流到达、缓冲队列大小、移动速度、可用带宽与时延等

多种切换指标,提出并构建了小区切换与频谱资源分配的联合优化MDP模型。

基于强化学习理论,设计了一种MDP模型的求解算法MDPQ。
(3)基于功率控制与休眠唤醒机制的接纳控制算法研究
针对高速移动用户与非实时业务请求的特点,运用随机网络演算理论,结合

功率控制与休眠唤醒机制,提出并设计了一种兼顾能效和切换时延的接纳控制算
法PCSWAC,具体包括估算用户驻留时间的DTEA算法、估算用户平均期望传

输时问AETTA算法和终端功率自适应调整机制,实现了终端功率的自适应调整
与飞蜂窝基站工作模式的动态切换。

本文的创新点主要体现在小区切换算法与接纳控制算法两个方面:
(1)小区切换算法

首先,所提出的MDPQ算法,在进行小区切换决策的同时,兼顾了频谱资
源分配,实现了小区切换与频谱资源分配的联合优化,而已有的研究成果中,大
多仅考虑小区切换。其次,所构建的MDP模型综合考虑用户的数据流到达、缓

冲队列大小、移动速度、可用带宽与时延等切换性能指标,目标函数综合考虑了

吞吐量、信令开销、以及掉线惩罚(dropping penalty),相较于仅用单一指标进
行决策的小区切换算法,更能反映真实的网络状况。第三,结合强化学习理论,

提出并设计了收敛快速的马尔科夫决策过程模型求解算法。
(2)接纳控制算法

万方数据
第一章绪论

首先,不同于大多数已有的接纳控制算法,所提出的PCSWAC算法以最小
化系统能耗为目标,且为飞蜂窝基站和移动终端分别设计了休眠唤醒机制和自适

应功率调整机制。其次,运用随机网络演算理论,研究LTE.A飞蜂窝系统的接
纳控制问题,拓展了随机网络演算理论的应用范围。第三,PCSWAC算法综合

考虑了移动终端的切换决策与飞蜂窝基站的接纳控制。

1.4论文组织结构
本文对LTE.A飞蜂窝系统小区切换和接纳控制问题展开研究,运用马尔科
夫决策过程、强化学习和随机网络演算理论,构建了移动用户小区切换与频谱资

源分配的联合优化MDP模型,提出并设计了基于功率控制与休眠唤醒机制的接

纳控制算法。全文共六章,各章概要如下:
第一章阐述了LTE—A飞蜂窝系统背景与移动性管理存在的问题,归纳总结

了小区切换与接纳控制问题的国内外研究现状,在概述课题主要研究内容的基础
上,指出了本文的主要创新点。
第二章研究了马尔科夫决策过程的基本模型,对比分析了各种MDP基本算

法,阐述了强化学习系统的主要组成元素,研究了基本的强化学习算法。
第三章针对飞蜂窝基站覆盖范围小和部署密度高的特点,运用马尔科夫决策

过程理论,提出并构建了小区切换与频谱资源分配的联合优化MDP模型,并基
于强化学习理论设计了MDP模型的求解算法。

第四章针对高速移动用户与非实时业务请求的特点,运用随机网络演算理
论,结合功率控制与休眠唤醒机制,提出了一种接纳控制算法,实现了终端功率

的自适应调整与飞蜂窝基站工作模式的动态切换。
第五章通过构建LTE—A飞蜂窝系统移动场景,验证了所提出的小区切换算

法MDPQ和接纳控制算法PCSWAC的性能。
第六章对全文研究内容进行总结,并对下一步工作进行了展望。

万方数据
第二章马尔可夫决策过程与强化学习方法研究

第二章马尔可夫决策过程与强化学习方法
研究
马尔科夫决策过程作为一种可对优化、决策、控制等问题进行建模与分析的
有效理论工具,能够刻画LTE—A飞蜂窝系统的无线信道的时变性、状态空间的

多维性、以及数据到达的随机性,可用于LTE.A飞蜂窝系统中小区切换模型的
构建。强化学习方法不受外部随机变量影响,在状态转移模型未知的情形下,便

可对MDP模型进行有效求解。本章在论述马尔科夫决策过程基本模型的基础上,

对比分析了各种MDP基本算法。阐述了强化学习系统的主要组成元素,并对基
本的强化学习算法进行了研究。

2.1马尔可夫决策过程理论研究
马尔可夫决策过程,亦称马尔可夫型随机动态规划,它是确定性的动态规划

(DP,Dynamic Programming)与马尔可夫过程(MP,Markov Process)相结合的

产物。一个经典的MDP执行流程1441为: (1)决策者观察系统所处状态; (2)

根据当前状态,从可用行为空间选取某一行为; (3)实施该行为,系统状态发
生变化: (4)决策者再根据新的状态进行决策,依次反复进行。系统状态转移
概率具有无后效性,又称为马尔可夫性,即下一决策时刻的系统状态仅依赖于当
前时刻系统所处的状态与决策行为,而与系统的历史状态无关。

2.1.1马尔可夫决策过程的基本模型

2.1.1.1决策时刻

决策时刻(DEs。Decision Epochs)是指决策者做出并实施决策的时间点。所
有决策时刻的集合,记为T。T为非负实轴上的子集,并支持两种分类标准。根

据T是否离散,分为离散集和连续集;根据T是否有限,分为有限集和无限集。
当T为离散集时,决策者在所有决策时刻进行决策的选择与实施。当T为连续

集时,进行决策的情形具体分为三种: (1)在每个决策时刻均进行决策; (2)

在某个事件发生时的随机点进行决策,如缓冲队列的分组到达; (3)决策者自

主选择适当的时问进行决策。当连续做出决策时,该序贯决策问题(SDP,

Sequential Decision Problem)最好采用基于动态系统方程的控制论方法进行分

析。

万方数据
第二章马尔可夫决策过程与强化学习方法研究

进行离散决策时,时间被划分为决策周期,即任意相邻决策时刻问的时间长
度。如图2.1所示,决策时刻相当于每个决策周期的起始时刻。针对有限阶段的

决策,决策时刻的集合用丁={1,2,…,N)表示;针对无限阶段的决策,决策阶段
的集合用丁={1,2,…)表示。

决策时刻 决策时刻 决策时刻 决策时刻 决策时刻


l 2 3 4 N

卜——————卜—————_1-_———————√卢———————一
‘——。——、——一^——、,——7——,——
决策周期 决策周期 决策周期 决策周期
N一1
1 2 3

图2.1决策时刻与决策周期

2.1.1.2状态与行为

在每个决策时刻,与决策问题相关的各个参数的值,反映了当前系统所处的
状态,可将状态理解为对系统的描述。系统可能处于的所有状态的集合,构成了

系统的状态集,又称为状态空间,记为S。行为是决策者在当前状态S,J∈S下所
做的决策,是决策时刻系统的输入,记为一,。决策者在各个状态下,所能做出

的所有决策的集合,构成系统的行为集,又称为行为空问,记为爿,A=u懋爿,。
其中,状态集与行为集可为以下四种集合中的任一种:(1)任意的有限集(finite
sets); (2)任意的可数无限集(countable infinite sets); (3)有限维欧氏空

间的紧致集(compact subsets); (4)完备离散度量空间的非空Borel子集。

2.1.1.3回报与转移概率

在每个决策时刻,决策者总是根据当前决策时刻所观察到的系统状态
S,s∈S,从当前可用的行为空间彳中,选取并实施行为,决策者将得到回报,并

根据转移概率决定下一决策时刻系统的状态。
决策者得到的回报由回报函数定义,回报函数可理解为系统的输出。在决策
时刻f,回报函数定义为系统状态S∈S和决策者行为a∈4。的实值函数,记为

I(s,d)。若‘(s,口)为正值,则可将回报看作收益;若‘(s,a)为负值,则可将回
报看作成本。
一般来讲,决策者当前决策时刻所得回报还依赖于下一决策时刻系统所处的
状态。若决策时刻,时,系统处于状态s,决策者采取行为a后,系统在下一决

策时刻(t+1)的状态为s。,则可将所得回报记为‘《s,口,s。)。在决策时刻f,回报
的期望为:

‘(驴)=∑,;(叩,s。)只(s’Is,口).

万方数据
第二章马尔可夫决策过程与强化学习方法研究

其中,非负函数只(S1 s,口1是转移概率函数,且满足以下约束:
∑只(s1 I印)=1.
j。£S

马尔可夫决策过程的五个元素,可记为五元组:
{丁,s,4,只(・I s,口),l(胃,以)}.
其中,回报函数和转移概率函数具有马尔可夫特性,即它们的取值只依赖于当前

决策时刻的系统状态与决策者采取的行为,而与更早决策时刻的系统状态和决策
者行为无关。

2.1.1.4决策规则与策略

决策规则(Decision Rule)是指决策者根据当前系统状态选择行为的规则。

在每个决策时刻,决策者可根据马尔可夫链选择确定的某个行为,也可根据以往
的历史经验随机选择某个行为。
定义2.1(策略规则函数)在决策时刻z,系统状态为S,策略规则函数定
义为状态空间到当前状态下可采取行为集合的映射:

Z:Sj4.
定义2.2(确定决策规则)在决策时刻f,若对于任意状态S∈S,均满足
谚(S1---)彳。,则称该规则为确定决策规则。
确定决策规则具有无记忆性和确定性的特点。其中,无记忆性是指系统当前
状态只取决于前一个决策时刻的系统状态与决策者行为,确定性是指决策者在当
前决策时刻的每个状态下所能采取行为的集合均是唯一的。

定义2.2(随机决策规则)在决策时刻f,若为行为集指定一个概率分布

吼(・),使系统的状态空间映射到行为空间的概率分布函数上:
Z:S专q(A1.
则称该类决策规则为随机决策规则。

根据决策规则是否具有历史依赖性,即谚是否依赖于系统以往状态与决策

者行为的序列忽=(X1 a1,…,St_1 at小St),可分为依赖历史的决策规则和具有马尔


科夫性的决策规则。
将以上分类标准进行结合,决策规则可具体分为依赖历史的随机性决策规则
(HR)、马尔可夫的随机决策规则(MR)、依赖历史的确定决策规则(HD)
和马尔可夫的确定决策规则(MD)。

定义213(策略)马尔可夫决策过程的策略是指一系列决策规则的序列,
记为:
万=(4,d2,…,dN 1),Z∈蹲,f=1,2,…,N一1.
其中,K代表HR、MR、HD和MD中的任意一种策略。

万方数据
第二章马尔可夫决策过程与强化学习方法研究

定义2.3(平稳性)若对每个t∈T,都有Z=d,则称策略万=(匾,d:,…,氏一,)
为平稳策略,记为d。。
在每个决策时刻,决策者根据当前系统所处状态,以预先设定的策略从当前

可用行为空间中选取并实施某一行为,通过回报函数得到执行该行为的回报,系

统根据转移概率转移到下一决策时刻系统所处的状态。MDP作为序贯决策过程
的子集,其目标旨在寻找最优的策略,以最大化或最小化目标函数。几种经典的

目标函数为:
(1)有限时段期望总回报

%=E{∑,;(%q)},薯∈S. (2.1)

(2)无限时段期望总回报

矿2(s)=憋疋{∑‘(1,q)},_cS.
“—’∞ J●、 。J
(2.2)

(3)无限时段期望折扣总回报

啊沪艘t{善^(∽)}舻S. (2.3)

(4)无限时段期望平均回报

p4(s)=熙专疋{喜,;(%q)}^∈s. c2m

2.1.2马尔可夫决策过程问题求解

2.1.2.1策略迭代算法

策略迭代又称为策略空间逼近法,是一种基于贝尔曼(Bellman)最优方程

的算法,如表2.1所示。若已知回报函数月和状态转移概率尸,则可利用策略迭
代算法,逼近最优的平稳策略序列万‘及对应的值函数矿‘序列。策略迭代算法主
要利用公式2.5和公式2.6来改进策略。

Q”(叩--r(驴)+y∑p(s‘l驴)旷(s’),
jES
(2.5)

万1(s)=a rg In硪(s):
口E 4
(2.6)

由于策略有限,且通过迭代可不断改进当前策略,经有限次迭代后一定会收
敛于最优策略。

万方数据
第一章马尔可夫决策过程与强化学习方法研究

表2.1策略迭代算法

策略迭代算法

1:初始化:设定初始策略万。

2:策略估计t
计算策略万下的值函数矿。

『74(s)=r(s.石(s))+y∑p(s’l s..,r(s))l’。(s’l
3:策略改进:
利用公式2.5和公式2.6,求得3-+。

4:收敛性判断:
if石。=石then
跳转到第5步;
else

令刀=刀,跳转到第2步。
endif

5:返回最优策略。

由于每次迭代都需求解方程组,复杂度较大,故策略迭代算法只适用于状态

空问和行为空间较小的MDP问题。

2.1.2.2值迭代算法
zkq 20160118
值迭代算法利用Bellman公式,通过不断迭代来改进值函数,并逐次逼近最
优平稳策略,具体算法如表2.2所示。
表2.2值迭代算法

值迭代算法

1:初始化:

选择初始值函数矿。和£,并设F/=0。

2:对于每个状态s∈S,计算V…1(s):

州s)2翟∽口)+y萎p(s。h口)矿(s’)卜
3:收敛性判断:

if眇“一V”卜E then

跳转到第4步;
else

令n=甩+1,跳转到第2步。
endif

4:对于每个状态s∈s,选择以下策略:
r 1

万(s)∈argmax{r(s,口)+y∑.p(s’Is,a)矿”“(s)}
…。 s Es、‘‘J

5:返回最优策略。

万方数据
第二章马尔可夫决策过程与强化学习方法研究

值迭代算法在迭代过程中需要遍历系统中的所有状态来计算值函数,当状态

空间较大时,面临“状态空问爆炸”问题。

2.1.2.3贪心算法

贪心算法是一种近似算法,又称近视策略(myopic policy),在求解MDP
模型时,贪心算法仅关注当前决策时刻的回报,而不考虑当前决策对未来回报的
影响,可描述为公式2.7:
(2.7)
m2蹬【占。q)
、‘”
“,…1.一

贪心算法得到的是每个决策时刻的局部最优解,如何选择最优贪心策略是该
类算法设计的关键。虽然贪心算法所得策略未必最优,但因其无需对值函数进行

迭代更新,因而时间复杂度低,为求解MDP问题提供了一种的简单求解方案。

2.1.2.4基于状态聚合的算法

策略迭代算法和值迭代算法都面临“状态空间爆炸”的问题,为克服该问题,

基于状态聚合的算法旨在将状态空间进行聚合化简,以降低问题规模。

鼹膨髑
zkq 20160118

图2.2一个MDP状态空间的聚合

图2.2描述了一种对状态空间的划分方法,对各虚线方框中的每个状态而言,
假设系统以较大的概率转移到其起始状态所在虚线方框内的某个状态,而转移出

其起始所在的虚线方框的概率很小,便可对该MDP采取状态聚合。一种经典的
MDP状态聚合算法[45],如表2.3所示。
表2.3 MDP状态空间化简算法

MDP状态空间化简算法

1:将状态空间S进行划分:{S,s2,…,最}
2:for i=1 to聆

3: 若该状态不在Si,则将该状态的概率置0;
4: 若该状态在Si,则归一化处理其转移概率:
5: 基于,r=rrP,求解S内状态稳态概率;

6:求解S到Sj的转移概率弓=∑。zrkP目
7:endfor

万方数据
第二章马尔可夫决策过程与强化学习方法研究

2.1.2.5基于近似动态规划的算法

近似动态规划(ADP,Approximate Dynamic Programming)【16,46]作为一种求


解大规模DP问题的近似求解方法,可有效解决MDP中的“状态空间爆炸”问
题。在ADP中,值函数如式2.8所示。
(2.8)
V(s,)-…ma玑x、,SI,q)+葩{矿(一+,)j.
在式2.8中,“状态空间爆炸”问题主要体现在: (1)状态空间太大,导
致存储空间不足; (2)外部随机变量分布未知,导致期望难以计算。ADP采用

基于值函数近似与后决策状态的前向DP方法解决上述问题。一种可行的基于
Monte Carlo仿真的前向动态规划算法如表2.4所示。

表2.4 MDP状态空间化简算法

基于Monte Carlo仿真的前向动态规划算法

1:初始化

对每个状态s,初始化矿(s);
选择初始状态s。;
2:for f=0 to T do

3:求解

奇,倒max。){尺(∽)+dE{V(s,+。)训
zkq 20160118
并令a.为以上最大化问题的解。

4: 利用下式对V(s1进行更新
旷(s,)卜(1一研)旷(暑)+巩t。
5: 根据Monte Carlo仿真确定随机变量样本
彬=∽,人,)
6: 系统演进到下一个状态

q。。=mjn{[g。一丢%(岛)嘞]+五。,,曰)

2.2强化学习理论研究
强化学习作为一类机器学习方法,刻画了系统环境状态到学习者行为的映

射,旨在最大化智能系统的累积回报。如图2.3所示,Agent和环境构成了强化

学习系统的基本框架。Agent是指学习者或决策者,它可感知所处环境,并采取
某种行为对环境施加影响。环境则可理解为所有与Agent交互的对象。Agent通
过不断尝试,逐渐找到最优策略。

万方数据
第二章马尔可夫决策过程与强化学习方法研究

行为

图2.3强化学习框架图

Agent在与动态环境的即时交互中,感知并获取环境的状态信息,并选择某
种行为作用于环境;受Agent行为影响,环境状态发生变化,并反馈一个奖或罚
的强化信号(RS,Reinforcement Signal)给Agent;Agent根据得到的强化信号和
当前的环境状态选择下一步行为,通过反复试错与不断选择,最终可学习到适应

环境的最优策略。在学习过程中,Agent会利用RS不断评价自身行为:若某种
行为得到环境正的回报,则Agent未来采取该行为的概率增加:若某种行为得到

环境负的回报,则Agent未来采取该行为的概率降低。其中,来自环境的RS又
被称为回报(Reward)。试错搜索(trial.and.error search)和延迟回报(delayed

reward)是强化学习最显著的两个特征。Agent所选择的行为不仅影响当前时刻
的瞬时回报,还影响下一时刻的回报及环境状态。

zkq 20160118
2.2.1强化学习系统的主要组成要素

除环境和决策者Agent外,强化学习系统还包括策略、奖赏函数、值函数和
环境模型四个重要的组成要素,如图2.4所示。

图2.4强化学习四要素

2.2.1.1策略

策略,亦称决策函数,规定了每种环境状态下Agent的行为选择方式。一般
来说,策略是从Agent感知到的环境状态集合S中的任一状态S到该状态下所采
取行为集合4中的某一行为口的映射,即策略万:S—A。策略是强化学习系统的

3.4

万方数据
第二章马尔可夫决策过程与强化学习方法研究

核心,具有随机性,其优劣直接影响Agent行为的选择和系统的整体性能。

2.2.1.2奖赏函数

奖赏函数,亦称回报函数,规定了强化学习问题的目标,是Agent评价行为

与改善策略的基础。一般来说,奖赏函数是Agent感知环境的每种状态,或状态
行为对(State—ActionPair),到某一标量数值的映射。例如,若该值为正数,则

表示Agent在当前状态下采取的行为对自身有利,得到奖赏;若该值为负数,则
表示Agent在当前状态下采取的行为对自身不利,得到惩罚。在强化学习过程中,

Agent的最终目标是最大化得到的总奖赏值。奖赏函数一般是客观且确定的,并
为如何选择最优策略提供依据。

2.2.1_3值函数

奖赏函数仅能反映对当前状态或状态.行为对的即时评价,不能描述Agent
整个学习过程的优劣。值函数(Value Function),亦称评价函数,旨在从长远
的角度评价某一状态或状态.行为对的好坏。如公式2.9所示,状态只的值函数定

义为:Agent在状态St,根据策略万,采取行为记及后续策略后,所得无限时域
zkq
累积折扣奖赏的期望,记为矿“)。 20160118
,,0。 、

K(‘)=疋I∑Y7r(‰,‰)|.
\i=0 /
(2.9)

其中,Y∈(o,1]为衰减系数,,.(薯州a卜H)Nt+i时刻的即时奖赏。
由公式2.9可知,值函数是对奖赏函数的预测,是选择行为与制定策略的依

据。在选择行为时,Agent选择使值函数值最大的行为,而不是使即时奖赏函数
值最大的行为,因为从长远看,依据值函数选择行为获得的累积折扣奖赏的期望

最大。不同于奖赏函数由环境直接给出,值函数往往是通过观察Agent整个生命
周期中的状态序列,反复评估得到的。实际上,如何高效快速的评估值函数是大
部分强化学习算法研究的关键。

2.2.1.4环境模型

若给定当前状态与采取的行为,环境模型可推导出下一状态,并给出即时奖

励。环境模型常被用来进行规划,即采取并实施某一行为前,预测并分析下一步
可能处于的各种状态与所得到的奖赏。

从不同角度出发,可将Agent面临的复杂、动态的开放环境分为以下几类:

如果Agent可感知所有的环境信息,则状态完全可观察环境,否则,状态部分可
观察环境。如果Agent在不同场景中所学知识无关,则为非插曲式(non.episodic)

万方数据
第二章马尔可夫决策过程与强化学习方法研究

环境,否则,为插曲式(episodic)环境。如果状态转移依赖于某种概率分布,
则为不确定性环境,否则,为确定性环境。对于不确定环境而言,根据概率分布
是否稳定,又可细分为动态环境与静态环境。

2.2.2强化学习算法

2.2.2.1动态规划

动态规划‘471是20世纪50年代由Richard Bellman提出的求解决策过程最优

化的数学方法,通过将多阶段决策过程(multistep decision process)‘481分解为一


系列单阶段问题,在利用并分析各阶段关系的基础上,逐个求解各个决策过程,

以寻求最优策略。常见的动态规划方法有策略迭代、值迭代和改进的策略迭代等。

2.2.2.2蒙特卡罗算法

DP方法要求环境状态是完全可观察的,而事实上,Agent往往仅能观察到
部分环境信息,基于此,研究者们提出了蒙特卡罗算法(MC,Monte Carlo

Methods)[49]。MC算法在与环境的交互中,完成值函数的评估,获得状态、行
zkq 20160118
为及奖赏序列,并最终找到最优策略。作为一种模型无关(model.free)的学习

方法,MC一般利用平均样本奖赏值对强化学习问题进行求解。

如式2.10所示,MC算法通过逼近的方法完成值函数的评估。

矿(薯)<--矿(‘)-I-1zl置-V(s,)1. (2.10)

其中,R=,;+,+肛+:+y2‘+3+…=l叫+rg+J是累计折扣奖赏值。
MC算法求解某个状态的值函数时,对其他状态的值函数没有依赖,且MC
算法对马尔可夫性的要求不严格,适用于求解状态部分可感知的问题。

2.2.2.3瞬时差分算法

瞬时差分算法(TD,Temporal Difference)[501是DP方法和MC方法的结合,
兼具DP方法和MC方法的特点。与DP方法类似,TD方法可利用部分已学到

的经验更新状态值函数,而不必等待最终结果。TD(0)算法是一种最简单的
TD算法,如式2.11所示。

Ht)÷一矿(■)+口[巧“+yH‘+1)一Hs)】. (2.1 1)

其中,口∈(o,1】为学习步长,y∈(0,1】为折扣因子。
一般来说,MC方法以式2.12的估计作为目标,而DP方法以式2.13的估计

作为目标。MC的目标值是估计值,因为式2.12的期望值是未知的,利用样本回

万方数据
第二章马尔可夫决策过程与强化学习方法研究

报值来代替真实的期望回报。DP的目标是估计值,并不是因为环境模型能提供

期望回报,而是因为使用当前估计值y(‘+,)来代替未知的V。(墨+,)。TD的目标
是估计值则源于其简化了式2.13的期望值,并使用当前估计值矿来替代真实的
y4。

(2.12)
V”(S)=疋忸旧=J),
r田 、

=乓{∑y‘rtm,[St=s},
Lk=O J

r ∞ 、

=疋协+y∑y‘‰+:Is,=J},
L k=O J

=E{o。+7V。(sf+1)I s,=s}. (2.13)

2.2.2.4 Q学习

Q学习(Q.Learning)是一种与模型无关的RL算法【511,由Watldns在1989
年提出,旨在求解MDP环境模型下的学习问题。Watkins定义了一种记录状态一

行为对的函数,称为Q函数,记为Q(‘,a1),用以表示在状态‘,采取行为at及
后续策略的期望累计折扣奖赏。

单步Q—learning中Q函数的更新如式2.14所示。

Q(薯,at)卜Q(薯,q)+口f‘+。+厂m警Q(‘“,q“)一Q(薯,q)f. (2.14)

在Q.Learning中,策略和值函数被记录在由状态.行为对构成的二维表中,
该表被称为Q.Table。Q.Table中的所有行为均有可能被Agent执行,为了搜索最

优Q函数,Agent需试验每种状态下可采取的所有行为。已有研究证明152】,以任
意顺序将式2.14重复应用于每一个状态.行为对,并使其Q值更新次数达到无穷
大,则Q必将收敛到Q‘,从而得到最优策略。

2.3本章小结
本章对马尔科夫决策过程与强化学习理论进行了研究。一方面,阐述马尔科
夫决策过程的基本模型,归纳并对比了多种MDP基本算法的工作原理与优缺点。
另~方面,在研究强化学习系统组成元素的基础上,深入分析了基本的强化学习

算法适用场景与特点。

万方数据
第三章基于MDP的LTE.A飞蜂窝小区切换算法研究

第三章基于MDP的LTE.A飞蜂窝小区切
换算法研究
本章针对飞蜂窝基站部署密度高、覆盖范围小、用户移动性低的特点,将小
区切换决策与频谱资源分配的联合优化建模为MDP优化模型,综合考虑了用户

的数据流到达、缓冲队列大小、移动速度、可用带宽与时延等切换性能指标。鉴
于无线信道的时变性、状态空间的多维性、以及数据到达的随机性,提出了一种

基于强化学习的MDP模型求解算法MDPQ。

3.1系统模型

一叁一
曼MY II jI拿●0 I|iI¨:}IIj拿:::j!IjIjoj:|I㈠
\ § a §: l l !}

考察如图3.1所示的LTE.A飞蜂窝系统切换场景,MT为决策者。假设宏基站
(MBS,Macro Base Station)和飞蜂窝基站共享全部频谱,且总带宽被分为Ⅳ。个

可变宽度(Variable.width)的连续信道,令形表示该正交频分多址接入(OFDMA,

Orthogonal Frequency Division Multiple Access)系统中所有信道的集合,则有

I形IiⅣ。。信道模型采用加性高斯白噪声(AWGN,Additivewhite GaussianNoise)

信道,且每个时槽内MT仅占用一个信道。在决策时刻f,MT可观测到的系统状

态包括:(1)时槽f中可用的空闲信道:(2)在If一1,f)内,到达MT的分组数:(3)
MT的缓冲队列长度。

目前,大部分小区切换[53-551算法仅考虑如何选择最优的目标基站,没有考虑
切入目标基站后频谱资源分配对系统性能的影响。仅用单一的切换指标进行切换

万方数据
第三章基于MDP的LTE.A飞蜂窝小区切换算法研究

决策,无法完全反映网络的实际状况。本章综合考虑多种影响小区切换的因素,
运用马尔可夫决策过程理论,建立了小区切换与频谱资源分配的联合优化MDP
模型,并基于强化学习理论,设计了一种联合优化MDP模型的求解算法。

所提出的小区切换算法MDPQ,综合考虑了以下因素对切换决策的影响。

3.1.1可用带宽
可用带宽反映了目标小区的信道状况,当接入小区的用户较多时,系统分配

给各用户的可用带宽降低。根据各小区的可用带宽状况,可有效阻止高负载情形
下新用户的接入,进而保证己接入该小区的用户的吞吐量和QoS。时延敏感型业
务对可用带宽的要求较高,若系统可用带宽不足,会导致较高的掉话率,直接影

响用户QoS。所构建的MDP模型,考虑了可用带宽对小区切换决策的影响。

3.1.2数据包到达与缓存队列

数据包到达速率与用户的缓存队列长度直接影响网络的数据传输速率与无

线资源分配。然而,大多数已有的小区切换算法124,27,301假设用户的数据包以常速
率到达,且缓存队列足够大,并不能反映LTE.A飞蜂窝系统的真实情况。所提

出的小区切换算法,考虑了数据包到达速率、数据包大小,以及缓存队列长度。
为描述数据业务的突发性与随机性,假设数据包到达服从泊松到达(PA,Poisson
Arrival)o且用户缓存队列长度有限。

3.1.3移动速度

飞蜂窝的覆盖范围小,来自宏蜂窝的高速移动用户若进入部署大量飞蜂窝的

热点区域,会导致大量频繁且不必要的切换。虽然LTE.A飞蜂窝对用户移动性
的支持较强,但对用户移动速度的评估会增大设计成本与能耗,并导致大量的信
令开销,影响网络性能。所提出的小区切换算法采用高斯一马尔可夫移动模型
(Gauss—Markov mobility model)[56]作为用户的移动模型,以研究用户移动速度

对小区切换决策的影响。

3.1.4业务类型

在LTE.A飞蜂窝系统中,不同业务类型具有不同QoS要求,如表3.1所示。
3GPP定义了QoS的体系结构,大致将业务分为会话类、流媒体类、交互类和背
景类[57】。其中,会话类和流媒体类对时延和抖动的要求较高,但可以接受一定的

万方数据
第三章基于MDP的LTE-A飞蜂窝小区切换算法研究

丢包率,如语音、视频电话等;交互类和背景类可以容忍一定的时延,但对丢包

率要求较高,如文件传输、Email等。

表3.1飞蜂窝系统各类业务对QoS的要求

QoS类别 会话类 流媒体类 交互类 背景类

时延 严格限制(实时) 限制(实时) 宽松(非实时) 无限制(非实时)

抖动 严格限制 限制 宽松 无限制

丢包率 较低 较低 较高 较高

数据速率 稳定 较稳定 可变 可变

在LTE—A飞蜂窝系统中,宏蜂窝与飞蜂窝对各类业务具有不同的支持能力。

飞蜂窝采用“尽力而为”(BE,Best—Effort)的因特网作为回程网,可提供较高的

数据传输速率,但支持实时业务的能力较差;宏蜂窝的数据传输速率较低,但可
有效支持实时业务。因此,所提出的小区切换算法重点研究飞蜂窝问非实时性业
务的小区切换问题,考虑了切换时延对目标小区选择的影响。

3.2小区切换与信道分配策略联合优化MDP模型
LTE.A飞蜂窝系统小区切换的MDP模型可表述如下。

3.2.1状态空间

系统状态定义为

S={1,2,.一,N}X甲1×D1…×、壬,~XD川×Q×AX V. (3.1)

其中,×表示笛卡尔积(Cartesianproduct);{1,2,…,Ⅳ}表示可为移动用户提供服
务的小区lD的集合;甲“={≯1,…,≯%},m∈{1,…,Ⅳ}是Ⅳ。维的0一l向量,表明了当
前决策时刻小区m的信道占用状况,若≯。,i∈f1,…,Ⅳ。}为0,则表示信道i空闲,

否则,信道i被其他用户占用;D“∈扯…,d一2}表示移动用户从当前服务小区切
换到候选小区m∈{1,…,N}的切换时延,吃为切换到小区m的最大切换时延;Q
表示当前决策时刻移动用户的传输队长,即移动用户缓存的分组数,Q的取值受
移动用户队列的到达过程和当前服务小区信道的分配情况影响;人表示当前决策
时刻结束时到达移动用户的分组数,并假设所有数据包的到达时相互独立的;矿

表示当前决策时刻移动用户的移动速度。

万方数据
第三章基于MDP的LTE—A飞蜂窝小区切换算法研究

3.2.2行为空间

移动用户的行为包括两部分:彳={{匆},{0)),巨∈{1,…,N)表示移动用户根
据当前决策时刻的系统状态做出的切换决策,用户可以选择驻留在当前服务小

区,也可以从当前服务小区切换到邻小区列表中的某个小区;{o)为。一l变量,
表示是否将信道/分配给移动用户。若x』的值为l,则将信道J分给用户;若一的
值为0,则不将信道L『分给用户。

3.2.3系统转移方程

决策时刻f,移动用户的状态为向量t={f,甲:,叫,…,甲y,∥,吼,A,vf},其中,
i表示为移动用户提供服务的小区,、壬,,,mE{l,…,Ⅳ}表示小区m的信道分配状
况,彰1,m∈f1,…,Ⅳ)表示移动用户从当前服务小区切换Nd,Am的切换时延,g,
表示决策时刻,初始时移动用户服务队列的长度,^表示决策周期t内到达移动

用户服务队列的分组数,v,为决策时刻f移动用户的移动速度。当移动用户执行

动作口,后,系统转移到下一状态t+,={J,、壬,:小以1,.一,1王,盖,,《,,g小丑小v,卅},且
St+,仅取决于状态‘和行为a,,而与之前的状态无关【2刀。从状态‘N状N s,+。的转
移概率是每个维度下系统状态的联合概率,可得:
r N

尸St+l II,q):jP(吼+・lqt)P Vt+l

Iu)f。:i。尸(Y川,4+・l甲r,4),J2q.(3.2)
【0, u,≠q

其中,Jp(吼+,Ig,)为移动用户传输队长的转移概率,尸(v+.Iu)为移动用户速度的
转移概率,P(甲川,Z+。l甲,,Z)为移动用户可用带宽和切换时延的转移概率。
在决策时刻t,若当前服务基站f在信道f上的传输功率为珐,,则移动用户Ⅳ

在AWGN信道/上的频谱效率(spectral efficiency)为:

吒,-log:[1+等一“磷 (3.3)

其中,红。。,是基站i与移动用户“间在信道u『上的信道增益,其值与移动用户“到
基站i的距离以及信道7的工作频率相关,19"2为噪声功率,t。,为用户“在信道7
上受到来自临近基站的同频干扰。

移动用户传输队长的转移概率尸(%。I吼),其值取决于[t,t+1)内移动用户的
分组到达五、切换时延彰+。以及己发送的分组数。下一决策时刻f+1,移动用户
的缓存队列初始长度为:
rr ]+ 1
吼+1=m i l{l吼一∑巳tXtk(t-a',+’)l+以+,厶}
ke.d J
(3.4)
¨ J

其中,【厂(x)】+=max{f(x),0),吨表示决策时刻f是否将信道k分配给移动用户,

万方数据
第三章基于MDP的L丁E—A飞蜂窝小区切换算法研究

三表示移动用户的最大传输队长,即移动用户缓冲区的大小。

移动用户速度的转移概率P(u“J vf)取决于用户的移动模型,假设用户采用
高斯一马尔可夫移动模型【5 61,则在决策时刻t+1,用户的移动速率u。和移动方向
现,分别如式3。5和式3.6所示:

v“=叫+(1一口)石+41一甜2匕., (3.5)

(3.6)
磁+l=册哆+(1一口)掰+、,l一口2豫..
其中,口∈[0,1]为该移动模型的记忆参数,用于描述用户移动速率和移动方向在
相邻时槽上的相关性。当口为0时,用户做布朗运动,此时移动相关性最低。随
着a的增大,用户移动相关性逐渐增大。矿和而分别为移动用户的平均速度和移

动方向的平均偏差。v:代表均值为0,方差为d。且与v,无关的高斯随机变量,

记为N(O,吼):聊。代表均值为o,方差为O"m且与mt无关的高斯随机变量,记
为N(o,吒,)。O-,和吒用于调节相邻前后决策时刻速率和方向的变化范围。
由于同一个服务区的不同网络,往往由不同的网络运营商使用不同的无线接
入技术进行管理和配置瞄…。因此,假设每个网络节点的带宽和延迟的概率函数相
互独立。

3.2.4效用函数

在决策时刻z,处于s,状态的移动用户执行动作at后,将会收到回报

R(‘,q),并根据状态转移概率P(%,l薯,q)转移到下一系统状态。为了在最大
化用户实际吞吐量的同时,降低不同网络间的信令开销,保证用户的QoS,回报

函数R(t,q)由吞吐量函数、信令开销函数和掉线惩罚函数三部分构成。
吞吐量函数定义为系统在时槽f内的实际吞吐量:
r 1

厂(‘,q)=min

cL,∑cⅣ黾t-彰叫)}/£.
七∈∥ J
(3.7)

其中,∥叫为决策时刻t移动用户从服务小区f切换到目标小区,的切换时延。
信令开销函数定义为:

舀fs,缉1:jK∞’7≠at.
蜀(s,q)={。‘叩. . (3.8)
Lu,l—at

其中,墨。为从服务小区i切换到目标小区时的信令开销。
掉线惩罚函数定义为:
0. 畎 n。 <一 枷
哆一%
g:(St at)= ‰ ≤ 咋 弛 宅苫 9
vm“一Vmin

vm。≤U

万方数据
第三章基于MDP的LTE-A飞蜂窝小区切换算法研究

其中,vmi。和vm。为影响用厂=I掉线概率的速度阈值,随着移动用户移动速率的增
加,掉线率增加。
吞吐量函数反映了用户从当前服务小区中获得的吞吐量收益,信令开销函数
则描述了从当前服务小区切换到目标小区给网络带来的信令负载,掉线惩罚函数

则反映了用户移动速率对用户QoS的影响。为了权衡网络性能与用户服务质量,

总回报函数定义为为:
(3.10)
足(SI q)=厂(I,q)一wlgl(‘,q)一。%92(‘,q),
其中,w1和w’为权重因子。

3.2.5目标方程

在初始状态s和策略万下,值函数定义为无限时段期望折扣总回报:
r∞ 、

矿(J)=E{∑∥置(‘,万(‘))h--'--S},
Ll=0 J
(3.11)

其中,Ef.1表示策略7/"和初始状态S下的无限时域累积折扣奖赏的期望。y∈【o,1]
为折扣因子,若y为0,则未来回报对系统状态无影响;y越接近l,则未来的

行为对当前回报的影响越大。zc(s,)是z时刻的策略。
该优化问题的最终目标是寻找最优策略,以最大化无限时域累积折扣奖赏的
期望。最优策略可通过求解最优值函数获得,根据式3.11,最优值函数定义为:
V+(S)=maxV5(s), (3.12)

求解最优值函数,可得出最优策略7/"+fs)和最大累积折扣奖赏的期望∥(s)。

3.3 MDP模型求解算法设计
上述MDP模型可以通过经典迭代算法进行求解。首先,构建MDP模型的
Bellman递推方程:
(3.13)
¨(薯)=max{足(薯,q)+归¨+】(St+l lSt q)}.
屿

设定一个任意的值函数K(s,)的初始值,并迭代计算式3.13,则最终at将收敛于
最优小区切换策略。然而,每更新一次式3.13中的值函数需要访问所有的状态。

在LTE-A飞蜂窝系统小区切换与频谱资源分配联合优化问题中,访问所有状态

将会带来巨大的计算开销。同时,由于真实系统中难以精确测量系统的状态转移
概率。因此,经典的值迭代算法在实际环境中无法实施,必须设计近似算法对问

题进行求解。针对以上分析,本文提出了一种基于Q—learning的强化学习算法

MDPQ来求解式3.12中的值函数。
为求解式3.12所定义MDP模型,需定义最优Q值函数:

万方数据
第三章基于MDP的LTE-A飞蜂窝小区切换算法研究

㈢14’
Q+(驴)=E№,ar)}+y萋‰(a,)m‰a。x。Q‘(sl+l,at+1),
由公式3.14可知,最优值函数可转化为矿+(s)=m刚axQ+(s,口),因此,如果可
以求得每个状态-行为对的Q值函数,就可利用71"+(J)=argmaxQ‘S,a)确定最优
策略。Q函数的更新规则,如式3.15所示:

Q(I,at):=(1一∥)Q(‘,q)+∥(月(s,,a,)+y鼍野Q(‘+pat+1)).(3.15)
其中,∥∈(o,1)为学习速率。已有文献‘521证明,该更新规则可收敛于最优值函数。
所提出的基于Q—Learning的强化学习算法MDPQ,如表3.2所示。
表3.2 MOPQ算法

MDPQ算法

1:初始化Q—Table,

对Vq∈4,SI∈S,将Q(I,q)值设为0。
2:今玎=1.

3:初始化&
4:forf=Oto Tdo

5: 利用£一greedy生成一个随机数£:

if P<£then

从行为空间A中,随机选取一种行为;
else

从行为空间A中,选择最大的Q值:
q=argmaxQ,(丑,q);
endif

6: 更新外部变量彬+,=彬+,(w”),并计算系统下一状态:
St+1=s”(Si,a,,彬+1);
7: 计算吼:
吼2
r(薯,a,]+r。ma。x。Q,+・(s“,q+,)。
8: 利用式3.15更新Q.

9: 11++.

10: if一≤N then

跳转到第1步。
endif
1l:endfor

12:returnQ因子

万方数据
第三章基于MDP的L丁E.A飞蜂窝小区切换算法研究

3.4本章小结
本章深入分析丫影响小区切换决策的因素,阐述了综合考虑多种切换指标的

必要性。运用马尔可夫决策过程理论,以最大化吞吐量、信令开销和掉线惩罚的
效用函数为目标,构建了小区切换与频谱资源分配的联合优化MDP模型,设计

了一种基于强化学习的MDP模型求解算法。

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

第四章基于功率控制与休眠唤醒机制的接
纳控制算法研究
本章围绕LTE-A飞蜂窝系统的接纳控制问题,以降低LTE.A飞蜂窝系统能

耗和切换时延为目标,提出了一种基于功率控制与休眠唤醒机制的LTE—A飞蜂
窝系统接纳控制方案。该方案综合考虑了移动终端功率的自适应调整与飞蜂窝基

站工作模式的动态切换,设计了合理有效的接纳控制算法PCSWAC。在保证用

户QoS的同时,降低了LTE—A飞蜂窝系统的能耗和切换时延。

4.1系统模型
相较于覆盖范围大、问隔距离远的宏蜂窝,飞蜂窝具有覆盖范围小、部署密
度高的特点。在飞蜂窝基站密集部署的热点区域,为保证用户的数据传输速率和

用户体验(QoE,Quality ofExpefience),移动终端需在各飞蜂窝小区间频繁切换,
导致较高的信令负载和掉线率,增加了移动终端和飞蜂窝基站的能耗。同时,对
于高速或非实时业务请求的移动用户而言,在途经的飞蜂窝小区内的驻留时间极

短,并能容忍一定的时延,往往尚未或刚刚完成切换,便已经离开了所途径的飞
蜂窝小区的覆盖范围。因此,有必要对高速移动与非实时业务请求用户的小区切
换请求进行接纳控制,以减少不必要的切换,降低系统能耗。

目前,大部分己有的LTE.A飞蜂窝系统接纳控制算法主要研究准入控制【3 3l、
拥塞避免刚和混合接入的激励策叫35][36]13711381 139],对如何在考虑业务类型的基础
上,通过接纳控制降低系统能耗的研究较少。考虑到目前LTE.A系统主要通过
谱资源分配[59-60】、功率控制[34,61。63】和休眠/唤醒机制【6a-65]最小化系统能耗,本章借

鉴功率控制与休眠/唤醒机制的思想,提出了一种基于自适应功率调整与休眠/唤
醒机制的接纳控制算法PCSWAC。

考察如图4.1所示的LTE.A飞蜂窝系统接纳控制场景,在宏基站覆盖范围内,
随机分布着若干飞蜂窝基站。飞蜂窝基站有“休眠”和“激活”两种工作状态,
若飞蜂窝基站覆盖范围内无用户,则飞蜂窝基站切换到“休眠”状态;否则,飞

蜂窝基站切换到“激活”状态。假设总带宽被等分为Ⅳ。个宽度为△.厂子信道,令
∥表示该OFDMA系统中所有子信道的集合,则有l形I州。。当移动终端进入“休
眠”飞蜂窝基站的覆盖范围后,将触发飞蜂窝基站的PCSWAC算法,通过估算移

动终端在该FBS覆盖范围内的驻留时间兹。与平均期望传输时间诺。m。进行接纳
控制。若允许MT接入该FBS,则将该FBS从“休眠”状态下唤醒,同时,激活移

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

动终端的自适应功率调整机制。

激活状态
、FBS

穆动终端MT

图4.1 LTE.A飞蜂窝系统接纳控制场景

为便于对PCSWAC算法进行描述,给出该策略涉及参数的定义:
定义4.1(驻留时间)移动用户“进入飞蜂窝基站邱S覆盖范围后,从“开
始与FBS通信的时刻到终止与
,在甜户用为称,度长间
U 时的问刻时FBS,
的信通

该FBS内的驻留时间,记作艺0。,
定义4.2(平均期望传输时间)用户甜缓存数据量与飞蜂窝基站用遇所能

提供的平均数据传输速率之商,称为平均期望传输时问,记作f=。删。
PCSWAC算法的具体步骤如表4.1所示。

表4.1接纳控制算法

接纳控制算法
l:用户“向FBS j发出切换请求,触发接纳控制机制。
2:估算FBSi的可用频带数目M.胡。

3:估算“在FBSj的%,:
利用表4.2的DTEA算法;

4:估算“缓存数据的平均期望传输时间诺鲥甜
利用表4.3的AETTA算法,并得用户所需频带数目
N。,B。

5:判断是否将FBS i从“体眠”状态唤醒:

if‰>嗤:删,玑、m<M∞then
将FBS i从“休眠”状态切换到“激活”状态;
触发“的功率自适应调整机制;
else

拒绝用户甜切换到FBSi。
endif

6:接纳控制结束。

27

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

所提出接纳控制算法,旨在精确预测驻留时问僦,,和平均期望传输时间
,唧u,i。州的基础上,决定是否唤醒“休眠”状态的飞蜂窝基站,以保证用户QoS,降
低LTE.A飞蜂窝系统能耗,减少用户频繁且不必要的切换。

4.2接纳控制算法设计
本节将详细阐述如何估算PCSWAC算法中的用户驻留时间、平均期望传输

时间,以及如何实现移动终端发射功率的自适应调整。

4.2.1估算用户驻留时间

要预测用户在飞蜂窝中的驻留时问,需首先判断用户进入飞蜂窝覆盖范围时
的移动方向与移动速度。假设用户采用高斯.马尔可夫移动模型,如式3.5和式

3.6所示,将移动模型的记忆因子口设置为l。为了便于计算,传播模型中仅考
虑路径损耗,不考虑快衰落及阴影衰落的影响。

图4.2 LTE-A飞蜂窝系统切换场景

考察如图4.2所示的移动场景。在时刻,,,用户甜与飞蜂窝基站FBSk问的信
号功率、用户1.1与宏基站MBS,问的信号功率、飞蜂窝基站船叉与宏基站MBS,间
的信号功率,分别记作田哝k、SNRⅢ",和SNRj:M,。在LTE-A飞蜂窝系统rtl,
SNR:F的值可由飓叉直接测得, 的值则通过 ,与船s。问的回程网络
(, lnetwork)
uahkcabS 传给尼投。S根NR据:0
知BM可】66【准 标
3GPP ,在路径损耗模型、信

号功率己知的情形下,可计算用户“与飞蜂窝基站船S间的距离硌、用户“与
宏基站MBSj l'nq的距离戤,、飞蜂窝基站飓叉与宏基站MBSj间的距离d乏M.。
估算驻留时间,山棚的DTEA算法,如表4.2所示。

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

表4.2 DTEA算法

估算驻留时间DTEA算法
假设:用户甜在ti时刻进入FBSk的覆盖范剧:

1:根据SN氆F,、SNR'知.、SNR是Mj分别计算d峨tl、d峨ti、d‰。
2:同理,根据吣、SNR勃,、吨,分别计算d。ril。l、瞄、磁砘。
B:。,。。。sf』! ! 。!掣],
3:由反余弦定理可得:

‰…cosf躞掣1.
可得B+,_‘=巴+.一包,用户“在垃=‘+。一‘内的移动距离为:

削=√(‰)2+㈨)2-2噍貔cosq^,
可推出,移动速度为:

~cosf掣]
1,=—a—d,

移动方向为:

4:基于上式,可得驻留时间

f^。Ⅳ一2Rcos0, , 出一2Rcos0,. (t+I.‘).

4.2.2估算平均期望传输时间

本文利用随机网络演算理论估算用户数据的平均期望传输时间。随机网络演
算作为一种网络性能分析工具,可得到LTE.A飞蜂窝系统端到端的时延边界。
定义4.1(v.b.c随机到达曲线)【671若对于任意f≥0,x≥0,有

Pr{叩{彳(蹦)一口(蹦)}>0l<f(x),
L…∑I ’
(4.1)

成立,则称数据流4具有界限函数为f∈F的v.b.C随机到达曲线口∈F,记作

A(t)~曲(/1,口)。
定义4.2若对于任意f≥0,有

Pr{Ao∥O)一A+(t)>x}≤g(工). (4.2)

成立,则称系统为数据流爿提供具有界限函数为g∈亏的弱随机服务曲线卢(f),
记作S~。(g,卢)。

定理4.1‘681若系统的输入流彳具有v.b.c随机到达曲线爿(f)-。(f,口),且系

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

统为输入流4提供弱随机服务曲线S~。,(g,声),则对所有的t≥0,x≥0,系统的
随机延迟上界D(t1为:
Pr{D(t)≥h(a+x,∥)}≤fog(x). (4.3)

假设用户的业务流到达服从马尔可夫调制0N/0FF到达过程,该过程为离散

时间的二状态马尔可夫链,ON.OFF数据源在激活和休眠两个状态之间相互转

换,如图4.3所示。参数五和“分别表示从激活状态到休眠状态、休眠状态到激
活状态的转移速率。

图4.3二状态马尔科夫链

已有研究证吲671,对于任意醴>0和0>o而言,二状态马尔可夫链具有v.b.c
随机到达曲线口(f)=p(臼)“具有的边界函数为:

厂(x)=亡备已一. (4.4)

其中,p(臼)=寺卜忡+而i鬲瓦)。
假设基站具有常服务速率C Mbps,其值可根据香农公式求得。在此假定下,

基站提供的确定性的服务曲线∥(f)=c・f,在时问(s,t]内,基站提供的服务速率
为c(f—s)。
估算平均期望传输时间氍。。把d的AETTA算法,如表4.3所示。

表4.3 AETTA算法

估算平均期望传输时间AETTA算法

l:初始化

计算并初始化FBSi当前可周信道个数M。;

初始化分配给用户“的子信道个数虬=0;

2:令帆=1.
3:确定随机到达曲线

求解公式:

p(o)=‰・h
其中,/z'on=_生为ON状态下的稳态概率,h为业务流
几十“

的到达速率。

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

续表

估算平均期望传输时间AETTA算法
4:确定服务速率与确定服务曲线:
当前服务速率为:
V=帆Afl090+I咽SI),
用户提供的确定服务曲线为:
∥(f)=V记
5:导出时延违约概率:

Pr{D(/)>h(ot+x,功}≤,@g(x),
其中,h(a+x,卢)=ta。Ⅳ
6:更新Ⅳ++
if
Pr{D(,)>h(ot+x,纠}>5 then

ⅣI,十+,尉l转到第3步;
else

N。B=N。,
endif

7:计算le…ap刚ed2
虬,旧Af log(1+RSSI)’
8:return瑶u,t哪cd,虬∥

4.2.3自适应调整终端功率

通过利用LTE—A飞蜂窝系统提供的物理层测量参数,可实现移动终端发射功

率的自适应调整。其基本思想是若能保证用户的SINR大于某个阈值死,则可使
用户在小区切换过程中不掉线。同时,通过调整用户功率,可间接改变用户的

SINR。结合基站提供的RSRP、RIP等物理层参数,便可求得死。调节用户发射

功率,使用户的SINR略高于记为死,不仅可以确保用户从当前服务小区到目标
小区的无缝切换,还可以降低移动终端设备的能耗。
下面通过理论分析验证该思想的可行性:

令c0和c:分别表示采用子信道k∈矽的宏基站与飞蜂窝基站的集合,吮
和u:分别表示采用子信道k的宏用户(MUE,Macrocell User Equipment)年ll飞蜂窝
用户(FUE,Femtocell User Equipment)I构集合,连接到基站S∈∞t.3CFk的用户
“∈U,k uu乞在子信道k上的平均SINR为:

如。:譬岛.
h“l:+《j
”。‘
(4.5)

其中,P。为用户Ⅳ的发射功率,g匕,为用户甜到基站S在子信道k上的信道增益,
盯;为当前服务基站S接收到的AWGN噪声功率,r为服务基站S接收到的干扰。
露=∑只吕k.+,+∑p,gI,+∑‰‰k+,+∑以g乞,. (4.6)

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

其中,(喜\{S)和啡\{S)分别为除当前服务基站S外,其他使用信道k的宏基站
与飞蜂窝基站的集合;吮\{U)和啡\{“)分别为除用户“外,其他使用信道k的
宏用户与飞蜂窝用户的集合;只、Pj、P。、见分别为采用子信道k宏基站、飞
蜂窝基站、宏用户及飞蜂窝用户的功率;g_,、g_。、或+,、如。分别为采用
子信道k宏基站、飞蜂窝基站、宏用户及飞蜂窝用户到当前服务基站s的信道增
益。

令甲,。表示用户U的相邻小区列表NCL中的候选小区的集合。若要实现小区
间的无缝切换,需保证用户U的SINR大于阈值死。根据公式4.5可知,保持用户甜

2“k
与目标小区C∈、王,。,问链路不中断的最小发射功率为:

‰,:圣【茎±型
A_c . (...)
L4./J
g“_+c

表4.4给出了3GPP规定的一系列LTE.A物理层测量(physical layer

measurements)[661参数,利用这些物理层测量参数,可估算终端的平均发射功率。

表4.4物理层测量参数

量度指标 标记

参考信号接收功率(RsR只Reference Signal Receiving Power) 尺51RP-+。


下行参考信号发射功率
(DL RS Tx,Downlink Reference Signal Transmitted Power)

接收的干扰功率(I姑Received interference power) I,

其中,RSRP。.+。为移动终端“测得的参考信号接收功率,酽为当前服务小区c的
下行参考信号传输功率,L为当前服务基站c接收到的干扰功率。根据3GPP标
准【66]定义,可将R.里R£.+。和lc的表达式定义为:
RSRP。,+。=B。Y・&.+。, (4.8)

厂 、

t=I∑B吕k。。+∑马吐。+∑岛,‰k+。+∑岛如。+Z
—e雌
Je(善、仁j
I. (4.9)
L,e嘻\{c} me[JkM /

假设信道增益具有对称性,则由公式4.8可得:

‰兰‰,:型》.
&.+。兰&.+。2—i意2. (4.10)4
L. 10

根据公式4.7、公式4.9和公式4.10,可推出用户在当前服务小区s的发射功率,
如式4.11所示:

(4.11)
£皇只#淼-ptRSI.
同理,可推出用户在候选小区c的发射功率:

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

。=簪黼掣. ㈧,2,

因此,利用式4.1l*FI式4.12便可以实现用户发射功率的自适应调整,进而在

降低移动终端功耗的同时,实现小区问的无缝切换。

4.3接纳控制算法性能分析
为了验证PCSWAC算法在降低能耗方面的有效性,将PCSWAC算法与
Ashraf【65]【691所提出的接纳控制算法进行对比分析。
假设一段时问内移动终端进行小区切换的切换次数服从洎松分布,则时间段
T内发生k次切换的概率例如式4.13所示:

m刀:掣e~. (4.13)

其中,旯=一1,t为用户接收的飞蜂窝基站的SNR超过切换阈值的时间长度。

由式4.13可知,若时间段Tl内未发生切换,则k=0,可知用户未从宏基站

MBS切换到飞蜂窝基站FBS i的概率为
P(o,1:)=已一艄. (4.14)

Ashra晰提出的接纳控制算法的平均功耗为:

毛曲可=E+;}毒[P_‘×B+1-e-4')×E]. (4.15)

其中,E为用户进入FBS i覆盖范围前,用户数据传输的平均能耗,颤为“休眠”

状态下的功耗,E。为“激活”状态下的功耗。
相比于Ashra晰提出的算法,PCSWAC算法在用户进入FBS i范围后并不直

接进行切换,还需要判断在驻留时间内是否能够完成缓存队列中数据的传输,其
平均能耗为:

EecswAc=E+将e吨×乓+1--e-4f'e-丑tg'H XEs+1-e-4'k")×E)卜㈣
根据式4.15和式4.16可知:
EP(.晰(、<E 4x埘.
可见,PCSWAC算法可以有效降低LTE—A飞蜂窝系统能耗。

4.4本章小结
本章深入分析了PCSWAC算法的研究动机与设计思路,给出了该接纳控制

算法的设计流程。详细阐述了PCSWAC算法中关键步骤的求解方案,包括利用

万方数据
第四章基于功率控制与休眠唤醒机制的接纳控制算法研究

SNR估算驻留时间的DTEA算法,利用随机网络演算理论估算平均期望传输时
间的AETTA算法,以及利用LTE.A物理层测量参数RSRP实现移动终端功率自
适应调整基本思想。通过与Ashraf提出的接纳控制算法进行对比,对PCSWAC
算法在降低能耗方面的有效性进行了理论分析。

万方数据
第五章仿真分析与验证

第五章仿真分析与验证
本章通过构建LTE.A飞蜂窝系统移动场景,验证所提出的小区切换算法

MDPQ和接纳控制算法PCSWAC的有效性。一方面,通过将MDPQ算法与MDPV
算法进行对比,验证了MDPQ在收敛速度与减少频繁且不必要的切换方面更优。
另一方面,通过将PCSWAC算法与Ashraf提出的接纳控制算法进行对比,验证

了PCSWAC算法在降低系统能耗与切换时延方面更优。

5.1小区切换算法模型仿真与性能分析
本章采用双条纹模型(dual stripe model)[71】验证所提出的小区切换算法

MDPQ和接纳控制算法PCSWAC的有效性,仿真环境如图5.1所示。


钨黜黜黔
//j

0交戡

\。

、_/

一一一一

。鳆殛戮:88瓣

一、、.

白飞蜂绷。 旷键、 督一一翘


8宏用户 (叩)

I双条纹街区
△膦 瑚、、“
图5.1仿真环境

在宏蜂窝覆盖范围内,随机部署着多个飞蜂窝街区(FemtoBlock),每个飞
蜂窝街区由一条宽度为10m的街道和两个由公寓排列成的条纹构成,每个条纹
包括两行十列lOre×lOre的正方形公寓。为了描述每问公寓中是否安装有飞蜂窝

基站,引入了飞蜂窝基站的部署密度参数,记为b。为了描述飞蜂窝基站是否处
于激活状态,引入了飞蜂窝基站的激活比例参数,记为_。假设所有的飞蜂窝基
站均采用开放接入模式,且随机部署在每间公寓内。假设公寓均是单层,基站与

移动终端MT间的路径损耗模型如表5.1所示。

万方数据
第五章仿真分析与验证

表5.1路径损耗模型

场景 路径损耗模型

MT
MT在室外 PL(dB)=15.3+37.6logIo R

MBS MT在室内 PL(dB)=15.3+37.6loglo R+z。

MT与FBS
PL(dB)=38.46+20log】oR+0.7d2,J,,‰,+q+厶,
在同一房间内
MT
到 MT在室外 eL(aB)_-y+o.7吐D,幽,+g+厶.+k.
FBS
MT与FBS
PL(dB)=/+o.7d,D,,,幽,十q8k,十三dH。+厶。:
在不同房间内

其中,.厂=max(15.3+37.6logloR,38.46+20109】oR),R表示基站与移动终端MT
问的距离,单位为米(m);畋肌。胁表示基站与移动终端间之间的室内距离;q表
示基站与移动终端MT问的墙壁数。

为估算MDPQ算法的性能,将其与文献[2 7】所提出的基于MDP和值迭代的
小区切换算法MDPV进行对比。假设宏基站的载波频率为2GHz,可用带宽为
5MHz,且被分为Ⅳ。=10个变长带宽的连续信道。假设用户数据包的到达服从泊
松分布,具体的仿真参数如表5.2所示。

表5.2 MDPQ算法仿真参数设置

36

万方数据
第五章仿真分析与验证

迭代次数

图5.2收敛速率

图5.2描绘了算法迭代次数与平均回报问的关系,可反映算法的收敛速率。

MDPQ算法迭代400次后便可收敛到最大平均累积折扣回报的期望,而MDPV
算法要迭代800次才能达到收敛,MDPQ算法的收敛速率更快。由算法最终收

敛到的最大平均累积折扣回报的期望可知,MDPQ算法可使用户得到更多的回
报。






建代次数

图5.3平均切换次数

图5.3,A显m示]'MDPQ算法与MDPV算法在不同迭代周期所对应的平均切换次
数。随着迭代次数的增加,移动终端的平均切换次数在两food,区切换算法下都具
有递增的趋势,这是因为仿真时间越长,移动终端发生切换的总次数越多。在每

个迭代周期中,采f:f]MDPQ算法时的平均切换次数低于采用MDPV算法时的平均
切换次数,这是因为MDPQ算法在进行小区切换时,考虑了频谱资源的分配,减
少了不必要的切换。

万方数据
第五章仿真分析与验证

5.2接纳控制算法模型仿真与性能分析
为估算PCSWAC算法的性能,将其与Ashraf【651169]所提出的接纳控制算法进
行对比分析。假设宏基站的载波频率为2GHz,可用带宽为10MHz,且被等分为
20个连续子信道。用户数据包的到达服从泊松分布,所采用的路径损耗模型如

表5.1所示,其他具体的仿真参数如表5.3所示。

表5.3 PCSWAC算法仿真参数设置

图5.4缓存数据大小VS功耗

图5.4描绘了LTE.A飞蜂窝系统平均功耗与用户缓存数据大小问的关系。随
着用户缓存数据的增大,采用Ashraf所提出的算法的飞蜂窝系统的功耗基本不

万方数据
第五章仿真分析与验证

变,而采用PCSWAC算法的飞蜂窝系统的功耗耗逐渐降低。相较于Ashraf所提
出的算法,PCSWAC算法更节能。这是因为PCSWAC算法不仅采用了休眠唤醒
机制,而且对切换的有效性进行了判断,能够减少不必要的切换,从而使飞蜂窝

基站更多的保持在休眠状态,降低了能耗。

图5.5速度VS功耗

图5.5描绘了LTE.A飞蜂窝系统平均功耗与用户移动速度问的关系。相较于
Ashraf所提出的算法,PCSWAC算法更节能。这是因为采用Ashraf所提出的算
法的飞蜂窝系统,只要有用户进入飞蜂窝的覆盖范围,飞蜂窝基站便会工作在正

常工作模式下,耗能较多。采用PCSWAC算法的飞蜂窝系统,当用户进入飞蜂
窝覆盖范围后,飞蜂窝基站会进行系统驻留时间的估算,对于高速移动用户,或
者该飞蜂窝无法提供有效数据传输服务的用户,飞蜂窝基站忽略其切换请求,减
少了不必要的切换,降低了能耗。

图5.6缓存数据VS切换时延

万方数据
第五章仿真分析与验证

图5.6描绘了用户缓存数据大小与平均切换时延问的关系。随着用户缓存数

据的增大,采用PCSWAC算法的飞蜂窝系统的平均切换时延逐渐降低,而采用

Ashraf所提出的算法的飞蜂窝系统的平均切换时延固定在347ms。这是因为
PCSWAC算法能有效减少用户的不必要的切换,降低移动用户的切换次数,进
而降低平均切换时延。





速厦(‰俑)

图5.7速度VS切换时延

图5.7描绘了用户移动速度与平均切换时延的关系。随着用户移动速度的增
加,采用PCSWAC算法的飞蜂窝系统的平均切换时延逐渐降低,而采用Ashraf

所提出的算法的飞蜂窝系统的平均切换时延固定在347ms。这是因为对于高速移
动用户而言,在途经的飞蜂窝中的驻留时间较短,用户发出的小区切换请求属于

不必要的切换,PCSWAC算法可以忽略此类不必要的切换,而Ashraf所提出的
算法不能减少不必要的切换。

5.3本章小结
本章对所提出小区切换算法MDPQ和接纳控制算法PCSWAC进行了仿真验
证。针对MDPQ算法,通过考察平均期望回报与迭代次数的关系,验证了MDPQ
算法的收敛性;通过对比分别采用MDPQ与MDPV的飞蜂窝系统的平均切换次

数,验证了MDPQ算法在减少不必要的切换方面的有效性。针对PCSWAC算法,
分别考察了移动用户缓存数据大小和移动速度对LTE.A飞蜂窝系统功耗和平均

切换时延的影响。仿真结果表明,PCSWAC算法可有效降低LTE.A飞蜂窝系统
能耗和切换时延。

万方数据
第六章结论与展望

第六章结论与展望

6.1结论
近年来,为解决LTE—A宏蜂窝系统中室内无线信号强度弱与覆盖范围不足

的问题,3GPP在宏蜂窝中引入了飞蜂窝系统,构成了LTE.A飞蜂窝双层异构网

络。飞蜂窝的大规模部署与应用,在提高宏蜂窝容量与频谱效率的同时,降低

了宏蜂窝负载,进一步保障了室内用户的QoS。
本文围绕LTE—A飞蜂窝系统的小区切换与接纳控制问题展开研究。

首先,运用马尔科夫决策过程和强化学习理论,提出一种兼顾频谱资源分配

的小区切换算法MDPQ。一方面,该算法实现了小区切换与频谱资源分配的联
合优化,在降低切换过程中的信令开销和掉话率的同时,最大化了LTE.A飞蜂
窝系统容量。另一方面,该算法综合考虑了用户的数据流到达、缓冲队列大小、

移动速度、可用带宽与时延等多种切换指标对小区切换的影响,相较于仅用单一
指标进行决策的小区切换算法,更能反映真实的网络状况。
其次,运用随机网络演算理论,提出一种基于功率控制与休眠唤醒机制的接

纳控制算法PCSWAC。一方面,该算法通过估算移动用户的驻留时问和平均期
望传输时问,实现了飞蜂窝基站工作模式的动态切换。另一方面,该算法利用
LTE.A飞蜂窝物理层测量参数,实现了移动终端发射功率的自适应动态调整。

最后,对所提出的小区切换算法与接纳控制算法进行了数值分析与仿真验

证。仿真结果表明,MDPQ算法收敛较快,可有效减少频繁且不必要的小区切
换:PCSWAC算法可有效降低切换时延、飞蜂窝基站能耗和移动终端能耗。

6.2展望
本文虽在LTE.A飞蜂窝小区切换与接纳控制算法研究方面取得一些成果,
但仍有一些问题需进一步研究,概括如下:

(1)小区切换MDP模型求解算法优化
本文提出的基于强化学习理论的MDP模型求解算法,每个移动终端均独立

进行学习与决策,忽略了其他用户行为对自身目标小区选择的影响,算法收敛速
度较慢。因此,下一步将研究如何设计一种协作式的强化学习算法,使各移动终

端共享学习信息,以进一步提高算法的收敛速度。
(2)算法设计环境更复杂
在小区切换算法中,本文假设移动终端在每个时槽内只能占用一个信道。在

万方数据
第六章结论与展望

接纳控制算法中,传播模型仅考虑路径损耗,忽略了快衰落及阴影衰落的影响。

这些假设不能反映实际的网络环境,因此,下一步将对所提出的算法在实际应用
中的有效性进行验证。

(3)小区切换算法与接纳控制算法的联合应用
本文所提出的小区切换算法与接纳控制算法是相互独立的,而在实际场景

中,小区切换过程中会涉及到接纳控制判断。此外,小区切换与接纳控制的独立

还损失了在降低切换次数与切换时延方面的最优性。因此,下一步将综合小区切
换与接纳控制两个方面对LTE.A飞蜂窝移动性管理进行研究。

42

万方数据
参考文献

参考文献
[1]Cisco.Cisco Visual Networking:Global Mobile Data Tr墒c Forecast Updme,2013-2018『R1,
2013:1-40.

[2]Zhang Q,zhu X,WU L,et a1.A coloring—based resource allocation for OFDMA femtocell

networks[C]H IEEE Wireless Communications and Networking Conference rWCNC’13).


正EE,Shanghai,China,2013:673.678.
【3】Zahir T,Arshad K,Nakata A,et a1.Interference management in femtocells[J].
Communications Surveys&Tutorials,IEEE,2013,15(1):293-311.
[4】Mahmud S A,Khan G M,Zafar H,et a1.A Survey on Femtocells:Benefits Deployment
Models and Proposed Solutions[J].Journal of applied research and technology,2013,11(5):
733.754.

[5】G6dor G Jak6 Z,Knapp A,et a1.A survey of handover management in UE-based multi-tier
femtocell networks:Requirements,challenges and solutions[J].Computer Networks.
2015f76):17.41.
[6】Guo T,Wang N,Tafazolli R.Local mobility management for networked femtocells based on
X2trafficforwarding[J].IEEETransactions onVehicularTechnology,2013.62(1):326.340.
【7】Amirrudin N A,Ariftin S H S,Malik N N N A,et a1.Mobility Prediction in Long Term
Evolution(LTE)FemtocelI Network明.Handbook of Research on Progressive Trends in
Wireless Communications and Networking.20 l 4.1:99.
[8]Dhahri C,Ohtsuki T.Cell selection for open.access femtocell networks:Learning in
changing environment[J].Physical Communication.2014.13:42.52.
『91 Ahmed A U,Aziz F B,Masum T M,et a1.Resource allotation in hybrid access control
femtocell network targeting inter-cell interference reduction[C]#International Conference on
Electrical Information and Communication Technology(EICT’14).IEEE.2014:1-5.

[10】Huber K D,Mansfield W G Flynn J J.Reciprocal addition of attribute fields in access

contr01 lists and profiles for femto eell coverage management:U.S.Patent 8.850.048[P1.
2014.9.30.

[11]Li C,Dnan H,Ba H,et a1.Access control for hybrid femtocell network based on AGV
mechanism[C]#1 6th Internafiona】Conference on Advanced Communication Technolo,.oy
(IfACT’141,IEEE.2014:1055.1058.
[1 2]Deshpande M M,Pica F,H01"11 G B,et a1.Regis廿ation and access control in femto eell
deployments:U.S.Patent 8,626,162『P1.2014.1.7.
[13】Ho L T W.Femtocell base station,and a method ofcontrolling a femtocell base station:U.S.
Patent
8.725.150[P].2014.5.13.
[1 4】Kalbkhani H,Yousefi S,Shayesteh M G Adaptive handover algorithm in heterogeneous
femtocellular networks based on received signal strength and

signal-to-interference-plus-noise ratio prediction[J].IET Communications,20 1 4,8(1 71:


306l-3071.

[1 5]Gupta A K,Dhillon H S,Vishwanath S,et a1.Downlink coverage probability in MIM0

HetNets with flexible cell selection[J].IEEE Globecom,Austin。E(.2014:1.5.

【1 6】Alkhatib A,King P An approximate dynamic programming approachto decision making in


the presence of uncertainty for surfactant—polymer flooding[J].Computational Geosciences.

2014.18f21:243.263.
[17】Luan L,Wu M,Shen J,et a1.Optimization of handover algorithms in m hi曲-speed
railway networks[J].JDCTA,2012,6(5):79—87.
[18】Zhang Y,Wu M,Ge S,et a1.Optimization of time-to-trigger parameter on handover
performance in LTE high-speed railway networks[C]//1 5th International Symposium on

Wireless Personal Multimedia Communications(WPMC’12),IEEE,2012:251-255.


[19]Xenakis D,Passas N,Merakos L,et a1.Energy.efficient and interference.aware handover
decision for the U1E-Advanced femtocell network『C1//IEEE international Conference on

Communications(ICC’131,IEEE,2013:2464.2468.
[20】Salih Y K,Hang See O,Ibrahim R W et a1.A novel noncooperative game competing model

43

万方数据
参考文献

using generalized simple additive weighting method to perform network selection in


heterogeneous wireless networks[J].International Joumal ofCommunication Systems.2014.
Verma R,Singh N E GRA Based Network Selection in HeterogeneousⅥheless Networks『J1
『2 1 1
Wireless personal communications,2013,72(2):1437-1452.
[22】Qing-min L S M,Zheng-kun P S M.A Simple Additive Weighting Vertical Handoff
Algofithm Based on SINR and AHP for Heterogeneous Wireless Networks[J1.Journal of
Electronics&Information Technology,201 1.33(1):235.239.
『231 Chamodrakas I,Martakos D.A utility.based fuzzy TOPSIS method for energy emcient
network selection in heterogeneous wireless networks[J].Applied Soft Computing,2012,
12(71:1929—1938.
『241 Sun C,Stevens-Navarro E,Wrong V W S.A constrained MDP.based vertical handoff
decision algorithm for 4G wireless networksrcl//IEEE Intcrnational Conferencc on

Communications(ICC’08),IEEE,2008:2169-2174.
『251 Mach R Becval"Z.Vertical Handover Decision in Heterogeneous Wireless Networks with

Femtocells[J].Electronics and Electrical Engineering,2014,20(2):93—101.


『261 Zhou H,Hu D,Mao S,et a1.Cell association and handover management in femtocell
networks[C]#IEEEⅥheless C:ommunications and Networking Conference(WCNC’13).
IEEE.2013:661.666.

『271 Pan J,Zhang W.An MDP-Based Handover Decision Algorithm in Hierarchical U甚


Networks[C]//2012 IEEE Vehicular Technology Conference fV7I℃’12),IEEE,2012:1.5.
『281 Ren Z。Fertl P’Liao Q,et a1.Street.specific handover optimization for vehicular terminals in
future cellular networks[C1//IEEE 77th Vehicular Technology Conference(VTC’13)。IEEE。
2013:1—5.
『291 Tu H M,Lin J S,Chang T S,et a1.Prediction-based handover schemes for
relay-enhanced
【丁E.A systems[C]# Wireless Communications and Networking Conference
IEEE

fWCNC’12),IEEE,2012:2879.2884.
『301 Song Y'Kong P,Han Y.Power-Optimized Vertical Handover Scheme for Heterogeneous
Wireless Networks[J].IEEE Communications Letters。2014.18(2):277—280.
『3 11 Tang H,Hong P,Xue K.HeNB.aided virtual-handover for range expansion in L]陋
femtocell networksfJl.communications and Networks,Journal of,2013,15(3):3 12-320.
『321 Sung N W:Pham N T'Yoon H,et a1.Base station association schemes to reduce unnecessary
handovers using 10cation awareness in femtocell networks『J1.Wireless networks,201 3,1 9(5):
741-753.
『331 Ling Z B Q.Resource Allocation in Hybrid Access OFDMA Femtocell Networks[J].Journal
Teclmology,2011.33(11):2569—2574.
ofElectronics&Information

[34】Le a1.QoS—aware and energy—efficient resource


L B,Niyato D,Hossain E,et management in
0FDMA femtocells[J].IEEE Transactions on Wireless Communications,2013,12f11:
180-194.

『351 Yin J,Sun G Yang F’et a1.Incenfive mechanism for access permission and spectrum trading
in femtocelI network[C]//IEEE International Conference on Communications(ICE).IE髓.
2013:5959—5963.

[36】Chen Y Zhang J,Zhang Q.Util埘一aware refunding framework for hybrid access femtocell

network[J].IEEE Transactions on Wireless Communications,2012,11f51:1688-1697.


『371 Chai C H.Shih Y Y Pang A C.A spectrum-sharing rewarding framework for co—channel
hybrid access femtocell networks[C]//Proc.IEEE仆ⅢOCOM.ⅢEE.2013:565—569.
[38]Yi Y,Zhang J,Zhang Q,et a1.Spectrum leasing to femto service provider with hybrid
accesslC]//Proc.ⅢEE INFOCOM.IEEE.2012:1215一1223.
『391 Chen Y'Zhang J,Zhang O,et a1.A reverse auction framework for access permission
transaction to promote hybrid access in femtocell networkICl#Proc.IEEE INFOCoM.IEEE.
2012:2761.2765.

[40]Cheung W C,Quek T Q S,Kountouris M.Throughput optimization,spectrum allocation,


and access control in two-tier femtocell networks『J1.IEEE Joumal on Selected Ateas in
Communications,2012,30(31:561.574.
『4 1 1 Li C,Wu J。Feng Z,et a1.Joint Access Contr01 and Subchannel Allocation Scheme for
Femtocell.Based M2M Network Using a Truthml Mechanism[J].Intemational Journal of
Distributed SensorNetworks.2013.2013:1—11.
f421 Cheang W C,Quek T O S。Kountouris M.Access control and eel】association in two—tier

万方数据
参考文献

networks[C]//lEEE Wireless Communlcafions and Networking Conference


femtocell
(WCNC’121.IEEE.2012:893.897.
『43]Chen C M.Wu T Y Tso&et a1.Security Analysis and Improvement of Femtocell A。ccess
Control[M1//Network and System Security.Springer International Publishing,2014:
223.232.

『441 Borkar V S,Ghosh M K.Recent trends in Markov decision processes[J].Joumal of the


Indian Institute ofScience。2013。75(1):1-5.
【45]林闯,万剑雄,向旭东,孟坤,王元卓.计算机系统与计算机网络中的动态优化:模型,
求解与应用[J].计算机学报,2012,35(7):1339.1357.
f461 Gup W,Liu E He D,et a1.Reactive power control of DFIG wind farm using online

supplementary leaming controller based on approximate dynamic programming[C]#


International JointConference onNeuralNetworks0JCNN’14).1EEE.2014:1453-1460.

[47】Kurzhanski A B,Varaiya E The Dynamic Programming Approach[M]//Dynamics and


Control ofTrajectory Thbes.Springer International Publishing.2014:47.86.
『481 A1一Chalabi A,Calvo A,Chip A。et a1.Analysis of amyotrophic 1ateral sclerosis as a
multistep process:a population・based modelling study【J】.The Lancet Neurology,20 1 4,

13(1 11:1108—11 13,


f491 Boda D,Kovacs R,Gillespie D,et a1.Selective transport through a model catcium channel
studiedby Local Equilibrium Monte Carlo simulations coupled to the Nernst__Planck
equation[J].Journal ofMolecular Liquids.2014,189:100.1 12.
『501 Teichmann J,Broom M,Alonso E.The application of temporal difference learning in
optimal diet models[J].JoumaI oftheoretical biology,2014.340:1 1.16.
f5 1 1 Lewis,Frank L.,and Derong Liu,eds.Reinforcement learning and approximate dynamic
programming for feedback contr01.V01.17.John Wiley&Sons.2013.
[52]Saad H,Mohamed A,ElBatt T.A Cooperative Q-Learning Approach for Online Power
Allocation in Femtocell Networks[C]//IEEE 78th VjMcular Technology Conference
(VTC’13).IEEE.2013:1.6.
[53]Jiao Y Ma L,Xu Y.Research on vertical handover in L11E two.tier Macrocell/Femtocell
Systems based Oll fuzzy neural network『C1//Intemational Conference on Computing,
Communication and Networking Technologies(ICCCNT)。IEEE.2014:1.5.
『541 Hung M S,Pan J Y,Huang Z E.Analysis of Handover Decision with Adapfive 0ffset in
Next.Generation Hybrid Macro/Femto-eell Networks[C]#Tenth Intemational Conference on
Intelligent Information Hiding and Multimedia Signal Processing(IIH.MSP’141,IEEE,2014:
729.734.

【55]Kaymakgm垂lu P'Senel K,Akar M.Delay Based Handover Algorithm Design for Femtocell
Networks[M]//Intemet of Things,Smart Spaces,and Next Generation Networks and Systems.
Springer Intemational Publishing.2014:205.218.
[56】Ferragut J,Mangues・Bafalluy J.A distributed paging mechanism over the X2 interface for
all—wireless Networks of Small Cells[C]#7th IFIP Wireless and Mobile Networking

Conference(WMNC’14).IEEE.2014:1.7.
[57]3rd Generation Partnership Project,Qualivy of Service(QoS)concept and architecture[S】,
3GPP TS 23.107 V12.0.0.2014.

『58]Stevens-Navarro E,Lin Y Wong V W S.An MDP—based verticaI handoffdecision algorithm


for heterogeneous wireless networks『J1.IEEE Transactions on Vehicular Technology,2008,
57f21:1243-1254.
[59】Zheng Z,Harealmnen J,Yang Y On uplink power control optimization and distributed
resource allocation in femtocell networks[C]#IEEE 73rd V曲icular Technology Conference
fVTC’11),IEEE。201l:1.5.
【60】Cao G Yang D,Zhang X.A distributed algorithm combining power control and scheduling
for femtocell networks[Cl#IEEE Wireless Communications and Networking Conference

(WCNC’12).IEEE。2012:2282.2287.
[6 1】Lee B B,YU J,硒m S J.A Distributed and Intelligent Power Control Scheme in
L11E-Advanced Femtocell Networks[M]//Future Information Technology,Application.and

Sen,ice.SpringerNetherlands.2012:317.325.
[62】Kang X,Zhang R,Motani M.Price.based resource allocation for spectrum.sharing
femtocell networks:A stackelberg game approach[Y1.IEEE Joumal on Selected Ateas in
Communications,2012.30f31:538.549.

万方数据
参考文献

[63]Xie R,Yu F R Ji H.Energy-efficient spectrum sharing and power allocation in cognitive


radio femtoeell networks[C]//Proc.oflEEE INFOCOM.IEEE.2012:1665.1673.
[64]Saker L,Elayoubi S E,Combes R et
a1.Optimal control of wake up mechanisms of
femtocells in heterogeneous networks[J].IEEE Journal on Selected Areas in Communications.
20 1 2,30f3】:664-672.

[65]Ashraf I,Ho L T W,Claussen H.Improving energy efficiency of femtocell base stations via
user detection[C]//IEEE Wireless Communications and Networking Confefence
activity
(WCNC).IEEE.2010:1.5.
【66】3rd Generation Partnership Project,Evolved Universal Terrestrial Radio Access饵.UTRA);
Physical layer;Measurements[S],3GPPTS 36。214 V12.1.0.2014.
[67]3iang Yuming.A note on applying stochastic network calculus.20 1 0.
【68]陈听,张磊,向旭东,万剑雄.基于随机网络演算的LTE网络端到端时延分析[J].计
算机学报,2012,35(1):46.52.
【69]Claussen H,Ashraf I,Ho L T W.Dynamic idle mode procedures for femtocells[J].Bell Labs
Technical Journal,2010.15(2):95.116.

[70】Chen Y S,wu C Y‘A green handover protocol in two.tier OFDMA macrocell-femtocell


networks[J].Mathematical and Computer Modelling.2013.57(111:2814—2831-
[7 1]3rd Generation Partnership Project Simulation Assumptions and Parameters for Fdd Henb
RfRequirements[S],R4—092042,2009.

万方数据
附录A英文缩略词表

附录A英文缩略词表
缩略词 英文全称 中文全称
3rd Generation Partnership
3GPP 第三代合作伙伴计划
Proiect
AC Access Control 接纳控制
Approximate Dynamic
ADP 近似动态规划
Programming
AHP Analytical Hierarchy Process 层次分析法
处闲GN Additive鼢ite Gaussian Noise 加性高斯自噪声
BE BestE圩ort 尽力服务
CA Carrier Aggregation 载波聚合
Constraint Markov Decision
CMDP 约束马尔科夫决策过程
Process

DEs Decision Epochs 决策时刻


Downlink Reference Signal
DLRSTx 下行参考信号发射功率
Transmitted Power

DP Dynamic Programming 动态规划


姆 Access Point 接入点
FBS Femto Base Station 飞蜂窝基站
FUE Femtocell User Equipment 飞蜂窝用户
GRA Grey Relmional Analysis 灰色关联分析法
HHM Handover Hysteresis Margin 切换滞后余量
LTE Long Term Evolution 长期演进计划
LrE.A Long TerlTl Evolution.Advanced 高级长期演进
Multiple Attributes Decision
MADM 多属性决策
Making
MBS Macro Base Station 宏基站
MC Monte Carlo Methods 蒙特卡罗算法
MDP Markov decision process 马尔科夫决策过程
MP Markov Process 马尔可夫过程
MT Mobile Terminal 移动终端
MUE Macrocell User EquiF}ment 宏用户
NCL Neighbor Cell Lists 邻,J、区歹0表
Orthogonal Frequency Division
0FDMA 正交频分多址接入
Multiple Access
PA Poisson Arrival 泊松到达

47

万方数据
附录A英文缩略词表

缩略词 英文全称 中文全称

QoS Quality of Service 服务质量

QoE Quality of Experience 用户体验质量


RIP Received interference power 接收的干扰功率
RL Reinforcement Learning 强化学习
RS Reinforcement Signal 强化信号

RSQ Received Signal Quality 接收的信号质量


Reference Signal Receiving
RSRP 参考信号接收功率
Power

RSS Received Signal Strength 接收信号强度


SAW Simple Additive Weighting 简单加权法
SDP Sequential Decision Problem 序贯决策
Semi.Markovian Decision
SMDP 半马尔科夫决策过程
Process

SNC Stochastic Network Calculus 随机网络演算


TD Temporal Difference 瞬时差分
Technique for Order Preference
TOPSIS 逼近理想解排序法
by Similarity to Ideal Solution
TTT Time To Trigger 延迟触发时间
WPF Weighted Proportional Fair 加权比例公平

万方数据
个人简历在校期间发表的学术论文与参与研究的课题情况

个人简历在校期间发表的学术论文与参与
研究的课题情况

个人简历:

王鸿鲁,男,1988年7月生,山东莱芜人。

2008.09—2012.06,山东科技大学计算机科学与技术专业学习,获工学学士学位。

2012.09..至今,北京信息科技大学计算机学院计算机系统结构专业学习,攻读硕士学

俯。

参与科研项目:
[1]2014.01—2017.12,国家自然科学基金面上项目“LTE.A飞蜂窝系统的动态资源分配与

性能评价研究”(编号:61370065)

[2]2012.10—2013.04,中国航空工业集团公司第613研究所“大容量高带宽存储管理技术

研究与应用开发”项目

[3]2013.12~2014.05,中国航空]:业集团公司第613研究所“机载高分辨率图像实时加解

密系统研究与开发”项目

发表论文:

[1]王鸿鲁,陈听,高潮欣,韩友等.基于GSPN的数据中心动态能耗管理研究【J].系统仿

真学报,2014,26(12):3007.3014.(中文核心期刊)

[2]Xin Chen,Honglu Wang,Xudong Xiang,Chaoxin Gao.Joint Handover Decision and

Channel Allocation for LTE-A Femtocell Networks.Game Theory for Networks(GameNets),


2014:70.74.(El检索源)

[3]Bi Yu—ring,Chen Xin,Wang Hong—lu and Liu Zong—Qi.An Adaptive Spectrum Allocation

Algorithm in Femtocell Networks Using Q—learning.Information Technology Joumal,

2013(12):7353.7360.(El检索:20142417805823)

49

万方数据
致谢

致谢
回想2012年的夏天,我来到北信科的场景仍历历在目,仿若昨天。两年半
的读研生涯,一路走来,得到许多老师和同学的关怀和帮助,谨以此文表达我对
他们深深的谢意。
“春风化雨,师恩难忘”,首先感谢我的导师陈昕教授对我悉心的指导和帮
助。陈老师在研究生培养上始终把“育人”作为第一目标,常常跟我讲做人和做
事的道理,“只有广阔的胸襟,才有远大的视野”,“人生的精采是一天一天充满
希望活出来的,与环境和周围无关,关健是你心有多大并踏实付出”等一系列精
辟的见解将使我终生受益。在科研上,陈老师总能用深入浅出的语言讲清楚复杂
的原理。在工作上,陈老师严谨认真,诲人不倦。在生活上,陈老师总能给与我
指导,使得我能够突破藩篱,积极乐观的面对所遇到的压力和困难。在此,向陈
老师表达我衷心的敬意和感激之情,祝福老师身体健康!
感谢在清华网络技术研究室攻读博士的向旭东师兄,在我写小论文和做毕设
时,向师兄给与了很多计算模型、算法和实验方面的帮助,并对我的大论文提出
了宝贵的修改意见,感谢向师兄一直以来的付出。
感谢已经毕业的刘宗奇师兄、蔡俊师兄、张辉师兄和毕玉婷师姐,在我刚进
团队和后期学习中,你们给了我很多学术和生活方面的指导。
感谢与我同一个课题小组的司远、李龙飞和高潮欣,以及其他两位舍友李煜
和霍磊,和你们一起交流学术、反思生活、探讨人生的过程,是我硕士生涯很愉
快的经历,感谢你们一直以来的帮助。感谢贾玉栋、汪凯、纪建伟、韩友、宋亚
鹏等师弟,和你们一起讨论学术的经历很难忘。
感谢计算机学院的各位老师和开放系统实验室的同学对我的关心与帮助,和
你们一起的时光很难忘,希望我们的友谊长存。
感谢我的家人、同学、舍友、朋友们,他们总能够在我需要帮助的时候,帮
助我、开导我、鼓励我。
最后,感谢参与本文评审和答辩的各位专家学者,在此表达诚挚的感谢。

王鸿鲁
2015年3月

万方数据

You might also like