You are on page 1of 24

订阅DeepL Pro以翻译大型文件。

2756 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021


欲了解更多信息,请访问www.DeepL.com/pro。

基于强化学习的水下声学传感器网络的机
会主义路由协议
张颖 ,张哲明 ,陈磊,王新恒 IEEE高级会员

摘要--由于水下声学传感器网络(UASN)存在高误码率和延
迟、低带宽和传感器节点能量有限等问题,设计一种能在动态
网络环境中灵活运用的高可靠性、强健性、低端到端延迟和高
能量效率的路由协议显得尤为重要。因此,本文结合机会主义
路由和强化学习算法的优点,提出了一种基于强化学习的机会主
义路由协议(RLOR)。RLOR是一种分布式路由方法,它综合
考虑节点的外围状态来选择合适的中继节点。此外,RLOR还采
用了一种恢复机制,使数据包能够有效地绕过空白区域继续前进
,从而提高了一些稀疏网络中的数据传递率。仿真结果表明,与
其他有代表性的水下路由协议相比,所提出的RLOR在水下动态
网络环境中的端到端延迟、可靠性、能源效率等方面表现良好。
Index Terms-UASNs, reinforcement learning, opportunistic
routing, routing void, reliability.
图1. UASNs的示意图。

I. 简介

U 近年来,水下声学传感器网络(UASNs)因其在海
洋监测和资源开发方面的强大能力而引起广泛关注。由于
无线电波在水下传播的巨大衰减,声学传输已成为水下环
境中最常见的通信方式。如图1所示,水下传感器节点收
集并发送数据到水面上的Sink节点,Sink节点通过卫星将
数据传输到岸上的监控中心进行进一步的处理。
分析和处理[1]-[3]。
从路由协议的角度来看,UASNs中存在的路由无效、高
延迟和低能量利用率是水下监测系统需要解决的问题。

2020年7月20日收到稿件;2020年10月18日和1月2日修订、
2021年;2021年2月2日接受。出版日期为2021年2月9日;当前版本为
图2. 路由空隙图。
2021年4月2日。这项工作得到了国家自然科学基金61673259号拨款的支
持。本文的审稿工作由B.Mao博士负责协调。(通讯作者:张颖。)
迫切需要解决的问题,特别是路由空白问题。一般来说,
张颖、张哲明和陈磊在上海海事大学信息工程学院,上海,201306(
电 子 邮 件 : yingzhang@shmtu.edu.cn; 13812031661@163.com; chen- 路由空洞主要是由于缺乏足够数量的节点来覆盖较大的监
lei26@stu.shmtu.edu.cn)。 测区域,而且由于海洋中传感器节点的成本较高,节点部
王新恒,西安交通大学电气与电子工程系,苏州,215123(电子邮件
署过于稀疏。如图2所示,如果数据包从源节点A通过节点
:xinheng.wang@xjtlu.edu.cn)。
数字对象标识符10.1109/TVT.2021.3058282 B和C路由到空白节点E,而节点E上面没有邻居能成功地
将数据包路由到

0018-9545 © 2021 IEE.允许个人使用,但再版/转发需经IEEE许可。


更多信息见https://www.ieee.org/publications/rights/index.html。

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2757

在水槽节点上,会出现路由无效问题,导致数据包丢失和
过多的能量消耗。此外,由于水下声学通信的低带宽,水
下传感器节点之间的通信效率也明显低于陆地上的。因此
,如果传输同样大小的数据,水下传感器比陆地传感器消
耗更多的能量。为了最大限度地提高UASN的能量利用率
和数据传输效率,设计一个具有高可靠性、强健性、低延
迟和高能效的路由协议尤为重要,它可以在动态的水下网 图3. 强化学习的示意图。

络环境中灵活运用。
为了提高UASNs在传感器节点稀疏部署环境下的可靠性
和能源效率,缓解UASNs中的路由空白问题,本文提出了
一种基于强化学习的机会主义路由协议。鉴于目前UASNs
路由算法的实时性不高,本文引入了动态定时转发,在一
定程度上 减少了端到端的延迟,提高了算法的实时性。
针对当前UASNs路由算法在节点遇到路由无效时无法及时
恢复转发的问题,本文引入了一种新的恢复模式,使节点
选择恢复节点时能够绕过无效区域,提高了UASNs中数据
传输的鲁棒性。
与需要网络全局信息的集中式路由方法不同[4],所提
图4. 机会主义路由的示意图。
出的方法是一种分布式路由方法。传感器节点只依靠一跳
范围内邻居节点的信息,通过强化学习更新节点的权重,
适应动态环境。如图3所示,当执行一项任务时,代理首
并选择候选中继节点。因此,拟议方法中应用的强化学习
先与周围的环境互动,产生一个新的状态,而环境则将行
方法不会导致高计算量。此外,与部署在陆地上的节点相
动的奖励反馈给代理。在这个循环中,代理人和环境不断
比,水下节点的成本更高,这意味着节点上可以携带性能
互动,产生越来越多的新数据。经过几次迭代,代理人学
更好的嵌入式CPU(中央处理单元)和存储资源。综上所
会了完成任务所需的行动策略。
述,所提出的方法的计算量在本系统中是可以接受的,它
可以满足水下声学传感器网络的实时性和实用性的要求。
B. 机会主义路由
本文的其余部分组织如下:第二节介绍了前言;第三节
机会主义路由是指在路由过程中,不依靠单个中继节点
讨论了相关工作,第四节描述了所提出的解决方案;第五
转发数据,节点的多个邻居同时接收并合作转发数据包,
节提供了模拟和获得的结果;最后第六节总结了文章。
从而降低数据包丢失率。如图4所示,如果数据包目前由
II. 预备工作 节点n持有1 ,节点n1
将向其邻居节点n2 , n3 和 n4 传送数据包。
在这一部分,我们主要阐述了强化学习算法和机会主义 同时,每个节点都可以根据自己的需要设置定时器。
路由算法的知识。 他们的优先级来决定持有数据拷贝的时间。一旦一个节点
的定时器结束,这个节点就被选为中继节点。其他邻居节
A. 强化学习 点可以听取这一行为并立即放弃副本。

强化学习是一个智能系统从环境到行为的映射过程,以
III. 相关工作
实现奖励的最大化。奖励是对行动质量的评价。由于外部
环境提供的信息有限,强化学习必须依靠自身的经验来不 在这一部分,我们主要回顾了UASNs的路由协议的相关
断学习,并在行动评价过程中获得反馈知识,从而改进行 工作。
动,达到 与陆地上的传感器网络不同,水下传感器节点不能配备
GPS来实时获得它们的位置信息,而且水下通信的延迟更
长,能耗更高。所以在一定程度上很难设计出适合UASNs
授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。
2758 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

的路由协议。一些适用于WSNs(无线网络)的集中式
路由协议[5]。

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2759

传感器网络)并不符合UASNs的要求。近年来,有两种类 个节点的深度信息将数据由深到浅地转发。同时,

型的路由协议适用于UASNs:基于位置的路由协议和基于 HydroCast可以及时调整中继节点的选择,以避免基于以下

深度的路由协议。 因素的路由无效

基于位置的路由协议假定节点可以在一些定位算法的帮
助下知道自己的位置信息。如果该节点不能找到与水汇节
点距离较短的其他邻居节点,那么它就被称为空节点[6]
。有一些基于地理位置的路由协议,如VBF(基于矢量的
转发)[7]、HH-VBF(基于逐跳矢量的转发)[8]和AHH-
VBF(基于逐跳矢量的自适应转发)[9]。VBF主要引入了
"管道 "的概念,即每个传感器节点知道自己和目标节点的
位置坐标。数据在源节点和目的节点之间的虚拟管道中被
转发。对于节点密集部署的网络,VBF控制网络Flooding
区域的大小,以避免大量节点转发造成的能量浪费。然而
,对于稀疏的网络环境,还需要进一步改进。HH-VBF和
AHH-VBF也使用了 "管道 "的概念,但区别在于它们不使
用固定的管道区域来传输数据,而是在每次转发完成后,
在转发节点和目的节点之间建立一个新的传输管道,从而
保证数据在稀疏网络中传输的可靠性。此外,一些研究人
员还提出了其他基于地理图形位置信息和网络拓扑控制的
水下路由协议,如GEDAR(Geographic and Opportunistic
Routing Protocol)。
带深度调整)[10],DCR(深度控制的路由)。
[11]和GR+DTC(Geographic Routing + Distributed Topol-
ogy Control)[12]。这三种算法都是基于贪婪转发的路由
协议。当数据被传输到空闲节点时,它们可以垂直移动
以连接到非空闲节点
来恢复数据的转发。然而,节点的拓扑结构调整需要大量
的能量。此外,在水下环境中,很难获得自身准确的位置
坐标,所以基于地理位置的路由协议在实际的水下环境中
很难实现。
基于深度的路由协议只依靠节点上的气压计获得的深度
信息来做决定。因此,利用深度内形成的机会主义路由是
UASNs中非常可行的方法,在实际的水下环境中更容易实
现。B. Diao等人[13]提出了一个具有能源效率的EE-DBR
(能源效率的基于深度的路由)协议。EE-DBR不再使用
DBR(基于深度的路由)算法中的深度阈值来缩小下一跳
的候选节点集的范围,而是使用ToA(到达时间)技术
[14]去掉一个固定的区域来缩小候选转发集的范围。然而
,当节点部署稀疏时,该算法不能有效地解决路由空白问
题。因此,U.Lee等人[15]提出了HydroCast(基于水力压
力的任播路由)协议,该协议将节点分为不同的群组,然
后根据每个群组的不同压力等级分配转发优先权,通过每

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


2760 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

节点的深度信息。然而,HydroCast只为地表附近的空洞 用强化学习算法,根据不断更新的节点权重来选择中继节

节点寻找恢复路径,没有考虑深层地区可能出现的路由 点。当

空 洞 问 题 。 为 了 进 一 步 改 进 Hydrocast 协 议 , Nadeem
Javaid等人[16]提出了CO-Hydrocast(合作式HydroCast)
协议。与Hydrocast协议不同的是,CO-Hydrocast协议加
强了节点之间的合作转发以提高数据传输率,并在部分
区域采用固定节点来处理路由无效问题。然而,这种方
法可能会限制路由的灵活性,无法在不同情况下选择和
修改转发节点。当拓扑结构因节点运动而快速变化时,
该算法不能及时调整。还有其他基于深度的软状态路由
协 议 , 如 VAPR ( Void-Aware Pressure Routing ) [17] 、
IVAR(Inherently Void Avoidance Routing)[18]和OVAR
(Opportunistic Void Avoidance Routing)[19]等。这些方
法利用跳数、距离、转发方向和其他信息,使数据包在
转发过程中远离路由空洞。然而,在保证数据传输速率
的前提下,这些方法牺牲了更多的实时性,端到端的延
迟很高。同时,一些节点的状态变化也会导致许多其他
节点的状态变化,导致网络开销增大。
现在,多代理机器学习技术,如多代理强化学习(
MARL)[20],已经成功地应用于涉及分布式决策的许多
领域。一个完全分布式的水下路由问题可以被认为是一
个 协 作 的 多 代 理 系 统 。 在 [21] 中 , QELAR ( 基 于 Q-
learning的自适应、高能效和生命期感知的路由协议)使
用Q学习的方法来计算自己的路由决策。在QELAR中,
在设计Q值函数时,综合考虑了传感器节点的能量消耗和
邻居节点之间的剩余能量分布,从而优化了总能耗和网
络寿命。然而,QELAR所采用的仿真模型是针对固定节
点的。所以它不适合快速变化的网络结构。为了提高算
法的实时性,[22]中提出了一个基于Q学习的水下多阶段
路由协议(MURAO)。MURAO首先使用聚类算法将传
感器节点分成若干传感器节点集。集群内的节点将收集
到的数据汇总给群头,群头通过多跳路由到Sink节点。
MURAO允许多个集群并行地将数据路由到Sink节点,这
提高了实时性能,但增加了网络中的冗余数据,并可能
引起数据冲突。
虽然以上这些方法在一定程度上提高了数据传输的效
率,降低了能耗,但在稀疏的网络环境中,较高的丢包
率和端到端的延迟问题仍然没有得到较好的解决。此外
,当数据包被困在路由空洞中时,上述这些方法不能及
时调整以恢复转发过程。为了进一步提高稀疏网络环境
下UASNs的可靠性、数据传输效率和实时性,本文提出
了一种基于强化学习的对立统一的路由协议。该方法使

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2761

当节点选择他们的转发集时,转发集中的节点可以互相监
程序1:构建邻接节点集。
视,以抑制重传和传输冲突,从而可以减少能量消耗。此
– ni :传感器节点的ID
外,当传输任务陷入路由空白时,每个节点可以启用恢复 – N:传感器节点的集合
机制,绕过空白区域继续转发数据包,从而降低数据包丢 – Ni (t):ni 的邻居节点的集合 输入:
失的概率。 节点n的状态信息i 输出:ni 的邻居节点的
集合 Ni (t) 1: 对于节点 ni �N do
IV. Rlor协议 2:通过RSSI 构建Ni (t)
3: 如果Ni (t)!= Ø
这一部分由六个部分组成,包括RLOR中使用的声音传
播模型、候选转发集的选择、通过强化学习选择中继节点
4: 然后切换到程序2
、恢复模式、动态定时器以及RLOR的分析和流程图。下 5: 最后,如果
面将详细介绍这些部分。 6: 结束

A. 声学传播模型
本文采用的是分析误码率的方法。如果传播路径的长度为d
本文采用索普模型[23]来描述非 ,比特错误率为
s !
水声传播模型。声学链路的路径损耗为 1 SNR(d)
p (d) = 1- (6)
A(d, f ) = dk α(f )d e 1 + SNR(d)
2
(1)
因此,成功传输l位数据的概率为
其中f代表信号频率,d代表探测距离,k代表传播系数(经
验值为1.5)。 p(d, l) = [1 - pe (d)]l (7)
在(1)中,α(f)代表声学吸收系数。α(f)的计算方法
是 B. 候选转发集的选择

f 2 f 2 在这一部分,我们主要详细介绍了候选for- warding集的
10 log α(f ) = 0.11
2 + 44 2+ 2.75
1+f 4100 + f 选择。机会主义路由在提高传输可靠性和网络吞吐量方面
× 10 f−42 + 0.003 (2) 具有明显的优势[25]。它利用传感器节点的多个邻居来模
节点向距离d(d<dmax )的节点发送l比特的数据所消耗 拟接收和转发数据包,从而提高数据包的转发效率。因此
的能量为 ,在机会主义路由中,可转发集的选择标准尤为重要。本
ETx (l, d) = lP0 A(d, f ) = lP
(ETx < Eremain)
d0k α(f )d 文综合考虑了节点深度、节点能量和邻居节点数量,从邻
(3) 居节点集中选择候选转发集。
其中P0 代表节点发送数据所需的最小功率,dmax 代表节
UASN的节点集可以定义为
点的最大通信距离,Eremain代表剩余能量
的节点,Eremain是E的上限Tx 。 N = {n1 , n2 , n 3 , ... n }m (8)
同样地,节点接收l比特的数据所消耗的能量为
其中n和m分别代表传感器节点和节点数。如果节点nj 满
ERx (l) = lPr 足以下公式,它就被归入节点ni 的候选转发集。
(4)
Ndi = {nj ∈Ni (t) ⊆N |dep(nj ) - dep(ni ) ≤ 0} (9)
其中Pr 代表接收系数,这取决于设备。
当传输路径的长度为d时,平均
SNR(信号噪声比)是
.
G(nk)
Na = {n ,n } ∈ N (t)⊆ N |G(n )≥ k Σ
Eb /A(d, f ) Eb i j k i j
SNR(d) = N0 = N0 dkα(f (5) G(n (10)
)i
)d )
1 Σk E(nk
其中,Eb 代表传输所消耗的平均能量。 Ne = {n ,n } ∈ N (t)⊆N |E(n ) ≥
一个比特数据,N0 代表AWGN(加性白高斯噪声)信道 i j k i j 2 G(n
条件下的噪声功率谱密度。 )i (11)

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


2762 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

目前,BPSK(二进制相移键控)调制技术被广泛用于 在(9)-(11)中,Ni (t)代表ni 在时间上的邻居的集合。


t.构建邻居集合的伪代码显示在Proceudre 1中。
声学信号传输的调制和解调中[24]。因此,BPSK是

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2763

程序2:构建候选中继节点集。
– d:传感器节点的深度
– G: 邻居的数量
– E: 节点的能量
– Ndi , Nαi , Nei :N的子集i (t)
– Cabove (i):节点n以上的候选中继节点集合i 输入:
包括d、G和E的节点信息 输出:候选中继节点的集
合 Cabove (i)
1: 对于每个节点nj �Ni (t)
do 2: 如果dep(nj )-
dep(ni ) < 0 3: 图5. 候选转发集选择示意图。
则添加nj →Ndi
4: 结束,如果
Σ
5: 如果G(nj )≥[ G(nk )]/G(n )i 与其他节点相比,候选前摄集C中的节点above (i)具有深度
k
6: 然后添加nj →Nαi 较小、较
能源和更多的邻居节点的数量,这有利于
7: 结束,如果
Σ
8: 如果E(nj ) ≥ [ E(nk )]/2G(n )i

k
以提高UASN的寿命和数据传输的可靠性。候选转发集的
9: 结束
10: 然后添加Nj 霓 i
虹 示意图
,如果 灯 n �Nα && n �Ne
11: 如果nj �Ndi && j i j i
12: 然后添加nj → Cabove 选择如图5所示。
(i) 13: 结束 如果
14: 结束 C. 选择中继节点
15: 如果Cabove (i)! = Ø
16: 那么C(i) = Cabove (i) 虽然机会主义路由在一定程度上提高了网络的可靠性,
17: 转到程序4 但其端到端的延迟和实时性与其他分布式路由协议相比没
有优势[26]。虽然使用强化学习算法的路由协议的可靠性
18:否则 不如机会主义路由,但它具有高灵活性和实时响应环境变
19: 切换到程序3 化的优点[27]。因此,在选择中继节点时,本文将机会主
20: 结束 如果
义路由与Q学习算法[28]相结合,综合了机会主义路由的
强可靠性和强化学习的强灵活性的优点,使所选中继节点
在UASNs中,数据包总是从深度较高的节点一跳一跳地 更具 "适应性"。
传输到Sink节点,因此本文通过公式(9)筛选出一个子 强化学习算法通常由马尔科夫决策过程(MDPs)模型
集Ndi ,其中包括深度小于节点ni 或处于相同深度的节点 描述。MDP通常由五元组(S,A,P,R,γ)组成,其中
,其中dep代表节点深度。此外,如果一个节点有更多的 S代表有限状态集,A代表有限行动集,P代表状态转换概
邻居,那么数据包传递的成功率也会相应地提高。因此, 率,R代表瞬时奖励,γ是折扣系数。本文中五元组的定义
通过公式(10)筛选出包括有更多邻居的节点的子集Nαi 如下。
,其中G代表邻居节点的数量。由于能量也是限制UASN性 定义1:在时间t,如果数据包在节点ni ,当前时间的状
能的一个重要因素,本文通过(11)进一步选择包括具有 态集定义为
更多平均剩余能量的节点的子集Nei ,其中E代表节点能
S = {n i }� Cabove (i) (13)
量。这有利于选择具有更高
延长了网络寿命。为了增加子集Nei 中包含的节点数量,
Cabove (i) = Ndi ∩Nei ∩Nai (12)
避免交集为空,本文经过多次实验,选择了(11)中的因
子1/2。最后,满足(9)-(11)的节点构成了节点的候选
转发集Cabove (i),即

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


2764 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

是从Cabove (i )中选择的,所以S 被定义为当前存储数据


其中,Cabove (i)代表节点n的候选转发集i 。S代表当前
包的节点加上所有候选转发节点的集合。
状态的集合,而S'代表下一跳的状态集合。S'中的下一跳
定义2:在时间t,当前时间的行动集被定义为
A = {aj |nj ∈S}。 (14)
选择候选转发集的伪代码见程序2。
其中αj 代表选择节点nj 作为中继节点的动作。

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2765

强化学习中最重要的部分是 "奖励"。因此,本文综合考 证明:参照公式(17),可知


虑了节点的深度、能量、相邻节点的数量以及成功传输数 Qπ (s, a) = Eπ {Rt |st = s, at = a}
,⎨Σ∞ ,⎬
据包的概率,并引入了
他们对奖励函数rt 。 = Eπ , γ rjt+j |st = s, at = a
,
定义3:在时间t,如果当前数据包在节点n中i j=
而ni 选择nj 作为中继节点,那么奖励函数为 ⎬ 0 , Σ ,

定义为 = Eπ �rt + γ
a γ r t+j+1 |st = s, at = (19)
j

, ,
j=0
aj
rt= R ninj = Ra ′ |s = ni , s′ = n j , (15) 其中π代表在某一状态下采取的行动集合、
Ǟ
a =Ǟaj
Ǟ
= Δdep (i,j) . p(d, l) .Gabove (nj ) .E(n )j 即在某一状态下采取的策略。通过替代
将公式(15)和(16)转化为公式(18),上述公式可以
其中G (n )和E(n )代表邻居的数量。 转化为
以上j j ⎡ ∞
n节点以上的能量j ,n节点的能量j ,Δdep 代表 π (s, a)= Σ a ,⎨ a
Σ
j ′⎤,⎬
节点ni 和节点nj 之间的深度差,和 Δdep Q Pss′ Rss′ + γE γ rt+j+ |st+1 = s
(i,j) = , 1
s′�S �π j=0
|depi - depj |。P(d,l)代表数据包传输成功的概率,可以 ( ⎦、
Σ a Σ
通过公式(5-7)计算。 = Pss′ R Ǟ + γ Eπ
因此,引入状态转换概率来表示在特定状态下选择不同 s′�S Σ ′a Ǟ a′�A
Ǟ ⎤,⎬
中继节点的概率。 �
∞ ′
定义4:在时间t,如果当前数据包在节点ni 、 ×⎣ γjrt+j+1|st+1 = s , at+1 = a′�
则n选择n的状态转换概率为
i j作为接力 ( ,
j=0 )
节点定义为 赛 a
Σ
Σ RǞ + γ
ss Qπ (s′ , a )′
= P ′ ′a Ǟ
s′�S a′�A
a Ǟ
aj
′ (
Σ
Pn inj = Pss′ |s = n i ,s = n j ,a Σ PǞa ′
= aj = rt + γ Ǟ Qπ (s′ , a′ (20)
(16) Ǟ
aj
))
Rn nij
=Σ Rak s′�S a′�A
nk �S n
nik 为了找到某一状态下的最优解,进一步将公式(20)的左
右两边最大化,并且
为了反映未来状态对当前状态的影响,在时间t的总折扣 得到的迭代方程为
奖励Rt ,定义为 Q∗ (s, a) = max Qπ (s, a)

Σ Ǟ )
R t= r +
t γr + γ r2t+2 + ... = rt + γ s′�S PǞa ′ nmax Q∗ (s′ , a′
a′
t+1
Ǟ


(21)
Σ
= γ rjt+j 其中,每个节点的初始Q值为0。
(17)
j=0 与其他节点相比,节点nj 具有较低的深度(更接近水槽
节点)、较高的能量和成功的概率。
当贴现因子γ=0时,系统只考虑当前行动的报酬,不 数据包的传输,以及更多的邻居,那么选择节点nj 作为中
n
nij
考虑未来的情况。当贴现因子γ→1(γ渐近于1)时,系 继节点所带来的奖励Ra j也会相应提高。每个节点的初始Q
统考虑当前和未来行动的奖励,而且权重接近相等。
值为0。随着时间的推移,公式(21)被反复更新,节点nj
此外,通过引入贝尔曼方程来计算状态s下的最优策略π
被选为中继节点的概率将更大。
。在某一状态下评估行动的贝尔曼方程如下。
选择中继节点的伪代码显示在程序3中。
中继节点选择的原理图如图6所示。
每个节点保存自己的剩余能量信息。
授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。
2766 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

Qπ (s, a) = Eπ {Rt = S, = a} (18) ni 的邻居根据他们的剩余能量和ni 的位置,计算他们相应


|st at 的Q值。如图7所示,在Cabove (1)层中,n1 现在是
推论1:如果a'和s'分别代表下一个行动和下一个状态, 存储数据包的节点,而当n1 想要找到
n1 将其位置信息发送给所有的邻居,并要求他们提供相应
在Qπ (s,α)的某一状态下,最优解Q∗ (s,α)可以表示为
的Q值。当邻居们
迭代方程
Σ 的n1 收到请求后,他们会按照以下方法计算其Q值
Q∗ (s, a) = rt + γ ′。 P a ′ {max Q∗ (s′ , a′ )}。
s �S Ǟ a′
Ǟ
Ǟ

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2767

程序3:通过Q学习选择最佳中继节点。
– 问:节点的Q值
– 时间:定时器的定时变量
– Twait : 节点的等待时间
输入:节点的初始Q和Twait 值
输出:更新的Q值和最佳中继节点的等待时间和ID
1:对于每个节点nj �C(i)做
2: 节点nj 接收节点n发送的数据包。i
3:用(13-20) 计算Q(ni , nj ) 4:
用(28-31)设定Twait (j)

5: 结束
6: jmax = arg max Q(ni , n )j
j
7:开始为定时器计时 8:
如果时间<Twait (j )max
9: 然后等待
10:否则
11: njmax 转发数据包
12: njmax 使用(21)更新其Q值Q(ni , njmax ) 13:
如果传输成功
14: 那么forward_status = true
15: 其他
16: forward_status = false
17: 结束,如果
18: 虽然 forward_status = false do 图6. 中继节点选择示意图。
19: jmax = arg max Q(ni , n )j
j
20: njmax 转发数据包
21: njmax 使用(21)更新其Q值Q(ni , njmax )
22: 如果传输成功
23: 那么forward_status = true
24: 最后,如果
25: 结束时
26: 结束 如果
27:C(i)中的另一个节点丢弃数据包 28:
如果数据包没有被送到Sink那里
29: 那么i = jmax
30: 切换到程序1
31: 结束 如果

选择无效节点
n1 ,并将它们的Q值发回给n1 。n1 选择具有最大Q值的节
点作为下一跳,并向其发送数据包。

D. 恢复模式

在数据传输过程中,当无效节点被选为中继节点时,数
据包会被节点丢弃,这将消耗能量,降低数据传输效率。
因此,本文提出的方法通过避免提前选择无效节点,并在
遇到路由无效后触发恢复模式来处理路由无效的问题。
首先,本文通过增加节点上方的邻居数量,尽可能避免
授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。
2768 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

图7.节点之间握手传输信息的示意图。

作为构建奖励函数时的奖励权重。如公式(15)所示
,如果节点nj 是无效节点,Gabove (n )j
= 0,所以相应地持有Ra j = 0。由于选择节点nj 所带 n
nij
来的奖励反馈太低,选择无效节点nj 作为中继节点的概
率将大大降低
迭代几次后减少甚至为0。
然而,尽管上述方法减少了选择无效节点的概率,但
它不能完全避免路由的

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2769

p(Δd(j,k) , m) .E(n )k
程序4:无效节点的恢复模式。- Udj , Uej = (27)
1+ d(j,k)
:N的子集i (t) Δ
– Cunder (i): 节点n下面的候选中继节点i 输入:节 强化学习的使用使无效节点能够在水下选择合适的恢复
点的信息包括d、G和E 输出:候选中继节点的集 中继节点,从而有效地恢复传输路径。
合 Cunder (i) 恢复模式的伪代码显示在程序中
1: 对于每个节点nj �Ni (t)做 4.
2: 如果d(n j )- d(ni ) 一旦空虚节点将数据转发给非空虚节点,它就退出恢复
≥ 0 3: 模式,继续将数据包路由到水面,如第三节的B和C部分
则添加nj →Σ Udi 4
所述。实际上,在恢复模式下,节点会记录前一跳节点的
: 结束 如果
5: 如果E(nj )≥[ E(nk )]/2G(n )i ID,在向下选择恢复转发节点时,前一跳节点不会被重复
k
6: 然后添加 nj → Uei 选择,从而避免了路由循环。恢复模式的原理图如图8所
7: 结束,如果 示。
8: 结束
9: 对于每个节点nj �Ni (t) do
10: 如果nj �Udi && nj �Uei E. 动态定时器

第IV-C节主要讨论了如何选择最佳重铺节点,图7显示
11: 然后添加nj → Cunder
了选择最佳中继节点的过程。然而,相邻节点之间的多次
(i) 12: C(i) = Cunder (i)
13: 结束,如果 交互将不可避免地增加端到端的延迟。为了减少端到端延
14: 结束 迟,该模型在确定最佳中继节点后,使用机会主义路由来
15:切换到程序3
转发数据包。同时,动态定时器将等待时间与每个节点的
Q相关联,以确保数据包能被传送到第四节C中选择的最
遇到无效问题时,一些无效节点仍有机会被选中。因此, 佳中继节点。
为了提高遇到路由无效问题时数据传输的可靠性,本论文 在机会主义路由中,一个节点首先将数据包转发给一组
引入了一种新的恢复模式,使无效节点能够找到合适的中 候选节点,因此每个候选节点都持有一份数据包的副本。
继节点向下传输数据,从而绕过无效区域。 然后,每个候选节点可以设置他们的定时器,以确定持有
如果节点nj 是无效节点,那么nj 以上的邻居节点都不能 副本的时间。一旦一个节点的定时器结束,这个节点就被
转发数据包。让Udj 是集合Nj (t)中nj 以下的邻居子集, 选为中继节点。其他候选节点可以听从这一行为并放弃副
它可以定义为 本。这种机制不仅提高了数据传输的可靠性,而且还减少
Udj = {nk ∈Nj (t) ⊆N |d(nk ) - d(nj ) ≥ 0}。 (22) 了冗余传输的数量,节省了能源。然而,这个过程中的计
时器在保证数据传输效率的同时也增加了端到端的延迟。
类似于公式(11),其中具有较高能量的节点子集Uej
为了进一步
,被进一步从集合Nj (t)中筛选出来。
Σ ) 减少端到端的延迟,在本文中,我们设置定时器
1 E(nl
Uej = {nk , n l }�Nj (t)⊆N |E(nk ) ≥ l 适应性地根据节点的优先级来决定。越高的
2 G(n )j (23) 优先级越高,节点的等待时间就越短,所以
然后,无效节点的候选恢复节点集Cunder (j)。 数据包可以更快地被转发,而端到端的延迟也可以相应地
nj ,可定义为 减少。
Cunder (j) = Udj ∩Uej 为了保证每个转发节点有足够的时间来执行强化学习算
(24) 法和转发数据包,本文根据极端情况下的通信延迟来构建
与第四节B部分描述的路由方法不同,当空闲节点nj , 等待时间函数。如图9所示,如果节点n1 的邻居节点集为
选择自己下面的恢复中继节点时,它将消耗更多的能量
来转发数据包到更深的节点。因此,有必要选择与无效 {n2 , n3 , n4 , n5 、
节点深度差较小的节点作为恢复中继节点。因此,在恢 n6 },其中节点n2 处于通信半径的边缘,即
复模式下,公式(13)-(15)应改写为 n1 。如果在这种情况下,n2 的优先级最高,n1 选择n2 作
为中继节点,最大通信延迟为
R
授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。
2770 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

T =D (28)
梵音
S = {n j }� Cunder (j) (25)
A = {nk ∈S|a }k (26) 其中R代表节点的最大通信半径,VAcoustic代表声音在水中
R nkjan ss=k Ra ′ |s = nj , s′ = n k , a = ak 的传播速度。

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2771

最后,由于深度差越大,下一跳节点离表面上的Sink节
点越近,转发优先级越高,等待时间越短,即深度差与
等待时间成反比关系。因此,在构造等待时间函数时,有
必要引入能反映深度差的实际通信延迟T(ni , nj ),TD - T(ni
, nj )可以作为补偿量来构造
为等待时间,以反映出
等待时间和深度差,其中,对于6T(ni , nj ),T(ni , nj
)≤TD 是永远真实的,这保证了�Twait (j) ≥ 0是永远真实
的。为了使具有最大Q的节点
值成为先开始传输的那一个,Twait 被设定为与Q值成反比
。此外,Q值被归一化,以保持Twait 的尺寸(Twait
≤ Twait-bound)。Twait-bound代表系统设定的最大等待时
间。然而,当Q∈(0, 1)时,计算出的Twait 肯定比以前大。
因此,Q的映射范围
设为(0,2),可以适度反映不同Q值对Twait 的影响差
异 。如果计算出的Twait > Twait-bound , 则 让 Twait =
图8. 恢复模式的示意图。
Twait-bound。因此,等待时间函数可以被构造为
β。 (1-P ja ) .T + [T - T (n ,n )]
n nij D D
等待= Qij
i j (30)

其中,Qij 代表nj 对应于ni 的Q值。


推论2:如果节点nj 收到来自节点ni 的数据包、
Twait (j)是n个j 的等待时间,它认为
β。 (1-P ja ) .R + R - |d(n ) - d(n )|
ninj i j
茨瓦特 (j) = 视觉效果 .启迪

其中β代表可控系数,P ja n 代表
nij
-
图9. 节点的邻居的示意图。 表示状态转换的概率。
证明:参照公式(30),可知
同样,节点ni 和n之间的通信延迟也是如此。j β。 (1-P ja ) .T + [T - T (n ,n )]
n
可定义为 D D i j
茨瓦 (j) =
nij Qij
Δd(i,j) |d(ni )-d(nj )|
T (n ,n ) = = (29)

i j
声波 梵音
β。 (1-P jan ) + 1 .T D - T (n ,n
i )j
为了有足够的时间在节点之间交换信息,有必要构建等 = nij
Qij
待时间函数。
基于最大的通信延迟T D。
通过将公式(28)和(29)分别代入上述方程,可以转
节点。首先,节点的转发概率对等待时间有一定的影响,
并与以下因素成反比 化为
1
等待时间越长,即转发概率就越高、
等待时间就越短。因此,权重系数 茨瓦 (j) = β. (1 - Pa jn
n
)+
ij


R
的TD 与转发概率有关,可设为1 - j、 Pa n
. - |d(ni ) - d(nj )|
加权通信延迟为(1-Pa j )。TD . Addi- n
nij 视觉效果 .启迪 视觉效果 .启迪

另外,为了提高等待时间的可控性,还应该引入可控系数
nij
β. (1 - Pn jn)ij 。R + R - |d(ni ) - d(nj )|
a
= (31)
β∈(02),因此可控的加权通信延迟可以 视觉效果 .启迪
表示为β . (1 - P ja n ) .TD .在实际应用中、 □
nij
当系统的实时性要求较高时,可以通过以下方式实现: 1. 如果转移到nj 的概率很高,而且节点之间的深度差很大
,那么相应的等待时间Twait ( j)会更短,数据包可以更

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


2772 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

快地被转发到下一跳节点。

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2773

F. RLOR的分析和流程图

根据程序的伪代码,该算法在计算过程中主要由两个周
期组成,因此本文提出的算法的计算复杂度为O(n2 ),
其中n为网络的节点数。能量消耗取决于网络中节点的数
量。对于水下稀疏的网络,通常在节点的计算能力范围内
,所提出的路由策略是节能的,每个节点都有能力和价值
来执行这种分布式算法,以避免错误转发和路由无效问题

RLOR算法是一种完全分布式的算法。参赛节点只依靠
一跳范围内的邻居的信息来做决定。为了更清楚地描述该
算法,RLOR的流程图如图10所示。首先,节点根据约束
集构建一个候选转发节点集。如果该节点集为空,则启动
恢复机制。其次,在候选转发集中选择的节点计算并更新
其Q值。如果计时结束,具有最大累积Q值的节点被选为
中继节点并转发数据包。最后,如果在候选转发集中有节
点成功转发数据包,其他节点将放弃数据拷贝,并循环上
述过程,直到数据包被路由到Sink节点。

V. 性能分析和模拟

EE-DBR[13]、VAPR[17]和MURAO[22]算法分别是该领
域中具有代表性的基于深度、基于压力和软状态以及基于
强化学习的经典路由协议,它们在很多指标上具有良好的
性能。此外,为了更好地证明所提出的RLOR的性能,还
考虑了两个经常使用的水下网络的路由协议,它们是基于
相对距离的转发路由(RDBF)
[32]和Flooding routing[29]。因此,为了全面评估RLOR算
法 的 性 能 , 本 文 将 RLOR 算 法 与 EE-DBR 、 VAPR 、
MURAO、RDBF和Flooding路由算法分别进行比较。

A. 仿真设置

对于本文中的UASN模型,每个具有唯一ID和有限能量
的节点随机分布在三维部署区域。在仿真实验中, 图10. 拟议的RLOR的流程图。
UASN的部署空间被设定为500米×500米×500米,节点
节点可以根据接收到的信号强度来判断相对距离[30]。节
数量的变化范围为50-600。在这个UASNs模型中,当在
点可以在水平方向上以0�3米/秒的速度自由移动。由于节
500米×500米×500米的探测空间中,节点数量少于300
点可以利用配备的气压计保持自己的深度,所以节点的垂
个时,UASN可以被认为是一个稀疏的网络。每个节点
直运动可以忽略不计[31]。仿真所需的参数设置如表I所示
可以使用配备的气压计来获得自己的深度,每个节点只知

道一跳范围内的邻居节点的信息。假设拥有无限能量的
Sink节点固定在水面的中心、
B. 绩效指标
其深度为0米,能够作为网关进行声学和无线通信。源节
点部署在底部,可以水平移动。此外、 首先,本文将提出的RLOR算法与EE-DBR、VAPR、
MURAO、RDBF和Flood路由进行了比较。
授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。
2774 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

表一
仿真参数

图11. 六种算法的PDR的比较。

在五个性能指标方面,我们的算法是PDR(Packet Delivery
Ratio)、数据完整性、平均端到端延迟、平均能量税和数据
包从源节点到汇节点的平均跳数。其次,由于式(17)中的
折扣系数γ和式(30)中的权重系数β的选择对算法的性能有
很大影响,本文还比较了RLOR在不同γ和β值下的上述五 图12. 六种算法的数据完整性的比较。

个性能指标。
1) 数据包交付率: PDR是由Sink节点收到的数据包数 通过机会主义转发,在一定程度上提高了数据传输的效率
量与源节点发送的数据包数量之比定义的: 。
R
2) 数据的完整性:由于路由空洞和数据冲突,一些数
据片段可能会丢失,以及冗余的问题。
数据包
PDR = (32) 数据包的传输可能导致PDR不能准确地重新反映数据的完
篮板球
整性。因此,本文进一步比较了
其中, Rpackets 代表汇点节点收到的数据包数量, Spackets 代 观察原始数据包和Sink节点最终收到的数据包的标签来评
表源节点发送的数据包数量。
估数据的完整性。如图12所示,当节点数量较少时,数据
如图11所示,随着部署节点数量的增加,六种算法的
完整性一般较低。这是因为在稀疏的网络环境中存在许多
PDR都逐渐增加。这是因为,随着节点部署从稀疏到密集
路由空隙,一些数据片段由于被路由到空隙节点而丢失。
,空白区域越来越少,更多的节点可以参与到数据包的转
随着节点数量的增加,数据的完整性也会得到改善。然而
发协助中,所以数据包丢失会减少。其中,VAPR和所提
,当节点的数量继续增加时,数据的完整性会略有下降。
出的RLOR在不同节点数下的PDR普遍高于其他方法。在
这是因为,在密集的网络环境中,数据冲突的问题变得越
相对密集的场景中,VAPR和RLOR的结果接近,而在稀疏
来越严重,导致一些数据片段的丢失。在这些算法中,
的场景中,当节点数在100到400之间时,RLOR的表现甚
RLOR的数据完整性总是优于其他五种算法。这是因为
至优于VAPR。这是因为RLOR保证了可靠性
授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。
ZHANG et al:基于强化学习的机会主义路由协议 2775

RLOR可以通过定时转发在一定程度上抑制数据冲突问
题。

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


2776 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

图13. 六种算法的平均端到端延迟的比较。 图14. 六种算法的能量税的比较。

机制。此外,在稀疏的网络环境中,RLOR算法通过引入 密集网络中的大量节点,也有许多可供选择的数据传输路
相应的恢复机制缓解了路由无效问题。 径,这就减少了路由无效造成的能量损失。因此,能源税
3) 平均端到端延时: 平均端到端延迟是指从源节点发 相对较低。相反,在稀疏网络中,有许多无效节点,数据
送的数据包直到被汇点节点接收所消耗的平均时间。如图 包转发失败的概率也相应较高,导致网络能量消耗很大。
13所示,所有六种算法的端到端延迟随着节点部署从稀疏 在图14中,当节点数超过300个后,MURAO算法的能量
到密集而逐渐减少。这是因为节点越多,节点可以选择的 税会增加。这是因为MURAO算法不抑制重传,当节点数
邻居就越多,可以选择更好的中继节点进行数据转发,遇 过多时,网络中存在很多冗余的数据拷贝,数据冲突的概
到空白区域的概率就会降低,所以延迟会随着节点数量的 率增加,导致部分能量损失。由于提出的RLOR结合了机
增加而降低。 会主义路由和强化学习的优点,再辅以动态定时器,不仅
与 EE-DBR 、 RDBF 和 Flood 路 由 算 法 相 比 ,所提出的 提高了所选传输路径的质量,而且在一定程度上抑制了冗
RLOR具有较低的平均端到端延迟,而VAPR的性能在总 余传输,提高了能量利用率。
体上与RLOR接近。但在节点数量较多的情况下,RLOR 5) 平均跳数: 平均跳数是指将一个数据包从源节点路
的延迟要高于MURAO。这是因为MURAO没有采取机会 由到水槽节点所需的平均中继节点数。理想情况下,数据
主义转发的方法,牺牲了部分数据传输率来换取较低的时 包应该总是能够使用最短的路径和最少的中继节点路由到
延。本文在动态网络环境下,采用强化学习的方式实时选 水槽节点。如图15所示,随着节点部署从稀疏到密集,六
择中继节点,在保证数据传输效率的同时优化路由路径, 种算法的平均跳数逐渐减少。这是因为,在稀疏的网络环
由此带来的时间消耗增加是系统可以接受的。 境中,部署的节点数量较少,源节点和Sink节点之间的理
4) 能量税: 能量税是每个节点将数据包路由到汇点节 论最短路径不一定被节点覆盖,存在很多空闲节点,所以
点的平均能量,其中包括接收和发送数据包的能量消耗以 从源节点到Sink节点的数据包路由需要经过更多的中继节
及空闲状态下的能量消耗。能量税的计算方法如下: 点,并多次触发恢复模式,平均跳数很高。然而,在密集
消耗品 的网络环境中,有更多的部署节点、
能源税= (33) 更少的无效节点,理论上最短路径上的节点覆盖概率更高,
N列节点×R包
因此平均跳数
其中 Econsumed 和Numnodes 分别代表一轮工作期间的总能量 更低。提出的RLOR在平均跳数上接近MURAO算法,在
和部署节点的数量。 这一性能上明显优于其他四种算法。
如图14所示,在这六种算法的比较中,能量税随着节点 6) 参数调整:由于公式(17)中的折扣系数γ对整体性
密度的增加而减少。因为 能有很大影响

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2777

图16. 不同参数下RLOR的PDR比较。
图15. 六种算法的平均跳数的比较。

的算法,当折扣系数γ=0时,算法只考虑当前状态的奖励
。当γ=0.5时,算法倾向于关注当前状态的奖励;当γ→1
时,算法同时考虑当前和未来状态的奖励,且权重接近相
等。
同样,在公式(30)中,权重系数β的选择对端到端延迟
有很大影响。当β较小时,节点的整体转发等待时间较短
,可能导致强化学习阶段不足,强化学习失败导致随机选
择中继节点,从而加剧了随机for- warding的问题 这意味
着,在一跳传输范围内,节点会随机选择下一跳转发节点
而不是最优转发节点。当β较大时,节点的整体转发等待
时间较长,强化学习阶段有足够的时间执行,但这会增加
图17.不同参数下RLOR的数据完整性比较。
端到端的延迟。通过多次实验,本文对RLOR的性能进行
了比较和分析
当(γ , β)被选为一些典型的参数组合时,算法:(0.5
,1)、(0.5,2)、(→1,1)和(→1,2)。
如图16-20所示,综合性能
当(γ,β)选择为(0.5,2)和(→1,1)时,所提出的
RLOR的效果更好。当(γ , β)为(0.5,2)时,算法更
关注当前状态的奖励,转发等待时间充足,因此数据传输
更可靠,整体PDR和数据完整性更高,能量税更低,但端
到端延迟更高,而且
平均跳数也相对较高。因此,在一些对时间延迟要求不高
,但对PDR和数据完整性要求较高的场景下,可以将参数
(γ,β)设置为(0.5,2)。当(γ,β)为(→1,1)时
,当前和未来节点状态的奖励权重接近相等,转发等待时
间短。虽然PDR
图18.不同参数下RLOR的平均端到端延迟的比较。
和数据完整性在稀疏的网络环境中,端到端的延迟很低,
平均跳数也相对较低。因此,在一些实时性要求较高的场
景中,参数(γ,β)可以设置为(→1,1)。

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


2778 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

和能源效率的数据传输,同时保证实时性。鉴于目前
UASNs路由算法的实时性不高,本文引入了动态定时转发
,在一定程度上 减少了端到端的延迟,提高了该方法的
实时性。针对当前UASNs路由算法在节点遇到路由无效时
不能及时恢复转发的问题,本文引入了一种新的恢复模式
,使节点能够尽快选择恢复节点绕过无效区域,提高了整
个UASNs的健壮性。然而,本文提出的方法是在(γ,β)
的指定值组合下讨论的。在未来的研究中,可以将其设定
为一个可以根据环境变化自适应调整的值,从而进一步提
高UASNs的性能。

图19. 不同参数下RLOR的能源税比较。 参考文献

[1] M.T. Kheirabadi和M. M. Mohamad, "水下声学传感器网络的贪婪路


由 : A survey," Int.J. Distrib.Sensor Netw., vol. 9, no. 7, 2013, doi:
10.1155/2013/701834.
[2] S.M. Ghoreyshi, A. Shahrabi, and T. Boutaleb, "水下传感器网络中路由
协 议 的 空 隙 处 理 技 术 : Survey and chal- lenges," IEEE
Commun.Surv.Tut., vol. 19, no. 2, pp. 800-827, Apr.-Jun. 2017, doi:
10.1109/comst.2017.2657881.
[3] Y.Zhang, J. Wang, D. Han, H. Wu, and R. Zhou, "Fuzzy-logic based
distributed energy-efficient clustering algorithm for wireless sen- sor
networks," Sensors (Basel), vol. 17, no. 7, pp. 1554, Jul. 2017, doi:
10.3390/s17071554.
[4] B.Wang, W. Xiao, and S. Bo, "An improved centralized energy-efficient
routing protocol for wireless sensor networks," J. Convergence Inf.7,
no. 23, pp.83-91, 2012.
[5] S.D. Muruganathan, D. C. F. Ma, R. I. Bhasin, and A. O. Fapojuwo, "A
centralized energy-efficient routing protocol for wireless sensor net-
works," IEEE Communications.Mag., vol. 43, no.3, pp. S8-13, Mar.
2005, doi: 10.1109/MCOM.2005.1404592.
[6] N.Javaid, T. Hafeez, Z. Wadud, N. Alrajeh, M. S. Alabed, and N. Guizani,
"Establishing a cooperation-based and void node avoiding energy-efficient
图20.不同参数下RLOR的平均跳数的比较。 underwater WSN for a cloud, " IEEE Access, vol. 5, pp. 11582-11593,
2017, doi: 10.1109/ACCESS.2017.2707531.
[7] P.Xie, J.-H.Cui, and L. Lao, "VBF: Vector-based forwarding protocol
for underwater sensor networks," in NETWORKING 2006.Networking
Technologies, Services, and Protocols; Performance of Computer and
然而,当(γ, β)为(0.5, 1)时,该算法注意到了当前状态的 Communication Networks; Mobile and Wireless Communications Sys-
tems, F. Boavida, T. Plagemann, B. Stiller, C. Westphal, and E.
奖励,但等待时间不充分。虽然端到端的延迟很低,但其
Monteiro, Eds., 柏林,德国:Springer, 2006, pp.1216-1221.
他性能指标却很差。当(γ, β)为(→1, 2)时,虽然等待时间充 [8] N.Nicolaou, A. See, P. Xie, J. Cui, and D. Maggiorini, "Improving the
robustness of location-based routing for underwater sensor networks," in
足,但PDR、数据完整性和能源税的整体性能都很好,但 Proc. IEEE OCEANS 2007 - Eur. , Aberdeen, U.K. , 2007, pp.
平均性能 [9] H.Yu, N. Yao, and J. Liu, "An adaptive routing protocol in underwater
sparse acoustic sensor networks," Ad Hoc Netw., vol. 34, pp. 121-143,
端到端延迟和跳数都很差。综上所述,在设置(γ,β)上 2015, doi: 10.1016/j.adhoc.2014.09.016。
[10] R.W. L. Coutinho, A. Boukerche, L. F. M. Vieira, and A. A. F.
有一个权衡,其值应相对平衡,即γ或β的值不应过小或过 Loureiro, "GEDAR: Geographic and opportunistic routing protocol with
depth adjustment for mobile underwater sensor networks, " in Proc.
大。 IEEE Int.Conf.Commun., Sydney, NSW, Australia, 2014, pp. 251-256,
doi: 10.1109/ICC.2014.6883327.
[11] R.W. L. Coutinho, L. F. M. Vieira, and A. A. F. Loureiro, "DCR:
VI. 总结 Depth- controlled routing protocol for underwater sensor networks," in
Proc. IEEE Symp.Comput.Commun., Split, Croatia, 2013, pp. 000453-
000458, doi: 10.1109/ISCC.2013.6754988.
本文提出了一种基于强化学习的UASNs的机会主义路由 [12] R.W. L. Coutinho, A. Boukerche, L. F. M. Vieira, and A. A. F.
协议(RLOR),它结合了机会主义路由的高可靠性、强 Loureiro, "A novel void node recovery paradigm for long- under-water
sensor networks," Ad Hoc Netw., vol. 34, pp. 144-156, 2015, doi:
化学习的强灵活性和对环境变化的动态响应等优点。 10.1016/j.adhoc.2015.01.012。
[13] B.Diao, Y. Xu, Z. An, F. Wang, and C. Li, "Improving both en- erything
RLOR综合考虑节点的各种状态信息,实时动态地优化路 and time efficiency of depth-based routing for underwater sen- sor
networks," Int.J. Distrib.Sensor Netw., vol. 2015, pp. 1-9, 2015, doi:
由路径,提高了可靠性。 10.1155/2015/781932.

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。


ZHANG et al:基于强化学习的机会主义路由协议 2779

[14] Q.Liang, B. Zhang, C. Zhao, and Y. Pi, "TDoA for passive lo- calization 张英于1990年在中国北京的华北理工大学获得
:水下与地面环境",IEEE Trans.Parallel Distrib.10, pp. 2100-2108, 学士学位,1996年在中国合肥的合肥工业大学
Oct. 2013, doi: 10.1109/tpds.2012.310.
获得硕士学位,1999年在中国上海的上海交通大
[15] Y.Noh 等 人 , "HydroCast : 水 下 传 感 器 网 络 的 压 力 路 由 ",IEEE
Trans.Veh.Technol., vol. 65, no. 1, pp. 333-347, Jan. 2016, doi: 学获得博士学位。2006年,他在中国上海的东华
10.1109/TVT.2015.2395434. 大学担任博士后职务。2009年至2010年在美国
[16] N.Javaid et al., "Cooperative opportunistic pressure based routing for
乔治亚州亚特兰大市的乔治亚理工学院担任客
underwater wireless sensor networks," Sensors (Basel), vol. 17, no.3,
pp.629, Mar. 2017, doi: 10.3390/s17030629. 座教授,2016年至2019年在美国佛罗里达州奥
[17] Y.Noh, U. Lee, P. Wang, B. S. C. Choi, and M. Gerla, "VAPR:VAPR: 兰多市的中佛罗里达大学担任客座教授。目前
Void-aware pressure routing for underwater sensor networks," IEEE ,他是美国加州大学洛杉矶分校的全职教授。
Trans.Mobile Comput., vol. 12, no.5, pp. 895-908, May 2013, doi:
10.1109/tmc.2012.53. 上海海事大学信息工程学院教授,上海,中国。他的研究兴趣包括海洋
[18] S.M. Ghoreyshi, A. Shahrabi, and T. Boutaleb, "An inherently void 物联网、传感器网络和移动特设网络。
avoidance routing protocol for underwater sensor networks," in Proc.
Int.Symp. 无线通信。 Syst., Brussels, Belgium, 2015, pp.361-365, doi:
10.1109/ISWCS.2015.7454364.
[19] S.M. Ghoreyshi, A. Shahrabi, and T. Boutaleb, "A novel cooperative
opportunistic routing scheme for underwater sensor networks," Sensors
(Basel), vol. 16, no.3, pp. 297, Feb. 2016, doi: 10.3390/s16030297.
[20] X.Lin 等 人 , "MARL-based distributed cache placement for wireless
networks," IEEE Access, vol. 7, pp. 62606-62615, 2019, doi:
10.1109/ac- cess.2019.2916155.
张哲明于2018年在中国鞍山的辽宁科技大学获得
[21] T.Hu and Y. Fei, "QELAR: A machine-learning-based adaptive routing
protocol for energy-efficient and lifetime-extended underwater sensor net- 通信工程学士学位。他目前正在攻读中国上海
works," IEEETrans.Mobile Comput., vol. 9, no. 6, pp. 796-809, Jun. 2010, 海事大学的信息和通信工程硕士学位。他的研
doi: 10.1109/tmc.2010.28.
[22] T.Hu and Y. Fei, "MURAO: A multi-level routing protocol for acoustic- 究兴趣包括In- ternet of Things的信息安全、传感
optical hybrid underwater wireless sensor networks," in Proc. 9 器网络和机器学习。
Annu.IEEE Commun.Soc. Conf.Sensor, Mesh Ad Hoc Commun.Netw.,
Seoul, South Korea, 2012, pp. 218-226, doi:
10.1109/SECON.2012.6275781.
[23] M.Stojanovic, "On the relationship between capacity and distance in an
underwater acoustic communication channel," ACM SIGMO- BILE
Mobile Comput. 通 信 。 Rev., vol. 11, no.4, pp. 34, 2007, doi:
10.1145/1347364.1347373.
[24] L.Freitag, M. Grund, S. Singh, J. Partan, P. Koski, and K. Ball, "The
WHOI micro-modem : 多 平 台 的 声 学 通 信 和 导 航 系 统 " , 在 陈磊于2017年在中国大连的大连海洋大学获得
Proc.OCEANS 2005 MTS/IEEE, 2005, vol. 2、 通信工程学士学位。他目前正在努力争取获得
pp.1086-1092, doi: 10.1109/OCEANS.2005.1639901. 在上海海事大学获得信息和通信工程硕士学位。
[25] H.Wu, G. Wang, and X. Lin, "On the effectiveness of oppor- tunistic
他的研究兴趣包括物联网的网络和智能路由,
routing over wireless mesh networks," in Proc. 6th Int. Conf.Conf. 无线
传感器网络,以及机器学习。
通 信 。 Netw.Mobile Comput., 2010, pp. 1-4, doi:
10.1109/WICOM.2010.5601216.
[26] M.Xiao, J. Wu, C. Liu, and L. Huang, "TOUR: Time-sensitive oppor-
tunistic utility-based routing in delay tolerant networks," in Proc. IEEE
INFOCOM, 2013, pp. 2085-2091, doi: 10.1109/INFCOM.2013.6567010.
[27] K.Tang, C. Li, H. Xiong, J. Zou, and P. Frossard, "Reinforcement
learning-based opportunistic routing for live video streaming over multi-
hop wireless networks, " in Proc. IEEE 19th Int .Workshop Multimedia
Signal Process., 2017, pp.1-6, doi: 10.1109/MMSP.2017.8122255.
[28] X.He, H. Jiang, Y. Song, C. He, and H. Xiao, "Routing selection with 王新恒(IEEE高级会员)分别于1991年和1994
rein-forcement learning for energy harvesting multi-hop CRN," IEEE 年在中国西安交通大学电气工程系获得学士和
Access, vol. 7, pp. 54435-54448, 2019, doi:
10.1109/access.2019.2912996. 硕士学位,并于2001年在英国Uxbridge的Brunel
[29] S.H. Ahmed, S. Lee, J. Park, D. Kim, and D. B. Rawat, "iDFR: Intel- 大学获得电气工程和电子学博士学位。他目前
ligent directional flooding-based routing protocols for underwater
是中国苏州西安交通大学电气和电子工程系的全
sensor networks," in Proc. 14 IEEE Annu. 消 费 者 。 通 讯 。 Netw.
职教授。他的研究兴趣包括:物联网、智能服务
Conf.Conf., Las Vegas, NV, 2017, pp. 560-565, doi:
10.1109/CCNC.2017.7983168. 网络、大数据分析、融合性和可扩展性。
[30] M.Ivanic´和I. Mezei,"基于方位感知节点的RSSI成像证明的距离估 室内定位,和灾害管理。
计 " , 在 Proc.Zooming In- nov. 消 费 者 。 Technol.Conf., Novi Sad,
Serbia, 2018, pp.140-143, doi: 10.1109/ZINC.2018.8448660.
[31] H.Yu, N. Yao, T. Wang, G. Li, Z. Gao, and G. Tan, "WDFAD------"。
DBR: Weighting depth and forwarding area division DBR routing
protocol for UASNs," Ad Hoc Netw., vol. 37, pp. 256-282, 2016, doi:
10.1016/j.adhoc.2015.08.023。
[32] Z.Li, N. Yao, and Q. Gao, "Relative distance based forwarding protocol
for underwater wireless networks," Int. J. Distribution.J. Distrib.Sensor
Netw., vol. 2014、
pp.1-11, 2014, doi: 10.1155/2014/173089.

授权许可使用仅限于:K.L.大学(F.K.A. Koneru Lakshmaiah工程学院)。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

You might also like