RLOR Q-learning 协同通信 Zh

订阅DeepL Pro以翻译大型文件。
2756 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

欲了解更多信息，请访问www.DeepL.com/pro。
基于强化学习的水下声学传感器网络的机
会主义路由协议
张颖，张哲明，陈磊，王新恒 IEEE高级会员
摘要--由于水下声学传感器网络（UASN）存在高误码率和延
迟、低带宽和传感器节点能量有限等问题，设计一种能在动态
网络环境中灵活运用的高可靠性、强健性、低端到端延迟和高
能量效率的路由协议显得尤为重要。因此，本文结合机会主义
路由和强化学习算法的优点，提出了一种基于强化学习的机会主
义路由协议（RLOR）。RLOR是一种分布式路由方法，它综合
考虑节点的外围状态来选择合适的中继节点。此外，RLOR还采
用了一种恢复机制，使数据包能够有效地绕过空白区域继续前进
，从而提高了一些稀疏网络中的数据传递率。仿真结果表明，与
其他有代表性的水下路由协议相比，所提出的RLOR在水下动态
网络环境中的端到端延迟、可靠性、能源效率等方面表现良好。
Index Terms-UASNs, reinforcement learning, opportunistic
routing, routing void, reliability.
图1. UASNs的示意图。
I. 简介
U 近年来，水下声学传感器网络（UASNs）因其在海
洋监测和资源开发方面的强大能力而引起广泛关注。由于
无线电波在水下传播的巨大衰减，声学传输已成为水下环
境中最常见的通信方式。如图1所示，水下传感器节点收
集并发送数据到水面上的Sink节点，Sink节点通过卫星将
数据传输到岸上的监控中心进行进一步的处理。
分析和处理[1]-[3]。
从路由协议的角度来看，UASNs中存在的路由无效、高
延迟和低能量利用率是水下监测系统需要解决的问题。
2020年7月20日收到稿件；2020年10月18日和1月2日修订、
2021年；2021年2月2日接受。出版日期为2021年2月9日；当前版本为
图2. 路由空隙图。
2021年4月2日。这项工作得到了国家自然科学基金61673259号拨款的支
持。本文的审稿工作由B.Mao博士负责协调。(通讯作者：张颖。)
迫切需要解决的问题，特别是路由空白问题。一般来说，
张颖、张哲明和陈磊在上海海事大学信息工程学院，上海，201306（
电子邮件： yingzhang@shmtu.edu.cn; 13812031661@163.com; chen- 路由空洞主要是由于缺乏足够数量的节点来覆盖较大的监
lei26@stu.shmtu.edu.cn）。测区域，而且由于海洋中传感器节点的成本较高，节点部
王新恒，西安交通大学电气与电子工程系，苏州，215123（电子邮件
署过于稀疏。如图2所示，如果数据包从源节点A通过节点
：xinheng.wang@xjtlu.edu.cn）。
数字对象标识符10.1109/TVT.2021.3058282 B和C路由到空白节点E，而节点E上面没有邻居能成功地
将数据包路由到
0018-9545 © 2021 IEE.允许个人使用，但再版/转发需经IEEE许可。

更多信息见https://www.ieee.org/publications/rights/index.html。
授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

ZHANG et al：基于强化学习的机会主义路由协议 2757
在水槽节点上，会出现路由无效问题，导致数据包丢失和
过多的能量消耗。此外，由于水下声学通信的低带宽，水
下传感器节点之间的通信效率也明显低于陆地上的。因此
，如果传输同样大小的数据，水下传感器比陆地传感器消
耗更多的能量。为了最大限度地提高UASN的能量利用率
和数据传输效率，设计一个具有高可靠性、强健性、低延
迟和高能效的路由协议尤为重要，它可以在动态的水下网图3. 强化学习的示意图。
络环境中灵活运用。
为了提高UASNs在传感器节点稀疏部署环境下的可靠性
和能源效率，缓解UASNs中的路由空白问题，本文提出了
一种基于强化学习的机会主义路由协议。鉴于目前UASNs
路由算法的实时性不高，本文引入了动态定时转发，在一
定程度上减少了端到端的延迟，提高了算法的实时性。
针对当前UASNs路由算法在节点遇到路由无效时无法及时
恢复转发的问题，本文引入了一种新的恢复模式，使节点
选择恢复节点时能够绕过无效区域，提高了UASNs中数据
传输的鲁棒性。
与需要网络全局信息的集中式路由方法不同[4]，所提
图4. 机会主义路由的示意图。
出的方法是一种分布式路由方法。传感器节点只依靠一跳
范围内邻居节点的信息，通过强化学习更新节点的权重，
适应动态环境。如图3所示，当执行一项任务时，代理首
并选择候选中继节点。因此，拟议方法中应用的强化学习
先与周围的环境互动，产生一个新的状态，而环境则将行
方法不会导致高计算量。此外，与部署在陆地上的节点相
动的奖励反馈给代理。在这个循环中，代理人和环境不断
比，水下节点的成本更高，这意味着节点上可以携带性能
互动，产生越来越多的新数据。经过几次迭代，代理人学
更好的嵌入式CPU（中央处理单元）和存储资源。综上所
会了完成任务所需的行动策略。
述，所提出的方法的计算量在本系统中是可以接受的，它
可以满足水下声学传感器网络的实时性和实用性的要求。
B. 机会主义路由
本文的其余部分组织如下：第二节介绍了前言；第三节
机会主义路由是指在路由过程中，不依靠单个中继节点
讨论了相关工作，第四节描述了所提出的解决方案；第五
转发数据，节点的多个邻居同时接收并合作转发数据包，
节提供了模拟和获得的结果；最后第六节总结了文章。
从而降低数据包丢失率。如图4所示，如果数据包目前由
II. 预备工作节点n持有1 ，节点n1
将向其邻居节点n2 , n3 和 n4 传送数据包。
在这一部分，我们主要阐述了强化学习算法和机会主义同时，每个节点都可以根据自己的需要设置定时器。
路由算法的知识。他们的优先级来决定持有数据拷贝的时间。一旦一个节点
的定时器结束，这个节点就被选为中继节点。其他邻居节
A. 强化学习点可以听取这一行为并立即放弃副本。
强化学习是一个智能系统从环境到行为的映射过程，以
III. 相关工作
实现奖励的最大化。奖励是对行动质量的评价。由于外部
环境提供的信息有限，强化学习必须依靠自身的经验来不在这一部分，我们主要回顾了UASNs的路由协议的相关
断学习，并在行动评价过程中获得反馈知识，从而改进行工作。
动，达到与陆地上的传感器网络不同，水下传感器节点不能配备
GPS来实时获得它们的位置信息，而且水下通信的延迟更
长，能耗更高。所以在一定程度上很难设计出适合UASNs
的路由协议。一些适用于WSNs（无线网络）的集中式
路由协议[5]。

传感器网络）并不符合UASNs的要求。近年来，有两种类个节点的深度信息将数据由深到浅地转发。同时，
型的路由协议适用于UASNs：基于位置的路由协议和基于 HydroCast可以及时调整中继节点的选择，以避免基于以下
深度的路由协议。因素的路由无效
基于位置的路由协议假定节点可以在一些定位算法的帮
助下知道自己的位置信息。如果该节点不能找到与水汇节
点距离较短的其他邻居节点，那么它就被称为空节点[6]
。有一些基于地理位置的路由协议，如VBF（基于矢量的
转发）[7]、HH-VBF（基于逐跳矢量的转发）[8]和AHH-
VBF（基于逐跳矢量的自适应转发）[9]。VBF主要引入了
"管道 "的概念，即每个传感器节点知道自己和目标节点的
位置坐标。数据在源节点和目的节点之间的虚拟管道中被
转发。对于节点密集部署的网络，VBF控制网络Flooding
区域的大小，以避免大量节点转发造成的能量浪费。然而
，对于稀疏的网络环境，还需要进一步改进。HH-VBF和
AHH-VBF也使用了 "管道 "的概念，但区别在于它们不使
用固定的管道区域来传输数据，而是在每次转发完成后，
在转发节点和目的节点之间建立一个新的传输管道，从而
保证数据在稀疏网络中传输的可靠性。此外，一些研究人
员还提出了其他基于地理图形位置信息和网络拓扑控制的
水下路由协议，如GEDAR（Geographic and Opportunistic
Routing Protocol）。
带深度调整）[10]，DCR（深度控制的路由）。
[11]和GR+DTC（Geographic Routing + Distributed Topol-
ogy Control）[12]。这三种算法都是基于贪婪转发的路由
协议。当数据被传输到空闲节点时，它们可以垂直移动
以连接到非空闲节点
来恢复数据的转发。然而，节点的拓扑结构调整需要大量
的能量。此外，在水下环境中，很难获得自身准确的位置
坐标，所以基于地理位置的路由协议在实际的水下环境中
很难实现。
基于深度的路由协议只依靠节点上的气压计获得的深度
信息来做决定。因此，利用深度内形成的机会主义路由是
UASNs中非常可行的方法，在实际的水下环境中更容易实
现。B. Diao等人[13]提出了一个具有能源效率的EE-DBR
（能源效率的基于深度的路由）协议。EE-DBR不再使用
DBR（基于深度的路由）算法中的深度阈值来缩小下一跳
的候选节点集的范围，而是使用ToA（到达时间）技术
[14]去掉一个固定的区域来缩小候选转发集的范围。然而
，当节点部署稀疏时，该算法不能有效地解决路由空白问
题。因此，U.Lee等人[15]提出了HydroCast（基于水力压
力的任播路由）协议，该协议将节点分为不同的群组，然
后根据每个群组的不同压力等级分配转发优先权，通过每

节点的深度信息。然而，HydroCast只为地表附近的空洞用强化学习算法，根据不断更新的节点权重来选择中继节
节点寻找恢复路径，没有考虑深层地区可能出现的路由点。当
空洞问题。为了进一步改进 Hydrocast 协议， Nadeem
Javaid等人[16]提出了CO-Hydrocast（合作式HydroCast）
协议。与Hydrocast协议不同的是，CO-Hydrocast协议加
强了节点之间的合作转发以提高数据传输率，并在部分
区域采用固定节点来处理路由无效问题。然而，这种方
法可能会限制路由的灵活性，无法在不同情况下选择和
修改转发节点。当拓扑结构因节点运动而快速变化时，
该算法不能及时调整。还有其他基于深度的软状态路由
协议，如 VAPR （ Void-Aware Pressure Routing ） [17] 、
IVAR（Inherently Void Avoidance Routing）[18]和OVAR
（Opportunistic Void Avoidance Routing）[19]等。这些方
法利用跳数、距离、转发方向和其他信息，使数据包在
转发过程中远离路由空洞。然而，在保证数据传输速率
的前提下，这些方法牺牲了更多的实时性，端到端的延
迟很高。同时，一些节点的状态变化也会导致许多其他
节点的状态变化，导致网络开销增大。
现在，多代理机器学习技术，如多代理强化学习（
MARL）[20]，已经成功地应用于涉及分布式决策的许多
领域。一个完全分布式的水下路由问题可以被认为是一
个协作的多代理系统。在 [21] 中， QELAR （基于 Q-
learning的自适应、高能效和生命期感知的路由协议）使
用Q学习的方法来计算自己的路由决策。在QELAR中，
在设计Q值函数时，综合考虑了传感器节点的能量消耗和
邻居节点之间的剩余能量分布，从而优化了总能耗和网
络寿命。然而，QELAR所采用的仿真模型是针对固定节
点的。所以它不适合快速变化的网络结构。为了提高算
法的实时性，[22]中提出了一个基于Q学习的水下多阶段
路由协议（MURAO）。MURAO首先使用聚类算法将传
感器节点分成若干传感器节点集。集群内的节点将收集
到的数据汇总给群头，群头通过多跳路由到Sink节点。
MURAO允许多个集群并行地将数据路由到Sink节点，这
提高了实时性能，但增加了网络中的冗余数据，并可能
引起数据冲突。
虽然以上这些方法在一定程度上提高了数据传输的效
率，降低了能耗，但在稀疏的网络环境中，较高的丢包
率和端到端的延迟问题仍然没有得到较好的解决。此外
，当数据包被困在路由空洞中时，上述这些方法不能及
时调整以恢复转发过程。为了进一步提高稀疏网络环境
下UASNs的可靠性、数据传输效率和实时性，本文提出
了一种基于强化学习的对立统一的路由协议。该方法使

当节点选择他们的转发集时，转发集中的节点可以互相监
程序1：构建邻接节点集。
视，以抑制重传和传输冲突，从而可以减少能量消耗。此
– ni ：传感器节点的ID
外，当传输任务陷入路由空白时，每个节点可以启用恢复 – N：传感器节点的集合
机制，绕过空白区域继续转发数据包，从而降低数据包丢 – Ni (t)：ni 的邻居节点的集合输入：
失的概率。节点n的状态信息i 输出：ni 的邻居节点的
集合 Ni (t) 1: 对于节点 ni �N do
IV. Rlor协议 2:通过RSSI 构建Ni (t)
3: 如果Ni (t)!= Ø
这一部分由六个部分组成，包括RLOR中使用的声音传
播模型、候选转发集的选择、通过强化学习选择中继节点
4: 然后切换到程序2
、恢复模式、动态定时器以及RLOR的分析和流程图。下 5: 最后，如果
面将详细介绍这些部分。 6: 结束
A. 声学传播模型
本文采用的是分析误码率的方法。如果传播路径的长度为d
本文采用索普模型[23]来描述非，比特错误率为
s !
水声传播模型。声学链路的路径损耗为 1 SNR(d)
p (d) = 1- (6)
A(d, f ) = dk α(f )d e 1 + SNR(d)
2
(1)
因此，成功传输l位数据的概率为
其中f代表信号频率，d代表探测距离，k代表传播系数（经
验值为1.5）。 p(d, l) = [1 - pe (d)]l (7)
在（1）中，α（f）代表声学吸收系数。α(f)的计算方法
是 B. 候选转发集的选择
f 2 f 2 在这一部分，我们主要详细介绍了候选for- warding集的
10 log α(f ) = 0.11
2 + 44 2+ 2.75
1+f 4100 + f 选择。机会主义路由在提高传输可靠性和网络吞吐量方面
× 10 f−42 + 0.003 (2) 具有明显的优势[25]。它利用传感器节点的多个邻居来模
节点向距离d（d<dmax ）的节点发送l比特的数据所消耗拟接收和转发数据包，从而提高数据包的转发效率。因此
的能量为，在机会主义路由中，可转发集的选择标准尤为重要。本
ETx (l, d) = lP0 A(d, f ) = lP
(ETx < Eremain)
d0k α(f )d 文综合考虑了节点深度、节点能量和邻居节点数量，从邻
(3) 居节点集中选择候选转发集。
其中P0 代表节点发送数据所需的最小功率，dmax 代表节
UASN的节点集可以定义为
点的最大通信距离，Eremain代表剩余能量
的节点，Eremain是E的上限Tx 。 N = {n1 , n2 , n 3 , ... n }m (8)
同样地，节点接收l比特的数据所消耗的能量为
其中n和m分别代表传感器节点和节点数。如果节点nj 满
ERx (l) = lPr 足以下公式，它就被归入节点ni 的候选转发集。
(4)
Ndi = {nj ∈Ni (t) ⊆N |dep(nj ) - dep(ni ) ≤ 0} (9)
其中Pr 代表接收系数，这取决于设备。
当传输路径的长度为d时，平均
SNR（信号噪声比）是
.
G(nk)
Na = {n ,n } ∈ N (t)⊆ N |G(n )≥ k Σ
Eb /A(d, f ) Eb i j k i j
SNR(d) = N0 = N0 dkα(f (5) G(n (10)
)i
)d )
1 Σk E(nk
其中，Eb 代表传输所消耗的平均能量。 Ne = {n ,n } ∈ N (t)⊆N |E(n ) ≥
一个比特数据，N0 代表AWGN（加性白高斯噪声）信道 i j k i j 2 G(n
条件下的噪声功率谱密度。 )i (11)

目前，BPSK（二进制相移键控）调制技术被广泛用于在(9)-(11)中，Ni (t)代表ni 在时间上的邻居的集合。

t.构建邻居集合的伪代码显示在Proceudre 1中。
声学信号传输的调制和解调中[24]。因此，BPSK是

程序2：构建候选中继节点集。
– d:传感器节点的深度
– G: 邻居的数量
– E: 节点的能量
– Ndi , Nαi , Nei ：N的子集i (t)
– Cabove (i)：节点n以上的候选中继节点集合i 输入：
包括d、G和E的节点信息输出：候选中继节点的集
合 Cabove (i)
1: 对于每个节点nj �Ni (t)
do 2：如果dep(nj )-
dep(ni ) < 0 3：图5. 候选转发集选择示意图。
则添加nj →Ndi
4: 结束，如果
Σ
5: 如果G(nj )≥[ G(nk )]/G(n )i 与其他节点相比，候选前摄集C中的节点above (i)具有深度
k
6: 然后添加nj →Nαi 较小、较
能源和更多的邻居节点的数量，这有利于
7: 结束，如果
Σ
8: 如果E(nj ) ≥ [ E(nk )]/2G(n )i
→
k
以提高UASN的寿命和数据传输的可靠性。候选转发集的
9: 结束
10: 然后添加Nj 霓 i
虹示意图
，如果灯 n �Nα && n �Ne
11: 如果nj �Ndi && j i j i
12: 然后添加nj → Cabove 选择如图5所示。
(i) 13：结束如果
14: 结束 C. 选择中继节点
15: 如果Cabove (i)! = Ø
16: 那么C(i) = Cabove (i) 虽然机会主义路由在一定程度上提高了网络的可靠性，
17: 转到程序4 但其端到端的延迟和实时性与其他分布式路由协议相比没
有优势[26]。虽然使用强化学习算法的路由协议的可靠性
18：否则不如机会主义路由，但它具有高灵活性和实时响应环境变
19: 切换到程序3 化的优点[27]。因此，在选择中继节点时，本文将机会主
20: 结束如果
义路由与Q学习算法[28]相结合，综合了机会主义路由的
强可靠性和强化学习的强灵活性的优点，使所选中继节点
在UASNs中，数据包总是从深度较高的节点一跳一跳地更具 "适应性"。
传输到Sink节点，因此本文通过公式（9）筛选出一个子强化学习算法通常由马尔科夫决策过程（MDPs）模型
集Ndi ，其中包括深度小于节点ni 或处于相同深度的节点描述。MDP通常由五元组（S，A，P，R，γ）组成，其中
，其中dep代表节点深度。此外，如果一个节点有更多的 S代表有限状态集，A代表有限行动集，P代表状态转换概
邻居，那么数据包传递的成功率也会相应地提高。因此，率，R代表瞬时奖励，γ是折扣系数。本文中五元组的定义
通过公式（10）筛选出包括有更多邻居的节点的子集Nαi 如下。
，其中G代表邻居节点的数量。由于能量也是限制UASN性定义1：在时间t，如果数据包在节点ni ，当前时间的状
能的一个重要因素，本文通过（11）进一步选择包括具有态集定义为
更多平均剩余能量的节点的子集Nei ，其中E代表节点能
S = {n i }� Cabove (i) (13)
量。这有利于选择具有更高
延长了网络寿命。为了增加子集Nei 中包含的节点数量，
Cabove (i) = Ndi ∩Nei ∩Nai (12)
避免交集为空，本文经过多次实验，选择了（11）中的因
子1/2。最后，满足（9）-（11）的节点构成了节点的候选
转发集Cabove （i），即

是从Cabove （i ）中选择的，所以S 被定义为当前存储数据

其中，Cabove （i）代表节点n的候选转发集i 。S代表当前
包的节点加上所有候选转发节点的集合。
状态的集合，而S'代表下一跳的状态集合。S'中的下一跳
定义2：在时间t，当前时间的行动集被定义为
A = {aj |nj ∈S}。 (14)
选择候选转发集的伪代码见程序2。
其中αj 代表选择节点nj 作为中继节点的动作。

强化学习中最重要的部分是 "奖励"。因此，本文综合考证明：参照公式（17），可知

虑了节点的深度、能量、相邻节点的数量以及成功传输数 Qπ (s, a) = Eπ {Rt |st = s, at = a}
,⎨Σ∞ ,⎬
据包的概率，并引入了
他们对奖励函数rt 。 = Eπ , γ rjt+j |st = s, at = a
,
定义3：在时间t，如果当前数据包在节点n中i j=
而ni 选择nj 作为中继节点，那么奖励函数为 ⎬ 0 , Σ ,
∞
定义为 = Eπ �rt + γ
a γ r t+j+1 |st = s, at = (19)
j
, ,
j=0
aj
rt= R ninj = Ra ′ |s = ni , s′ = n j , (15) 其中π代表在某一状态下采取的行动集合、
Ǟ
a =Ǟaj
Ǟ
= Δdep (i,j) . p(d, l) .Gabove (nj ) .E(n )j 即在某一状态下采取的策略。通过替代
将公式（15）和（16）转化为公式（18），上述公式可以
其中G (n )和E(n )代表邻居的数量。转化为
以上j j ⎡ ∞
n节点以上的能量j ，n节点的能量j ，Δdep 代表 π (s, a)= Σ a ,⎨ a
Σ
j ′⎤,⎬
节点ni 和节点nj 之间的深度差，和 Δdep Q Pss′ Rss′ + γE γ rt+j+ |st+1 = s
(i,j) = , 1
s′�S �π j=0
|depi - depj |。P(d,l)代表数据包传输成功的概率，可以 ( ⎦、
Σ a Σ
通过公式（5-7）计算。 = Pss′ R Ǟ + γ Eπ
因此，引入状态转换概率来表示在特定状态下选择不同 s′�S Σ ′a Ǟ a′�A
Ǟ ⎤,⎬
中继节点的概率。 �
∞ ′
定义4：在时间t，如果当前数据包在节点ni 、 ×⎣ γjrt+j+1|st+1 = s , at+1 = a′�
则n选择n的状态转换概率为
i j作为接力 ( ,
j=0 )
节点定义为赛 a
Σ
Σ RǞ + γ
ss Qπ (s′ , a )′
= P ′ ′a Ǟ
s′�S a′�A
a Ǟ
aj
′ (
Σ
Pn inj = Pss′ |s = n i ,s = n j ,a Σ PǞa ′
= aj = rt + γ Ǟ Qπ (s′ , a′ (20)
(16) Ǟ
aj
))
Rn nij
=Σ Rak s′�S a′�A
nk �S n
nik 为了找到某一状态下的最优解，进一步将公式（20）的左
右两边最大化，并且
为了反映未来状态对当前状态的影响，在时间t的总折扣得到的迭代方程为
奖励Rt ，定义为 Q∗ (s, a) = max Qπ (s, a)
Σ Ǟ ）
R t= r +
t γr + γ r2t+2 + ... = rt + γ s′�S PǞa ′ nmax Q∗ （s′ , a′
a′
t+1
Ǟ
∞
、
(21)
Σ
= γ rjt+j 其中，每个节点的初始Q值为0。
(17)
j=0 与其他节点相比，节点nj 具有较低的深度（更接近水槽
节点）、较高的能量和成功的概率。
当贴现因子γ=0时，系统只考虑当前行动的报酬，不数据包的传输，以及更多的邻居，那么选择节点nj 作为中
n
nij
考虑未来的情况。当贴现因子γ→1（γ渐近于1）时，系继节点所带来的奖励Ra j也会相应提高。每个节点的初始Q
统考虑当前和未来行动的奖励，而且权重接近相等。
值为0。随着时间的推移，公式（21）被反复更新，节点nj
此外，通过引入贝尔曼方程来计算状态s下的最优策略π
被选为中继节点的概率将更大。
。在某一状态下评估行动的贝尔曼方程如下。
选择中继节点的伪代码显示在程序3中。
中继节点选择的原理图如图6所示。
每个节点保存自己的剩余能量信息。
Qπ (s, a) = Eπ {Rt = S, = a} (18) ni 的邻居根据他们的剩余能量和ni 的位置，计算他们相应

|st at 的Q值。如图7所示，在Cabove （1）层中，n1 现在是
推论1：如果a'和s'分别代表下一个行动和下一个状态，存储数据包的节点，而当n1 想要找到
n1 将其位置信息发送给所有的邻居，并要求他们提供相应
在Qπ （s,α）的某一状态下，最优解Q∗ （s,α）可以表示为
的Q值。当邻居们
迭代方程
Σ 的n1 收到请求后，他们会按照以下方法计算其Q值
Q∗ (s, a) = rt + γ ′。 P a ′ {max Q∗ (s′ , a′ )}。
s �S Ǟ a′
Ǟ
Ǟ

程序3：通过Q学习选择最佳中继节点。
– 问：节点的Q值
– 时间：定时器的定时变量
– Twait : 节点的等待时间
输入：节点的初始Q和Twait 值
输出：更新的Q值和最佳中继节点的等待时间和ID
1：对于每个节点nj �C(i)做
2: 节点nj 接收节点n发送的数据包。i
3:用(13-20) 计算Q(ni , nj ) 4：
用（28-31）设定Twait （j）
。
5: 结束
6: jmax = arg max Q(ni , n )j
j
7：开始为定时器计时 8：
如果时间<Twait (j )max
9: 然后等待
10：否则
11: njmax 转发数据包
12: njmax 使用（21）更新其Q值Q(ni , njmax ) 13：
如果传输成功
14: 那么forward_status = true
15: 其他
16: forward_status = false
17: 结束，如果
18: 虽然 forward_status = false do 图6. 中继节点选择示意图。
19: jmax = arg max Q(ni , n )j
j
20: njmax 转发数据包
21: njmax 使用（21）更新其Q值Q（ni , njmax ）
22：如果传输成功
23: 那么forward_status = true
24: 最后，如果
25: 结束时
26: 结束如果
27：C(i)中的另一个节点丢弃数据包 28：
如果数据包没有被送到Sink那里
29: 那么i = jmax
30: 切换到程序1
31: 结束如果
选择无效节点
n1 ，并将它们的Q值发回给n1 。n1 选择具有最大Q值的节
点作为下一跳，并向其发送数据包。
D. 恢复模式
在数据传输过程中，当无效节点被选为中继节点时，数
据包会被节点丢弃，这将消耗能量，降低数据传输效率。
因此，本文提出的方法通过避免提前选择无效节点，并在
遇到路由无效后触发恢复模式来处理路由无效的问题。
首先，本文通过增加节点上方的邻居数量，尽可能避免
图7.节点之间握手传输信息的示意图。
作为构建奖励函数时的奖励权重。如公式（15）所示
，如果节点nj 是无效节点，Gabove （n ）j
= 0，所以相应地持有Ra j = 0。由于选择节点nj 所带 n
nij
来的奖励反馈太低，选择无效节点nj 作为中继节点的概
率将大大降低
迭代几次后减少甚至为0。
然而，尽管上述方法减少了选择无效节点的概率，但
它不能完全避免路由的

p(Δd(j,k) , m) .E(n )k
程序4：无效节点的恢复模式。- Udj , Uej = (27)
1+ d(j,k)
：N的子集i (t) Δ
– Cunder (i): 节点n下面的候选中继节点i 输入：节强化学习的使用使无效节点能够在水下选择合适的恢复
点的信息包括d、G和E 输出：候选中继节点的集中继节点，从而有效地恢复传输路径。
合 Cunder (i) 恢复模式的伪代码显示在程序中
1: 对于每个节点nj �Ni (t)做 4.
2: 如果d(n j )- d(ni ) 一旦空虚节点将数据转发给非空虚节点，它就退出恢复
≥ 0 3：模式，继续将数据包路由到水面，如第三节的B和C部分
则添加nj →Σ Udi 4
所述。实际上，在恢复模式下，节点会记录前一跳节点的
：结束如果
5: 如果E(nj )≥[ E(nk )]/2G(n )i ID，在向下选择恢复转发节点时，前一跳节点不会被重复
k
6: 然后添加 nj → Uei 选择，从而避免了路由循环。恢复模式的原理图如图8所
7: 结束，如果示。
8: 结束
9: 对于每个节点nj �Ni (t) do
10: 如果nj �Udi && nj �Uei E. 动态定时器
第IV-C节主要讨论了如何选择最佳重铺节点，图7显示
11: 然后添加nj → Cunder
了选择最佳中继节点的过程。然而，相邻节点之间的多次
(i) 12： C(i) = Cunder (i)
13: 结束，如果交互将不可避免地增加端到端的延迟。为了减少端到端延
14: 结束迟，该模型在确定最佳中继节点后，使用机会主义路由来
15：切换到程序3
转发数据包。同时，动态定时器将等待时间与每个节点的
Q相关联，以确保数据包能被传送到第四节C中选择的最
遇到无效问题时，一些无效节点仍有机会被选中。因此，佳中继节点。
为了提高遇到路由无效问题时数据传输的可靠性，本论文在机会主义路由中，一个节点首先将数据包转发给一组
引入了一种新的恢复模式，使无效节点能够找到合适的中候选节点，因此每个候选节点都持有一份数据包的副本。
继节点向下传输数据，从而绕过无效区域。然后，每个候选节点可以设置他们的定时器，以确定持有
如果节点nj 是无效节点，那么nj 以上的邻居节点都不能副本的时间。一旦一个节点的定时器结束，这个节点就被
转发数据包。让Udj 是集合Nj （t）中nj 以下的邻居子集，选为中继节点。其他候选节点可以听从这一行为并放弃副
它可以定义为本。这种机制不仅提高了数据传输的可靠性，而且还减少
Udj = {nk ∈Nj (t) ⊆N |d(nk ) - d(nj ) ≥ 0}。 (22) 了冗余传输的数量，节省了能源。然而，这个过程中的计
时器在保证数据传输效率的同时也增加了端到端的延迟。
类似于公式（11），其中具有较高能量的节点子集Uej
为了进一步
，被进一步从集合Nj （t）中筛选出来。
Σ ) 减少端到端的延迟，在本文中，我们设置定时器
1 E(nl
Uej = {nk , n l }�Nj (t)⊆N |E(nk ) ≥ l 适应性地根据节点的优先级来决定。越高的
2 G(n )j (23) 优先级越高，节点的等待时间就越短，所以
然后，无效节点的候选恢复节点集Cunder （j）。数据包可以更快地被转发，而端到端的延迟也可以相应地
nj ，可定义为减少。
Cunder (j) = Udj ∩Uej 为了保证每个转发节点有足够的时间来执行强化学习算
(24) 法和转发数据包，本文根据极端情况下的通信延迟来构建
与第四节B部分描述的路由方法不同，当空闲节点nj ，等待时间函数。如图9所示，如果节点n1 的邻居节点集为
选择自己下面的恢复中继节点时，它将消耗更多的能量
来转发数据包到更深的节点。因此，有必要选择与无效 {n2 , n3 , n4 , n5 、
节点深度差较小的节点作为恢复中继节点。因此，在恢 n6 }，其中节点n2 处于通信半径的边缘，即
复模式下，公式（13）-（15）应改写为 n1 。如果在这种情况下，n2 的优先级最高，n1 选择n2 作
为中继节点，最大通信延迟为
R
T =D (28)
梵音
S = {n j }� Cunder (j) (25)
A = {nk ∈S|a }k (26) 其中R代表节点的最大通信半径，VAcoustic代表声音在水中
R nkjan ss=k Ra ′ |s = nj , s′ = n k , a = ak 的传播速度。

最后，由于深度差越大，下一跳节点离表面上的Sink节
点越近，转发优先级越高，等待时间越短，即深度差与
等待时间成反比关系。因此，在构造等待时间函数时，有
必要引入能反映深度差的实际通信延迟T(ni , nj )，TD - T(ni
, nj )可以作为补偿量来构造
为等待时间，以反映出
等待时间和深度差，其中，对于6T(ni , nj )，T(ni , nj
)≤TD 是永远真实的，这保证了�Twait (j) ≥ 0是永远真实
的。为了使具有最大Q的节点
值成为先开始传输的那一个，Twait 被设定为与Q值成反比
。此外，Q值被归一化，以保持Twait 的尺寸（Twait
≤ Twait-bound）。Twait-bound代表系统设定的最大等待时
间。然而，当Q∈(0, 1)时，计算出的Twait 肯定比以前大。
因此，Q的映射范围
设为（0，2），可以适度反映不同Q值对Twait 的影响差
异。如果计算出的Twait > Twait-bound ，则让 Twait =
图8. 恢复模式的示意图。
Twait-bound。因此，等待时间函数可以被构造为
β。 (1-P ja ) .T + [T - T (n ,n )]
n nij D D
等待= Qij
i j (30)
其中，Qij 代表nj 对应于ni 的Q值。

推论2：如果节点nj 收到来自节点ni 的数据包、
Twait (j)是n个j 的等待时间，它认为
β。 (1-P ja ) .R + R - |d(n ) - d(n )|
ninj i j
茨瓦特 (j) = 视觉效果 .启迪
其中β代表可控系数，P ja n 代表
nij
-
图9. 节点的邻居的示意图。表示状态转换的概率。
证明：参照公式（30），可知
同样，节点ni 和n之间的通信延迟也是如此。j β。 (1-P ja ) .T + [T - T (n ,n )]
n
可定义为 D D i j
茨瓦 (j) =
nij Qij
Δd(i,j) |d(ni )-d(nj )|
T (n ,n ) = = (29)
特
i j
声波梵音
β。 (1-P jan ) + 1 .T D - T (n ,n
i )j
为了有足够的时间在节点之间交换信息，有必要构建等 = nij
Qij
待时间函数。
基于最大的通信延迟T D。
通过将公式（28）和（29）分别代入上述方程，可以转
节点。首先，节点的转发概率对等待时间有一定的影响，
并与以下因素成反比化为
1
等待时间越长，即转发概率就越高、
等待时间就越短。因此，权重系数茨瓦 (j) = β. (1 - Pa jn
n
)+
ij
特
R
的TD 与转发概率有关，可设为1 - j、 Pa n
. - |d(ni ) - d(nj )|
加权通信延迟为(1-Pa j )。TD . Addi- n
nij 视觉效果 .启迪视觉效果 .启迪
另外，为了提高等待时间的可控性，还应该引入可控系数
nij
β. (1 - Pn jn)ij 。R + R - |d(ni ) - d(nj )|
a
= (31)
β∈(02)，因此可控的加权通信延迟可以视觉效果 .启迪
表示为β . (1 - P ja n ) .TD .在实际应用中、 □
nij
当系统的实时性要求较高时，可以通过以下方式实现： 1. 如果转移到nj 的概率很高，而且节点之间的深度差很大
，那么相应的等待时间Twait （ j）会更短，数据包可以更

快地被转发到下一跳节点。

F. RLOR的分析和流程图
根据程序的伪代码，该算法在计算过程中主要由两个周
期组成，因此本文提出的算法的计算复杂度为O（n2 ），
其中n为网络的节点数。能量消耗取决于网络中节点的数
量。对于水下稀疏的网络，通常在节点的计算能力范围内
，所提出的路由策略是节能的，每个节点都有能力和价值
来执行这种分布式算法，以避免错误转发和路由无效问题
。
RLOR算法是一种完全分布式的算法。参赛节点只依靠
一跳范围内的邻居的信息来做决定。为了更清楚地描述该
算法，RLOR的流程图如图10所示。首先，节点根据约束
集构建一个候选转发节点集。如果该节点集为空，则启动
恢复机制。其次，在候选转发集中选择的节点计算并更新
其Q值。如果计时结束，具有最大累积Q值的节点被选为
中继节点并转发数据包。最后，如果在候选转发集中有节
点成功转发数据包，其他节点将放弃数据拷贝，并循环上
述过程，直到数据包被路由到Sink节点。
V. 性能分析和模拟
EE-DBR[13]、VAPR[17]和MURAO[22]算法分别是该领
域中具有代表性的基于深度、基于压力和软状态以及基于
强化学习的经典路由协议，它们在很多指标上具有良好的
性能。此外，为了更好地证明所提出的RLOR的性能，还
考虑了两个经常使用的水下网络的路由协议，它们是基于
相对距离的转发路由（RDBF）
[32]和Flooding routing[29]。因此，为了全面评估RLOR算
法的性能，本文将 RLOR 算法与 EE-DBR 、 VAPR 、
MURAO、RDBF和Flooding路由算法分别进行比较。
A. 仿真设置
对于本文中的UASN模型，每个具有唯一ID和有限能量
的节点随机分布在三维部署区域。在仿真实验中，图10. 拟议的RLOR的流程图。
UASN的部署空间被设定为500米×500米×500米，节点
节点可以根据接收到的信号强度来判断相对距离[30]。节
数量的变化范围为50-600。在这个UASNs模型中，当在
点可以在水平方向上以0�3米/秒的速度自由移动。由于节
500米×500米×500米的探测空间中，节点数量少于300
点可以利用配备的气压计保持自己的深度，所以节点的垂
个时，UASN可以被认为是一个稀疏的网络。每个节点
直运动可以忽略不计[31]。仿真所需的参数设置如表I所示
可以使用配备的气压计来获得自己的深度，每个节点只知
。
道一跳范围内的邻居节点的信息。假设拥有无限能量的
Sink节点固定在水面的中心、
B. 绩效指标
其深度为0米，能够作为网关进行声学和无线通信。源节
点部署在底部，可以水平移动。此外、首先，本文将提出的RLOR算法与EE-DBR、VAPR、
MURAO、RDBF和Flood路由进行了比较。
表一
仿真参数
图11. 六种算法的PDR的比较。
在五个性能指标方面，我们的算法是PDR(Packet Delivery
Ratio)、数据完整性、平均端到端延迟、平均能量税和数据
包从源节点到汇节点的平均跳数。其次，由于式(17)中的
折扣系数γ和式(30)中的权重系数β的选择对算法的性能有
很大影响，本文还比较了RLOR在不同γ和β值下的上述五图12. 六种算法的数据完整性的比较。
个性能指标。
1) 数据包交付率： PDR是由Sink节点收到的数据包数通过机会主义转发，在一定程度上提高了数据传输的效率
量与源节点发送的数据包数量之比定义的：。
R
2) 数据的完整性：由于路由空洞和数据冲突，一些数
据片段可能会丢失，以及冗余的问题。
数据包
PDR = (32) 数据包的传输可能导致PDR不能准确地重新反映数据的完
篮板球
整性。因此，本文进一步比较了
其中， Rpackets 代表汇点节点收到的数据包数量， Spackets 代观察原始数据包和Sink节点最终收到的数据包的标签来评
表源节点发送的数据包数量。
估数据的完整性。如图12所示，当节点数量较少时，数据
如图11所示，随着部署节点数量的增加，六种算法的
完整性一般较低。这是因为在稀疏的网络环境中存在许多
PDR都逐渐增加。这是因为，随着节点部署从稀疏到密集
路由空隙，一些数据片段由于被路由到空隙节点而丢失。
，空白区域越来越少，更多的节点可以参与到数据包的转
随着节点数量的增加，数据的完整性也会得到改善。然而
发协助中，所以数据包丢失会减少。其中，VAPR和所提
，当节点的数量继续增加时，数据的完整性会略有下降。
出的RLOR在不同节点数下的PDR普遍高于其他方法。在
这是因为，在密集的网络环境中，数据冲突的问题变得越
相对密集的场景中，VAPR和RLOR的结果接近，而在稀疏
来越严重，导致一些数据片段的丢失。在这些算法中，
的场景中，当节点数在100到400之间时，RLOR的表现甚
RLOR的数据完整性总是优于其他五种算法。这是因为
至优于VAPR。这是因为RLOR保证了可靠性
RLOR可以通过定时转发在一定程度上抑制数据冲突问
题。

图13. 六种算法的平均端到端延迟的比较。图14. 六种算法的能量税的比较。
机制。此外，在稀疏的网络环境中，RLOR算法通过引入密集网络中的大量节点，也有许多可供选择的数据传输路
相应的恢复机制缓解了路由无效问题。径，这就减少了路由无效造成的能量损失。因此，能源税
3) 平均端到端延时：平均端到端延迟是指从源节点发相对较低。相反，在稀疏网络中，有许多无效节点，数据
送的数据包直到被汇点节点接收所消耗的平均时间。如图包转发失败的概率也相应较高，导致网络能量消耗很大。
13所示，所有六种算法的端到端延迟随着节点部署从稀疏在图14中，当节点数超过300个后，MURAO算法的能量
到密集而逐渐减少。这是因为节点越多，节点可以选择的税会增加。这是因为MURAO算法不抑制重传，当节点数
邻居就越多，可以选择更好的中继节点进行数据转发，遇过多时，网络中存在很多冗余的数据拷贝，数据冲突的概
到空白区域的概率就会降低，所以延迟会随着节点数量的率增加，导致部分能量损失。由于提出的RLOR结合了机
增加而降低。会主义路由和强化学习的优点，再辅以动态定时器，不仅
与 EE-DBR 、 RDBF 和 Flood 路由算法相比，所提出的提高了所选传输路径的质量，而且在一定程度上抑制了冗
RLOR具有较低的平均端到端延迟，而VAPR的性能在总余传输，提高了能量利用率。
体上与RLOR接近。但在节点数量较多的情况下，RLOR 5) 平均跳数：平均跳数是指将一个数据包从源节点路
的延迟要高于MURAO。这是因为MURAO没有采取机会由到水槽节点所需的平均中继节点数。理想情况下，数据
主义转发的方法，牺牲了部分数据传输率来换取较低的时包应该总是能够使用最短的路径和最少的中继节点路由到
延。本文在动态网络环境下，采用强化学习的方式实时选水槽节点。如图15所示，随着节点部署从稀疏到密集，六
择中继节点，在保证数据传输效率的同时优化路由路径，种算法的平均跳数逐渐减少。这是因为，在稀疏的网络环
由此带来的时间消耗增加是系统可以接受的。境中，部署的节点数量较少，源节点和Sink节点之间的理
4) 能量税：能量税是每个节点将数据包路由到汇点节论最短路径不一定被节点覆盖，存在很多空闲节点，所以
点的平均能量，其中包括接收和发送数据包的能量消耗以从源节点到Sink节点的数据包路由需要经过更多的中继节
及空闲状态下的能量消耗。能量税的计算方法如下：点，并多次触发恢复模式，平均跳数很高。然而，在密集
消耗品的网络环境中，有更多的部署节点、
能源税= (33) 更少的无效节点，理论上最短路径上的节点覆盖概率更高，
N列节点×R包
因此平均跳数
其中 Econsumed 和Numnodes 分别代表一轮工作期间的总能量更低。提出的RLOR在平均跳数上接近MURAO算法，在
和部署节点的数量。这一性能上明显优于其他四种算法。
如图14所示，在这六种算法的比较中，能量税随着节点 6) 参数调整：由于公式（17）中的折扣系数γ对整体性
密度的增加而减少。因为能有很大影响

图16. 不同参数下RLOR的PDR比较。
图15. 六种算法的平均跳数的比较。
的算法，当折扣系数γ=0时，算法只考虑当前状态的奖励
。当γ=0.5时，算法倾向于关注当前状态的奖励；当γ→1
时，算法同时考虑当前和未来状态的奖励，且权重接近相
等。
同样，在公式（30）中，权重系数β的选择对端到端延迟
有很大影响。当β较小时，节点的整体转发等待时间较短
，可能导致强化学习阶段不足，强化学习失败导致随机选
择中继节点，从而加剧了随机for- warding的问题这意味
着，在一跳传输范围内，节点会随机选择下一跳转发节点
而不是最优转发节点。当β较大时，节点的整体转发等待
时间较长，强化学习阶段有足够的时间执行，但这会增加
图17.不同参数下RLOR的数据完整性比较。
端到端的延迟。通过多次实验，本文对RLOR的性能进行
了比较和分析
当（γ ， β）被选为一些典型的参数组合时，算法：（0.5
，1）、（0.5，2）、（→1，1）和（→1，2）。
如图16-20所示，综合性能
当（γ，β）选择为（0.5，2）和（→1，1）时，所提出的
RLOR的效果更好。当（γ ， β）为（0.5，2）时，算法更
关注当前状态的奖励，转发等待时间充足，因此数据传输
更可靠，整体PDR和数据完整性更高，能量税更低，但端
到端延迟更高，而且
平均跳数也相对较高。因此，在一些对时间延迟要求不高
，但对PDR和数据完整性要求较高的场景下，可以将参数
（γ，β）设置为（0.5，2）。当（γ，β）为（→1，1）时
，当前和未来节点状态的奖励权重接近相等，转发等待时
间短。虽然PDR
图18.不同参数下RLOR的平均端到端延迟的比较。
和数据完整性在稀疏的网络环境中，端到端的延迟很低，
平均跳数也相对较低。因此，在一些实时性要求较高的场
景中，参数（γ，β）可以设置为（→1，1）。

和能源效率的数据传输，同时保证实时性。鉴于目前
UASNs路由算法的实时性不高，本文引入了动态定时转发
，在一定程度上减少了端到端的延迟，提高了该方法的
实时性。针对当前UASNs路由算法在节点遇到路由无效时
不能及时恢复转发的问题，本文引入了一种新的恢复模式
，使节点能够尽快选择恢复节点绕过无效区域，提高了整
个UASNs的健壮性。然而，本文提出的方法是在（γ，β）
的指定值组合下讨论的。在未来的研究中，可以将其设定
为一个可以根据环境变化自适应调整的值，从而进一步提
高UASNs的性能。
图19. 不同参数下RLOR的能源税比较。参考文献
[1] M.T. Kheirabadi和M. M. Mohamad, "水下声学传感器网络的贪婪路

由： A survey," Int.J. Distrib.Sensor Netw., vol. 9, no. 7, 2013, doi:
10.1155/2013/701834.
[2] S.M. Ghoreyshi, A. Shahrabi, and T. Boutaleb, "水下传感器网络中路由
协议的空隙处理技术： Survey and chal- lenges," IEEE
Commun.Surv.Tut., vol. 19, no. 2, pp. 800-827, Apr.-Jun. 2017, doi:
10.1109/comst.2017.2657881.
[3] Y.Zhang, J. Wang, D. Han, H. Wu, and R. Zhou, "Fuzzy-logic based
distributed energy-efficient clustering algorithm for wireless sensor
networks," Sensors (Basel), vol. 17, no. 7, pp. 1554, Jul. 2017, doi:
10.3390/s17071554.
[4] B.Wang, W. Xiao, and S. Bo, "An improved centralized energy-efficient
routing protocol for wireless sensor networks," J. Convergence Inf.7,
no. 23, pp.83-91, 2012.
[5] S.D. Muruganathan, D. C. F. Ma, R. I. Bhasin, and A. O. Fapojuwo, "A
centralized energy-efficient routing protocol for wireless sensor net-
works," IEEE Communications.Mag., vol. 43, no.3, pp. S8-13, Mar.
2005, doi: 10.1109/MCOM.2005.1404592.
[6] N.Javaid, T. Hafeez, Z. Wadud, N. Alrajeh, M. S. Alabed, and N. Guizani,
"Establishing a cooperation-based and void node avoiding energy-efficient
图20.不同参数下RLOR的平均跳数的比较。 underwater WSN for a cloud, " IEEE Access, vol. 5, pp. 11582-11593,
2017, doi: 10.1109/ACCESS.2017.2707531.
[7] P.Xie, J.-H.Cui, and L. Lao, "VBF: Vector-based forwarding protocol
for underwater sensor networks," in NETWORKING 2006.Networking
Technologies, Services, and Protocols; Performance of Computer and
然而，当(γ, β)为(0.5, 1)时，该算法注意到了当前状态的 Communication Networks; Mobile and Wireless Communications Sys-
tems, F. Boavida, T. Plagemann, B. Stiller, C. Westphal, and E.
奖励，但等待时间不充分。虽然端到端的延迟很低，但其
Monteiro, Eds., 柏林，德国：Springer, 2006, pp.1216-1221.
他性能指标却很差。当(γ, β)为(→1, 2)时，虽然等待时间充 [8] N.Nicolaou, A. See, P. Xie, J. Cui, and D. Maggiorini, "Improving the
robustness of location-based routing for underwater sensor networks," in
足，但PDR、数据完整性和能源税的整体性能都很好，但 Proc. IEEE OCEANS 2007 - Eur. , Aberdeen, U.K. , 2007, pp.
平均性能 [9] H.Yu, N. Yao, and J. Liu, "An adaptive routing protocol in underwater
sparse acoustic sensor networks," Ad Hoc Netw., vol. 34, pp. 121-143,
端到端延迟和跳数都很差。综上所述，在设置（γ，β）上 2015, doi: 10.1016/j.adhoc.2014.09.016。
[10] R.W. L. Coutinho, A. Boukerche, L. F. M. Vieira, and A. A. F.
有一个权衡，其值应相对平衡，即γ或β的值不应过小或过 Loureiro, "GEDAR: Geographic and opportunistic routing protocol with
depth adjustment for mobile underwater sensor networks, " in Proc.
大。 IEEE Int.Conf.Commun., Sydney, NSW, Australia, 2014, pp. 251-256,
doi: 10.1109/ICC.2014.6883327.
[11] R.W. L. Coutinho, L. F. M. Vieira, and A. A. F. Loureiro, "DCR:
VI. 总结 Depth- controlled routing protocol for underwater sensor networks," in
Proc. IEEE Symp.Comput.Commun., Split, Croatia, 2013, pp. 000453-
000458, doi: 10.1109/ISCC.2013.6754988.
本文提出了一种基于强化学习的UASNs的机会主义路由 [12] R.W. L. Coutinho, A. Boukerche, L. F. M. Vieira, and A. A. F.
协议（RLOR），它结合了机会主义路由的高可靠性、强 Loureiro, "A novel void node recovery paradigm for long- under-water
sensor networks," Ad Hoc Netw., vol. 34, pp. 144-156, 2015, doi:
化学习的强灵活性和对环境变化的动态响应等优点。 10.1016/j.adhoc.2015.01.012。
[13] B.Diao, Y. Xu, Z. An, F. Wang, and C. Li, "Improving both en- erything
RLOR综合考虑节点的各种状态信息，实时动态地优化路 and time efficiency of depth-based routing for underwater sensor
networks," Int.J. Distrib.Sensor Netw., vol. 2015, pp. 1-9, 2015, doi:
由路径，提高了可靠性。 10.1155/2015/781932.

[14] Q.Liang, B. Zhang, C. Zhao, and Y. Pi, "TDoA for passive lo- calization 张英于1990年在中国北京的华北理工大学获得
：水下与地面环境"，IEEE Trans.Parallel Distrib.10, pp. 2100-2108, 学士学位，1996年在中国合肥的合肥工业大学
Oct. 2013, doi: 10.1109/tpds.2012.310.
获得硕士学位，1999年在中国上海的上海交通大
[15] Y.Noh 等人， "HydroCast ：水下传感器网络的压力路由 "，IEEE
Trans.Veh.Technol., vol. 65, no. 1, pp. 333-347, Jan. 2016, doi: 学获得博士学位。2006年，他在中国上海的东华
10.1109/TVT.2015.2395434. 大学担任博士后职务。2009年至2010年在美国
[16] N.Javaid et al., "Cooperative opportunistic pressure based routing for
乔治亚州亚特兰大市的乔治亚理工学院担任客
underwater wireless sensor networks," Sensors (Basel), vol. 17, no.3,
pp.629, Mar. 2017, doi: 10.3390/s17030629. 座教授，2016年至2019年在美国佛罗里达州奥
[17] Y.Noh, U. Lee, P. Wang, B. S. C. Choi, and M. Gerla, "VAPR：VAPR: 兰多市的中佛罗里达大学担任客座教授。目前
Void-aware pressure routing for underwater sensor networks," IEEE ，他是美国加州大学洛杉矶分校的全职教授。
Trans.Mobile Comput., vol. 12, no.5, pp. 895-908, May 2013, doi:
10.1109/tmc.2012.53. 上海海事大学信息工程学院教授，上海，中国。他的研究兴趣包括海洋
[18] S.M. Ghoreyshi, A. Shahrabi, and T. Boutaleb, "An inherently void 物联网、传感器网络和移动特设网络。
avoidance routing protocol for underwater sensor networks," in Proc.
Int.Symp. 无线通信。 Syst., Brussels, Belgium, 2015, pp.361-365, doi:
10.1109/ISWCS.2015.7454364.
[19] S.M. Ghoreyshi, A. Shahrabi, and T. Boutaleb, "A novel cooperative
opportunistic routing scheme for underwater sensor networks," Sensors
（Basel）, vol. 16, no.3, pp. 297, Feb. 2016, doi: 10.3390/s16030297.
[20] X.Lin 等人， "MARL-based distributed cache placement for wireless
networks," IEEE Access, vol. 7, pp. 62606-62615, 2019, doi:
10.1109/access.2019.2916155.
张哲明于2018年在中国鞍山的辽宁科技大学获得
[21] T.Hu and Y. Fei, "QELAR: A machine-learning-based adaptive routing
protocol for energy-efficient and lifetime-extended underwater sensor net- 通信工程学士学位。他目前正在攻读中国上海
works," IEEETrans.Mobile Comput., vol. 9, no. 6, pp. 796-809, Jun. 2010, 海事大学的信息和通信工程硕士学位。他的研
doi: 10.1109/tmc.2010.28.
[22] T.Hu and Y. Fei, "MURAO: A multi-level routing protocol for acoustic- 究兴趣包括In- ternet of Things的信息安全、传感
optical hybrid underwater wireless sensor networks," in Proc. 9 器网络和机器学习。
Annu.IEEE Commun.Soc. Conf.Sensor, Mesh Ad Hoc Commun.Netw.,
Seoul, South Korea, 2012, pp. 218-226, doi:
10.1109/SECON.2012.6275781.
[23] M.Stojanovic, "On the relationship between capacity and distance in an
underwater acoustic communication channel," ACM SIGMO- BILE
Mobile Comput. 通信。 Rev., vol. 11, no.4, pp. 34, 2007, doi:
10.1145/1347364.1347373.
[24] L.Freitag, M. Grund, S. Singh, J. Partan, P. Koski, and K. Ball, "The
WHOI micro-modem ：多平台的声学通信和导航系统 " ，在陈磊于2017年在中国大连的大连海洋大学获得
Proc.OCEANS 2005 MTS/IEEE, 2005, vol. 2、通信工程学士学位。他目前正在努力争取获得
pp.1086-1092, doi: 10.1109/OCEANS.2005.1639901. 在上海海事大学获得信息和通信工程硕士学位。
[25] H.Wu, G. Wang, and X. Lin, "On the effectiveness of opportunistic
他的研究兴趣包括物联网的网络和智能路由，
routing over wireless mesh networks," in Proc. 6th Int. Conf.Conf. 无线
传感器网络，以及机器学习。
通信。 Netw.Mobile Comput., 2010, pp. 1-4, doi:
10.1109/WICOM.2010.5601216.
[26] M.Xiao, J. Wu, C. Liu, and L. Huang, "TOUR: Time-sensitive oppor-
tunistic utility-based routing in delay tolerant networks," in Proc. IEEE
INFOCOM, 2013, pp. 2085-2091, doi: 10.1109/INFCOM.2013.6567010.
[27] K.Tang, C. Li, H. Xiong, J. Zou, and P. Frossard, "Reinforcement
learning-based opportunistic routing for live video streaming over multi-
hop wireless networks, " in Proc. IEEE 19th Int .Workshop Multimedia
Signal Process., 2017, pp.1-6, doi: 10.1109/MMSP.2017.8122255.
[28] X.He, H. Jiang, Y. Song, C. He, and H. Xiao, "Routing selection with 王新恒（IEEE高级会员）分别于1991年和1994
rein-forcement learning for energy harvesting multi-hop CRN," IEEE 年在中国西安交通大学电气工程系获得学士和
Access, vol. 7, pp. 54435-54448, 2019, doi:
10.1109/access.2019.2912996. 硕士学位，并于2001年在英国Uxbridge的Brunel
[29] S.H. Ahmed, S. Lee, J. Park, D. Kim, and D. B. Rawat, "iDFR: Intel- 大学获得电气工程和电子学博士学位。他目前
ligent directional flooding-based routing protocols for underwater
是中国苏州西安交通大学电气和电子工程系的全
sensor networks," in Proc. 14 IEEE Annu. 消费者。通讯。 Netw.
职教授。他的研究兴趣包括：物联网、智能服务
Conf.Conf., Las Vegas, NV, 2017, pp. 560-565, doi:
10.1109/CCNC.2017.7983168. 网络、大数据分析、融合性和可扩展性。
[30] M.Ivanic´和I. Mezei，"基于方位感知节点的RSSI成像证明的距离估室内定位，和灾害管理。
计 " ，在 Proc.Zooming In- nov. 消费者。 Technol.Conf., Novi Sad,
Serbia, 2018, pp.140-143, doi: 10.1109/ZINC.2018.8448660.
[31] H.Yu, N. Yao, T. Wang, G. Li, Z. Gao, and G. Tan, "WDFAD------"。
DBR: Weighting depth and forwarding area division DBR routing
protocol for UASNs," Ad Hoc Netw., vol. 37, pp. 256-282, 2016, doi:
10.1016/j.adhoc.2015.08.023。
[32] Z.Li, N. Yao, and Q. Gao, "Relative distance based forwarding protocol
for underwater wireless networks," Int. J. Distribution.J. Distrib.Sensor
Netw., vol. 2014、
pp.1-11, 2014, doi: 10.1155/2014/173089.

RLOR Q-learning 协同通信 Zh

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

RLOR Q-learning 协同通信 Zh

Uploaded by

Copyright:

Available Formats

订阅DeepL Pro以翻译大型文件。

2756 IEE transactions on vehicular technology, Vol.70, NO.3, MarCH 2021

0018-9545 © 2021 IEE.允许个人使用，但再版/转发需经IEEE许可。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

目前，BPSK（二进制相移键控）调制技术被广泛用于 在(9)-(11)中，Ni (t)代表ni 在时间上的邻居的集合。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

是从Cabove （i ）中选择的，所以S 被定义为当前存储数据

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

强化学习中最重要的部分是 "奖励"。因此，本文综合考 证明：参照公式（17），可知

Qπ (s, a) = Eπ {Rt = S, = a} (18) ni 的邻居根据他们的剩余能量和ni 的位置，计算他们相应

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

其中，Qij 代表nj 对应于ni 的Q值。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

图13. 六种算法的平均端到端延迟的比较。 图14. 六种算法的能量税的比较。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

图19. 不同参数下RLOR的能源税比较。 参考文献

[1] M.T. Kheirabadi和M. M. Mohamad, "水下声学传感器网络的贪婪路

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

授权许可使用仅限于：K.L.大学（F.K.A. Koneru Lakshmaiah工程学院）。于2021年6月27日23:43:41 UTC从IEEE Xplore下载。限制条件适用。

You might also like

目前，BPSK（二进制相移键控）调制技术被广泛用于在(9)-(11)中，Ni (t)代表ni 在时间上的邻居的集合。

强化学习中最重要的部分是 "奖励"。因此，本文综合考证明：参照公式（17），可知

图13. 六种算法的平均端到端延迟的比较。图14. 六种算法的能量税的比较。

图19. 不同参数下RLOR的能源税比较。参考文献