You are on page 1of 11

第 46 卷 第8期 2022 年 4 月 25 日 Vol. 46 No. 8 Apr.

25,2022
DOI:10. 7500/AEPS20210607005

弹性配电系统动态负荷恢复的深度强化学习方法
黄玉雄,李更丰,张理寅,别朝红
(西安交通大学电气工程学院,陕西省西安市 710049)

摘要:极端事件下,合理利用微网盈余电力供应配电系统中的关键负荷,可有效提升电网弹性。基
于深度强化学习(DRL)技术,提出一种考虑微网参与的配电系统动态关键负荷恢复(DCLR)方法,
支 持 以 无 模 型 的 方 式 求 解 复 杂 问 题 ,以 提 升 在 线 计 算 效 率 。 首 先 ,分 析 含 微 网 的 配 电 系 统 DCLR
问题,并在此基础上构建其马尔可夫决策过程,其中考虑了配电系统运行 、微网运行和用户满意度
等 约 束 条 件 。 其 次 ,基 于 OpenDSS 构 建 DCLR 模 拟 环 境 ,形 成 DRL 应 用 所 需 的 智 能 体 -环 境 交 互
接口,进一步采用深度 Q 网络算法搜寻关键负荷恢复的最优控制策略,并定义收敛性 、决策能力指
标 分 别 用 于 评 价 智 能 体 的 训 练 和 应 用 表 现 。 最 后 ,基 于 改 进 的 IEEE 测 试 系 统 验 证 了 所 提 方 法 的
有效性。
关键词:负荷恢复;深度学习;强化学习;配电系统;微网(微电网);弹性

0 引言 经济可行的电网弹性提升方案。文献[11]较早提出
了 考 虑 微 网 参 与 的 配 电 系 统 事 后 运 行 模 式 ,将 弹 性
自 然 灾 害 、人 为 攻 击 和 严 重 技 术 故 障 等 极 端 事
配电系统的关键负荷恢复问题建模为混合整数线性
件严重威胁着电力系统的安全可靠运行[1]。面向极
规 划 问 题 。 文 献[12]提 出 了 多 源 协 同 的 配 电 系 统
端事件的电力系统弹性研究已越来越受到重视。电
多 时 段 负 荷 恢 复 优 化 决 策 方 法 。 此 外 ,现 有 研 究 还
力系统弹性是指电力系统承受和抵御极端事件的能
考虑了微网频率稳定性[13]、配电网络拓扑重构[14-15]、
力,包括事前预防、事中适应和事后恢复 3 个主要阶
配 电 系 统 线 性 拓 扑 约 束[16]、储 能 设 备 与 需 求 侧 管
段[2]。 随 着 碳 中 和 的 逐 步 推 进 ,未 来 配 电 系 统 将 接
理[17-18]、分 层 故 障 管 理[19]、可 再 生 DG 出 力 不 确 定
入大量分布式电源(distributed generator,DG),而微
性[20]等因素对含微网的配电系统负荷恢复的影响。
网 作 为 配 电 系 统 承 载 DG 的 重 要 形 式 ,其 相 应 技 术
目 前 ,大 多 数 的 关 键 负 荷 恢 复 研 究 是 将 恢 复 问
将得到大力发展。当极端事件导致主网故障而出现
题 建 模 为 数 学 规 划 模 型 ,进 而 基 于 最 优 化 理 论 求
供 电 能 力 不 足 时 ,配 电 系 统 可 以 通 过 操 作 分 段 开 关
解 。 这 类 基 于 模 型 的 方 法 存 下 以 下 问 题 :1)需 要 建
实 现 分 区 ,各 分 区 内 基 于 微 网 盈 余 电 力 可 为 配 电 系
立 研 究 对 象 的 显 式 数 学 模 型 ,这 对 于 复 杂 系 统 而 言
统用户提供电力服务。
存 在 很 大 难 度 ;2)最 优 化 理 论 中 对 于 可 解 性 的 要 求
近 年 来 ,配 电 系 统 的 弹 性 评 估 及 提 升 已 成 为 研
使得模型中存在不同程度的简化;3)当在线应用时,
究 热 点 。 文 献[3]分 析 了 能 源 转 型 下 的 弹 性 电 力 系
优化问题的高效求解仍然面临着挑战。针对上述问
统 的 内 涵 和 前 景 。 文 献[4]提 出 了 配 电 系 统 弹 性 的
题 ,无 模 型 的 机 器 学 习 方 法 被 认 为 是 一 种 可 能 的 解
核 心 特 征 与 关 键 技 术 。 文 献[5-6]提 出 了 电 力 系 统
决途径[21]。
弹 性 评 估 与 提 升 的 通 用 研 究 框 架 。 文 献[7-9]研 究
本 文 基 于 无 模 型 的 深 度 强 化 学 习(deep
了极端天气下电网的脆弱性建模方法与恢复措施。
reinforcement learning,DRL)技 术 ,研 究 含 微 网 的 弹
文献[10]对主动配电系统的弹性研究现状进行了系
性配电系统在失去主网供电能力情况下的事后动态
统 性 的 综 述 。 对 于 极 端 事 件 ,相 比 于 事 前 的 设 备 强
关 键 负 荷 恢 复(dynamic critical load restoration,
化 投 资 ,事 后 或 事 中 的 高 效 负 荷 恢 复 被 认 为 是 更 加
DCLR)问 题 。 这 里 的“ 动 态 ”取 自 动 态 规 划[22]的 概
念 ,有 别 于 电 力 系 统 动 态 特 性 。 相 较 于 传 统 的 静 态
收稿日期:2021-06-07;修回日期:2021-11-08 。
上网日期:2022-02-24。 关 键 负 荷 恢 复 模 型 ,本 文 将 恢 复 问 题 建 模 为 马 尔 可
国 家 电 网 有 限 公 司 总 部 科 技 项 目(SGJX0000KXJS190 夫 决 策 过 程(Markov decision process,MDP),恢 复
0322)。 过 程 被 拆 分 为 一 系 列 单 阶 段 问 题 逐 次 求 解 ,各 阶 段

68
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法

决 策 考 虑 了 未 来 一 定 步 数 决 策 的 影 响 ,各 阶 段 的 解 的训练难度越大。
组 成 全 过 程 最 优 的 决 策 序 列 。 具 体 而 言 ,首 先 分 析 1. 2 动态关键负荷恢复
考 虑 微 网 的 DCLR 问 题 ,并 在 此 基 础 上 建 立 相 应 的 极 端 事 件 下 ,配 电 系 统 可 能 在 一 段 时 期 内 无 法
MDP 模 型 ,同 时 构 建 基 于 OpenDSS[23]的 DCLR 模 通过变电站或馈线获取主网电力,在此期间,配电系
拟 环 境 ,形 成“ 智 能 体 - 环 境 ”交 互 接 口(agent- 统运营商(distribution system operator,DSO)可以基
environment interface,AEI)。 然 后 ,采 用 深 度 Q 网 于 分 段 开 关 和 DG 将 配 电 系 统 分 解 成 多 个 孤 岛 微
络(deep Q-network,DQN)
[24-25]
算法寻求最优控制 网,从而为关键负荷继续供电,并提升电网弹性[26]。
策 略 ,并 定 义 评 价 指 标 用 于 定 量 评 估 智 能 体 在 训 练 DCLR 的 动 态 决 策 过 程 如 图 1 所 示 。 其 中 ,恢
和 应 用 环 节 的 表 现 。 最 后 ,基 于 改 进 的 IEEE 测 试 | Γ | = T 。 DSO 在 各
复 时 间 被 离 散 化 ,记 为 集 合 Γ ,
系统进行算例分析,以验证所提方法的有效性。 时 间 点 t ∈ Γ 均 会 进 行 负 荷 恢 复 决 策 ,且 DSO 的 每
1 问题建模 次决策受到当前和未来奖励的影响。

首 先 ,介 绍 MDP 的 基 本 概 念 与 DCLR 的 数 学
at rt at+1 rt+1 at+2 rt+2
模 型 ,在 此 基 础 上 ,通 过 定 义 状 态 空 间 、动 作 空 间 等
 DSO 
MDP 要素,建立 DCLR 问题的 MDP 模型。最后,基 DSO DSO
st st+1 st+2 st+3
于 OpenDSS 建 立 DCLR 模 拟 环 境 ,形 成 DRL 应 用
'D/; 68N
所需的智能体-环境交互接口。
图 1 DCLR 问题的动态决策示意图
1. 1 MDP 基本概念 Fig. 1 Schematic diagram of dynamic decision-making
MDP 从智能体和环境的互动中学习控制策略, for DCLR problem
以实现控制目标,是序贯决策的经典表现形式,其由
五元组 { S,A,Ρ,r,γ } 表示,其中 S 为状态空间;A 为 将 配 电 系 统 记 为 图 G = ( N,L ),其 中 N 和 L 分
动作空间 ;Ρ ( s'|s,a ) 为在采取动作 a 后由状态 s 到达 别表示节点集合和线路集合。微网所在节点的集合

状 态 s' 的 概 率 ;r ( s,a,s' ) 为 在 采 取 动 作 a 后 由 状 态 s 记 为 M ⊂ N 。 分 段 开 关 以 集 合 W 表 示 ,每 个 节 点

到达状态 s' 的立即奖励;γ 为折扣因子,0 ≤ γ ≤ 1 。 i ( ∈ N ) 的 有 功 功 率 和 无 功 功 率 分 别 记 为 p t,i,ϕ 和

在智能体与环境的交互中,首先,在时刻 t,智能 q t,i,ϕ ,其 中 ϕ ∈ { a,b,c } 表 示 相 别 ;ω i 表 示 节 点 i 负 荷


体 基 于 环 境 的 状 态 s t ( ∈ S)选 择 动 作 a t ( ∈ A );然 后 , 的权重系数。以下将从恢复目标和约束条件 2 个方
环 境 根 据 概 率 Ρ ( s t + 1 |s t,a t ) 转 移 到 状 态 s t + 1 ,智 能 体 面 进 一 步 分 析 DCLR 问 题 的 数 学 模 型 ,以 此 作 为 后
获 得 立 即 奖 励 r t = r ( s t,a t,s t + 1 )。 智 能 体 在 交 互 过 续建立 DCLR 的 MDP 以及 AEI 的基础。
程 中 通 过 学 习 获 得 决 策 能 力 ,决 策 目 标 是 最 大 化 其 1. 2. 1 恢复目标
处于给定状态 s 或状态-动作对 ( s,t ) 时的价值,这一 DCLR 的目标为在恢复期间的加权负荷恢复总
量的数学期望最大,可表示为:

( )
价值可由累计奖励的期望进行估计。动作价值函数
Q π ( s,a ) 的数学表达式为:
Q π ( s,a )= Ε τ~π ( R Tτ |s τ = s,a τ = a ) ∀s ∈ S,a ∈ A
max Ε s ∑
t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c }
ω i p͂ t,i,ϕ (3)

(1) 式 中 :Ε s ( ∙ ) 为 考 虑 了 系 统 状 态 s 中 随 机 扰 动 后 的 数
T-1
学期望函数;p͂ t,i,ϕ 为实际恢复负荷,p͂ t,i,ϕ = v t,i,ϕ p t,i,ϕ ,
R Tτ = ∑γ k-t
rk (2)
k=t
其中,v t,i,ϕ 为二值状态变量,用于表示负荷 p t,i,ϕ 的恢
式中 :π 为控制策略 ,表示状态与选择每个可能动作 复 状 态 ,v t,i,ϕ = 1 表 示 已 被 恢 复 ,v t,i,ϕ = 0 表 示 未 被
概率的映射;Ε τ~π ( ∙ ) 为状态 s 从采取动作 a 开始遵循 恢复,当微网供电范围确定时,v t,i,ϕ 也随之确定。
策略 π 所获得的期望折扣回报函数;τ 为 MDP 轨迹; 1. 2. 2 约束条件
R Tτ 为 从 时 刻 t 开 始 到 时 刻 T 结 束 的 MDP 片 段
本 文 在 DCLR 问 题 中 考 虑 3 类 约 束 ,分 别 为 配
(episode)的 折扣回报。
电 系 统 运 行 约 束 、微 网 运 行 约 束 以 及 用 户 满 意 度
γ 用于描述预期的未来奖励对当前决策的影
约束。
响,γ 越接近 0,表明智能体的目标越“近视”
(即向前 1)配电系统运行约束
考虑的步数越少),智能体的训练难度越小,反之,若 配电系统负荷恢复应满足三相不平衡潮流
γ 越 接 近 1,则 智 能 体 向 前 考 虑 的 步 数 越 多 ,智 能 体 方程:

http ://www.aeps -info.com 69


2022,46(8) · 学术研究 ·

p t,i,ϕ - jq t,i,ϕ = (Vˉ t,i,ϕ )* ∑∑ Y


j ∈ Ωi
ij,ϕϕ' Vˉ t,j,ϕ' p t,h,min ≤ p t,h ≤ p t,h,max t ∈ Γ,h ∈ M (7)
ϕ'
q t,h,min ≤ q t,h ≤ q t,h,max t ∈ Γ,h ∈ M (8)
t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c } ,ϕ' ∈ { a,b,c } (4)
ìï p t,h,min = max ( p h,min,p t - 1,h - δ h,p p h,max )
式 中 :Vˉ t,i,ϕ 为 时 刻 t 节 点 i 相 别 ϕ 的 电 压 ;Ω i 为 与 节 ïïï p t,h,max = min ( p h,max,p t - 1,h + δ h,p p h,max )
点 i 直 接 相 连 的 节 点 集 合 ;Y ij,ϕϕ' 为 节 点 导 纳 矩 阵 中 í (9)
ï q t,h,min = max ( q h,min,q t - 1,h - δ h,q q h,max )
节点 ( j 相别 ϕ')所对应的元素。
i 相别 ϕ)和节点 ( ïï
ïî q t,h,max = min ( q h,max,q t - 1,h + δ h,q q h,max )
配电系统各节点电压应该维持在可行的范
式中:p t,h,max 和 p t,h,min 分别为时刻 t 微网 h 的有功功率
围内:
V min ≤ V t,i,ϕ ≤ V max t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c } 上限和下限;q t,h,max 和 q t,h,min 分别为时刻 t 微网 h 的无

(5) 功 功 率 上 限 和 下 限 ;p h,max 和 p h,min 分 别 为 微 网 h 的 有

式中:V t,i,ϕ 为时刻 t 节点 i 相别 ϕ 的电压幅值;V min 和 功 功 率 、无 功 功 率 上 限 和 下 限 ;q h,max 和 q h,min 分 别 为

V max 分 别 为 节 点 电 压 幅 值 的 下 限 和 上 限 ,本 文 取 微 网 h 的 无 功 功 率 上 限 和 下 限 ;δ h,p 和 δ h,q 分 别 为 微


V min = 0.95 p.u.,V max = 1.05 p.u.。 网 h 的 有 功 功 率 和 无 功 功 率 爬 坡 速 率 ,
δ h,p ∈ ( 0,1 ],δ h,q ∈ ( 0,1 ]。
配电系统各线路电流不应超过其限值:
3)用户满意度约束
I l,min ≤ I t,l,ϕ ≤ I l,max t ∈ Γ,l ∈ L,ϕ ∈ { a,b,c }
用户满意度约束常见于电力系统可靠性研
(6) [30-31]
究 。 从 用 户 断 电 次 数 、用 户 断 电 电 量 等 方 面 描
式 中 :I t,l,ϕ 为 时 刻 t 线 路 l 相 别 ϕ 的 电 流 幅 值 ;I l,min 和
述用户对于电力公司所提供电能服务的满意程度。
I l,max 分别为线路 l 电流幅值的下限和上限。
本 文 在 DCLR 问 题 中 考 虑 用 户 满 意 度 对 恢 复 决 策
2)微网运行约束
的影响,假设在事后恢复期间,当 2 处负荷的重要程
在 配 电 系 统 失 去 主 网 供 电 后 ,微 网 处 于 孤 岛 运
度(即加权负荷大小)相近时,DSO 不会通过中断一
行模式 ,微网中的 DGs 不仅可以作为备用机组向本
处负荷的方式来恢复另一处负荷,即 DSO 会尽可能
地 负 荷 供 电 ,而 且 可 以 通 过 操 作 分 段 开 关 或 微 网 开
在维持已恢复负荷的基础上再考虑恢复其他负荷。
关为微网之外的配电系统负荷提供电力服务。假设
假 设 用 户 满 意 度 约 束 满 足 马 尔 可 夫 性 质 ,即 若 给 定
微网中的 DGs 采用主从控制策略[27],其中系统的电
当前状态,则未来状态与过去状态之间相互独立,该
压和频率仅由一个 DG(即主机)控制 ,其余 DGs(作
性质表述为:
为从机)工作在电流控制模式下。因此,当配电系统
Ρ ( s t + 1 |s t )= Ρ ( s t + 1 |s 1,s 2,⋯,s t ) (10)
被 分 解 成 多 个 孤 立 的 微 网 时 ,各 配 电 系 统 分 区 应 满
式 中 :Ρ ( s t + 1 |s t ) 为 已 知 状 态 s t 条 件 下 达 到 状 态 s t + 1
足 辐 射 状 网 络 拓 扑 约 束 ,即 每 个 关 键 负 荷 仅 由 1 个
的概率分布函数。
微 网 通 过 1 条 路 径 供 电 ,任 意 2 个 微 网 之 间 不 存 在
根 据 这 一 假 设 ,且 考 虑 到 负 荷 重 要 程 度 对 于 恢
路 径(本 文 不 考 虑 电 网 簇[28])。 实 际 上 ,保 持 辐 射 状
复 决 策 的 影 响 已 在 恢 复 目 标 式(3)中 体 现 ,因 此 ,
的 网 络 结 构 有 助 于 简 化 许 多 运 行 问 题 ,例 如 微 网 之
DCLR 中的用户满意度约束可通过对断开当前处于
间 的 同 步 和 负 荷 分 配 问 题 。 此 外 ,辐 射 状 网 络 使 得
闭合状态的开关这一动作进行惩罚的方式来体现。
继 电 保 护 装 置 更 加 容 易 整 定 ,系 统 可 以 免 受 潜 在 的
1. 3 动态关键负荷恢复的 MDP 模型
后 续 故 障 的 影 响 。 因 此 ,微 网 h ∈ M 可 由 图 g h =
针 对 DCLR 数 学 模 型 ,通 过 定 义 智 能 体 、交 互
( N M,h,L M,h )表 示 ,g h ∈ G 且 对 于 ∀ 微 网 h 1 ∈ M ,∀ 微
环境、控制动作、系统状态和奖励函数等要素来构建
网 h 2 ∈ M ,h 1 ≠ h 2 ,g h ⋃ g h = ∅ 。 需 要 注 意 ,这 里 的
1 2 DCLR 的 MDP 模型。
微网 h 泛指由微网 h 供电的配电系统分区。其中, 1)智能体和交互环境
N M,h 和 L M,h 分别为微网 h 的节点集合和线路集合。 DCLR 问题中的智能体将承担 DSO 的角色,从
本文从 DSO 的视角来考虑 DCLR 问题,将微网 配电系统的全局角度制定负荷恢复策略。与智能体
视 为 一 个 整 体 ,微 网 与 配 电 系 统 之 间 的 交 互 体 现 为 交 互 的 环 境 为 具 备 动 作 执 行 、状 态 分 析 和 奖 励 反 馈
公 共 连 接 点(point of common coupling,PCC)的 功 等功能的配电系统模拟器。
率 传 输[11,29]。 时 刻 t 微 网 h 输 出 的 有 功 功 率 和 无 功 2)控制动作
功 率 p t,h 和 q t,h 需 要 满 足 微 网 容 量 约 束 和 爬 坡 速 率 智能体在时刻 t 所采取的控制动作表述为:
约束: a t = { o t,w |t ∈ Γ,w ∈ W } (11)

70
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法

式 中 :o t,w 为 二 值 状 态 变 量 ,表 示 时 刻 t 针 对 开 关 w α 3,t = ∑ max ( 0,o


w∈W
t,w - o t',w ) (16)
的 操 作 ,o t,w = 0 表 示 闭 合 操 作 ,o t,w = 1 表 示 断 开 操
式中:I 0,t 为状态变量,表示时刻 t 的动作是否违反硬
作。由于动作空间 A 由有限的二值状态变量组成,
约 束 ,I 0,t = 1 表 示 是 ,I 0,t = 0 表 示 否 ;α 1,t 为 时 刻 t 恢
因此,A 具有“离散”的特点。
复的负荷总量;α 2,t 为表示节点电压约束违反情况的
3)系统状态
变 量 ;α 3,t 为 表 示 用 户 满 意 度 约 束 违 反 情 况 的 变 量 ;
在时刻 t,系统状态由 3 类与 DCLR 决策主要相
c 0 、c 1 、c 2 、c 3 为 系 数 ,均 为 正 系 数 ,其 中 c 0 远 大 于 其 他
关的参数构成,即配电系统负荷参数(基于配电系统
系数。
运行约束选取)、微网有功功率和无功功率上下限约
束(基 于 微 网 运 行 约 束 选 取)以 及 开 关 状 态 参 数(基 - c 0 表示违反硬约束的惩罚;c 1 α 1,t
在式(13)中,

于用户满意度约束选取)。系统状态表述为: - c 2 α 2,t 表 示 违 反 节 点 电 压 约
表示恢复负荷的奖励;
s t = { p t,i,ϕ,q t,i,ϕ,p t,h,min,p t,h,max,q t,h,min,q t,h,max,o t',w | 束 的 惩 罚 ;- c 3 α 3,t 表 示 违 反 用 户 满 意 度 约 束 的 惩

t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c } ,h ∈ M,w ∈ W } (12) 罚 。 本 文 取 c 0 = 100 ,c 1 = 0.004 kW -1 ,c 2 = 0.1 ,


c 3 = 0.1 。在这一系数设置下,对于用户满意度约束
式 中 :o t',w 为 二 值 状 态 变 量 ,表 示 开 关 w 在 时 刻 t 的
而言,2 处负荷的重要程度相近可以理解为 2 处负荷
状 态 ,o t',w = 0 表 示 闭 合 状 态 ,o t',w = 1 表 示 断 开
的 有 功 功 率 在 加 权 后 的 差 距 在 25 kW 以 内(25 kW
状态。
由 于 状 态 空 间 S 中 包 含 功 率 类 的 连 续 变 量 ,因 约为节点 13 与节点 37 系统中最小的单相负荷)。
1. 4 基于 OpenDSS 的 AEI 实现
此 ,S 具 有“ 连 续 ”的 特 点 。 此 外 ,s t 仅 由 部 分 可 观 参
与智能体交互的 DCLR 模拟环境具备 2 个基本
数构成,而其他参数(例如节点电压、线路电流)对决
功能,即三相不平衡潮流计算和拓扑分析。其中,拓
策 的 影 响 ,可 以 假 设 智 能 体 能 够 在 与 环 境 的 交 互 过
扑 分 析 用 于 校 验 辐 射 状 网 络 拓 扑 约 束 ;三 相 不 平 衡
程中主动学习得到。
潮 流 计 算 用 于 校 验 其 他 约 束 。 st 和 rt 中 的 参 数 通 过
4)奖励函数
读取潮流计算结果的方式得到。
奖励函数直接影响智能体的决策行为,因此,奖
本 文 基 于 Python 和 OpenDSS 构 建 确 定 性 的
励函数的设计需要综合考虑恢复目标和约束条件对
DCLR 模 拟 环 境 ,进 一 步 形 成 AEI。 首 先 ,在
于 决 策 的 影 响 。 本 文 将 约 束 条 件 分 为 2 类 :硬 约 束
OpenDSS 中 搭 建 测 试 系 统 的 三 相 不 平 衡 潮 流 计 算
和软约束,如表 1 所示。恢复期间,若智能体决策违
模 型 。 其 中 ,将 微 网 建 模 为 恒 压 源 并 连 接 至 配 电 系
反软约束,则智能体将受到惩罚(即负值奖励),而负
统 相 应 节 点 。 此 外 ,将 配 电 系 统 的 网 络 拓 扑 以 图 数
荷恢复可以继续进行;若违反硬约束,则智能体将受
据 的 格 式 进 行 存 储 ,基 于 此 ,针 对 智 能 体 做 出 的 决
到严重惩罚,且负荷恢复失败。
策 ,利 用 深 度 优 先 搜 索 算 法[32]校 验 拓 扑 约 束 。 然
表 1 约束条件的类别 后 ,通 过 OpenDSS 组 件 接 口 ,实 现 基 于 Python 的
Table 1 Categories of constraint violations
DCLR 模 拟 。 在 拓 扑 分 析 和 潮 流 计 算 完 成 后 ,基
约束条件 硬约束 软约束
功率平衡约束 是
于 式(12)— 式(16)形 成 系 统 状 态 和 奖 励 并 反 馈 给
节点电压约束 是 智能体。
线路电流约束 是 DCLR 的智能体-环境交互框架如图 2 所示。训
辐射状网络拓扑约束 是 练 环 节 得 到 的 智 能 体 可 以 保 存 并 用 于 应 用 环 节 ,这
微网容量约束 是 一“ 离 线 训 练 -在 线 应 用 ”的 模 式 可 以 充 分 发 挥 神 经
微网爬坡速率约束 是 网 络 输 入 输 出 映 射 的 速 度 优 势 ,从 而 有 效 提 升 应 用
用户满意度约束 是
环节的计算效率。

奖励函数表述为: 2 算法实现
r t = - I 0,t c 0 + ( 1 - I 0,t ) ( c 1 α 1,t - c 2 α 2,t - c 3 α 3,t ) (13) 强 化 学 习 是 求 解 MDP 的 一 般 性 框 架 。 在 所 建
α 1,t = ∑ω i p͂ t,i,ϕ
i ∈ N,ϕ ∈ { a,b,c }
(14) 立 DCLR 的 MDP 模 型 中 ,最 优 负 荷 恢 复 策 略 可 表
达 为 价 值 最 高 的 控 制 动 作 。 针 对 DCLR 问 题“ 状 态
α 2,t = ∑
i ∈ N,ϕ ∈ { a,b,c }
v t,i,ϕ ( max ( 0,V t,i,ϕ - V max )+
空 间 连 续 -动 作 空 间 离 散 ”的 特 点 ,采 用 DQN 算 法 ,
max ( 0,V min
- V t,i,ϕ ) ) (15) 通过值迭代的方式来搜索价值最高的控制动作。

http ://www.aeps -info.com 71


2022,46(8) · 学术研究 ·

DQN 作为一种无模型的深度强化学习算法,在搜索 ∇ θ F ( θ μ )= Ε s,a,r,s' ( ( y - Q ( s,a;θ μ ) ) ∇ θ Q ( s,a;θ μ ) )


μ μ

最优策略的过程中无需额外的先验知识。 (21)

OpenDSS KK"
针 对 损 失 函 数 F ( θ μ ),可 基 于 随 机 梯 度 下 降 法
(
B8( DQN 等优化算法对参数 θ 进行迭代更新。
$"  @3 Q 网络采用多层感知机模型,输入为系统状态,
@0  s r a 3O 
(7
  输 出 为 各 动 作 的 动 作 价 值 ,输 出 中 最 高 动 作 价 值 对
F*244
*3 应的动作即为最优负荷恢复策略。
's r
6 Ea
2. 2 Q 网络训练算法
@3 DQN 训练算法步骤如下:

0F*
步 骤 1:初 始 化 经 验 回 放 池 、动 作 价 值 网 络 Q 以
5;4+F* =B80* *
24D=' 24JB8 (7 及目标动作价值网络 Q̂ ,episode 取 1。
步骤 2:初始化环境状态 s t ,t = 0 。
图 2 负荷恢复问题的智能体-环境交互框架
Fig. 2 Agent-environment interaction framework of load 步骤 3:基于 ε-贪婪策略选择动作 a t 。
restoration problem 步 骤 4:在 DCLR 环 境 中 执 行 a t ,环 境 反 馈 奖 励
r t 和下一状态 s t + 1 ,将经验 ( s t,a t,r t,s t + 1 ) 存入经验回
2. 1 DQN 原理
放池。
最 优 控 制 策 略 可 基 于 最 优 价 值 函 数 得 到 ,最 优
步 骤 5:从 经 验 回 放 池 中 随 机 抽 取 小 批 量
动作价值函数 Q * ( s,a ) 定义为: 样本 η t 。
Q * ( s,a )= max E τ~π ( R Tτ |s τ = s,a τ = a ) (17)
π 步 骤 6:若 r t = - c 0 ,则 近 似 目 标 动 作 价 值 y t =
最 优 动 作 价 值 函 数 遵 循 贝 尔 曼 方 程 ,若 下 一 时 r t ;否则 y t = r t + γ max Q * ( s t + 1,a';θ̂ )。
a'
刻状态 s' 中所有可能动作 a' 的最优价值 Q * ( s',a' ) 已
步 骤 7:针 对 ( y t - Q ( s t,a t;θ ) )2 ,使 用 随 机 梯 度
知 ,则 最 优 控 制 策 略 为 选 择 动 作 a' 使 得 期 望 动 作 价
下降法更新网络 Q 参数;每经过 C 次更新,将网络 Q̂
值 r + γQ * ( s',a' ) 最大:
替换为网络 Q 。
Q * ( s,a )= Ε s' ( r + γ max Q * ( s',a' ) |s t = s,a t = a )
a' 步 骤 8:若 t = T 或 r t = - c 0 ,则 转 至 步 骤 9;否
(18) 则,t = t + 1 ,转至步骤 3。
进 一 步 通 过 迭 代 更 新 的 方 式 来 估 计 第 μ+1 次 步 骤 9:若 达 到 指 定 训 练 周 期 或 是 episode 取 到
迭代时的动作价值函数 Q μ + 1 ( s,a ),如式(19)所示。 终止值,则转至步骤 10;否则,episode 自动加 1,并转
Q μ + 1 ( s,a )= Ε s' ( r + γ max Q * ( s',a' ) |s t = s,a t = a ) 至步骤 2。
a'

(19) 步骤 10:保存网络 Q,结束训练。


图 3 为 DQN 训练算法原理图,其中,ε-贪婪策略
根 据 贝 尔 曼 最 优 性[17],上 述 迭 代 过 程 最 终 将 收
表 示 智 能 体 在 做 决 策 时 ,会 以 很 小 的 概 率 ε 随 机 选
敛 至 最 优 价 值 函 数 ,即 Q μ ( s,a ) → Q * ( s,a ),i → ∞ 。
择一个动作,以 1 - ε 的概率选择动作价值最大的动
由于难以单独估计每个状态-动作对的动作价值,因
作,其中 ε 表示智能体的探索率。本文所使用的 ε-贪
此 ,一 般 使 用 函 数 逼 近 的 方 法 来 估 计 动 作 价 值 函
婪模型表示如下:
数。Q 网络指具有权值参数 θ 的神经网络函数逼近 tε
-
器,可表示为 Q ( s,a;θ ) ≈ Q * ( s,a )。 ε = ε∞ + ( ε0 - ε∞ ) e

(22)
训练过程中通过迭代调整 Q 网络参数以逐步 式中:ε 0 和 ε ∞ 分别为初始和最终的探索率 ;t ε 为状态
减小动作价值函数和目标价值函数之间的差距。最 转移步数;c ε 为探索率衰减系数。
优 目 标 动 作 价 值 r + γ max Q * ( s',a' ) 由 近 似 目 标 动 为保证算法的收敛性,DQN 使用了经验回放和
a'
目标网络 2 个技巧,相关内容可参考文献[24-25]。
作 价 值 y = r + γ max Q * ( s',a';θ̂ μ ) 表 示 ,其 中 θ̂ μ 为
a' 2. 3 评价指标
前一次迭代中的 Q 网络参数。每次迭代的损失函 智能体的收敛性指标和决策能力评价指标分别
数 F ( θ μ ) 以及损失函数对于参数 θ μ 的偏导表示为: 用于定量评价智能体在训练环节和应用环节的表
F ( θ μ )= Ε s,a,r,s' ( ( y - Q ( s,a;θ μ ) )2 ) (20) 现 。 收 敛 性 指 标 包 括 :平 均 片 段 得 分(average score

72
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法

DCLR(
DQN 对于 ASR 指标,调用 Q 网络生成多个具有长度
Python (s,a,r,s')
上 限 的 决 策 片 段 ,长 度 上 限 用 于 避 免 生 成 过 长 的 片
OpenDSS 
 3O ! 段,因此,ASR 定义为生成片段中可行动作的占比:
Python æ
ç
∑j R j ö÷
β ASR = çç 1 - ÷ × 100% (26)
÷
a s s' ç
è
∑j
Tj ÷
ø
Q44 A 44
,Q
C

式 中 :R j 为 辨 识 片 段 j 是 否 以 不 可 行 动 作 结 束 的 变
A Q
Q 量,R j = 1 表示是,R j = 0 表示否。
ε-B0* arg max
a
A
Q*(s',a';θ) 对 于 AOG 指 标 ,调 用 Q 网 络 生 成 多 个 固 定 长
F*K 度 的 决 策 片 段 ,片 段 中 均 不 含 不 可 行 动 作 。 对 于 每
A
max Q*(s',a';θ)
K" Q(s,a;θ)
44
a' r
个片段,基于 DRL 的决策方案和基准方案之间的最
优性差距 β gap 表示为:
()(21)@0DQNAF(θμ),
θμ!

t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c }
ω i p͂ t,i,ϕ
图 3 DQN 训练算法原理图 β gap = 1 - (27)
Fig. 3 Schematic diagram of DQN training algorithm ∑
t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c }
ω i p͂ t,i,ϕ,B

per episode,ASPE)
[28]
、平 均 动 作 价 值(average 式 中 :p͂ t,i,ϕ,B 为 基 准 方 案 中 实 际 恢 复 的 负 荷 。 AOG

action value,AAV)
[28]
和 平 均 批 次 损 失(average loss 指标则为生成片段的平均最优性差距。
per batch,ALPB)。决策能力指标包括:平均成功率 3 算例分析
(average success rate,ASR)和 平 均 最 优 性 差 距
将所提方法应用于 2 个改进的 IEEE 测试系统,
(average optimality gap,AOG)。
即 IEEE 13 节 点 馈 线 系 统(本 文 简 称 13 节 点 系
ASPE 表 示 一 个 训 练 周 期(epoch)内 每 个 片 段 [33]
统) 和 IEEE 37 节 点 馈 线 系 统(本 文 简 称 37 节 点
的平均折扣回报;AAV 表示在一个训练周期内所选
系 统)[ 34],以 验 证 其 有 效 性 。 所 有 计 算 均 在 搭
动 作 的 平 均 价 值 ;ALPB 表 示 在 一 个 训 练 周 期 内 每
载 Intel Core i7-8700 3.20 GHz CPU ,8 GB RAM
个训练批次的平均训练损失。计算公式分别为:
Ne Tj - 1 的计算机上进行。所提方案与基准方案 2 的环境配
1
β ASPE =
Ne
∑∑ γ r
j= 1 t= 0
t
j,t (23) 置 为 Python 3.6.12、PyTorch 1.8.0 和 OpenDSS
Ne Tj - 1
9.1.0.1;基 准 方 案 1 的 环 境 配 置 为 MATLAB 和
1
β AAV = Ne ∑ ∑ Q(s j,t ,a j,t;θ j ) (24) Gurobi 9.1.0。 本 项 工 作 未 使 用 GPU 加 速 计 算 和 分

∑T
j= 1 t= 0
j
布式训练。
j= 1 3. 1 测试系统
Nu
1 13 节 点 系 统 中 设 置 了 2 个 微 网 ,分 别 接 在 节 点
β ALPB =
Nu
∑F(θ )
j= 1
j (25)
633 和 692;同 时 设 置 了 4 个 分 段 开 关 用 于 执 行 负 荷
式中:N e 为训练周期内的片段数目;T j 为片段 j 的长 恢 复 决 策 ,分 别 安 装 在 线 路 632-645、670-671、671-
度 ;N u 为 1 个 训 练 周 期 包 含 的 参 数 更 新 次 数 ;s j,t、 684 和 671-692。 37 节 点 系 统 中 设 置 了 4 个 微 网 和
a j,t、r j,t、θ j 分 别 为 片 段 j 的 状 态 、动 作 、立 即 奖 励 和 6 个用于执行负荷恢复决策的分段开关。13 节点与
参数。 37 节 点 系 统 的 三 相 拓 扑 见 附 录 A。 此 外 ,假 设 下 一
针 对 应 用 环 节 ,考 虑 到 DRL 具 有 黑 箱 问 题 ,本 时 刻 的 负 荷 在 当 前 负 荷 的 基 础 上 加 上 ± 30% 的 随
文从动作的可行性和最优性 2 个方面来衡量智能体 机 波 动 ,微 网 的 爬 坡 速 率 为 100%。 测 试 系 统 的 具
的决策能力。在决策能力指标中,ASR 表示智能体 体数据,例如负荷参数、微网参数、状态空间、动作空
采 取 可 行 动 作 的 概 率 ,ASR在 [ 0,1 ] 范 围 内 取 值 , 间的设置等分别见附录 B 和 C。
ASR 越 趋 近 于 1,表 明 智 能 体 越 为 可 靠 ;AOG 衡 量 3. 2 训练效果
基 于 DRL 的 决 策 解 和 基 准 解 在 恢 复 目 标 方 面 的 差 训练环节首先需要确定各测试系统所对应的 Q
距 ,AOG 越 接 近 于 0,表 明 所 提 方 案 与 基 准 方 案 在 网 络 的 架 构 。 经 过 尝 试 ,最 终 确 定 Q 网 络 由 4 个 全
最优性方面越接近。 连 接 线 性 层 组 成 ,每 个 线 性 层 后 均 接 有 修 正 线 性 单

http ://www.aeps -info.com 73


2022,46(8) · 学术研究 ·

元(rectified linear unit,ReLU)。 输 入 层 的 神 经 元 数 所 示 的 3 个 测 试 场 景 ,用 于 分 析 DCLR 问 题 中 智 能


目 等 于 状 态 s 中 的 参 数 数 目(13 节 点 系 统 的 输 入 层 体“近视”程度对于训练和应用效果的影响。
神经元数量为 42;37 节点系统的输入层神经元数量
表 2 测试场景设置
为 82)。 两 个 隐 藏 层 均 包 括 512 个 神 经 元 。 输 出 层 Table 2 Setup of test scenarios
的 神 经 元 数 目 等 于 动 作 空 间 A 中 动 作 的 数 目(13 节 场景 折扣因子 γ 设置内容

点系统的输出层神经元数目为 16;37 节点系统输出 1 0.50 智能体考虑未来约 3 步决策的奖励


2 0.90 智能体考虑未来约 20 步决策的奖励
层 神 经 元 数 目 为 30)。 然 后 ,基 于 DQN 算 法 训 练 Q
3 0.99 智能体考虑未来约 200 步决策的奖励
网络,训练环节中的超参数取值见附录 D。此外,本
文中所使用的随机梯度下降算法为 Adam[35]。 图 4 展示了训练过程中收敛性指标的变化情
基于附录 B 和 C 中测试系统参数设置和附录 D 况 。 其 中 ,ASPE 的 变 化 趋 势 可 基 于 片 段 长 度 和 立
中 超 参 数 设 置 ,针 对 折 扣 因 子 γ 的 取 值 ,设 置 如 表 2 即奖励大小来分析。
100 1 000 80

800
50 60
600

ALPB
AAV
ASPE

0 40
400
-50 200 20

-100
0 200 400 0 200 400 0 200 400
@3  @3  @3 
(a) 13,ASPE (b) 13,AAV (c) 13,ALPB

100 800 60

50 600
40
ALPB
AAV
ASPE

0 400

20
-50 200

-100
0 50 100 150 0 50 100 150 0 50 100 150
@3  @3  @3 
(d) 37,ASPE (e) 37,AAV (f) 37,ALPB
γ=0.50; γ=0.90; γ=0.99

图 4 ASPE、AAV、ALPB 训练曲线
Fig. 4 Training curves of ASPE, AAV, and ALPB

ASPE 前期收敛较快表示智能体经过较少训练 对于 AAV,通过监测训练过程中 Q 网络的输出


周 期 就 能 学 习 到 可 行 控 制 策 略 。 此 后 ,智 能 体 会 采 发现,所有动作的价值随时间变化的趋势分为 2 类:
取一些回报更高但失败风险也更大的动作以提升立 一 类 会 很 快 收 敛 至 0,这 对 应 于 不 可 行 动 作(即 违 反
即奖励,这可能使得恢复片段提前终止,并伴随负值 硬 约 束 的 动 作);另 一 类 对 应 于 可 行 动 作 ,其 价 值 逐
奖 励 作 为 惩 罚 。 因 此 ,后 期 当 风 险 与 收 益 没 有 得 到 渐 收 敛 至 期 望 折 扣 回 报 ,且 所 有 可 行 动 作 具 有 相 似
很 好 的 权 衡 时 ,ASPE 曲 线 会 出 现 明 显 波 动 。 为 避 的 变 化 趋 势 。 这 解 释 了 AAV 变 化 趋 势 的 平 稳 特
免 训 练 发 散 ,可 在 优 化 算 法 中 适 当 选 取 较 小 的 学 习 征 。 对 于 场 景 1 和 2,γ 取 值 较 小 ,使 得 期 望 折 扣 回
率(见 附 录 D 表 D1)。 此 外 ,当 γ 取 值 越 小 时 ,由 于 报较小,且低于 Q 网络初始值,AAV 呈现下降趋势;
智 能 体 越 为“ 近 视 ”,因 此 ,片 段 长 度 会 更 短 ,ASPE 而 场 景 3 中 期 望 折 扣 回 报 高 于 Q 网 络 初 始 值 ,AAV
的 收 敛 值 也 更 小 ,如 图 4 所 示 。 需 要 说 明 的 是 , 呈现上升趋势。此外,对于 ALPB,该指标与 Q 网络
DQN 算 法 对 回 放 池 中 负 样 本(即 违 反 硬 约 束 的 经 损 失 直 接 相 关 ,可 较 为 直 观 地 体 现 智 能 体 的 训 练
验)的比例比较敏感,而 ASPE 较小意味着负样本比 难度。
例 会 相 应 地 变 大 ,所 以 本 文 中 的 折 扣 因 子 取 值 不 宜 此外,虽然 13 节点系统的输入与输出参数的数
过小。 目少于 37 节点系统,但由于其动作空间包含了所有

74
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法

可 能 的 开 关 动 作 组 合(见 附 录 B),而 37 节 点 系 统 的 仅 设 置 一 轮 安 全 校 验 的 情 况 下(即 只 对 最 优 解 进 行


动 作 空 间 中 已 提 前 删 去 了 违 反 拓 扑 约 束 的 34 个 开 校验),场景 3 下 2 个测试系统的 ASR 指标普遍达到
关 动 作 组 合(见 附 录 C),使 得 13 节 点 系 统 的 动 作 空 100%。
间 中 存 在 较 多 不 可 行 动 作(在 基 础 负 荷 下 ,13 节 点
表 3 恢复方案之间的区别
系 统 动 作 空 间 中 不 可 行 动 作 占 比 为 1/2;37 节 点 系 Table 3 Differences between restoration methods
统为 2/5);另一方面,相比于 37 节点系统,13 节点系 方案 数学模型 潮流模型 约束条件
统 中 的 关 键 负 荷 总 量 与 微 网 容 量 较 为 接 近(见 附 录 所提方案 MDP 三相不平衡潮流 考虑用户满意度

B 和 C)。 因 此 ,在 类 似 的 训 练 环 节 下 ,37 节 点 系 统 基准方案 1 MILP 线性配电网潮流 考虑用户满意度

的“学习难度”反而小于 13 节点系统,其训练效果也 基准方案 2 枚举 三相不平衡潮流 考虑用户满意度


基准方案 3 枚举 三相不平衡潮流 忽略用户满意度
更优,如图 4 所示。
训 练 结 果 表 明 13 节 点 和 37 节 点 测 试 系 统 的 智
表 4 应用环节的指标结果
能 体 均 可 以 取 得 较 好 的 收 敛 结 果 ,且 收 敛 性 指 标 在 Table 4 Index results of application segment
训练初期的收敛速度较快。针对同一系统的不同测 系统 场景 ASR/% AOG1/% AOG2/% AOG3/%

试 场 景 ,γ 取 值 越 小 ,则 训 练 环 节 的 收 敛 效 果 越 好 。 1 99.52 3.13 2.850 0 2.930 0


13 节点系统
这与 1.2 节的分析一致,即 γ 越小表示智能体在决策 2 99.62 2.93 2.630 0 2.690 0
3 99.99 2.21 1.910 0 1.960 0
时 向 前 考 虑 的 步 数 越 少 、训 练 难 度 越 小 。 此 外 ,
1 99.95 1.12 0.010 0 0.020 0
ASPE 和 ALPB 的 收 敛 特 性 较 为 相 似 ,AAV 的 变 化 37 节点系统
2 99.98 1.11 0.010 0 0.020 0
趋 势 更 为 平 滑 。 在 计 算 效 率 方 面 ,对 于 13 节 点 系
3 99.98 1.08 0.000 1 0.000 2
统 ,训 练 一 个 训 练 周 期 数 目 为 500 的 智 能 体 需 要 5 h
注 :ASR 中 ,片 段 数 目 为 10,片 段 长 度 上 限 为 100;AOG 中 ,片 段
左 右 ;对 于 37 节 点 系 统 ,训 练 一 个 训 练 周 期 数 目 为 数目为 10,片段长度为 100,AOG1、AOG2、AOG3 分别为所提方
150 的智能体需要 2 h 左右。 案针对基准方案 1、2、3 的 AOG 指标,AOG 指标对应的恢复负荷
量见附录 E。
3. 3 应用效果
在 应 用 环 节 中 ,将 系 统 状 态 输 入 训 练 好 的 Q 网
对于 AOG,所提方案与基准方案的结果较为接
络 ,并 选 择 输 出 中 最 高 动 作 价 值 对 应 的 动 作 作 为 每
近。实验发现,相同恢复策略下,基准方案 2 的潮流
次负荷恢复决策的最优解。本文将所提方案与 3 个
计 算 结 果 中 ,部 分 节 点 的 负 荷 略 低 于 基 准 方 案 1 中
基准方案进行对比来分析其在决策最优性和计算效
所 得 到 的 结 果 ,即 潮 流 模 型 的 差 异(见 表 3)使 得
率方面的表现。基准方案 1 为文献[29]所提的基于
AOG1 大 于 AOG2。 为 进 一 步 分 析 误 差 来 源 ,针 对
模 型 的 求 解 方 法 ,其 中 DCLR 问 题 被 建 模 为 混 合 整 13 节 点 系 统 和 场 景 3,选 择 了 一 组 分 别 由 所 提 方 案
数 线 性 规 划(mixed-integer linear programming, 和 基 准 方 案 得 到 的 决 策 片 段 ,如 附 录 E 图 E1 所 示 ,
MILP)问 题 。 基 准 方 案 2 和 3 将 DCLR 问 题 视 为 各 并从每次状态转换的立即奖励和恢复负荷 2 个方面
时间段的单阶段静态关键负荷恢复问题的直接组 分析最优性偏差的来源。对比所提方案和基准方案
合。每个单阶段静态关键负荷恢复问题通过在 2,可 以 发 现 最 优 性 偏 差 主 要 来 源 于 智 能 体 的 保 守
OpenDSS 中 遍 历 动 作 空 间 ,并 将 其 中 恢 复 关 键(加 性 决 策 ,例 如 附 录 E 图 E2 中 的 第 84 次 和 第 87 次 状
权)负 荷 最 多 的 动 作 视 为 最 优 解 。 所 提 方 案 与 基 准 态 转 换 ;对 比 所 提 方 案 和 基 准 方 案 3,可 以 发 现 考 虑
方案之间的主要区别如表 3 所示。决策能力指标结 到 用 户 满 意 度 约 束 ,智 能 体 会 做 出 一 些 回 报 较 高 但
果如表 4 所示,可以发现 γ 取值较大时 ASR 和 AOG 恢复负荷较小的决策,例如附录 E 图 E2 中的第 43 次
指 标 更 优 ,这 意 味 着 DCLR 问 题 中 γ 较 大 时 智 能 体 和 第 55 次 状 态 转 换(附 录 E 中 讨 论 了 第 42 次 和 第
的决策能力更优。 43 次 状 态 转 换 对 应 的 负 荷 恢 复 过 程)。 前 者 反 映 了
对于 ASR,场景 3 下 13 节点系统与 37 节点系统 智 能 体 的 风 险 回 避 特 性 ,需 要 通 过 改 进 训 练 算 法 等
的智能体分别达到 99.99% 和 99.98%。实际应用中 方 式 来 提 升 智 能 体 的 决 策 能 力 ;而 后 者 是 因 为 所 提
为保证系统的安全运行,需要对基于 DRL 的决策解 方 案 和 基 准 方 案 3 在 决 策 目 标 上 具 有 差 异 ,这 体 现
进 行 安 全 校 验 。 本 文 设 定 如 下 校 验 机 制 :当 最 优 解 了智能体在处理复杂问题时的有效性。
违 反 硬 约 束 时 ,选 择 次 优 解(即 Q 网 络 输 出 中 第 二 应用环节的计算效率对比如表 5 和表 6 所示,其
高动作价值所对应的动作),并对其进行校验。该校 中计算效率定义为平均单次决策耗时。对于所提方
验 过 程 可 以 重 复 直 到 校 验 通 过 为 止 。 实 验 发 现 ,在 案 ,借 助 于 Q 网 络 的 输 入 输 出 映 射 关 系 ,其 在 应 用

http ://www.aeps -info.com 75


2022,46(8) · 学术研究 ·

环 节 极 具 效 率 优 势 ,且 计 算 效 率 随 系 统 规 模 的 变 化 参考文献
而降低。由于动作空间离散且动作数目较少,因此, [1]BENNETT J A,TREVISAN C N,DECAROLIS J F,et al.
基 准 方 案 2 和 3(基 于 枚 举)的 计 算 效 率 与 基 准 方 案 Extending energy system modelling to include extreme weather
1 相当,均在秒级左右。 risks and application to hurricane events in Puerto Rico[J].
Nature Energy,2021,6(3):240-249.
表 5 应用环节的计算效率 [2]别 朝 红 ,林 雁 翎 ,邱 爱 慈 . 弹 性 电 网 及 其 恢 复 力 的 基 本 概 念 与 研
Table 5 Computational efficiency of application 究展望[J]. 电力系统自动化,2015,39(22):1-9.
segment
BIE Zhaohong,LIN Yanling,QIU Aici. Concept and research
计算时间/s prospects of power system resilience[J]. Automation of Electric
系统
所提方案 基准方案 1 基准方案 2 基准方案 3 Power Systems,2015,39(22):1-9.
13 节点系统 1.49×10-4 0.756 6 0.163 9 0.163 9 [3]别 朝 红 ,林 超 凡 ,李 更 丰 ,等 . 能 源 转 型 下 弹 性 电 力 系 统 的 发 展
37 节点系统 1.50×10-4 1.211 5 0.481 9 0.481 9 与展望[J]. 中国电机工程学报,2020,40(9):2735-2745.
BIE Zhaohong,LIN Chaofan,LI Gengfeng,et al. Development

表 6 应用环节的计算效率比值 and prospect of resilient power system in the context of energy


Table 6 Computational efficiency ratio of application transition[J]. Proceedings of the CSEE,2020,40(9):2735-
segment 2745.
系统 效率比值 1 效率比值 2 效率比值 3 [4]王守相,刘琪,赵倩宇,等 . 配电网弹性内涵分析与研究展望[J].

13 节点系统 5 078 1 100 1 100 电力系统自动化,2021,45(9):1-9.


WANG Shouxiang,LIU Qi,ZHAO Qianyu,et al. Connotation
37 节点系统 8 077 3 213 3 213
analysis and prospect of distribution network elasticity [J].
注 :效 率 比 值 1、2、3 分 别 为 基 准 方 案 1、2、3 的 计 算 效 率 与 所 提 方
Automation of Electric Power Systems,2021,45(9):1-9.
案计算效率的比值。
[5]PANTELI M, MANCARELLA P. Influence of extreme
weather and climate change on the resilience of power systems:
离线训练得到的 Q 网络仍然可以根据应用需 impacts and possible mitigation strategies[J]. Electric Power
求来滚动更新其网络参数,以进一步保障基于 DRL Systems Research,2015,127:259-270.

的决策方案在实际应用中的适用性。 [6]葛 少 云 ,张 成 昊 ,刘 洪 ,等 . 考 虑 微 能 源 网 支 撑 作 用 的 配 电 网 弹
性提升策略[J]. 电网技术,2019,43(7):2306-2317.
4 结语 GE Shaoyun,ZHANG Chenghao,LIU Hong,et al. Resilience
enhancement strategy for distribution network considering
本 文 提 出 了 一 种 基 于 DRL 的 面 向 弹 性 提 升 的 supporting role of micro energy grid [J]. Power System
含 微 网 配 电 系 统 动 态 关 键 负 荷 恢 复 方 法 ,可 以 在 极 Technology,2019,43(7):2306-2317.
端事件导致主网供电能力不足时为配电系统中的关 [7]周 晓 敏 ,葛 少 云 ,李 腾 ,等 . 极 端 天 气 条 件 下 的 配 电 网 韧 性 分 析
方 法 及 提 升 措 施 研 究[J]. 中 国 电 机 工 程 学 报 ,2018,38(2):
键 负 荷 恢 复 提 供 解 决 方 案 。 基 于 智 能 体 -环 境 交 互
505-513.
过 程 ,所 提 方 法 支 持 端 到 端 的 决 策 方 式 。 算 例 结 果 ZHOU Xiaomin,GE Shaoyun,LI Teng,et al. Assessing and
表明,基于 DRL 的方法可以成功地学习负荷恢复策 boosting resilience of distribution system under extreme weather
略,且无需额外的先验知识。在实际应用中,通过引 [J]. Proceedings of the CSEE,2018,38(2):505-513.
[8]NAZEMI M, MOEINI-AGHTAIE M, FOTUHI-
入 安 全 校 验 ,可 以 有 效 保 证 决 策 的 成 功 率 和 系 统 的
FIRUZABAD M,et al. Energy storage planning for enhanced
安 全 运 行 。 对 于 决 策 的 最 优 性 ,尽 管 智 能 体 还 存 在 resilience of power distribution networks against earthquakes[J].
一定的决策保守性,但整体而言,所提方法具有较好 IEEE Transactions on Sustainable Energy, 2020, 11(2):
的 表 现 。 此 外 ,所 提 方 法 在 应 用 环 节 的 计 算 效 率 方 795-806.
[9]WANG J, ZUO W D, RHODE-BARBARIGOS L, et al.
面具有明显优势。
Literature review on modeling and simulation of energy
同时,本文工作也存在一定局限性,进一步的研
infrastructures from a resilience perspective [J]. Reliability
究 将 处 理 更 为 复 杂 的 恢 复 场 景 和 恢 复 动 作 ,并 尝 试 Engineering & System Safety,2019,183:360-373.
量化恢复期间的不确定性因素对恢复结果的影响。 [10]MISHRA D K, GHADI M J, AZIZIVAHED A, et al. A
review on resilience studies in active distribution systems[J/
此 外 ,还 将 针 对 DRL 算 法 、高 性 能 计 算 ,以 及 面 向
OL]. Renewable and Sustainable Energy Reviews,2021,135
DRL 应 用 的 标 准 化 负 荷 恢 复 模 拟 环 境 及 其 开 源 等
[2021-08-11]. https://www.sciencedirect.com/science/article/
问题展开研究。 abs/pii/S1364032120304913.
[11]CHEN C,WANG J H,QIU F,et al. Resilient distribution
附录见本刊网络版(http://www.aeps-info.com/
system by microgrids formation after natural disasters[J]. IEEE
aeps/ch/index.aspx),扫英文摘要后二维码可以阅读 Transactions on Smart Grid,2016,7(2):958-966.
网络全文。 [12]许 寅 ,王 颖 ,和 敬 涵 ,等 . 多 源 协 同 的 配 电 网 多 时 段 负 荷 恢 复 优

76
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法

化决策方法[J]. 电力系统自动化,2020,44(2):123-131. epri.com/pages/sa/opendss.


XU Yin,WANG Ying,HE Jinghan,et al. Optimal decision- [24]MNIH V,KAVUKCUOGLU K,SILVER D,et al. Playing
making method for multi-period load restoration in distribution atari with deep reinforcement learning[R/OL].[2021-03-12].
network with coordination of multiple sources[J]. Automation https://arxiv.org/abs/1312.5602.
of Electric Power Systems,2020,44(2):123-131. [25]MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-
[13]XU Y,LIU C C,SCHNEIDER K P,et al. Microgrids for level control through deep reinforcement learning[J]. Nature,
service restoration to critical load in a resilient distribution 2015,518(7540):529-533.
system[J]. IEEE Transactions on Smart Grid,2018,9(1): [26]SCHNEIDER K, TUFFNER F, ELIZONDO M, et al.
426-437. Evaluating the feasibility to use microgrids as a resiliency
[14]卞 艺 衡 ,别 朝 红 . 面 向 弹 性 提 升 的 智 能 配 电 网 远 动 开 关 优 化 配 resource[J]. IEEE Transactions on Smart Grid,2016,8(2):
置模型[J]. 电力系统自动化,2021,45(3):33-39. 687-696.
BIAN Yiheng, BIE Zhaohong. Resilience-enhanced optimal [27]CALDOGNETTO T,TENTI P. Microgrids operation based
placement model of remote-controlled switch for smart on master-slave cooperative control [J]. IEEE Journal of
distribution network [J]. Automation of Electric Power Emerging and Selected Topics in Power Electronics ,2014 ,
Systems,2021,45(3):33-39. 2(4):1081-1088.
[15]SHI Q X, LI F X, OLAMA M, et al. Network [28]PARHIZI S,LOTFI H,KHODAEI A,et al. State of the art
reconfiguration and distributed energy resource scheduling for in research on microgrids:a review[J]. IEEE Access,2015,
improved distribution system resilience[J/OL]. International 3:890-925.
Journal of Electrical Power & Energy Systems, 2021, 124 [29]DING T,LIN Y L,LI G F,et al. A new model for resilient
[2021-05-12]. https://doi.org/10.1016/j.ijepes.2020.106355. distribution systems by microgrids formation [J]. IEEE
[16]SHI Q X, LI F X, OLAMA M, et al. Post-extreme-event Transactions on Power Systems,2017,32(5):4145-4147.
restoration using linear topological constraints and DER [30]SULLIVAN M J, NOLAND S B, VARDELL T, et al.
scheduling to enhance distribution system resilience[J/OL]. Interruption costs, customer satisfaction and expectations for
International Journal of Electrical Power & Energy Systems, service reliability[J]. IEEE Transactions on Power Systems,
2021,131[2021-05-12]. https:// doi. org/ 10.1016/ j. ijepes. 1996,11(2):989-995.
2021.107029. [31]LI G F, BIE Z H, XIE H P, et al. Customer satisfaction
[17]GILANI M A, KAZEMI A, GHASEMI M. Distribution based reliability evaluation of active distribution networks[J].
system resilience enhancement by microgrid formation Applied Energy,2016,162:1571-1578.
considering distributed energy resources [J/OL]. Energy, [32]WEST D B. Introduction to graph theory[M]. Upper Saddle
2020,191[2021-05-12]. https:// doi. org/ 10.1016/ j. energy. River,USA:Prentice Hall,2001.
2019.116442. [33]IEEE PES AMPS DSAS Test Feeder Working Group. IEEE
[18]刘 礼 邦 ,武 传 涛 ,随 权 ,等 . 计 及 可 控 负 荷 参 与 的 主 动 配 电 网 动 13-bus feeder[EB/OL]. [2021-02-12]. http:// site. ieee. org/
态恢复供电策略[J]. 电力系统保护与控制,2020,48(9):27-35. pestestfeeders/files/2017/08/feeder13.zip.
LIU Libang,WU Chuantao,SUI Quan,et al. Power supply [34]IEEE PES AMPS DSAS Test Feeder Working Group. IEEE
strategy for active distribution network dynamic recovery with 37-bus feeder[EB/OL]. [2021-02-12]. http://site. ieee. org/
controllable load participation[J]. Power System Protection and pes-testfeeders/files/2017/08/feeder37.zip.
Control,2020,48(9):27-35. [35]KINGMA D P, BA J. Adam: a method for stochastic
[19]FARZIN H, FOTUHI-FIRUZABAD M, MOEINI- optimization[C]// 3rd International Conference on Learning
AGHTAIE M. Enhancing power system resilience through Representations,May 7-9,2015,San Diego,USA.
hierarchical outage management in multi-microgrids[J]. IEEE
Transactions on Smart Grid,2016,7(6):2869-2879.
黄玉雄(1995—),男,博士研究生,主要研究方向:电力系
[20]CAI S, XIE Y Y, WU Q W, et al. Robust MPC-based
统 可 靠 性 、人 工 智 能 在 电 力 系 统 的 应 用 、综 合 能 源 系 统 。 E-
microgrid scheduling for resilience enhancement of distribution
mail:hyx.xj@stu.xjtu.edu.cn
system[J/OL]. International Journal of Electrical Power &
李更丰 (1983—),男 ,博 士 ,副 教 授 ,主 要 研 究 方 向 :电 力
Energy Systems, 2020, 121[2021-05-12]. https://doi. org/
10.1016/j.ijepes.2020.106068.
系 统 可 靠 性 、综 合 能 源 系 统 与 主 动 配 电 网 技 术 。 E-mail:
[21]赵 俊 华 ,董 朝 阳 ,文 福 拴 ,等 . 面 向 能 源 系 统 的 数 据 科 学 :理 论、 gengfengli@xjtu.edu.cn
技术与展望[J]. 电力系统自动化,2017,41(4):1-11. 张理寅(1999—),男,硕士研究生,主要研究方向:弹性电
ZHAO Junhua,DONG Zhaoyang,WEN Fushuan,et al. Data 力 系 统 、人 工 智 能 在 电 力 系 统 的 应 用 。 E-mail:
science for energy systems:theory,techniques and prospect[J]. zhangliyin@stu.xjtu.edu.cn
Automation of Electric Power Systems,2017,41(4):1-11. 别朝红 (1970—),女 ,通 信 作 者 ,博 士 ,教 授 ,主 要 研 究 方
[22]BELLMAN R. Dynamic programming[J]. Science , 1966 , 向 :电 力 系 统 规 划 及 可 靠 性 评 估 、新 能 源 电 力 系 统 安 全 风 险
153(3731):34-37.
评估、弹性电力系统。E-mail:zhbie@mail.xjtu.edu.cn
[23]Electric Power Research Institute. Open distribution system
simulator(OpenDSS)
[EB/OL].[2021-03-12]. https://www.
(编辑 顾晓荣)

http ://www.aeps -info.com 77


2022,46(8) · 学术研究 ·

Deep Reinforcement Learning Method for Dynamic Load Restoration of Resilient Distribution Systems
HUANG Yuxiong,LI Gengfeng,ZHANG Liyin,BIE Zhaohong
(School of Electrical Engineering, Xi'an Jiaotong University, Xi'an 710049, China)

Abstract: In extreme events, it can effectively enhance the grid resilience by using surplus power of microgrids to serve the critical
loads in distribution systems. Based on the deep reinforcement learning (DRL) technique, considering the participation of
microgrids, a dynamic critical load restoration (DCLR) method of distribution systems is proposed to support the model-free
manner to solve the complex problems, significantly improving the online computational efficiency. Firstly, the DCLR problem of
distribution systems with microgrids is analyzed. On this basis, its Markov decision process (MDP) is formulated considering the
complex operational constraints, including the distribution operation constraints, microgrid operation constraints, customer
satisfaction degree, etc. Secondly, a DCLR simulation environment is built based on OpenDSS as the agent-environment interface
for applying DRL algorithms. Furthermore, a deep Q-network algorithm is adopted to search for the optimal policies of the critical
load restoration. The convergence and decision-making ability indices are defined to measure the performance of the agents in
training and application processes, respectively. Based on the two modified IEEE test systems, the effectiveness of the proposed
method is verified.
This work is supported by State Grid Corporation of China (No. SGJX0000KXJS1900322).
Key words: load restoration; deep learning; reinforcement learning; distribution system; microgrid; resilience

78

You might also like