Professional Documents
Culture Documents
25,2022
DOI:10. 7500/AEPS20210607005
弹性配电系统动态负荷恢复的深度强化学习方法
黄玉雄,李更丰,张理寅,别朝红
(西安交通大学电气工程学院,陕西省西安市 710049)
摘要:极端事件下,合理利用微网盈余电力供应配电系统中的关键负荷,可有效提升电网弹性。基
于深度强化学习(DRL)技术,提出一种考虑微网参与的配电系统动态关键负荷恢复(DCLR)方法,
支 持 以 无 模 型 的 方 式 求 解 复 杂 问 题 ,以 提 升 在 线 计 算 效 率 。 首 先 ,分 析 含 微 网 的 配 电 系 统 DCLR
问题,并在此基础上构建其马尔可夫决策过程,其中考虑了配电系统运行 、微网运行和用户满意度
等 约 束 条 件 。 其 次 ,基 于 OpenDSS 构 建 DCLR 模 拟 环 境 ,形 成 DRL 应 用 所 需 的 智 能 体 -环 境 交 互
接口,进一步采用深度 Q 网络算法搜寻关键负荷恢复的最优控制策略,并定义收敛性 、决策能力指
标 分 别 用 于 评 价 智 能 体 的 训 练 和 应 用 表 现 。 最 后 ,基 于 改 进 的 IEEE 测 试 系 统 验 证 了 所 提 方 法 的
有效性。
关键词:负荷恢复;深度学习;强化学习;配电系统;微网(微电网);弹性
0 引言 经济可行的电网弹性提升方案。文献[11]较早提出
了 考 虑 微 网 参 与 的 配 电 系 统 事 后 运 行 模 式 ,将 弹 性
自 然 灾 害 、人 为 攻 击 和 严 重 技 术 故 障 等 极 端 事
配电系统的关键负荷恢复问题建模为混合整数线性
件严重威胁着电力系统的安全可靠运行[1]。面向极
规 划 问 题 。 文 献[12]提 出 了 多 源 协 同 的 配 电 系 统
端事件的电力系统弹性研究已越来越受到重视。电
多 时 段 负 荷 恢 复 优 化 决 策 方 法 。 此 外 ,现 有 研 究 还
力系统弹性是指电力系统承受和抵御极端事件的能
考虑了微网频率稳定性[13]、配电网络拓扑重构[14-15]、
力,包括事前预防、事中适应和事后恢复 3 个主要阶
配 电 系 统 线 性 拓 扑 约 束[16]、储 能 设 备 与 需 求 侧 管
段[2]。 随 着 碳 中 和 的 逐 步 推 进 ,未 来 配 电 系 统 将 接
理[17-18]、分 层 故 障 管 理[19]、可 再 生 DG 出 力 不 确 定
入大量分布式电源(distributed generator,DG),而微
性[20]等因素对含微网的配电系统负荷恢复的影响。
网 作 为 配 电 系 统 承 载 DG 的 重 要 形 式 ,其 相 应 技 术
目 前 ,大 多 数 的 关 键 负 荷 恢 复 研 究 是 将 恢 复 问
将得到大力发展。当极端事件导致主网故障而出现
题 建 模 为 数 学 规 划 模 型 ,进 而 基 于 最 优 化 理 论 求
供 电 能 力 不 足 时 ,配 电 系 统 可 以 通 过 操 作 分 段 开 关
解 。 这 类 基 于 模 型 的 方 法 存 下 以 下 问 题 :1)需 要 建
实 现 分 区 ,各 分 区 内 基 于 微 网 盈 余 电 力 可 为 配 电 系
立 研 究 对 象 的 显 式 数 学 模 型 ,这 对 于 复 杂 系 统 而 言
统用户提供电力服务。
存 在 很 大 难 度 ;2)最 优 化 理 论 中 对 于 可 解 性 的 要 求
近 年 来 ,配 电 系 统 的 弹 性 评 估 及 提 升 已 成 为 研
使得模型中存在不同程度的简化;3)当在线应用时,
究 热 点 。 文 献[3]分 析 了 能 源 转 型 下 的 弹 性 电 力 系
优化问题的高效求解仍然面临着挑战。针对上述问
统 的 内 涵 和 前 景 。 文 献[4]提 出 了 配 电 系 统 弹 性 的
题 ,无 模 型 的 机 器 学 习 方 法 被 认 为 是 一 种 可 能 的 解
核 心 特 征 与 关 键 技 术 。 文 献[5-6]提 出 了 电 力 系 统
决途径[21]。
弹 性 评 估 与 提 升 的 通 用 研 究 框 架 。 文 献[7-9]研 究
本 文 基 于 无 模 型 的 深 度 强 化 学 习(deep
了极端天气下电网的脆弱性建模方法与恢复措施。
reinforcement learning,DRL)技 术 ,研 究 含 微 网 的 弹
文献[10]对主动配电系统的弹性研究现状进行了系
性配电系统在失去主网供电能力情况下的事后动态
统 性 的 综 述 。 对 于 极 端 事 件 ,相 比 于 事 前 的 设 备 强
关 键 负 荷 恢 复(dynamic critical load restoration,
化 投 资 ,事 后 或 事 中 的 高 效 负 荷 恢 复 被 认 为 是 更 加
DCLR)问 题 。 这 里 的“ 动 态 ”取 自 动 态 规 划[22]的 概
念 ,有 别 于 电 力 系 统 动 态 特 性 。 相 较 于 传 统 的 静 态
收稿日期:2021-06-07;修回日期:2021-11-08 。
上网日期:2022-02-24。 关 键 负 荷 恢 复 模 型 ,本 文 将 恢 复 问 题 建 模 为 马 尔 可
国 家 电 网 有 限 公 司 总 部 科 技 项 目(SGJX0000KXJS190 夫 决 策 过 程(Markov decision process,MDP),恢 复
0322)。 过 程 被 拆 分 为 一 系 列 单 阶 段 问 题 逐 次 求 解 ,各 阶 段
68
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法
决 策 考 虑 了 未 来 一 定 步 数 决 策 的 影 响 ,各 阶 段 的 解 的训练难度越大。
组 成 全 过 程 最 优 的 决 策 序 列 。 具 体 而 言 ,首 先 分 析 1. 2 动态关键负荷恢复
考 虑 微 网 的 DCLR 问 题 ,并 在 此 基 础 上 建 立 相 应 的 极 端 事 件 下 ,配 电 系 统 可 能 在 一 段 时 期 内 无 法
MDP 模 型 ,同 时 构 建 基 于 OpenDSS[23]的 DCLR 模 通过变电站或馈线获取主网电力,在此期间,配电系
拟 环 境 ,形 成“ 智 能 体 - 环 境 ”交 互 接 口(agent- 统运营商(distribution system operator,DSO)可以基
environment interface,AEI)。 然 后 ,采 用 深 度 Q 网 于 分 段 开 关 和 DG 将 配 电 系 统 分 解 成 多 个 孤 岛 微
络(deep Q-network,DQN)
[24-25]
算法寻求最优控制 网,从而为关键负荷继续供电,并提升电网弹性[26]。
策 略 ,并 定 义 评 价 指 标 用 于 定 量 评 估 智 能 体 在 训 练 DCLR 的 动 态 决 策 过 程 如 图 1 所 示 。 其 中 ,恢
和 应 用 环 节 的 表 现 。 最 后 ,基 于 改 进 的 IEEE 测 试 | Γ | = T 。 DSO 在 各
复 时 间 被 离 散 化 ,记 为 集 合 Γ ,
系统进行算例分析,以验证所提方法的有效性。 时 间 点 t ∈ Γ 均 会 进 行 负 荷 恢 复 决 策 ,且 DSO 的 每
1 问题建模 次决策受到当前和未来奖励的影响。
首 先 ,介 绍 MDP 的 基 本 概 念 与 DCLR 的 数 学
at rt at+1 rt+1 at+2 rt+2
模 型 ,在 此 基 础 上 ,通 过 定 义 状 态 空 间 、动 作 空 间 等
DSO
MDP 要素,建立 DCLR 问题的 MDP 模型。最后,基 DSO DSO
st st+1 st+2 st+3
于 OpenDSS 建 立 DCLR 模 拟 环 境 ,形 成 DRL 应 用
'D/; 68N
所需的智能体-环境交互接口。
图 1 DCLR 问题的动态决策示意图
1. 1 MDP 基本概念 Fig. 1 Schematic diagram of dynamic decision-making
MDP 从智能体和环境的互动中学习控制策略, for DCLR problem
以实现控制目标,是序贯决策的经典表现形式,其由
五元组 { S,A,Ρ,r,γ } 表示,其中 S 为状态空间;A 为 将 配 电 系 统 记 为 图 G = ( N,L ),其 中 N 和 L 分
动作空间 ;Ρ ( s'|s,a ) 为在采取动作 a 后由状态 s 到达 别表示节点集合和线路集合。微网所在节点的集合
状 态 s' 的 概 率 ;r ( s,a,s' ) 为 在 采 取 动 作 a 后 由 状 态 s 记 为 M ⊂ N 。 分 段 开 关 以 集 合 W 表 示 ,每 个 节 点
( )
价值可由累计奖励的期望进行估计。动作价值函数
Q π ( s,a ) 的数学表达式为:
Q π ( s,a )= Ε τ~π ( R Tτ |s τ = s,a τ = a ) ∀s ∈ S,a ∈ A
max Ε s ∑
t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c }
ω i p͂ t,i,ϕ (3)
(1) 式 中 :Ε s ( ∙ ) 为 考 虑 了 系 统 状 态 s 中 随 机 扰 动 后 的 数
T-1
学期望函数;p͂ t,i,ϕ 为实际恢复负荷,p͂ t,i,ϕ = v t,i,ϕ p t,i,ϕ ,
R Tτ = ∑γ k-t
rk (2)
k=t
其中,v t,i,ϕ 为二值状态变量,用于表示负荷 p t,i,ϕ 的恢
式中 :π 为控制策略 ,表示状态与选择每个可能动作 复 状 态 ,v t,i,ϕ = 1 表 示 已 被 恢 复 ,v t,i,ϕ = 0 表 示 未 被
概率的映射;Ε τ~π ( ∙ ) 为状态 s 从采取动作 a 开始遵循 恢复,当微网供电范围确定时,v t,i,ϕ 也随之确定。
策略 π 所获得的期望折扣回报函数;τ 为 MDP 轨迹; 1. 2. 2 约束条件
R Tτ 为 从 时 刻 t 开 始 到 时 刻 T 结 束 的 MDP 片 段
本 文 在 DCLR 问 题 中 考 虑 3 类 约 束 ,分 别 为 配
(episode)的 折扣回报。
电 系 统 运 行 约 束 、微 网 运 行 约 束 以 及 用 户 满 意 度
γ 用于描述预期的未来奖励对当前决策的影
约束。
响,γ 越接近 0,表明智能体的目标越“近视”
(即向前 1)配电系统运行约束
考虑的步数越少),智能体的训练难度越小,反之,若 配电系统负荷恢复应满足三相不平衡潮流
γ 越 接 近 1,则 智 能 体 向 前 考 虑 的 步 数 越 多 ,智 能 体 方程:
70
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法
于用户满意度约束选取)。系统状态表述为: - c 2 α 2,t 表 示 违 反 节 点 电 压 约
表示恢复负荷的奖励;
s t = { p t,i,ϕ,q t,i,ϕ,p t,h,min,p t,h,max,q t,h,min,q t,h,max,o t',w | 束 的 惩 罚 ;- c 3 α 3,t 表 示 违 反 用 户 满 意 度 约 束 的 惩
奖励函数表述为: 2 算法实现
r t = - I 0,t c 0 + ( 1 - I 0,t ) ( c 1 α 1,t - c 2 α 2,t - c 3 α 3,t ) (13) 强 化 学 习 是 求 解 MDP 的 一 般 性 框 架 。 在 所 建
α 1,t = ∑ω i p͂ t,i,ϕ
i ∈ N,ϕ ∈ { a,b,c }
(14) 立 DCLR 的 MDP 模 型 中 ,最 优 负 荷 恢 复 策 略 可 表
达 为 价 值 最 高 的 控 制 动 作 。 针 对 DCLR 问 题“ 状 态
α 2,t = ∑
i ∈ N,ϕ ∈ { a,b,c }
v t,i,ϕ ( max ( 0,V t,i,ϕ - V max )+
空 间 连 续 -动 作 空 间 离 散 ”的 特 点 ,采 用 DQN 算 法 ,
max ( 0,V min
- V t,i,ϕ ) ) (15) 通过值迭代的方式来搜索价值最高的控制动作。
最优策略的过程中无需额外的先验知识。 (21)
OpenDSS KK"
针 对 损 失 函 数 F ( θ μ ),可 基 于 随 机 梯 度 下 降 法
(
B8(
DQN 等优化算法对参数 θ 进行迭代更新。
$" @3 Q 网络采用多层感知机模型,输入为系统状态,
@0 s r a 3O
(7
输 出 为 各 动 作 的 动 作 价 值 ,输 出 中 最 高 动 作 价 值 对
F*244
*3 应的动作即为最优负荷恢复策略。
's r
6 Ea
2. 2 Q 网络训练算法
@3 DQN 训练算法步骤如下:
0F*
步 骤 1:初 始 化 经 验 回 放 池 、动 作 价 值 网 络 Q 以
5;4+F* =B80* *
24D=' 24JB8 (7 及目标动作价值网络 Q̂ ,episode 取 1。
步骤 2:初始化环境状态 s t ,t = 0 。
图 2 负荷恢复问题的智能体-环境交互框架
Fig. 2 Agent-environment interaction framework of load 步骤 3:基于 ε-贪婪策略选择动作 a t 。
restoration problem 步 骤 4:在 DCLR 环 境 中 执 行 a t ,环 境 反 馈 奖 励
r t 和下一状态 s t + 1 ,将经验 ( s t,a t,r t,s t + 1 ) 存入经验回
2. 1 DQN 原理
放池。
最 优 控 制 策 略 可 基 于 最 优 价 值 函 数 得 到 ,最 优
步 骤 5:从 经 验 回 放 池 中 随 机 抽 取 小 批 量
动作价值函数 Q * ( s,a ) 定义为: 样本 η t 。
Q * ( s,a )= max E τ~π ( R Tτ |s τ = s,a τ = a ) (17)
π 步 骤 6:若 r t = - c 0 ,则 近 似 目 标 动 作 价 值 y t =
最 优 动 作 价 值 函 数 遵 循 贝 尔 曼 方 程 ,若 下 一 时 r t ;否则 y t = r t + γ max Q * ( s t + 1,a';θ̂ )。
a'
刻状态 s' 中所有可能动作 a' 的最优价值 Q * ( s',a' ) 已
步 骤 7:针 对 ( y t - Q ( s t,a t;θ ) )2 ,使 用 随 机 梯 度
知 ,则 最 优 控 制 策 略 为 选 择 动 作 a' 使 得 期 望 动 作 价
下降法更新网络 Q 参数;每经过 C 次更新,将网络 Q̂
值 r + γQ * ( s',a' ) 最大:
替换为网络 Q 。
Q * ( s,a )= Ε s' ( r + γ max Q * ( s',a' ) |s t = s,a t = a )
a' 步 骤 8:若 t = T 或 r t = - c 0 ,则 转 至 步 骤 9;否
(18) 则,t = t + 1 ,转至步骤 3。
进 一 步 通 过 迭 代 更 新 的 方 式 来 估 计 第 μ+1 次 步 骤 9:若 达 到 指 定 训 练 周 期 或 是 episode 取 到
迭代时的动作价值函数 Q μ + 1 ( s,a ),如式(19)所示。 终止值,则转至步骤 10;否则,episode 自动加 1,并转
Q μ + 1 ( s,a )= Ε s' ( r + γ max Q * ( s',a' ) |s t = s,a t = a ) 至步骤 2。
a'
72
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法
DCLR(
DQN 对于 ASR 指标,调用 Q 网络生成多个具有长度
Python (s,a,r,s')
上 限 的 决 策 片 段 ,长 度 上 限 用 于 避 免 生 成 过 长 的 片
OpenDSS
3O! 段,因此,ASR 定义为生成片段中可行动作的占比:
Python æ
ç
∑j R j ö÷
β ASR = çç 1 - ÷ × 100% (26)
÷
a s s' ç
è
∑j
Tj ÷
ø
Q44 A 44
,Q
C
式 中 :R j 为 辨 识 片 段 j 是 否 以 不 可 行 动 作 结 束 的 变
A Q
Q 量,R j = 1 表示是,R j = 0 表示否。
ε-B0* arg max
a
A
Q*(s',a';θ) 对 于 AOG 指 标 ,调 用 Q 网 络 生 成 多 个 固 定 长
F*K 度 的 决 策 片 段 ,片 段 中 均 不 含 不 可 行 动 作 。 对 于 每
A
max Q*(s',a';θ)
K" Q(s,a;θ)
44
a' r
个片段,基于 DRL 的决策方案和基准方案之间的最
优性差距 β gap 表示为:
()(21)@0DQNAF(θμ),
θμ!
∑
t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c }
ω i p͂ t,i,ϕ
图 3 DQN 训练算法原理图 β gap = 1 - (27)
Fig. 3 Schematic diagram of DQN training algorithm ∑
t ∈ Γ,i ∈ N,ϕ ∈ { a,b,c }
ω i p͂ t,i,ϕ,B
per episode,ASPE)
[28]
、平 均 动 作 价 值(average 式 中 :p͂ t,i,ϕ,B 为 基 准 方 案 中 实 际 恢 复 的 负 荷 。 AOG
action value,AAV)
[28]
和 平 均 批 次 损 失(average loss 指标则为生成片段的平均最优性差距。
per batch,ALPB)。决策能力指标包括:平均成功率 3 算例分析
(average success rate,ASR)和 平 均 最 优 性 差 距
将所提方法应用于 2 个改进的 IEEE 测试系统,
(average optimality gap,AOG)。
即 IEEE 13 节 点 馈 线 系 统(本 文 简 称 13 节 点 系
ASPE 表 示 一 个 训 练 周 期(epoch)内 每 个 片 段 [33]
统) 和 IEEE 37 节 点 馈 线 系 统(本 文 简 称 37 节 点
的平均折扣回报;AAV 表示在一个训练周期内所选
系 统)[ 34],以 验 证 其 有 效 性 。 所 有 计 算 均 在 搭
动 作 的 平 均 价 值 ;ALPB 表 示 在 一 个 训 练 周 期 内 每
载 Intel Core i7-8700 3.20 GHz CPU ,8 GB RAM
个训练批次的平均训练损失。计算公式分别为:
Ne Tj - 1 的计算机上进行。所提方案与基准方案 2 的环境配
1
β ASPE =
Ne
∑∑ γ r
j= 1 t= 0
t
j,t (23) 置 为 Python 3.6.12、PyTorch 1.8.0 和 OpenDSS
Ne Tj - 1
9.1.0.1;基 准 方 案 1 的 环 境 配 置 为 MATLAB 和
1
β AAV = Ne ∑ ∑ Q(s j,t ,a j,t;θ j ) (24) Gurobi 9.1.0。 本 项 工 作 未 使 用 GPU 加 速 计 算 和 分
∑T
j= 1 t= 0
j
布式训练。
j= 1 3. 1 测试系统
Nu
1 13 节 点 系 统 中 设 置 了 2 个 微 网 ,分 别 接 在 节 点
β ALPB =
Nu
∑F(θ )
j= 1
j (25)
633 和 692;同 时 设 置 了 4 个 分 段 开 关 用 于 执 行 负 荷
式中:N e 为训练周期内的片段数目;T j 为片段 j 的长 恢 复 决 策 ,分 别 安 装 在 线 路 632-645、670-671、671-
度 ;N u 为 1 个 训 练 周 期 包 含 的 参 数 更 新 次 数 ;s j,t、 684 和 671-692。 37 节 点 系 统 中 设 置 了 4 个 微 网 和
a j,t、r j,t、θ j 分 别 为 片 段 j 的 状 态 、动 作 、立 即 奖 励 和 6 个用于执行负荷恢复决策的分段开关。13 节点与
参数。 37 节 点 系 统 的 三 相 拓 扑 见 附 录 A。 此 外 ,假 设 下 一
针 对 应 用 环 节 ,考 虑 到 DRL 具 有 黑 箱 问 题 ,本 时 刻 的 负 荷 在 当 前 负 荷 的 基 础 上 加 上 ± 30% 的 随
文从动作的可行性和最优性 2 个方面来衡量智能体 机 波 动 ,微 网 的 爬 坡 速 率 为 100%。 测 试 系 统 的 具
的决策能力。在决策能力指标中,ASR 表示智能体 体数据,例如负荷参数、微网参数、状态空间、动作空
采 取 可 行 动 作 的 概 率 ,ASR在 [ 0,1 ] 范 围 内 取 值 , 间的设置等分别见附录 B 和 C。
ASR 越 趋 近 于 1,表 明 智 能 体 越 为 可 靠 ;AOG 衡 量 3. 2 训练效果
基 于 DRL 的 决 策 解 和 基 准 解 在 恢 复 目 标 方 面 的 差 训练环节首先需要确定各测试系统所对应的 Q
距 ,AOG 越 接 近 于 0,表 明 所 提 方 案 与 基 准 方 案 在 网 络 的 架 构 。 经 过 尝 试 ,最 终 确 定 Q 网 络 由 4 个 全
最优性方面越接近。 连 接 线 性 层 组 成 ,每 个 线 性 层 后 均 接 有 修 正 线 性 单
800
50 60
600
ALPB
AAV
ASPE
0 40
400
-50 200 20
-100
0 200 400 0 200 400 0 200 400
@3 @3 @3
(a) 13,ASPE (b) 13,AAV (c) 13,ALPB
100 800 60
50 600
40
ALPB
AAV
ASPE
0 400
20
-50 200
-100
0 50 100 150 0 50 100 150 0 50 100 150
@3 @3 @3
(d) 37,ASPE (e) 37,AAV (f) 37,ALPB
γ=0.50; γ=0.90; γ=0.99
图 4 ASPE、AAV、ALPB 训练曲线
Fig. 4 Training curves of ASPE, AAV, and ALPB
74
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法
环 节 极 具 效 率 优 势 ,且 计 算 效 率 随 系 统 规 模 的 变 化 参考文献
而降低。由于动作空间离散且动作数目较少,因此, [1]BENNETT J A,TREVISAN C N,DECAROLIS J F,et al.
基 准 方 案 2 和 3(基 于 枚 举)的 计 算 效 率 与 基 准 方 案 Extending energy system modelling to include extreme weather
1 相当,均在秒级左右。 risks and application to hurricane events in Puerto Rico[J].
Nature Energy,2021,6(3):240-249.
表 5 应用环节的计算效率 [2]别 朝 红 ,林 雁 翎 ,邱 爱 慈 . 弹 性 电 网 及 其 恢 复 力 的 基 本 概 念 与 研
Table 5 Computational efficiency of application 究展望[J]. 电力系统自动化,2015,39(22):1-9.
segment
BIE Zhaohong,LIN Yanling,QIU Aici. Concept and research
计算时间/s prospects of power system resilience[J]. Automation of Electric
系统
所提方案 基准方案 1 基准方案 2 基准方案 3 Power Systems,2015,39(22):1-9.
13 节点系统 1.49×10-4 0.756 6 0.163 9 0.163 9 [3]别 朝 红 ,林 超 凡 ,李 更 丰 ,等 . 能 源 转 型 下 弹 性 电 力 系 统 的 发 展
37 节点系统 1.50×10-4 1.211 5 0.481 9 0.481 9 与展望[J]. 中国电机工程学报,2020,40(9):2735-2745.
BIE Zhaohong,LIN Chaofan,LI Gengfeng,et al. Development
的决策方案在实际应用中的适用性。 [6]葛 少 云 ,张 成 昊 ,刘 洪 ,等 . 考 虑 微 能 源 网 支 撑 作 用 的 配 电 网 弹
性提升策略[J]. 电网技术,2019,43(7):2306-2317.
4 结语 GE Shaoyun,ZHANG Chenghao,LIU Hong,et al. Resilience
enhancement strategy for distribution network considering
本 文 提 出 了 一 种 基 于 DRL 的 面 向 弹 性 提 升 的 supporting role of micro energy grid [J]. Power System
含 微 网 配 电 系 统 动 态 关 键 负 荷 恢 复 方 法 ,可 以 在 极 Technology,2019,43(7):2306-2317.
端事件导致主网供电能力不足时为配电系统中的关 [7]周 晓 敏 ,葛 少 云 ,李 腾 ,等 . 极 端 天 气 条 件 下 的 配 电 网 韧 性 分 析
方 法 及 提 升 措 施 研 究[J]. 中 国 电 机 工 程 学 报 ,2018,38(2):
键 负 荷 恢 复 提 供 解 决 方 案 。 基 于 智 能 体 -环 境 交 互
505-513.
过 程 ,所 提 方 法 支 持 端 到 端 的 决 策 方 式 。 算 例 结 果 ZHOU Xiaomin,GE Shaoyun,LI Teng,et al. Assessing and
表明,基于 DRL 的方法可以成功地学习负荷恢复策 boosting resilience of distribution system under extreme weather
略,且无需额外的先验知识。在实际应用中,通过引 [J]. Proceedings of the CSEE,2018,38(2):505-513.
[8]NAZEMI M, MOEINI-AGHTAIE M, FOTUHI-
入 安 全 校 验 ,可 以 有 效 保 证 决 策 的 成 功 率 和 系 统 的
FIRUZABAD M,et al. Energy storage planning for enhanced
安 全 运 行 。 对 于 决 策 的 最 优 性 ,尽 管 智 能 体 还 存 在 resilience of power distribution networks against earthquakes[J].
一定的决策保守性,但整体而言,所提方法具有较好 IEEE Transactions on Sustainable Energy, 2020, 11(2):
的 表 现 。 此 外 ,所 提 方 法 在 应 用 环 节 的 计 算 效 率 方 795-806.
[9]WANG J, ZUO W D, RHODE-BARBARIGOS L, et al.
面具有明显优势。
Literature review on modeling and simulation of energy
同时,本文工作也存在一定局限性,进一步的研
infrastructures from a resilience perspective [J]. Reliability
究 将 处 理 更 为 复 杂 的 恢 复 场 景 和 恢 复 动 作 ,并 尝 试 Engineering & System Safety,2019,183:360-373.
量化恢复期间的不确定性因素对恢复结果的影响。 [10]MISHRA D K, GHADI M J, AZIZIVAHED A, et al. A
review on resilience studies in active distribution systems[J/
此 外 ,还 将 针 对 DRL 算 法 、高 性 能 计 算 ,以 及 面 向
OL]. Renewable and Sustainable Energy Reviews,2021,135
DRL 应 用 的 标 准 化 负 荷 恢 复 模 拟 环 境 及 其 开 源 等
[2021-08-11]. https://www.sciencedirect.com/science/article/
问题展开研究。 abs/pii/S1364032120304913.
[11]CHEN C,WANG J H,QIU F,et al. Resilient distribution
附录见本刊网络版(http://www.aeps-info.com/
system by microgrids formation after natural disasters[J]. IEEE
aeps/ch/index.aspx),扫英文摘要后二维码可以阅读 Transactions on Smart Grid,2016,7(2):958-966.
网络全文。 [12]许 寅 ,王 颖 ,和 敬 涵 ,等 . 多 源 协 同 的 配 电 网 多 时 段 负 荷 恢 复 优
76
黄玉雄,等 弹性配电系统动态负荷恢复的深度强化学习方法
Deep Reinforcement Learning Method for Dynamic Load Restoration of Resilient Distribution Systems
HUANG Yuxiong,LI Gengfeng,ZHANG Liyin,BIE Zhaohong
(School of Electrical Engineering, Xi'an Jiaotong University, Xi'an 710049, China)
Abstract: In extreme events, it can effectively enhance the grid resilience by using surplus power of microgrids to serve the critical
loads in distribution systems. Based on the deep reinforcement learning (DRL) technique, considering the participation of
microgrids, a dynamic critical load restoration (DCLR) method of distribution systems is proposed to support the model-free
manner to solve the complex problems, significantly improving the online computational efficiency. Firstly, the DCLR problem of
distribution systems with microgrids is analyzed. On this basis, its Markov decision process (MDP) is formulated considering the
complex operational constraints, including the distribution operation constraints, microgrid operation constraints, customer
satisfaction degree, etc. Secondly, a DCLR simulation environment is built based on OpenDSS as the agent-environment interface
for applying DRL algorithms. Furthermore, a deep Q-network algorithm is adopted to search for the optimal policies of the critical
load restoration. The convergence and decision-making ability indices are defined to measure the performance of the agents in
training and application processes, respectively. Based on the two modified IEEE test systems, the effectiveness of the proposed
method is verified.
This work is supported by State Grid Corporation of China (No. SGJX0000KXJS1900322).
Key words: load restoration; deep learning; reinforcement learning; distribution system; microgrid; resilience
78