You are on page 1of 2

深度 Q 网络( DQN )

 DQN 是一种深度学习和强化学习结合的算法,提出的动
机是传统的强化学习算法 Q-learning 中的 Q_table 存储空
间有限,而现实世界甚至是虚拟世界中的状态是接近无
限多的(比如围棋),因此,无法构建可以存储超大状
态空间的 Q_table 。在 DQN 中,可以将状态和动作当成
神经网络的输入,然后经过神经网络分析后得到动作的
Q 值,这样就没必要在表格中记录 Q 值,而是直接使用
神经网络预测 Q 值。

 Q 值函数是一个将状态和行动映射到 Q 值的函数,表示通过
执行该行动在特定状态下获得的预期回报。
 在强化学习中,目标是找到最优策略,使得在任何状态下采
取最优行动,可以获得最大的预期回报。
 Q 值函数提供了一种方法来计算策略的质量,因为最优策略
的 Q 值是所有策略中最高的。 DQN 算法通过智能体与环境互动收集经验数据,利用神经网络估
 在 DQN 算法中,使用神经网络来学习 Q 值函数,使得算法 算状态下不同动作的价值( Q 值),并通过经验回放和目标网络
可以处理高维状态空间和动作空间问题,并具有很强的灵活 来优化网络权重,让智能体逐步学习并改进决策策略,以获得更好
性和适用性。 的性能和效果。

《神经网络与深度学习》 1
深度 Q 网络( DQN )
经验回放
 通过存储智能体在与环境互动时所收集的经验数据来实现的。这些经验数据通常以元组的形
式存储,包括状态( state )、动作( action )、奖励( reward )、下一个状态( next state )
等信息。存储这些经验数据的缓冲区称为经验回放缓冲区。

评估网络
 用于估计每个状态下可行动作的价值( Q 值)。它接收环境的状态作为输入,并输出每个可
能动作的对应 Q 值。这个网络在训练过程中被不断更新,以更准确地估计每个动作的价值。

目标网络
 其结构和参数与评估网络相同。然而,目标网络的参数在训练过程中不是持续更新的,而是
周期性地从评估网络中复制参数。这种复制通常以一定的频率来进行,比如每隔一定步数或
时间间隔复制一次。
《神经网络与深度学习》 2

You might also like