方略学科导航

搜索结果: 1-1 共查到“控制科学与技术 CRITIC”相关记录1条 . 查询时间(0.06 秒)

基于对称扰动采样的Actor-critic算法 Actor-critic方法对称扰动采样连续空间强化学习 2016/1/5

针对传统Actor-critic (AC) 方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题, 提出一种基于对称扰动采样的AC算法框架. 首先, 框架采用高斯分布作为策略分布, 在每一时间步对当前动作均值对称扰动, 从而生成两个动作与环境并行交互; 然后, 基于两者的最大时域差分(TD) 误差选取Agent 的行为动作, 并对值函数参数进行更新; 最后, 基于两者的平均常规梯度或增...