文章 2023-06-28 来自:开发者社区

强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(proximal policy optimization,PPO)算法

强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化(proximal policy optimization,PPO)算法 1.核心词汇 同策略(on-policy):要学习的智能体和与环境交互的智能体是同一个时对应的策略。 异策略(off-policy)&...

文章 2023-06-28 来自:开发者社区

强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法

强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法 相关链接以及码源见文末 1.从同策略到异策略PPO算法 在介绍近端策略优化(proximal policy optimization,PPO) 之前,我们先回顾同策略和异策略这两种训练方法的区别。在强化学习里面,要学习的是一个智能体。如果要学习的智能体和与环境交互...

强化学习从基础到进阶--案例与实践[8]:近端策略优化(proximal policy optimization,PPO)算法

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

智能引擎技术

AI Online Serving,阿里巴巴集团搜推广算法与工程技术的大本营,大数据深度学习时代的创新主场。

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等