机器学习平台 PAI强化学习

文章 2019-05-05 来自：开发者社区

《从机器学习到深度学习》笔记（3）强化学习

强化学习是对英文Reinforced Learning的中文翻译，它的另一个中文名称是“增强学习”。相对于有监督学习和无监督学习，强化学习是一个相对独特的分支；前两者偏向于对数据的静态分析，后者倾向于在动态环境中寻找合理的行为决策。强化学习的行为主体是一个在某种环境中独立运行的Agent（可以理解为“机器人”）, 其可以通过训练获得在该环境中的最佳行为模式。强化学习被看成是最接近人工智能的一个....

文章 2019-02-15 来自：开发者社区

一文读懂人工智能、机器学习、深度学习、强化学习的关系（必看）

人工智能是下一次工业革命的核心力量，它企图了解智能的实质，并以科技诠释人类的生活，目前最流行的深度学习技术占据着人工智能最新成果的核心领域，机器人开发、语音识别、图像识别、自然语言处理和专家系统等不断推陈出新，可以设想，未来由人工智能塑造的科技产品，将会是人类智慧的“容器”。《国务院关于印发新一代人工智能发展规划的通知》（国发[2017]35号）的发布，明确了人工智能产业将成为新的重要经济增长点....

文章 2019-02-14 来自：开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章强化学习（上）

本文来自云栖社区官方钉群“Python技术进阶”，了解相关信息可以关注“Python技术进阶”。评价行为：信用分配问题如果我们知道每一步的最佳动作，我们可以像通常一样训练神经网络，通过最小化估计概率和目标概率之间的交叉熵。这只是通常的监督学习。然而，在强化学习中，智能体获得的指导的唯一途径是通过奖励，奖励通常是稀疏的和延迟的。例如，如果智能体在 100 个步骤内设法平衡杆，它怎么知道它采取的....

文章 2019-02-14 来自：开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章强化学习（下）

本文来自云栖社区官方钉群“Python技术进阶”，了解相关信息可以关注“Python技术进阶”。时间差分学习与 Q 学习具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程，但是智能体最初不知道转移概率是什么（它不知道T），并且它不知道奖励会是什么（它不知道R）。它必须经历每一个状态和每一次转变并且至少知道一次奖励，并且如果要对转移概率进行合理的估计，就必须经历多次。时间差分学习（T....

文章 2018-07-10 来自：开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章强化学习（下）

时间差分学习与 Q 学习具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程，但是智能体最初不知道转移概率是什么（它不知道T），并且它不知道奖励会是什么（它不知道R）。它必须经历每一个状态和每一次转变并且至少知道一次奖励，并且如果要对转移概率进行合理的估计，就必须经历多次。时间差分学习（TD 学习）算法与数值迭代算法非常类似，但考虑到智能体仅具有 MDP 的部分知识。一般来说，我们假设....

文章 2018-07-09 来自：开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章强化学习（中）

评价行为：信用分配问题如果我们知道每一步的最佳动作，我们可以像通常一样训练神经网络，通过最小化估计概率和目标概率之间的交叉熵。这只是通常的监督学习。然而，在强化学习中，智能体获得的指导的唯一途径是通过奖励，奖励通常是稀疏的和延迟的。例如，如果智能体在 100 个步骤内设法平衡杆，它怎么知道它采取的 100 个行动中的哪一个是好的，哪些是坏的？它所知道的是，在最后一次行动之后，杆子坠落了，但最后....

文章 2018-05-16 来自：开发者社区

《Scikit-Learn与TensorFlow机器学习实用指南》第16章强化学习

第16章强化学习来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目译者：@friedhelm739 校对：@飞龙强化学习（RL）如今是机器学习的一大令人激动的领域，当然之前也是。自从 1950 年被发明出来后，它在这些年产生了一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和及其控制领域...

文章 2017-10-22 来自：开发者社区

写给人类的机器学习五、强化学习

五、强化学习原文：Machine Learning for Humans, Part 5: Reinforcement Learning 作者：Vishal Maini 译者：飞龙协议：CC BY-NC-SA 4.0 探索和利用。马尔科夫决策过程。Q 学习，策略学习和深度强化学习。我刚刚吃了一些巧克力来完成最后这部分。在监督学...

文章 2017-08-02 来自：开发者社区

强化学习全解；Facebook 机器学习@Scale 2017 资料汇总 | 开发者日报

强化学习全解强化学习（Re-inforcement Learning）是一种基于与环境互动的目标导向的学习。强化学习被认为是真正的人工智能的希望。作者认为这是正确的说法，因为强化学习拥有巨大的潜力。据雷锋网(公众号：雷锋网)了解，很多人说，强化学习被认为是真正的人工智能的希望。本文从 7 个方面带你入门强化学习，读完本文，希望你对强化学习及实战中实现算法有着更透彻的了解。详情：http.....

机器学习平台 PAI您可能感兴趣