【读书笔记】Algorithms for Decision Making(7)
三、序列问题(3)策略搜索即搜索策略空间,而无需直接计算值函数。策略空间的维数通常低于状态空间,并且通常可以更有效地搜索。本部分首先讨论在初始状态分布下估计策略价值的方法。然后讨论不使用策略梯度估计的搜索方法和策略梯度方法。接着介绍Actor-Critic方法用值函数的估计来指导优化。4. 策略搜索4.1 近似策略评估在已知初始状态$b(s)$的情况下,可计算策略$\pi$的预期折扣回报:$$\....
【读书笔记】Algorithms for Decision Making(6)
三、序列问题(2)上文中提及的精确解方法适用于小型离散问题,对于较大状态空间的问题,计算精确解需要极大的内存量,因而考虑近似解的方法。常使用approximate dynamic programming的方法去寻求近似解,进而使用在线方法实现实时计算。2. 近似值函数2.1 参数化表示记值函数的参数化表示为$\mathcal{U}_{\theta} (s)$。struct Approximate....

【读书笔记】Algorithms for Decision Making(3)
二、概率推理(2)上一部分给出了概率分布的表示论。本部分将展示如何使用概率表示进行推理,即确定一组给定观察变量相关值的一个或多个未观察变量的分布。在该部分中首先介绍直接推断的办法,然后给出几种有效的近似方法。2. 推断2.1 贝叶斯网络中的推断在推断问题中,通过给定的可观测的证据变量$A$,推断查询变量(query variables )$B$的分布。 其他节点被称为隐藏变量(hidden va....
【读书笔记】Algorithms for Decision Making(1)
前言看到了木遥老师的推荐,下载but没有打开。简介就引用木遥老师原文了,谢谢老师!我自己的粗浅看法:机器学习要不是拟合逼近(经常提及的machine learning),要不就是决策过程(reinforcement learning),这本书主要讲述后者的前世今生。一、引言"In retrospect, it is interesting to note that the original pr....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。