Yang's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

学习RL(四)

Learning就是通过迭代的方法找到更接近真实值的手段。 蒙特卡洛方法当研究的问题动态模型未知的时候,怎么做策略估计?怎么做策略的改进?在实际应用中,经常遇到模型未知的情况,无法像上一章节讲的,通过Bellman公式计算状态价值是根据模型(状态传递概率)得到的,但是实际应用中经常遇到没有这样的概率可以依赖。 思路就是既然MDP利用环境状态传递概率(State Transition Prob
2025-06-27
RL
#type/post

学习RL(五)

1. 为什么要有Policy Gradient 学习RL(三)当中提到,相比策略评估和策略迭代分开进行的方法,GPI已经有了进步,能够在策略评估的阶段就先把actions: (离散的)遍历一遍,找到使得action-value (为了把概念表达清晰,这里我想纠正我之前的blog当中对action-value采用的符号:)最大的那个 : 。之前在写blog的时候,脑子里面一直就藏着一个大问号
2025-06-09
RL
#强化学习

学习RL(三)

第四章节 动态规划 4.4 价值迭代 上一篇笔记当中的JCR的例子的实现过程,是将策略评估和策略改进分开进行的,具体地讲,就是在策略评估阶段,需要针对每个状态,在给定的策略下,做Bellman计算得到新状态价值,然后拿着这个给到策略改进阶段,在这个阶段当中,针对每个状态,遍历所有的可能行动,计算得到一组行动价值(action-value),然后选择最大的行动价值,替换掉当前状态对应的行动。完成
2025-02-08
RL
#控制算法

2024总结

工作 因为产品推广的需要出差到迪拜和新加坡参加口腔展。 因为需要横向扩展产品线,集成不同的硬件系统,对软件的结构做了一系列的改造,就是重构。 针对客户反馈的问题和测试人员的反馈,针对主要业务的模块进行了代码重构,使得架构的可扩展性,可维护性提升,避免不同功能的相互耦合导致的问题。 重构的笔记 个人学习 2024年的下半年开始, 成为微信读书的重度用户。 2024微信读书已完成
2025-01-08
年度总结
#年度总结

学习RL(二)

第四章节 动态规划 4.1 策略评估 讨论的是如何在已知策略的情况下计算状态价值函数,从而得到采用该策略的价值有多大。 在DP当中policy evaluation的评估首先要计算状态价值函数,也就做prediction problem。 策略评估的迭代计算 这里讨论的是如何计算状态价值函数,该函数是从初始的状态迭代计算的,不能无限制地一直迭代下去,这样严重影响实时性,所以上
2024-10-18
RL
#控制算法

《园丁与木匠》

园丁与木匠 关于作者:艾莉森·高普尼克(Alison Gopnik)是美国加州大学伯克利分校儿童发展心理学教授,也是该领域全世界最顶尖的学者之一。她不仅是一位实验心理学家,也是一位哲学家,一生致力于以跨学科的视角研究儿童的认知与成长。她养育了三个儿子,现有三个不到5岁的孙辈。 本书的框架 这本书我觉得最大的特点是将理论研究和实践结合起来,给父母一个很清晰的框架,在这
2024-09-06
Book
#读书

学习RL(一)

第二章和第三章 文章通过多臂老虎机的问题来展示强化学习的基本概念。 对于老虎机来讲,有多种操作选择,每一种操作对应的奖励是不同的,我们不知道操作和奖励的对应关系,但是我们手中拥有很多次机会,来对每次的操作进行选择。每次操作完可以立刻看到奖励,但我们不清楚这个操作对应的奖励在整个奖励的分布是最大、最小还是居于中间状态。 基础概念 行动价值(value of action)就是某种行动的价
2024-07-26
RL
#控制算法

《置身事内:中国政府与经济发展》

置身事内 我作为一个经济和政府运作逻辑的小白,最近看到了一本很多人推荐的书《置身事内:中国政府与经济发展》。希望以此为切入点,了解中国政府在中国经济发展中发挥了什么作用。 我很喜欢两部国产电视剧,一部是《大明王朝1566》,一部是《走向共和》。这两部剧有个共同点:开场第一集中,那些历史上赫赫有名的大人物们,出场都没有半点慷慨激昂或阴险狡诈的样子,反倒都在做世上最乏味的事——算账
2024-07-25
Book
#读书

设计模式之“状态模式”

由来 最近的项目当中,需要添加新的功能来满足产品需求。因为我们的产品是一个特殊的器械,在机器运行的任何时刻,都可能会有人的操作和介入,所以之前的代码对于各种从外部进来的输入都是使用if else的结构来解决。困难是随着功能的增加,这个if else的代码块会越来越多,并且新的代码可能会把原来的功能破坏掉。为了解耦不同状态下的操作,并且让系统有正确的输出,我们决定重构这一部分的代码。 最近的体会
2024-07-23
Design Pattern
#设计模式

《禅与摩托车维修艺术》

father and son 作为一部自传体小说,斐德洛的故事,其实正是本书作者罗伯特·M. 波西格的人生。在《柏拉图对话集》中,斐德洛是一个爱好哲学的普通雅典青年。而在本书中,斐德洛重返人间。他曾经是学哲学的学生,同时也是教修辞学的教师,但是由于哲学理念与文化的世界观冲突,他终于因精神崩溃而住院。出院后,他希望从狭窄而受限的自我解脱,于是开始了一场骑着摩托车横跨美国大陆的万里
2024-07-15
Book
#读书
12

搜索

Hexo Fluid
总访问量 次 总访客数 人