Yang's Blog

手眼标定

本文参考了OPENCV 问题描述在机器人系统中，经常遇到需要确定相机（眼睛）与机器人末端（TCP）之间的安装关系。如果相机不在机械臂末端，往往末端会安装一个相机能够识别的标记物，相机系统给出该标记物在相机空间的三维坐标和姿态。无论上述哪种安装类型，都需要确定一个方程的解：，是已知的齐次矩阵，是未知的齐次矩阵。利用李代数和最小二乘解决的问题。平移旋转分开求解从齐次等式提取旋转部

2025-12-02

State Estimation

#标定

学习RL(四)

Learning就是通过迭代的方法找到更接近真实值的手段。蒙特卡洛方法当研究的问题动态模型未知的时候，怎么做策略估计？怎么做策略的改进？在实际应用中，经常遇到模型未知的情况，无法像上一章节讲的，通过Bellman公式计算状态价值是根据模型（状态传递概率）得到的，但是实际应用中经常遇到没有这样的概率可以依赖。思路就是既然MDP利用环境状态传递概率(State Transi

2025-06-27

RL

#type/post

学习RL(五)

更新记录 2025-12-15：从策略下的系统演进路径推导PG为什么不需要对环境迁移概率求导从而引出baseline的概念。 1. 为什么要有Policy Gradient 学习RL(三)当中提到，相比策略评估和策略迭代分开进行的方法，GPI已经有了进步，能够在策略评估的阶段就先把actions: (离散的)遍历一遍，找到使得action-value （为了把概念表达清晰，这里我想纠正

2025-06-09

RL

#强化学习

学习RL(三)

第四章节动态规划 4.4 价值迭代上一篇笔记当中的JCR的例子的实现过程，是将策略评估和策略改进分开进行的，具体地讲，就是在策略评估阶段，需要针对每个状态，在给定的策略下，做Bellman计算得到新状态价值，然后拿着这个给到策略改进阶段，在这个阶段当中，针对每个状态，遍历所有的可能行动，计算得到一组行动价值（action-value），然后选择最大的行动价值，替换掉当前状态对应的行动。完成

2025-02-08

RL

#控制算法

2024总结

工作因为产品推广的需要出差到迪拜和新加坡参加口腔展。因为需要横向扩展产品线，集成不同的硬件系统，对软件的结构做了一系列的改造，就是重构。针对客户反馈的问题和测试人员的反馈，针对主要业务的模块进行了代码重构，使得架构的可扩展性，可维护性提升，避免不同功能的相互耦合导致的问题。重构的笔记个人学习 2024年的下半年开始，成为微信读书的重度用户。 2024微信读书已完成

2025-01-08

年度总结

#年度总结

学习RL(二)

第四章节动态规划 4.1 策略评估讨论的是如何在已知策略的情况下计算状态价值函数，从而得到采用该策略的价值有多大。在DP当中policy evaluation的评估首先要计算状态价值函数，也就做prediction problem。策略评估的迭代计算这里讨论的是如何计算状态价值函数，该函数是从初始的状态迭代计算的，不能无限制地一直迭代下去，这样严重影响实时性，所以上

2024-10-18

RL

#控制算法

《园丁与木匠》

园丁与木匠关于作者：艾莉森·高普尼克（Alison Gopnik）是美国加州大学伯克利分校儿童发展心理学教授，也是该领域全世界最顶尖的学者之一。她不仅是一位实验心理学家，也是一位哲学家，一生致力于以跨学科的视角研究儿童的认知与成长。她养育了三个儿子，现有三个不到5岁的孙辈。本书的框架这本书我觉得最大的特点是将理论研究和实践结合起来，给父母一个很清晰的框架，在这

2024-09-06

Book

#读书

学习RL(一)

第二章和第三章文章通过多臂老虎机的问题来展示强化学习的基本概念。对于老虎机来讲，有多种操作选择，每一种操作对应的奖励是不同的，我们不知道操作和奖励的对应关系，但是我们手中拥有很多次机会，来对每次的操作进行选择。每次操作完可以立刻看到奖励，但我们不清楚这个操作对应的奖励在整个奖励的分布是最大、最小还是居于中间状态。基础概念行动价值（value of action）就是某种行动的价

2024-07-26

RL

#控制算法

《置身事内：中国政府与经济发展》

置身事内我作为一个经济和政府运作逻辑的小白，最近看到了一本很多人推荐的书《置身事内：中国政府与经济发展》。希望以此为切入点，了解中国政府在中国经济发展中发挥了什么作用。我很喜欢两部国产电视剧，一部是《大明王朝1566》，一部是《走向共和》。这两部剧有个共同点：开场第一集中，那些历史上赫赫有名的大人物们，出场都没有半点慷慨激昂或阴险狡诈的样子，反倒都在做世上最乏味的事——算账

2024-07-25

Book

#读书

设计模式之“状态模式”

由来最近的项目当中，需要添加新的功能来满足产品需求。因为我们的产品是一个特殊的器械，在机器运行的任何时刻，都可能会有人的操作和介入，所以之前的代码对于各种从外部进来的输入都是使用if else的结构来解决。困难是随着功能的增加，这个if else的代码块会越来越多，并且新的代码可能会把原来的功能破坏掉。为了解耦不同状态下的操作，并且让系统有正确的输出，我们决定重构这一部分的代码。最近的体会

2024-07-23

Design Pattern

#设计模式