莫叶何竹🍀
Home
友情链接
联系我
归档
  •   文章分类
  •   文章标签
  •   往期文章
莫叶何竹🍀
文章
66
分类
3
标签
33
Home
友情链接
联系我
归档
文章分类
文章标签
往期文章

Lazy loaded imageRL学习小结 (005): TRPO理论剖析

学习分享
本文从TRPO提出的motivation出发,step by step系统的推导了TRPO的算法的设计过程及细节
2026-3-20
强化学习
RL学习小结 (005): TRPO理论剖析

Lazy loaded imageRL学习小结 (006):PPO原理剖析

学习分享
本文从PPO提出的motivation出发,系统介绍了PPO-Penalty和PPO-CLIP两种变体。总体来说,PPO 用更简单的方式近似TRPO的trust region约束,在保证策略更新稳定性的同时,大幅降低计算复杂度。
2026-5-13
强化学习
RL学习小结 (006):PPO原理剖析

📖Feeling after reading The Little Prince 

读书笔记
2017-2-25
Feeling after reading The Little Prince 

📖The feeling of reading after Tess

读书笔记
2017-6-7
The feeling of reading after Tess

🏫大学四年

心情随笔
2017-7-11
大学四年

🏫给身边考研的小伙伴

心情随笔
2017-9-3
给身边考研的小伙伴
123456
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
文章
66
分类
3
标签
33
最新发布
RL学习小结 (006):PPO原理剖析
RL学习小结 (006):PPO原理剖析
2026-5-13
《MinerU2.5-Pro》 技术小结
《MinerU2.5-Pro》 技术小结
2026-4-15
RL学习小结 (001): 基本概念、贝尔曼方程
RL学习小结 (001): 基本概念、贝尔曼方程
2026-3-23
RL学习小结 (005): TRPO理论剖析
RL学习小结 (005): TRPO理论剖析
2026-3-20
RL学习小结 (003): 性能差异引理(The Difference in Policy Performance)
RL学习小结 (003): 性能差异引理(The Difference in Policy Performance)
2026-2-12
RL学习小结 (002): 策略梯度理论
RL学习小结 (002): 策略梯度理论
2026-2-11
2023-2026莫叶何竹🍀.
浙ICP备2024065264号

莫叶何竹🍀 | 非淡泊无以明志,非宁静无以致远

Powered byNotionNext 4.9.4.2.