RL学习小结 (006):PPO原理剖析学习分享本文从PPO提出的motivation出发,系统介绍了PPO-Penalty和PPO-CLIP两种变体。总体来说,PPO 用更简单的方式近似TRPO的trust region约束,在保证策略更新稳定性的同时,大幅降低计算复杂度。2026-5-13 强化学习
实例分割新范式:Falcon Perception技术剖析学习分享这篇文章讨论的是一个很有意思的问题:dense perception任务是否一定需要encoder-decoder结构? 目前开放词汇检测、promptable segmentation、OCR这类任务,常见做法大概是: • 先用一个vision backbone提取图像features • 单独的 decoder 或 late-fusion module 将这些 features 转换为任务输出 虽然上面的范式在业内已经验证了有效性,但它的问题也很明显。模块越多,视觉语言的交互较晚,并且系统的复杂度也会更高。 针对dense perception的任务特点,作者提出以下关键设计:1)Unified Dense Transformer with Hybrid Attention Mask; 2)Chain-of-Perception; 3)Specialized heads2026-5-30 多模态 图像分割