Lazy loaded image阅读顺序还原技术剖析——LayoutReader

给定一张文档图像(可选)及其中全部词级 token 的文本(可选)和bounding box,输出一个排列后的 token 顺序,使其符合人类自然阅读顺序。 形式化:给定一组无序的box序列,$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$,求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
RL学习小结 (002): 策略梯度理论
2025-9-1
RL学习小结 (001): 基本概念、贝尔曼方程
2025-9-1
diffusion model(十九) :SDE视角下的扩散模型
2025-8-15
阅读顺序还原技术剖析——LayoutReader
2025-7-24
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解
2025-5-24
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)
2025-5-24