百度开源Unlimited OCR新模型：创新机制助力长文档解析，作者身份引猜测-科技-巨人天成财经

国产开源OCR领域迎来重大突破，百度最新发布的Unlimited OCR模型在长文档处理能力上实现质的飞跃。该模型采用革命性的参考滑动窗口注意力机制（R-SWA），在OmniDocBench基准测试中以93.92%的成绩刷新行业纪录，较前代DeepSeek OCR提升6.22个百分点。

传统OCR系统处理长文档时普遍采用"分页处理+结果拼接"的折中方案，这种模式如同机械抄写员般逐页重置上下文，导致显存占用随文档长度指数级增长。Unlimited OCR突破性地将人类抄写行为数字化：模型不再强制记忆全部历史内容，而是像专业抄写员那样仅保留当前工作所需的局部信息，配合完整的视觉参考实现连续解析。

技术团队创新性设计的R-SWA机制包含双重注意力路径：在视觉维度，模型始终保持对完整图像的全局感知；在文本维度，仅保留最近128个生成Token参与注意力计算。这种"全局视觉+局部文本"的混合架构，使模型在处理40页以上文档时仍能保持稳定性能，Distinct-35指标高达96.90%，编辑距离控制在0.1069以下。

实验数据显示，该模型在生成6000个Token时，推理速度较传统方案提升35%，且延迟波动幅度显著降低。其核心突破在于将KV Cache设计为固定长度队列，通过动态更新机制确保显存占用恒定，从根本上解决了长序列处理中的内存爆炸问题。这种设计使得模型在处理超长文档时，推理效率几乎不受输入长度影响。

该成果的技术辐射效应远超OCR领域。研究团队指出，R-SWA机制本质上是对注意力机制的重新定义，其"选择性遗忘"设计为长上下文处理提供了全新范式。相比传统扩容方案，这种生物仿生设计更符合人类认知规律，有望在语音识别、机器翻译等序列处理任务中引发连锁创新。

项目GitHub页面披露的技术路线图显示，团队正开发128K上下文版本，并探索构建"预填池"机制实现历史状态的按需调用。这种技术演进方向与DeepSeek OCR2形成战略呼应，前者聚焦视觉信息的高效理解，后者深耕长序列的记忆管理，共同构建起从感知到认知的完整技术链条。

值得关注的是，技术报告中出现的一位匿名作者"YY"引发行业热议。通过分析技术脉络和代码贡献，多位研究者推测该神秘人物可能是OCR领域资深专家魏浩然。这位曾主导GOT-OCR2.0开发的科学家，其研究轨迹与Unlimited OCR展现的技术特征存在显著关联，但截至目前尚未获得官方确认。

模块化桁架机器人：打破传统局限，解锁柔性制造新未来

模块化桁架机器人的核心思想，是将整个系统解耦为标准化的功能单元，并通过统一的接口协议实现快速拼装与重构。在这一技术转型浪潮中，云雀机器人凭借其深厚的机械设计与精密制造能力，成为国内模块化桁架领域的重要推动…

2026-06-26

职院教师出身的徐振：掌控朗迅科技46%表决权 2025年年薪达353万元

2026-06-26

领益智造6月26日港股上市募资超82亿港元加速AI硬件智造布局

2026-06-26

领益智造曾芳勤谈AI时代：精密制造赋能新赛道，中国供应链迎新机遇

2026-06-26

ARD2F智能电动机保护器：全方位守护电机安全，让工厂泵站运维更高效

传统保护装置功能单一、控制死板，运维时还得频繁跑现场——ARD2F智能电动机保护器，集保护、控制、通讯、运维于一体，就像给电机配了位“专职安全员”，让电机运行更稳定，运维更轻松。从工厂生产线的电机保护，到泵…

2026-06-26

新华保险荣登《福布斯》全球企业2000强第378位，高质量发展再启新程

2026-06-26

苹果调整芯片发布策略：M6专注入门款，M7系列高端芯片或2027年登场

【CNMO科技消息】6月26日，据外媒报道，苹果正在调整其AppleSilicon芯片的发布节奏，以加快专为人工智能工作负载设计的芯片的推出速度。据CNMO科技了解，苹果计划最早于今年发布面向入门级Mac…

2026-06-26

大北农回应“被停贷限贷”传闻：目前经营与融资活动一切正常

2026-06-26

资金逆市加仓中证红利ETF招商，股息率优势凸显或迎布局良机

2026-06-26

特斯拉中国推出星河奖学金：助力员工子女升学科研，单项最高奖5000元

2026-06-26