GLM-OCR

互联网 2026-02-03 10:39:13

GLM-OCR是智谱AI开源的轻量级多模态OCR模型，仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构，集成自研CogViT视觉编码器与轻量跨模态连接层，引入多Token预测损失和强化学习训练，在手写体、复杂表格、代码文档、印章、多语言混排等高难场景表现卓越。模型支持HTML表格、JSON结构化输出，推理速度达1.86页/秒，兼容vLLM/SGLang/Ollama部署，适用文档解析、票据提取、RAG等商业场景。

*文章为作者独立观点，不代表爱思词典立场

本文由 Haley Reed发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/12606.html

GLM-OCR 智谱