How We Built a Custom Vision LLM to Improve Document Processing at Grab

摘要

东南亚语言和文档格式多样,传统OCR系统在处理时面临挑战。为解决这一问题,我们开发了轻量级专用视觉LLM。通过合成OCR数据集和内部平台Documint生成高质量训练数据,采用两阶段训练方法,显著提升了OCR和关键信息提取的准确性。最终,我们构建了1B参数的定制模型,在保持高性能的同时降低了延迟,验证了小型专用模型的有效性。

欢迎在评论区写下你对这篇文章的看法。

评论

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-04 17:36
浙ICP备14020137号-1 $お客様$