ShopeeVideo 多语言 OCR 系统设计与实现
摘要
OCR 技术,即 Optical Character Recognition(光学字符识别),用于提取视频或图像中的文字。在 Shopee 的多市场电商和视频业务中,OCR 有着广泛的应用价值。
例如,在短视频的推荐、搜索、供给和内容审核、视频字幕提取、广告 logo 识别、封面版面分析、IP 版权识别等方面都用到了 OCR 的能力;在电商图像视频理解中,也包含商品信息提取、订单识别、卡证识别、票据识别、店铺识别、文档内容提取等应用。
Shopee 的业务场景主要分布在东南亚多个市场,用户使用语言也非常多元化。ShopeeVideo OCR 团队基于行业前沿的深度学习技术,联合开发团队打造了一套完整的多语言文字识别系统,将图片和视频上的文字内容智能识别为可编辑的文本。
目前,该系统在图像文本检测和识别、视频文本理解、版面分析、文本合成、轻量级模型部署上都有了深厚的积累,经历了多次算法迭代,识别精度不断提升,取得了业界领先的识别水准。
欢迎在评论区写下你对这篇文章的看法。


