基于语义的 OCR 纠错实现

摘要

作为超级自动化的代表公司,来也科技推进的许多自动化解决方案中,需要OCR(光学文字识别)的能力,经过持续的积累和创新,目前来也自研的通用OCR识别在60多个复杂的中文测试集合上近70万的字符上,综合F1指标已经接近97%,远超国内大多数竞品公司。

虽然综合指标上已经取得非常好的成绩,但是因为视觉深度学习OCR模型的天生缺陷,在一些长尾问题上依然识别准确率不高,典型的有以下场景:

  1. 污渍干扰如红章、墨迹
  2. 形似字 如 “戍”与“戌、成、戊”
  3. 图像变形引起的字体变形

欢迎在评论区写下你对这篇文章的看法。

评论

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 18:00
浙ICP备14020137号-1 $Carte des visiteurs$