随着无纸化逐渐成为趋势,在我们平时的工作、学习以及生活当中,越来越多物理世界里的纸质文档被转换成电子文档,通过手机进行存储、处理和分享。
比如我们在工作中遇到的合同报表等纸质文件,通过手机拍照转成电子件,进行快速分享。学生上网课期间写完的作业,通过手机拍照提交给老师进行在线批阅。我们平时在阅读的时候看到书本里的一段精彩语录,想要摘抄到电子笔记等等。
那在以上的需求场景中,用户对于文档图像处理与识别相关的核心诉求主要有两个。
首先是文档拍摄场景,不管是转成电子件存档还是快速分享,都希望对文档内容能够进行清晰的记录。其次,针对文档图片里的文字等内容,希望能够智能识别成可编辑的电子格式,进行进一步的加工处理。
基于此,我们打造了包括文档扫描、文字提取等在内的全场景解决方案,为用户在工作、学习和生活等各个场景打造一个个小便利。下面,我们针对几个重点解决方案进行展开介绍——
首先介绍一下文档扫描。让我们先想象一下当你在出差的时候,遇到一份纸质的合同文件需要扫描成电子件发给客户,身边又没有打印机或者扫描仪。这个时候就可以使用我们手机的文档扫描功能,将手机化身成为你的随身扫描仪。
用手机一拍即可对文档主体进行自动裁剪和矫正。同时通过超清修复,将多张的纸质文档一键批量转成清晰明亮的pdf电子文档。打破传统扫描仪,在物理时空上的限制,随时随地均可轻松扫描和快速分享。
除了合同、报表、票据等工作资料,还有我们生活中一些重要的个人资料,比如身份证、户口本、毕业证书、个人病例等,也都可以通过我们的文档扫描功能,转成电子档进行归档管理。
当我们在开户、办理入职等需要提交电子件申请材料时,可以随用随取,再也不用翻箱倒柜找原文件跑打印店了。甚至,一些家长朋友喜欢贴在墙上的孩子的奖状、手绘画作等,也都可以扫描成清晰的电子档进行保存,珍藏珍贵记忆,永不褪色。
文档扫描主要帮助大家更便捷、更清晰的记录好文档。接下来要介绍的实时文字提取功能则能帮助我们更高效、更便捷的提取图片内的文字信息。
不管是相册的图片还是相机正在拍摄的画面,都可以对图片里的文字进行实时提取,并进行快捷搜索和翻译等相关工作。
比如,当我们想要了解一份药品的详细信息,通常我们需要先记住药品的名称,然后打开浏览器,在搜索框里一个字一个字的录入。往往药品的名字会比较晦涩,不容易记住,甚至还会遇到一些生僻字导致输入困难。
通过我们的文字提取功能,长按即可实时提取图片里面的文字,并快捷调起搜索功能,整个过程既简单又高效。同时,针对图片里出现的电话、网址、邮箱等关键信息,还能进行自动识别,并调起系统接口,享受快捷服务一键直达。
文档中除了文字,表格也是经常出现的元素。我们在文字识别的基础上,还开发了表格识别功能。可以一键将图片里的表格转化成可编辑的excel文件。
文字提取准确率高,对于表格里经常出现的手写字也能轻松识别。同时,表格结构与原图1比1还原。当遇到表格排版复杂,文字内容又多的场景,相比手动录入,办公效率得到大幅提升。
此外,针对学习场景,我们还开发了两个非常实用的功能,一个是试卷去手写,可以一键自动擦除试卷里的手写内容,完美还原空白的崭新试卷,做过的试卷可以通过去手写后,进行二次打印,重复多次练习,考试复习更加高效;另外,作业批改一直是老师和家长朋友的难题,尤其针对一些批量的口算作业场景,一次作业可能就是几十上百道题。
如果人工逐个进行检查,不仅很枯燥还容易出错,父母花在作业检查的时间可能比小孩做题的时间还长。我们的算式批改功能拍照即可自动完成一整张作业的检查还能给出正确答案。支持口算、竖式、脱式等常见。小学数学基础题型,可有效帮助老师还有家长朋友提升辅导效率,解放孩子,也解放了家长,相信亲子关系也能更进一步。
以上提到的解决方案,背后依赖的是我们两个核心的算法引擎——文档图像处理引擎以及OCR文字识别引擎。前者主要帮助用户更便捷、更清晰的记录好文档,而后者则更进一步,希望帮助用户更高效、更智能的识别文档内的文字等内容。
接下来,针对我们在这两个算法引擎上的最新技术进展进行展开介绍,首先介绍一下文档图像处理引擎。
我们想要拍好一份文档,经常会遇到各种各样的问题,比如拍摄的文档会有倾斜,还很容易把文档外的背景和手指拍进去,从文件袋里拿出来的文件经常会有折痕,当在室内灯光下拍摄时还容易产生阴影遮挡。
这些都会影响到拍摄的整体体验以及文档的阅读观感。我们的文档图像处理引擎可以对文档进行自动矫正和超清修复,帮助用户更便捷、更清晰的记录好文档。下面针对文档主体检测以及超清修复这两个关键技术模块进行展开介绍。
对于文档主体检测,使用过这个功能的朋友经常会遇到一个问题,当纸张有折角或者复杂背景干扰时,文档主体框很容易像左边这个动画一样,产生偏移和跳变。针对这个问题,一方面我们通过优化检测、分割以及边缘线精修三个模块来共同提升检测框的精度,同时,我们还通过叠加光流跟踪模块进一步提升了检测框的稳定性。从右边的演示可以看到,在优化后,检测框做到了既准又稳,用户在拍摄时可以享受一拍即得。
对于拍摄纸质文档经常出现的折痕、手指、阴影等问题,业界主流的方法,通常是采用多个算法模型来各个击破。这不仅使得用户需要多次的编辑操作才能进行依次去除,而且多个算法之间很容易带来误差累计,导致产生负面效果的概率大大增加。
而我们的文档超清修复算法,采用基于深度学习训练的光照估计方案分离得到的光照图,不仅包含光照阴影等信息,还可以同时包含手指、折痕等其他干扰信息。
此外,我们通过叠加全局超清模块,不仅有效提升了文档的色彩表现力,还能让文字更加清晰和锐利,用户一键即可自动完成之前需要多次操作才能完成的任务。
除了纸质文档,拍摄电子屏幕也是我们经常会遇到的场景。当我们近距离拍摄电脑屏幕时,很多朋友可能都遇到过这种彩色的波条纹,俗称摩尔纹。在拍摄表格等文字内容多的场景时,这种摩尔纹会非常影响我们的阅读体验。
还有当我们开会拍PPT的时候,如果坐的比较靠后很容易把前排同事的身体部位也拍进去。我们的文档图像处理引擎,针对这两种情况也都能轻松应对,一步搞定。
介绍完文档图像处理引擎。接下来再给大家介绍,我们的OCR文字识别引擎——
想象一下,当你有一天不小心把一页非常重要的手稿笔记,当成了废纸扔进了垃圾桶。拯救回来展开后,想将里面的文字录入到电子笔记,进行二次的编辑和整理。
这个时候,大家肯定不想一个字一个字的手动录入,既费时、又费力。我们的OCR文字识别引擎,能够实时提取图片中的文字,即便是如图这种褶皱弯曲的手写字,也能做到准确快速的识别。下面,我们针对识别准确率,以及速度优化上所做的工作进行展开介绍。
首先是识别准确率方面,主流的文字识别算法遇到比较大的一个挑战,是如何正确识别低质量图像场景下的文字。
这里举了一个示例,由于图片本身非常模糊文字识别算法将图片中毕业证书里的毕和证这两个字,误识别成了牛和汽。针对这个问题,首先在数据维度,我们基于对抗样本以及模糊加噪等技术,生成了上亿字符的训练样本,从而使得模型在这些难例场景下的识别能力得到大幅提升。
然而,纯依靠视觉模型的表现依旧与人有差距。比如刚才这个例子,虽然图片里的字模糊到人眼也看不清,但人在阅读的时候还是很容易推断图片里的文字为“毕业证书”,而不是“牛业汽书”。这得益于人的知识体系有着丰富的语言知识。受此启发,我们在视觉模型的基础上还叠加了语言模型进行融合识别,进一步提升了模糊、手写等低质量图像场景下的识别准确率。
在速度方面,为了让用户可以体验到实时提取文字的快感,我们通过蒸馏、剪枝、量化三个模型压缩手段,大幅降低了模型的复杂度和计算量。同时,基于我们vivo自研的vcap异构计算加速平台,更好的发挥了芯片的机器学习并行计算能力。
最终,我们将算法延时从最初的秒级,优化到毫秒级。手指一按,文字即得。用户操作图片里的文字,就跟操作纯文字一样,无需任何等待。
同时由于我们的算法,都是运行在手机本地,不需要传输网络,不仅使得体验不受网络稳定性影响。而且更好的保障了用户的数据隐私安全。
当我们想要将纸张文字快速录入到电子笔记的时候,只需调起相机扫描,就可以将文字实时上屏。不管是书稿还是手写稿,都可以做到又快、又准,高效提取。
最后做一下总结:为了给用户在手机文档图像相关场景下提供各种便利,我们基于文档图像处理引擎以及OCR文字识别引擎,搭建了从文档处理、文档编辑、文档电子化,到文字识别、卡证识别以及垂类识别等在内的一些列能力,帮助用户更便捷、更清晰的记录好文档。同时,更高效、更智能的识别文档内容。
其中部分能力,也逐步在智慧识图、相机、相册等各个产品中进行了落地,并通过多款旗舰机型进行发布。比如我们早在20年就在X50系列上,行业首发了表格识别功能。紧接着又在21年的S9系列上,首发了屏幕去摩尔纹功能。
同时,我们推出的系统级免费扫描应用——琥珀扫描,提供付费级体验的一站式“专业扫描服务”,也在今年通过XNote/XFold系列进行发布,作为一款商务办公利器,获得了用户的一致好评。
还有前面提到的实时文字提取、去手写、去人物遮挡等能力,也即将在后续的产品中跟大家见面。
在未来,我们将在文档图像处理与识别方向持续深耕,为用户在办公、学习以及生活等各个场景下,带来更便捷、更惊喜的OS产品体验。同时,我们的文档图像处理以及文字识别等相关能力,也将通过开发者平台进行开放,携手广大开发者一起为用户打造更多的便利。
了解更多,欢迎进入vivo开发者平台-AI专区https://developers.vivo.com/ai,提供云/端方向的多种AI能力,支持提供API接口和SDK的方式,快速接入,服务全面,快来试用吧。