OCR:图文结构理解探索和实践
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 01
Contents
目录
02
03
3. 01
4.
5. 可复制
OCR
官员养廉
可查询
个人信息表
姓名: 身份证号码:
生日: 银行卡卡号:
地址:
可录入
6. 02
7. 表格
文字
信息
印章
8. 户口登记机关
KV输出
户:0.52
口:0.87
专:0.90
用:0.92
户主姓名:王永*
户号:509023**
住址:杭州市西湖区**
…
元素(表格、图案、文字…)检测
检测
识别
结构理
解
9. 旧凝结卞1l/旦
日一l
招 聘
搬砖工: 1
产品经理: 1
领导: 2
公司介绍:下海登山亲轻而易举,上天入地无所不能。
精准检测
少量像素误差可能导致错误识别
尺度变化大
长边跨度1-2000,端边跨度5-200
各种干扰
遮挡、倾斜、弯曲、粘连、背景等
10. 精准检测
真实场景中的文字检测案例
11. 常用印刷字体有几百种
古籍、手写字体多,上亿
常用汉字 3700 个,覆盖 99%
书面资料
9100
记录汉字
个,常用姓名、地名 21000 个
0
8000
个生僻字
0
背景、噪声、扭曲、光照等风格变化
字体&风格
相似字&生僻字是汉字特有的学术难题
12. 一部书即一种字体
10w以上字类,且类间差异小
破损、印记、签注
。。。
真实场景中的文字识别案例
13. 身份证
姓名:潘*
住址:浙江省**
身份证号码:510*
5101321986***
生日:*
性别: *
输出的数字串是什么?
用户有设定的问题:
• 姓名是?
• …
识别并不是最终用户需求
民族:*
结合空间和语义关系的结构理解
解答用户问题
14. 卡证/表单的样式非常多,有常规通用性和自定义的
单个卡证也存在打印错位、噪声干扰、拍摄扭曲等问题
15. 输入图
2
3
5
3
文本:内容、位置
表格:位置、还原
印章:位置、类型
二维码:位置、信息
文字识别
node:
广义字段: 通用图实体
狭义字段:文本embedding
5
元素输出
文字等元素检测
1
5
4
输出
edge: node的空间距离
KV输出
户主姓名:王永*
户号:509023***
住址:杭州市**
签发日期:2016年**
GCN-图匹配网络
GEMR-图实体聚合识别模型
结构理解(结合空间&语义关系)
16. 03
17. 识别产品
版面分析
内容/顺序/…
OCR
图转文字
文档产品
结构理解
kv/表格/…
卡证kv产品
智能模板
kv结构自学平台
模板产品
duguang.aliyun.com
18. STEP1 用户在APP中申请信
贷,并通过手机拍照上传材料
照片资料输入
STEP2 审批人员根据拍
照材料进行识别并初审
在线初审
STEP3 申请人将原材料提交至柜台
,工作人员对材料进行扫描
现场录入
审批通过
人工初审
申请材料
手机拍照
拒绝,补充材料
高拍仪采集录入
STEP4 放贷过程比对照片材料与扫
描材料异同判断是否如期放款
人工审核
用户痛点:每份审批材料包含200多张图片,需要进行乱序比对,人工核对量大,误操作高
19. 图片输入
高拍仪采集录入
客户端
政务应用系统(查看、检索、对比…)
电子文档
一体机服务器
各式纸质or图片文档
读光OCR文档服务引擎
20. 文件系统
批量文件
文件图片搜索
印章
标题
文字
…
表格
元素提取&校对
人工确认
标题一致
?
段落一致
?
段落
印章一致
?
印章: 忽略
文字: 忽略
…
文档中文本、表格、标题等元素和结构提取
实现文档内容还原
文件搜索、元素提取&校对、人机交互
实现文档集间交叉对比
21. 类型:火车票
出发站:株洲西站
定额发票
火车票
到达站:广州南站
出租车票
车次:G1127
开车时间:2018年11月15日17:01开
机票行程单
增值税发票
座位号:06车13C号
票价:294.0
类型:增值税发票
……
金额:294.0
机动车发票
读光OCR票据服务引擎
纳税人识别号:13894927246239
各式报销材料
发票号码:3210494
……
2. 调用OCR并读取识别结果
1.输入
数据录入
财务RPA系统
3. 自动录入报销系统
报销/报帐系统
4. 自动进行发票验真与报税
验真、报税系统
22. 类型:增值税发票
金额:294.0
发票代码:4300181130
1.票据
框检测
发票号码:02857254
售票方税号:13894927246239
售票方名称:深圳市中兴新云服务有限公司
发票详情:『服务名称: *住宿服务*; 金额: 318.45; …』
类型:火车票
……
出发站:株洲西站
增值税发票
火车票
出租票
发票
…
到达站:广州南站
车次:G1127
身份证
行驶
…
开车时间:2018年11月15日17:01开
火车票
座位号:06车13C号
票价:294.0
营业执照
许可证
…
…
2. 自动卡证分类器
……
…
3. 智能模板
23. 个人资质
个人征信核验
企业资质
工商信息查询
分类管理器可以实现数据归档
同时是数据结构化的基础
银行单据
银行流水对账
人工分类
办理贷款、算蚂蚁积分、司法诉讼等都会提供大量卡证表单信息
卡证分类是一个基础需求
24. 用户输入: 100-200张标注样本
自学习:自动数据增强和模型训练
上线:自动评测发布,实现批量调用
身份证
姓名:潘*
住址:浙江省**
>>>
火车票
出发站:上海南站
票价:66.88
…
端到端的低成本标注方案
结合空间和语义的结构理解
>>>
通用kv模板:提取各式卡证结构
25. 读光广泛应用于集团各种业务场景
在云上我们服务了政府、金融、海关等各行业的用户
26. duguang.aliyun.com
27.
28.
29.