表格识别方法评述及来也科技的实践
摘要
作为一种展示结构化数据的常用手段,表格随处可见。比如:信息收集、商品明细、企业年报等。
随着无纸化办公的流行,企业或个人经常需要将纸质报表上的信息按图片中表格的样式原样生成xls文件,再转录到各自系统中去。
即便可以用OCR(Optical Character Recognition,光学字符识别)技术辅助提取纸张上面的文字,但若要提取表格结构,就需要人工创建表单再将文本一个个复制到单元格中,这可是不小的工作量。
表格识别应运而生。
表格识别的任务是:识别图片中的表格结构,如表格的行数、列数、每个单元格的位置、所在行列及跨行跨列等信息,再辅以OCR的识别结果,还原表格的内容。
欢迎在评论区写下你对这篇文章的看法。