文档 (含影印版) 解析流水线设计与实现
摘要
在我们采集数据时,有些数据可以直接通过爬虫来获取,但有些数据出现在PDF,Excel,Word等文档中时,爬虫实现就有局限性了,我们必须编写很多自定义函数用来解析文档,并且脚本代码一多,就失去了可维护性和使用爬虫编写业务逻辑的初衷。所以我们需要建设一套解析流水线来实现提取文档数据的需求。甚至需要从PDF影印版中提取数据,总体需求简述:
- 可从任意格式文档中抓取所需的结构化数据;
- 如果文档中整页数据是图片,需要将其转换为文字;
- 建立可视化流程用来管控解析流程;
- 业务部支持人工核验;
- 解析数据支持质检规则;
- 解析的数据值支持格式化统一成统一格式(比如有亿元,万元,最终数据统一到万元)。
欢迎在评论区写下你对这篇文章的看法。