文档(含影印版)解析流水线设计与实现

文档 (含影印版) 解析流水线设计与实现

出处：mp.weixin.qq.com

摘要

在我们采集数据时，有些数据可以直接通过爬虫来获取，但有些数据出现在PDF，Excel，Word等文档中时，爬虫实现就有局限性了，我们必须编写很多自定义函数用来解析文档，并且脚本代码一多，就失去了可维护性和使用爬虫编写业务逻辑的初衷。所以我们需要建设一套解析流水线来实现提取文档数据的需求。甚至需要从PDF影印版中提取数据，总体需求简述：

可从任意格式文档中抓取所需的结构化数据；

如果文档中整页数据是图片，需要将其转换为文字；

建立可视化流程用来管控解析流程；

业务部支持人工核验；

解析数据支持质检规则；

解析的数据值支持格式化统一成统一格式（比如有亿元，万元，最终数据统一到万元）。

阅读原文

xiaozi 于 2021-08-04 分享

5376

欢迎在评论区写下你对这篇文章的看法。

文档(含影印版)解析流水线设计与实现

文档 (含影印版) 解析流水线设计与实现

摘要

评论

文库