文档 (含影印版) 解析流水线设计与实现

摘要

在我们采集数据时,有些数据可以直接通过爬虫来获取,但有些数据出现在PDF,Excel,Word等文档中时,爬虫实现就有局限性了,我们必须编写很多自定义函数用来解析文档,并且脚本代码一多,就失去了可维护性和使用爬虫编写业务逻辑的初衷。所以我们需要建设一套解析流水线来实现提取文档数据的需求。甚至需要从PDF影印版中提取数据,总体需求简述:

  1. 可从任意格式文档中抓取所需的结构化数据;
  2. 如果文档中整页数据是图片,需要将其转换为文字;
  3. 建立可视化流程用来管控解析流程;
  4. 业务部支持人工核验;
  5. 解析数据支持质检规则;
  6. 解析的数据值支持格式化统一成统一格式(比如有亿元,万元,最终数据统一到万元)。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-11-25 08:05
浙ICP备14020137号-1 $访客地图$