文档内容结构化在百度文库的技术探索

摘要

简述百度文库关于各类文档的转码和展现历程,早期的版式数据满足了PC端的各类文档阅读体验,随着业务发展的需求迭代,无线端的文档阅读体验亟需提升。版式数据转流式数据过程中,简易的内容结构化满足了pdf数据在无线端的重排版。底层解析ooxml数据和细致的内容结构化,则带来了不错的word无线端重排版效果。从chart图片中“从无到有”抽取结构化的元数据,更为用户与文档的互动打开了想象空间。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.125.1. UTC+08:00, 2024-05-17 12:00
浙ICP备14020137号-1 $访客地图$