话题公司 › 来也

公司:来也

实体关系标注工具最佳实践

如何获得高质量的标注数据?如何提高标注同学的工作效率?是每个 AI 团队最重要的思考之一。

AIGC基础,从VAE到DDPM原理、代码详解

本文从原理、公式、代码详细的讲解从VAE到DDPM基础技术,而这些技术是最近火热AIGC生成图像的底层技术。

来也OCR测试系统的实践

在工业界,深度学习已经逐渐从“以模型为中心”转向“以数据驱动为中心”,绝大多数时候模型容量都可以满足要求,只需要持续增加目标场景的训练数据,就可以优化模型从而满足产品效果。“以数据驱动为中心”工作模式提升效果速度快,也可以在有限的算法工程师人力下,通过不同场景的数据就能产出不同应用模型,极大提高模型生产和迭代优化的效率。

如业界非常出名的特斯拉Autopilot数据引擎框架,就是非常典型的“数据驱动为中心”。,

在来也最近一年里,我们逐渐也开始朝“数据驱动”的方式迈进,这种模式下,需要对数据、算法、模型、算力、推理、测试等系统有较高的集成和整合能力,而在所有环节中,测试系统对数据驱动至关重要,测试系统决定着模型是否能投产,还有指导模型优化人员如何通过数据来优化模型。

在本文中,我们将简述来也OCR测试系统一些关键设计理念和实践。

来也智能文档处理系统的checkbox识别

本文详细介绍,来也智能文档为了准确的识别checkbox所做的工作。

自动文本摘要 简述

对话摘要目前在学术界和工业界都是前沿方向,有着巨大的引用场景,本文简述了对话摘要的主要模型、衡量指标以及未来的研究方向。

来也科技 Protobuf 最佳工程实践

只编写一份proto定义,就可以自动生成client,自动生成API文档,自动做版本管理的方式你造吗?

来也科技BI应用的发展与变迁

来也科技是一家业务涉及ToB和ToC领域的智能自动化公司,ToB业务是我们的战略重点,企业服务的本质在于了解客户的真实业务诉求,并为其提供优质的产品与服务,帮助其走出复杂商业环境中的发展困境。BI为了解用户、优化产品提供了参考。

来也科技的产品除了提供在线SaaS服务外还支持客户本地化部署,所以我们BI系统的技术选型也会考虑两种情况,本文对这部分内容亦有所涉及。

团队提效利器-VSCode代码片段插件

来也科技自主研发的代码片段插件,可让这个团队共享代码。

表格识别方法评述及来也科技的实践

作为一种展示结构化数据的常用手段,表格随处可见。比如:信息收集、商品明细、企业年报等。

随着无纸化办公的流行,企业或个人经常需要将纸质报表上的信息按图片中表格的样式原样生成xls文件,再转录到各自系统中去。

即便可以用OCR(Optical Character Recognition,光学字符识别)技术辅助提取纸张上面的文字,但若要提取表格结构,就需要人工创建表单再将文本一个个复制到单元格中,这可是不小的工作量。

表格识别应运而生。

表格识别的任务是:识别图片中的表格结构,如表格的行数、列数、每个单元格的位置、所在行列及跨行跨列等信息,再辅以OCR的识别结果,还原表格的内容。

基于语义的OCR纠错实现

作为超级自动化的代表公司,来也科技推进的许多自动化解决方案中,需要OCR(光学文字识别)的能力,经过持续的积累和创新,目前来也自研的通用OCR识别在60多个复杂的中文测试集合上近70万的字符上,综合F1指标已经接近97%,远超国内大多数竞品公司。

虽然综合指标上已经取得非常好的成绩,但是因为视觉深度学习OCR模型的天生缺陷,在一些长尾问题上依然识别准确率不高,典型的有以下场景:

  1. 污渍干扰如红章、墨迹
  2. 形似字 如 “戍”与“戌、成、戊”
  3. 图像变形引起的字体变形

来也智能文档处理系统中的印章识别实践

智能文档处理(IDP)可帮助企业实现日常文档处理工作的自动化,在文档识别、分类、信息抽取和比对等各个方面,为企业工作人员提供帮助。印章识别是智能文档处理中一种重要的识别能力,广泛应用在合同比对,出入库审核以及发票报销等场景。以往这些工作环节中需要人工对印章图像进行核对校验,流程繁冗,而使用OCR技术进行印章自动识别则可为企业有效节省用工成本。

  • «
  • 1
  • »

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-22 05:48
浙ICP备14020137号-1 $访客地图$