BERT 能否被 “平替”?作业帮文本分类场景下的一次尝试

摘要

近年来,在众多自然语言处理模型中最具有代表性的就是BERT,它以优异的性能赢得了广大算法工程师的青睐。但是,在有些生产环境中,BERT庞大的参数量不仅在推理时占用过多的计算资源,也不利于后续模型的扩展迭代。

作业帮的业务体量较大,每天会生产大量的文本数据。这些数据均需要经过自然语言处理模型来生成业务可以直接使用的文本分类标签。在实际生产阶段,我们的场景具有如下特点:

  1. 标签分了多期进行建设和产出,每期的标签在不同的场景有不同的阈值;
  2. 每个时期的标签之间既存在独立性又存在依赖性;
  3. 每个时期的有监督数据较少,一般的机器学习模型很难取得较好的线上效果,因此每一期的标签都是基于BERT进行fine-tune和部署。

目前我们的模型训练及部署流程如上图所示。结合作业帮的实际业务场景特点和使用方式,我们面临如下问题:

1)每当新的任务需求提出后,都需要对BERT进行微调来满足。

2)随着任务数量的增加,服务器上部署的BERT数量也会不断上升,导致占用较多的GPU计算资源,而且任务之间的调度也会变得更加复杂。

因此,本文将以上述场景作为对象,探讨在研究平替BERT过程中的发现和结果,并对比它们的各项性能指标。最终目标是找到一个和BERT推理效果基本持平,但占用更少计算资源(特别是减少GPU计算资源),同时具有优秀扩展性的解决方案。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-23 04:54
浙ICP备14020137号-1 $Map of visitor$