数据自动增值方案-LED

如果无法正常显示，请先停止浏览器的去广告插件。

1. AI数据 & AI效能数据自动增值方案王晓利

2. 机器学习的核心问题最小化泛化误差：衡量一个模型预测未知数据的能力

3. 机器学习的核心问题机器学习的理论基础 M 泛化误差假设空间大小数据量

4. 是否数据越多越好关于数据量的2个基本问题 2. Deep 1. Wide colleg Purchasing power P u rc h asing powe r n ge r U cy 除掉Noise data, outlier/biased data We always need more data Otherwise, it requires better approaches

5. 数据量的大致估计关于数据量的2个基本问题 10 EPV rule: 10 events per predictor variable 1. 数据量的大致估计： Eg1：图片2分类任务特征提取1024维度，则约需要1024×10×2 张图片 Eg2： NMT QE任务的训练数据量估计： Source: Several flavors of the Linux kernel exist for each port MT: 每个端口都有 Linux 内核的几种味道 OK OK OK OK OK OK OK OK BAD 每个词的context presentation : 1024 假设：每个词的正负分类均衡，上下文窗口3~10 需要60K~200K训练样本（i.e. （ 1024×10×2×3 ） ~ （ 1024×10×2×10 ））

6. 数据的增值空间生数据 Labeling • 标注数据节约 10%-50%据 • Labeling: 指示出最值得标注的生数据待标数据 • Enhancement: 对标注数据进行增强，提升模型泛化性以及测试集上表现标注平台标注数据 Enhancement Denoise • 提升模型性能低资源 5%-15% 高资源 1%-5% 去噪数据增强数据数据划分训练数据 • Denoise: 对标注数据或者增强数据进行去噪，提升模型训练效果 • 数据划分：和测试集分布更接近的训练数据 • 提升模型性能 • 提升和线上测试的一致性 6

7. 数据增强为什么会有好处数据自动增值方案 • Neural networks are universal function approximators -> very easy to overfit • To make models invariant to arbitrary transforms beyond the ones built into the architecture • 观察多张输入图片的不同层feature map, 发现模型从2-5layer都可以学到复杂的不变性 • 数据增强的目的，不是增加数量，而是让他更多样化数据增强等效于方差的正则化，可以使分类器更健壮

8. 线上增强Or线下增强？数据增强 Non-Convex Do Not Neural network training is non-convex optimization Do

9. 数据自动增值方案自动数据增强 • 现阶段数据增强存在的问题：不同模型需要不同的增强手段，每个模型手动研发增强策略，费时费力，且增强策略迁移性没有挖掘 • LED的解决方案：构建、积累统一的增强库，通过搜索策略自动获取特定模型适用的增强手段增强库 Typo EDA TF-IDF TreeEDA Back- translation • CBERT • • • • • • Denoise • …… ＋搜索策略输出增强策略 • 搜索空间构造： [增强方法, 概率, 强度] • 适应增强搜索的算法： PB2 PBA Banana FastAA RL 前向搜索 … 9

10. NLP 增强库应用输出层 Text 增强方法 Text Label Pair Text Label Label independent 数据增强层 Char Aug Swap position Homophonic Typo Word Aug Hypernym EDA Synony m TF-IDF …… 资源依赖层 Word Dict (antonym、 synonym、hypernym) Tree Aug LM Main, Delete, Add, Swap, EDA NLP Parser Seq Label Seq2Seq Label dependent Sentence Aug CVAE Back Translation VAE CBERT Paraphrase Noise …… Pre-train LM model LAMBADA GPT2 BART …… Other knowledge base NLP增强库项目结构 (led-textaug)【目前已涵盖19种方案】 10

11. NLP增强方案介绍—Tree EDA EDA • SR（同义词替换） • RI（随机插入） • RS（随机交换） • RD（随机删除）部分词语涵盖的语义粒度过低，经过操作后，对原文无实质性作用 Tree EDA ( Based on Dependency Tree ) 以句法树子Tree为单元进行如下5种操作： • Change • Add • Swap • Delete • Main 以句子枝干成分作为处理粒度来进行交互，部分case上能够聚焦更关键的语义点，提升泛化性 11

12. NLP增强方案介绍—Tree EDA ADV ADV ATT 句法树子Tree拆分： • Main Tree：我们迎来一年 • ADV Tree（状语）：以昂扬的斗志；即将 • ATT Tree（修饰语）：新的 • CMP Tree（动词补语）： • 其他：。原句：我们即将以昂扬的斗志迎来新的一年。增强数据： 1. Change: 我们即将以昂扬的斗志迎来具有重大意义的一年。 2. Add: 我们在北京即将一昂扬的斗志迎来新的一年。 3. Swap: 我们以昂扬的斗志即将迎来新的一年 4. Delete: 我们即将迎来新的一年。 5. Main: 我们迎来一年。 12

13. NLP增强方案介绍—CBERT Conditional BERT Contextual Augmentation 1. Finetune: 条件语言模型从label的语料中随机MASK部分Tokens，目的是希望预测原始Tokens要考虑上下文和它的label； Token: ? ! , context ? \ ? ! , label ? Aiming to calculating ?(' |?, ?\ {? ! }) ，Instead of calculating ?(' |? {? ! }) 训练Conditional MLM，基于BERT模型进行Finetune，修改 segmentation embeddings => label embeddings 2.Contextual Augmentation: 给定一个已标注的句子，随机MASK句子中几个字或词，然后通过conditional BERT模型对 MASK位置的字词进行预测。其预测的结果考虑了句子的label，例如右图的case The actor is good [positive] => The actor is funny [positive] 如果单纯只用BERT，有可能生成噪音数据： => The actor is unnatural [positive] 13

14. CV 增强库应用输出层增强方法图像分类图像相似度匹配视频分类 Label independent、Label dependent 数据增强层 EnhanceColor AddWords AbreastMerge EnhanceContrast、 AutoContrast AddBlock AddMark EnhanceBrightness AddOverlapBlock Equali ze Rotate TranslateX/Y AddExtraBlock Invert Cutout ShearX/Y …… …… 资源依赖层 LOGO库字体库色彩库字幕库 EnhanceSharpness 其他素材边框库 CV增强库项目 (Imageaug)【目前已涵盖21种方案】 14

15. Label Aware的增强自动数据增强的一些新思路基于类别的数据增强方法问题背景：不同的数据所适用的增强操作应该是有差异的。如：在分类任务中，使用色彩类增强将“橘子”转变为粉色、蓝色等不符合常识。 ? 现状：现有的增强方法往往是对任务中的所有数据使用统一的增强策略来完成数据增强，而忽略不同类别的数据自身的特性。方法：通过贝叶斯优化、预测器、策略构建方法，对不同类别的数据搜索其适用的增强操作。

16. Label-Aware AutoAugment 算法流程阶段一： • 通过密度匹配的方法，快速获取给定增强对特定类别的效果 • 使用“贝叶斯优化+预测器”的组合，对候选增强的搜索空间进行搜索，准确预测已探索和未探索的增强效果阶段二： • 使用mRMR算法构建最终的增强策略，同时考虑策略中增强的有效性和冗余性 16

17. Label-Aware AutoAugment 算法效果 ImageNet 精度 & 搜索时间精度：ImageNet上准确度达到79.97%，是增强搜索目前的SOTA 搜索用时：搜索+训练的总时长为 189.3 GPU hour，与目前最快方法相当静态策略：LA3生成静态增强策略，相比动态策略搜索用时更少，且更易集成入已有的训练代码 17

18. 自动Denoise的技术路线梳理以NLP领域为例 NMT: Source: several flavors of the linux kernel exist for each port Target：每个端口都有Linux 内核的几种味道 . PE：每个端口都有不同种类的Linux内核标注语料？数据自动增值方案标记形式 Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成： Doc:海湾报刊对美国新当选总统克林顿，能否帮助振兴中东和平进程感到怀疑，但也确实看到了一丝希望。 Summary：海湾对克林顿恢复和平进程的前景，持怀疑态度 Rank / Ordinal Classification NER：上个月30号，王先生在自己家里边看流浪地球边吃煲仔饭 NER：上个月30号（时间），王先生（人物），流浪地球（电影），煲仔（产品） Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …

19. 自动Denoise-技术路线梳理以NLP领域为例 NMT: Source: several flavors of the linux kernel exist for each port Target：每个端口都有Linux 内核的几种味道 . PE：每个端口都有不同种类的Linux内核标注语料数据自动增值方案 1. 实际中分类阈值很难确定； 2. confidence作为排序标准，信息损失大 Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成： Doc:海湾报刊对美国新当选总统克林顿，能否帮助振兴中东和平进程感到怀疑，但也确实看到了一丝希望。 Summary：海湾对克林顿恢复和平进程的前景，持怀疑态度 Rank / Ordinal Classification NER：上个月30号，王先生在自己家里边看流浪地球边吃煲仔饭 NER：上个月30号（时间），王先生（人物），流浪地球（电影），煲仔（产品） Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …

20. ？自动Denoise-技术路线梳理以NLP领域为例 1. 主观打分标注一致性稍差(cronb.α = 0.75）； 2. 作为数据筛选的依据，粒度偏粗糙 NMT: Source: several flavors of the linux kernel exist for each port Target：每个端口都有Linux 内核的几种味道 . PE：每个端口都有不同种类的Linux内核标注语料数据自动增值方案 Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成： Doc:海湾报刊对美国新当选总统克林顿，能否帮助振兴中东和平进程感到怀疑，但也确实看到了一丝希望。 Summary：海湾对克林顿恢复和平进程的前景，持怀疑态度 Rank / Ordinal Classification NER：上个月30号，王先生在自己家里边看流浪地球边吃煲仔饭 NER：上个月30号（时间），王先生（人物），流浪地球（电影），煲仔（产品） Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …

21. 自动Denoise-技术路线梳理以NLP领域为例 NMT: Source: several flavors of the linux kernel exist for each port Target：每个端口都有Linux 内核的几种味道 . PE：每个端口都有不同种类的Linux内核标注语料？数据自动增值方案 1. 标注数据更客观，信息损失少； Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成： Doc:海湾报刊对美国新当选总统克林顿，能否帮助振兴中东和平进程感到怀疑，但也确实看到了一丝希望。 Summary：海湾对克林顿恢复和平进程的前景，持怀疑态度 Rank / Ordinal Classification NER：上个月30号，王先生在自己家里边看流浪地球边吃煲仔饭 NER：上个月30号（时间），王先生（人物），流浪地球（电影），煲仔（产品） Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …

22. 自动Denoise方案框架数据自动增值方案 • 数据去噪方案 • Predictor-Estimator方案 Ø Ø Predictor：特征提取器，提取出input embedding，label embedding，以及概率相关的mismatch feature (即 ?_??, 〖 ?〗_max,以及两者差值) Estimator：质量评估器，接受predictor提供的特征，最终对数据质量进行评分。应用场景 Predictor结构 Estimator结构机器翻译 Bert or Xml Bi-gru, Bi-lstm or attention NER Bi-gru, Bi-lstm Bert 文本分类 Bert dnn 图片分类 BiT dnn PE方案框架 22

23. ImageNet去噪数据自动增值方案 ImageNet数据集现存问题以及解决手段 • • • 标签错误：通过多个模型交叉验证去噪图片包含多目标：多模型预测提供图片候选标签后人工判断，将数据扩展为多标签相似标签：标签融合训练优化 • • 优化目标：多分类任务变成多标签分类修改loss函数：CE变成MixupCrossEntropy， " # Loss = - ! ∑ # !$% log(? ! )：图片有k个label时，将标签除以k [1, 0, 1, 0, 0, 0] -> [0.5, 0, 0.5, 0, 0, 0] backbone模型原始验证集去噪验证集下游任务 Oxford pets分类 Stanford cars分类原始数据resnet50 76.908 86.34 原始resnest50 94.39 93.13 去噪数据resnet50 77.932 87.451 去噪数据resnet50+MixupCE 78.46 87.956 去噪resnest50 94.93 93.63 去噪resnest50+标签融合 95.13 93.88 原始数据resnet50 80.664 90.165 去噪数据resnet50 80.94 90.824 去噪数据resnet50+MixupCE 81.182 90.975

24. ImageNet 噪声示例 1. 标签错误： ILSVRC2012_val_00005032 原始标签：瓶盖 ILSVRC2012_val_00044147 原始标签：卷筒 2. 多标签： ILSVRC2012_val_00000803 原始标签：键盘修改标签：键盘，鼠标 ILSVRC2012_val_00010467 原始标签：柯利犬修改标签：柯利犬，开襟毛衣 3. 相似标签：标签名标签A index 标签B index 笔记本电脑 n03832673 (notebook compute) n03642806 (laptop computer) 步枪 n02749479 (assult rifle) n04090263 (rifle) 胸甲 n02895154 (breastplate) n03146219 (cuirass) 纸巾 n15075141 (toilet tissue) n03887697 (paper towel) 显示器 n03782006 (monitor) n04152593 (screen) T恤 n04370456 (sweatshirt) n03595614 (jersey) 太阳镜 n04355933 (sunglass) n04356056 (sunglasses)

25. 待标数据选择数据自动增值方案 • 通过Active learning技术，表示出最值得标注的数据 25

26. 待标数据选择代表性数据自动增值方案 Google etc.. • Datasets object selection : 信息性百度 etc. 强化学习获得高回报数据 Random sample Filtered subset 微软 etc. • Automatic labeling 现有主流AL方法对比利用主动学习获得的标注数据比随机获得的标注数据，更能提升模型性能

27. 数据划分数据自动增值方案 • 对抗验证被广泛地在Kaggle中使用 • 解决本地交叉验证（Cross Validatation, CV）与线上测试不一致 • 对抗验证的使用步骤 1. 确定验证集和测试集的分布差异 Ø Ø Ø Ø Ø 删除训练数据的Label 对测试数据和训练数据分别label为0和1 将训练和测试数据组合成一个大数据集学习一个二分类模型根据分类器的AUC和RCO指标来判断分布差异 2.分布差异大的情况下 Ø 尝试尝试使用Adversarial Validation选择出与测试集比较相似的样本，构建成为验证集。 Ø 使用外部数据或者伪数据来扩增训练数据，以保证训练数据与测试数据的一致性。