数据自动增值方案-LED

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. AI数据 & AI效能 数据自动增值方案 王晓利
2. 机器学习的核心问题 最小化泛化误差: 衡量一个模型预测未知数据的能力
3. 机器学习的核心问题 机器学习的理论基础 M 泛化误差 假设空间大小 数据量
4. 是否数据越多越好 关于数据量的2个基本问题 2. Deep 1. Wide colleg Purchasing power P u rc h asing powe r n ge r U cy 除掉Noise data, outlier/biased data We always need more data Otherwise, it requires better approaches
5. 数据量的大致估计 关于数据量的2个基本问题 10 EPV rule: 10 events per predictor variable 1. 数据量的大致估计: Eg1: 图片2分类任务 特征提取1024维度,则约需要1024×10×2 张图片 Eg2: NMT QE任务的训练数据量估计: Source: Several flavors of the Linux kernel exist for each port MT: 每个 端口 都 有 Linux 内核 的 几种 味道 OK OK OK OK OK OK OK OK BAD 每个词的context presentation : 1024 假设:每个词的正负分类均衡,上下文窗口3~10 需要60K~200K训练样本 (i.e. ( 1024×10×2×3 ) ~ ( 1024×10×2×10 ) )
6. 数据的增值空间 生数据 Labeling • 标注数据节约 10%-50%据 • Labeling: 指示出最值得标注的生数据 待标数据 • Enhancement: 对标注数据进行增强,提 升模型泛化性以及测试集上表现 标注平台 标注数据 Enhancement Denoise • 提升模型性能 低资源 5%-15% 高资源 1%-5% 去噪数据 增强数据 数据划分 训练数据 • Denoise: 对标注数据或者增强数据进行 去噪,提升模型训练效果 • 数据划分:和测试集分布更接近的训练 数据 • 提升模型性能 • 提升和线上测试的一致性 6
7. 数据增强为什么会有好处 数据自动增值方案 • Neural networks are universal function approximators -> very easy to overfit • To make models invariant to arbitrary transforms beyond the ones built into the architecture • 观察多张输入图片的不同层feature map, 发现模型从2-5layer都可以学到复杂的不变性 • 数据增强的目的,不是增加数量,而是让他更多样化 数据增强等效于方差的正则化,可以使分类器更健壮
8. 线上增强Or线下增强? 数据增强 Non-Convex Do Not Neural network training is non-convex optimization Do
9. 数据自动增值方案 自动数据增强 • 现阶段数据增强存在的问题: 不同模型需要不同的增强手段,每个模型手动研发增强策略,费时费力,且增强策略迁移性没有挖掘 • LED的解决方案: 构建、积累统一的增强库,通过搜索策略自动获取特定模型适用的增强手段 增强库 Typo EDA TF-IDF TreeEDA Back- translation • CBERT • • • • • • Denoise • …… + 搜索策略 输出增强策略 • 搜索空间构造: [增强方法, 概率, 强度] • 适应增强搜索的算法: PB2 PBA Banana FastAA RL 前向搜索 … 9
10. NLP 增强库 应用 输出层 Text 增强方法 Text Label Pair Text Label Label independent 数据 增强层 Char Aug Swap position Homophonic Typo Word Aug Hypernym EDA Synony m TF-IDF …… 资源 依赖层 Word Dict (antonym、 synonym、hypernym) Tree Aug LM Main, Delete, Add, Swap, EDA NLP Parser Seq Label Seq2Seq Label dependent Sentence Aug CVAE Back Translation VAE CBERT Paraphrase Noise …… Pre-train LM model LAMBADA GPT2 BART …… Other knowledge base NLP增强库项目结构 (led-textaug)【目前已涵盖19种方案】 10
11. NLP增强方案介绍—Tree EDA EDA • SR(同义词替换) • RI(随机插入) • RS(随机交换) • RD(随机删除) 部分词语涵盖的语义粒度 过低,经过操作后,对原 文无实质性作用 Tree EDA ( Based on Dependency Tree ) 以句法树子Tree为单元进行如下5种操作: • Change • Add • Swap • Delete • Main 以句子枝干成分作为处理粒度来进行交互, 部分case上能够聚焦更关键的语义点,提 升泛化性 11
12. NLP增强方案介绍—Tree EDA ADV ADV ATT 句法树子Tree拆分: • Main Tree:我们迎来一年 • ADV Tree(状语):以昂扬的斗志;即将 • ATT Tree(修饰语):新的 • CMP Tree(动词补语): • 其他:。 原句:我们即将以昂扬的斗志迎来新的一年。 增强数据: 1. Change: 我们即将以昂扬的斗志迎来具有重大意义的一年。 2. Add: 我们在北京即将一昂扬的斗志迎来新的一年。 3. Swap: 我们以昂扬的斗志即将迎来新的一年 4. Delete: 我们即将迎来新的一年。 5. Main: 我们迎来一年。 12
13. NLP增强方案介绍—CBERT Conditional BERT Contextual Augmentation 1. Finetune: 条件语言模型从label的语料中随机MASK部分Tokens,目的是希 望预测原始Tokens要考虑上下文和它的label; Token: ? ! , context ? \ ? ! , label ? Aiming to calculating ?(' |?, ?\ {? ! }) ,Instead of calculating ?(' |? {? ! }) 训练Conditional MLM,基于BERT模型进行Finetune,修改 segmentation embeddings => label embeddings 2.Contextual Augmentation: 给定一个已标注的句子,随机MASK句子中几个字或词,然后通 过conditional BERT模型对 MASK位置的字词进行预测。其预测 的结果考虑了句子的label, 例如右图的case The actor is good [positive] => The actor is funny [positive] 如果单纯只用BERT,有可能生成噪音数据: => The actor is unnatural [positive] 13
14. CV 增强库 应用 输出层 增强方法 图像分类 图像相似度匹配 视频分类 Label independent、Label dependent 数据 增强层 EnhanceColor AddWords AbreastMerge EnhanceContrast、 AutoContrast AddBlock AddMark EnhanceBrightness AddOverlapBlock Equali ze Rotate TranslateX/Y AddExtraBlock Invert Cutout ShearX/Y …… …… 资源 依赖层 LOGO库 字体库 色彩库 字幕库 EnhanceSharpness 其他素材 边框库 CV增强库项目 (Imageaug)【目前已涵盖21种方案】 14
15. Label Aware的增强 自动数据增强的一些新思路 基于类别的数据增强方法 问题背景: 不同的数据所适用的增强操作应该是有差异的。 如:在分类任务中,使用色彩类增强将“橘子”转变为粉色、蓝色等不符合常识。 ? 现状:现有的增强方法往往是对任务中的所有数据使用统一的增强策略来完成数据增强,而忽略不同类 别的数据自身的特性。 方法:通过贝叶斯优化、预测器、策略构建方法,对不同类别的数据搜索其适用的增强操作。
16. Label-Aware AutoAugment 算法流程 阶段一: • 通过密度匹配的方法,快速获取给定增强对 特定类别的效果 • 使用“贝叶斯优化+预测器”的组合,对候 选增强的搜索空间进行搜索,准确预测已探 索和未探索的增强效果 阶段二: • 使用mRMR算法构建最终的增强策略,同时 考虑策略中增强的有效性和冗余性 16
17. Label-Aware AutoAugment 算法效果 ImageNet 精度 & 搜索时间 精度:ImageNet上准确度达到79.97%,是增强搜索目前的SOTA 搜索用时:搜索+训练的总时长为 189.3 GPU hour,与目前最快方法相当 静态策略:LA3生成静态增强策略,相比动态策略搜索用时更少,且更易集成入已有的训练代码 17
18. 自动Denoise的技术路线梳理 以NLP领域为例 NMT: Source: several flavors of the linux kernel exist for each port Target:每个端口都有Linux 内核的几种 味道 . PE:每个端口都有不同种类的Linux内核 标注语料 ? 数据自动增值方案 标记形式 Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成: Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中 东和平进程感到怀疑,但也确实看到了一丝希望。 Summary:海湾对克林顿恢复和平进程的前景,持怀疑态 度 Rank / Ordinal Classification NER: 上个月30号,王先生在自己家里边看流浪地球边吃煲仔饭 NER:上个月30号(时间),王先生(人物),流浪地球 (电影),煲仔(产品) Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …
19. 自动Denoise-技术路线梳理 以NLP领域为例 NMT: Source: several flavors of the linux kernel exist for each port Target:每个端口都有Linux 内核的几种 味道 . PE:每个端口都有不同种类的Linux内核 标注语料 数据自动增值方案 1. 实际中分类阈值很难确定; 2. confidence作为排序标准,信息损失大 Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成: Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中 东和平进程感到怀疑,但也确实看到了一丝希望。 Summary:海湾对克林顿恢复和平进程的前景,持怀疑态 度 Rank / Ordinal Classification NER: 上个月30号,王先生在自己家里边看流浪地球边吃煲仔饭 NER:上个月30号(时间),王先生(人物),流浪地球 (电影),煲仔(产品) Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …
20. ? 自动Denoise-技术路线梳理 以NLP领域为例 1. 主观打分标注一致性稍差(cronb.α = 0.75); 2. 作为数据筛选的依据,粒度偏粗糙 NMT: Source: several flavors of the linux kernel exist for each port Target:每个端口都有Linux 内核的几种 味道 . PE:每个端口都有不同种类的Linux内核 标注语料 数据自动增值方案 Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成: Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中 东和平进程感到怀疑,但也确实看到了一丝希望。 Summary:海湾对克林顿恢复和平进程的前景,持怀疑态 度 Rank / Ordinal Classification NER: 上个月30号,王先生在自己家里边看流浪地球边吃煲仔饭 NER:上个月30号(时间),王先生(人物),流浪地球 (电影),煲仔(产品) Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …
21. 自动Denoise-技术路线梳理 以NLP领域为例 NMT: Source: several flavors of the linux kernel exist for each port Target:每个端口都有Linux 内核的几种 味道 . PE:每个端口都有不同种类的Linux内核 标注语料 ? 数据自动增值方案 1. 标注数据更客观,信息损失少; Classification Annotation1: OK Annotation2: BAD Annotation3: OK Annotatio4: OK … 摘要生成: Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中 东和平进程感到怀疑,但也确实看到了一丝希望。 Summary:海湾对克林顿恢复和平进程的前景,持怀疑态 度 Rank / Ordinal Classification NER: 上个月30号,王先生在自己家里边看流浪地球边吃煲仔饭 NER:上个月30号(时间),王先生(人物),流浪地球 (电影),煲仔(产品) Regression Annotation1: 2 分 Annotation2: 4 分 Annotation3: 3 分 Annotation3: 5 分 … Annotation1: HTER = 0.3 Annotation2: HTER = 0.22 Annotation3: HTER = 0.46 Annotation4: HTER = 0.01 …
22. 自动Denoise方案框架 数据自动增值方案 • 数据去噪方案 • Predictor-Estimator方案 Ø Ø Predictor:特征提取器,提取出input embedding,label embedding,以及概率相关的mismatch feature (即 ?_??, 〖 ?〗_max,以及两者差值) Estimator:质量评估器,接受predictor提供的特征,最终对数据质量进行评分。 应用场景 Predictor结 构 Estimator结构 机器翻译 Bert or Xml Bi-gru, Bi-lstm or attention NER Bi-gru, Bi-lstm Bert 文本分类 Bert dnn 图片分类 BiT dnn PE方案框架 22
23. ImageNet去噪 数据自动增值方案 ImageNet数据集现存问题以及解决手段 • • • 标签错误:通过多个模型交叉验证去噪 图片包含多目标:多模型预测提供图片候选标签后人工判断,将数据扩展为多标签 相似标签:标签融合 训练优化 • • 优化目标:多分类任务变成多标签分类 修改loss函数:CE变成MixupCrossEntropy, " # Loss = - ! ∑ # !$% log(? ! ):图片有k个label时,将标签除以k [1, 0, 1, 0, 0, 0] -> [0.5, 0, 0.5, 0, 0, 0] backbone模型 原始验证集 去噪验证集 下游任务 Oxford pets分类 Stanford cars分类 原始数据resnet50 76.908 86.34 原始resnest50 94.39 93.13 去噪数据resnet50 77.932 87.451 去噪数据resnet50+MixupCE 78.46 87.956 去噪resnest50 94.93 93.63 去噪resnest50+标签融合 95.13 93.88 原始数据resnet50 80.664 90.165 去噪数据resnet50 80.94 90.824 去噪数据resnet50+MixupCE 81.182 90.975
24. ImageNet 噪声示例 1. 标签错误: ILSVRC2012_val_00005032 原始标签:瓶盖 ILSVRC2012_val_00044147 原始标签:卷筒 2. 多标签: ILSVRC2012_val_00000803 原始标签:键盘 修改标签:键盘,鼠标 ILSVRC2012_val_00010467 原始标签:柯利犬 修改标签:柯利犬,开襟毛衣 3. 相似标签: 标签名 标签A index 标签B index 笔记本电脑 n03832673 (notebook compute) n03642806 (laptop computer) 步枪 n02749479 (assult rifle) n04090263 (rifle) 胸甲 n02895154 (breastplate) n03146219 (cuirass) 纸巾 n15075141 (toilet tissue) n03887697 (paper towel) 显示器 n03782006 (monitor) n04152593 (screen) T恤 n04370456 (sweatshirt) n03595614 (jersey) 太阳镜 n04355933 (sunglass) n04356056 (sunglasses)
25. 待标数据选择 数据自动增值方案 • 通过Active learning技术,表示出最值得标注的数据 25
26. 待标数据选择 代表性 数据自动增值方案 Google etc.. • Datasets object selection : 信息性 百度 etc. 强化学习获得 高回报数据 Random sample Filtered subset 微软 etc. • Automatic labeling 现有主流AL方法对比 利用主动学习获得的标注数据比随机获得的标注数 据,更能提升模型性能
27. 数据划分 数据自动增值方案 • 对抗验证 被广泛地在Kaggle中使用 • 解决本地交叉验证(Cross Validatation, CV)与线上测试不一致 • 对抗验证 的使用步骤 1. 确定验证集和测试集的分布差异 Ø Ø Ø Ø Ø 删除训练数据的Label 对测试数据和训练数据分别label为0和1 将训练和测试数据组合成一个大数据集 学习一个二分类模型 根据分类器的AUC和RCO指标来判断分布差异 2.分布差异大的情况下 Ø 尝试尝试使用Adversarial Validation选择出与测试集比较相似的样本,构建成为验证集。 Ø 使用外部数据或者伪数据来扩增训练数据,以保证训练数据与测试数据的一致性。

inicio - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-06 02:47
浙ICP备14020137号-1 $mapa de visitantes$