本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量,特别是在电商领域的应用,主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。
本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量,特别是在电商领域的应用,主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。
美学项目的目标
第一步-制定美学标准:制定AI生图标准与AI风格标准,联合中国美院与教授一起共研。突出专业性、针对性、客观性、权威性。
第二步-训练美学模型:基于AI美学标准培育美学判定模型,使机器能自动判定打分。
第三步-应用美学模型:基于美学模型能力指导淘宝AI生图模型调优升级。
第四步-升级淘宝风格模型:基于风格标准建立淘宝风格模型库,使商家具备丰富多样的风格模型可供选择。打造淘宝特色风格模型。
基于「图像」的构成要素进行准则框架的定义,同时侧重「AI生成的特性」构建美学的标准:
图像构成:物形/环境/构图/光影/质感
AI生成特性:元素真实性&场景合理性
AI美学标准:5项准则,19项标准
美学模型目标:机器对图片自动打分判定的准确率提升。
准确率:相同图片进行美学AI打分与人工打分,取人与机器分数的重叠率。
我们的AI美学评价模型采用多模态美学预训练与多任务微调学习方式。这样做的优点如下:
我们的模型参数较少,可快速训练迭代,推理速度快,可快速筛选高美学图像,也可测评不同生成模型的生成效果,减少人工标注与审核成本;
相比于只输出美学分的模型,我们模型可以输出生成图像异常属性,可解释性较高;
图:AIGC生图美学评价预测的不同美学分数的图片
合理训练:人与机器多轮匹配校验,保证数据优质。
1轮打分校验: 取3人平均分来累积数据,保障打分客观。有分差部分重新解读差异具体呈现的问题点。再进行校验重打。确保不同人对准则的解读能保持理解一致和稳定(5分制度)。
2轮AI打分校验:取3人平均分与机器进行校对,有分差部分重新解读差异具体呈现的问题点,明确是人的问题还是机器的问题,确保两者能逐步一致,保障机器理解的准确性。(有初版AI判定模型后开始进行)。
技术框架
AIGC生图美学评价:根据设计师定义的5分美学准则,映射到五大质量等级。同时,我们对生成数据进行归纳分析,总结出五大属性,正常、人与背景融合度异常、手部异常、面部崩坏、躯体异常、其他异常。质量等级与属性原因组合形成美学评价提示词,作为多模态预训练模型的输入,损失函数采用美学分回归损失与属性原因多标签分类损失。
人模图原图美学评价:CLIP在美学评价上对图像质量、色彩、光照、构图、抽象概念等都具有很好的good/bad分类的zero-shot能力。因此,在预训练阶段,我们通过蒸馏CLIP的image encoder,提升backbone的美学表征能力。微调阶段使用提升后的backbone预测归一化后的美学评分。损失函数采用由L1损失和二分类交叉熵损失的加权,来提高模型的性能和鲁棒性。模型训练完成后,通过选取不同的阈值,能分层出不同美感级别的人模图片。
目标:运用美学模型,提升淘宝AI大模型的良图率。
修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:
目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。
背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。
筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。
1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。
第四步:升级淘宝风格模型
目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。
因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。
因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。
美学标准:发布淘宝AI美学标准,联动中国美术学院完成。
风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。
产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。