当搜索遇见AIGC:京东的千人千面素材生成实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 当搜索遇见AIGC : 京东的千人千面素材生成实践 Jason Li
2. 主要内容 1、电商的发展历程回顾 2 、电商2.0会是什么样子 3 、千人千面的商品素材生成 4、我们能为商家做些什么
3.
4. 电商的发展历程回顾 传统交易阶段 电商技术萌芽阶段 互联网电商起步阶段 电商1.0时代 电商2.0时代 20 世纪60 年代以前 20 世纪70 年代~1990 年 1991年~2004 年 2005 年~2022 年 2023 年以后 物物交换- > 货币交 易、纯线下交易 EDP/EDI 技术奠基、 无纸贸易出现 因特网出现、电商平 台诞生(亚马逊/京东 /阿里)、线上交易启 动 移动电商普及、货架 电商、内容电商、流 量竞争、千人千面的 推荐搜索 大模型、具身智能、 3D/XR 、极致的个性 化体验、极高的购物 效率
5. 主要内容 1、电商的发展历程回顾 2 、电商2.0会是什么样子 3 、千人千面的商品素材生成 4、我们能为商家做些什么
6. 电商2.0会是什么样子 智能供需匹配 高效供应链与物流 从“人找货”到“货找 人”,精准预测并满足 用户潜在需求 供应链全链路智能优 化,物流配送速度与精 度大幅提升 大模型需求预测、多维度 用户画像、主动商品推 送、场景化推荐 供应链动态调度、物联网 库存监控、无人机/无人车 配送、最后一公里优化 极致个性化体验 从千人千面的搜索推荐到千 人千面的商品素材 视觉AIGC 技术、多模态大模型商 品理解、用户圈层分析技术 全流程AI服务 沉浸式购物体验 AI贯穿售前到售后,提 供高效、自然的7*24 全 周期服务 突破二维局限,打造可 感知、可交互的虚拟购 物场景 多模态智能客服、AI售前咨 询、自动化售后处理、智 能问题解决方案 3D 商品建模、XR 虚拟试穿 /试用、虚拟购物空间、沉 浸式场景搭建
7. 主要内容 1、电商的发展历程回顾 2 、电商2.0会是什么样子 3 、千人千面的商品素材生成 4、我们能为商家做些什么
8. 千人千面的商品素材生成(1/12) 户外功能需求型买家 外观穿搭需求型买家 价格敏感型买家 核心关注点 :材质性能、面料科技、实用功 核心关注点 :服饰整体美观度、设计风格及 核心关注点 :价格高低、优惠力度及性价 能,如防水性、透气性、防风性、耐磨度等 穿搭适配性,如颜色搭配、版型剪裁、款式 比,如是否为全年最低价、是否低于历史促 是否符合潮流 销节点价格、是否有叠加折扣等
9. 千人千面的商品素材生成(2 /12) feedback 商品信息(货) 1、sku_id 2 、主图/商详 3 、评论/问大家 4 、参数规格 5 、外部知识(RAG ) ① Oxygen 电商零售 多模态大模型 营销卖点文案 (集合) 场景图Prompt (集合) (理解中枢 ) 用户信息(人) 1、user_id 2、历史行为 3、用户画像 4、外部信息(RAG ) ② Oxygen 可控视觉 生成模型 (生成中枢) 系列素材 系列素材 AIGC 系列素材 系列素材 feedback ③ ④ 机器自动 质检预估模型 搜推模型 (效率中枢) (分发中枢) XTR Layout 布局信息 (集合) feedback feedback 理想:个性化商品素材生成的完整技术框架 现实:推理效率是瓶颈,个性化素材生成是推理资源与业务收益的 trade- off
10. 千人千面的商品素材生成(3 /12) feedback 用户圈层 商品信息(货) 1、sku_id 2 、主图/商详 3 、评论/问大家 4 、参数规格 5 、外部知识(RAG ) ① Oxygen 电商零售 多模态大模型 (理解中枢) 用户圈层1 用户圈层2 … ① Oxygen 电商零售 多模态大模型 营销卖点文案 (集合) 场景图Prompt (集合) (理解中枢 ) ② Oxygen 可控视觉 生成模型 (生成中枢) 系列素材 系列素材 AIGC 系列素材 系列素材 ③ ④ 机器自动 质检预估模型 搜推模型 feedback 一个可行的演进路径 : 千人千面 (效率中枢) feedback 千人百面 XTR (分发中枢) Layout 布局信息 (集合) 用户圈层K feedback 千人十面
11. 千人千面的商品素材生成(4 /12) ① Oxygen 电商零售 多模态大模型 人群1:健身爱好者 人群2:办公室白领 (理解中枢) 京东京造 美式黑咖啡粉 https://item.jd.co m/100139632942. html 人群3:备考学生 人群4:控糖减脂人士 人群5:户外爱好者
12. 千人千面的商品素材生成(5 /12) 场景1:运动燃脂加持 ① Oxygen 电商零售 多模态大模型 (理解中枢) 场景2:午后办公提神 场景3:深夜自习陪伴 场景4:活力健康早餐 场景5:冰爽山野享受 ② Oxygen 可控视觉 生成模型 (生成中枢)
13. 千人千面的商品素材生成(6 /12) <think > 训练任务设计 通用任务 文档解析 Document Parsing 混合专家大语言模型解码器 Mixture - of- Experts (MoE) Decoder - only Large Language Model 图表表格解析 商品属性问答 Product Attribute Q&A 视觉定位 商品卖点生成 Visual Grounding Product Selling Point Generation 文字检测识别 视觉问答 Visual Question Answering 支持原生分辨率的视觉编码器 Image 1 Image 2 Video 1 多模态推理 Multimodal Reasoning Video 2 商品分类 Product Classification Chart and Table Parsing Optical Character Recognition Native Resolution Visual Tokenizer 电商零售任务 营销文案生成 Marketing Copy Generation 商品合规性评估 Product Compliance Assessment 商品价格合理性判断 Product Price Rationality Judgment 图像描述 促销活动效果预测 Image Captioning Promotion Effect Prediction 视频理解与定位 Video Understanding & Localization 尺码信息解读 Size Information Interpretation 电商零售多模态大模型,通用数据 + 领域数据,激活领域推理能力同时保持通用能力是难点
14. 千人千面的商品素材生成(7/12) Reward 策略设计 基于GRPO 的强化学习 关键信息覆盖度 逻辑一致性 LLM 事实正确性 表述清晰度 答案正确性 语义相似度 跨模态感知 图片出处:https://pub.towardsai.net/group- relative -policy- optimization- grpo -illustrated -breakdown -explanation- 684e71b8a3f2 电商零售多模态大模型后训练范式 格式奖励 重复惩罚
15. 千人千面的商品素材生成(8/12 ) 输入信息 训练数据 商品标题: 得力高120CM 办公家用保管箱 电子密码锁 科技布内饰 弘雅AE70 - M 黑色 问题:根据商品信息,预测显示屏是否支持触控操作? 一级品类: 电脑、办公 思考步骤: 二级品类: 办公设备 三级品类: 保险柜/箱 第一步:理解问题并提取关键图文信息 首先,商品标题中提到“电子密码锁”,主图展示了一个带有数字按键和明显的发光区域的面板。商品详情图进一步显示了 价格:¥2770 保险柜的外观和面板细节。规格参数中虽然没有直接描述显示屏类型,但提及“密码”“电子”等关键词。 商详页卖点提取: 电子密码锁;科技布内饰;高安全性能;双重解锁方式;防震防盗;纳 米级科技布软包材质;金融级内载芯片;全钢材质;18道磷化防锈;C 级锁芯;震动错码 第二步:关联已知知识或规则 通常,现代电子密码锁保险柜会配备可视化操作界面,便于输入密码和显示状态。常见的显示屏类型有LED数码管、LCD液晶 报警;支持两种解锁方式;环境温度适应性强;抗静电性能;连续开启耐久性。 屏以及触摸屏。高端产品往往采用触摸屏,尤其是带有数字按键和发光区域的面板。 用户评价摘要: 质量好;做工好;材质精细;颜值高;性价比高 第三步:基于商品信息逐步推理出LED触摸屏控制的过程 从主图可以看到,面板上有数字按键且无实体按钮,显示区域有发光效果,这符合LED触摸屏的特征。商品卖点中提到“电 子密码锁”“双重解锁方式”,结合图片,说明其操作界面是电子化且支持触控。高端定位(如“金融级内载芯片”“科技 布内饰”)也暗示了更先进的显示和操作方式。商品的尺寸和价格也支持其为高端产品,通常会配备LED触摸屏控制。 第四步:验证逻辑合理性 结合所有信息,商品的定位、图片中面板的设计、操作方式描述以及高端配置,都指向该保险柜配备的是LED触摸屏控制, 而不是传统的机械按键或仅有数码管显示。逻辑链条完整,推理合理。 答案:支持LED 触摸屏控制 多模态CoT 数据可视化样例 :商品属性推理
16. 千人千面的商品素材生成(9/12 ) 评测集 模型版本 base 模型- 3B OxygenVLM - 3B base 模型- 7B OxygenVLM - 7B Average 深度推理评测集 电商评测集 开源评测集 业务评测集 0.4845 0.6317 0.6523 0.7103 0.6197 0.7965 0.8304 0.6552 0.7382 0.7551 +0.3120 +0.1987 +0.0029 +0.0279 +0.1354 0.3820 0.7071 0.7022 0.7339 0.6313 0.8530 0.8576 0.7041 0.7836 0.7996 +0.4710 +0.1505 +0.0021 +0.0497 +0.1683 电商零售多模态大模型 OxygenVLM 多评测集定量评估效果
17. 千人千面的商品素材生成(10/12) 可控条件 Conditions 时间步 商品主体 商品贴片 Timestep Product Foreground Product Sticker 画布布局 商品掩膜 文字信息 Layout Product Mask Text Rendering 文本信息 Text Prompt DiT 生成模型 Diffusion Transformer Model VAE Decoder 输入噪声 输出效果 Input Noise Output Visual Content 可控视觉生成模型,商品细节保持是技术难点,业务级端到端可用率低是行业现状
18. 千人千面的商品素材生成( 11/12) 01 SD+ControlNet 02 03 SD+ReferenceNet DIT+Redux 04 05 DIT+VL+VAE DIT+VAE 可控视觉生成模型近两年技术框架演化路径(不考虑 Unified Model )
19. 千人千面的商品素材生成( 12/12 ) 融合参考图 /Layout/Prompt/ 文字的多条件统一生图框架 UM - Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing
20. 主要内容 1、电商的发展历程回顾 2 、电商2.0会是什么样子 3 、千人千面的商品素材生成 4 、我们能为商家做些什么
21. 我们能为商家做些什么(1/10) 痛点一 痛点二 痛点三 商品多,干不完 预算少,考核难 活动多,变化快 • 京东数百亿动销商品 • 竞争激烈,竞对激进价格战 • 商品、店铺、平台促销活动丰富 • 店铺平均4,000 + sku • 全店商品作图成本 v.s. 降价促销 • 采销精细化运营能力精力不足 • 自营采销人均负责10,000+ sku • 10~20 元/图 * sku数 * N 个版本 • 投入产出比存在较大不确定性 从京东采销视角看商家痛点
22. 我们能为商家做些什么(2 /10) 30+ 800,000+ 覆盖京东零售30+ 业务场景,涉及 支持800,000+ 京东商家,通过京 商品发品、运营、营销等,根据不 点点一键生成店铺运营所需的各类 同场景类型提供内容素材 商品素材 10,000,000 + 95%+ 基于京点点平台AIGC 能力在京东 内容生产效率提升95% 以上,商品 零售各场景单日调用量达 图像、营销文案、商品视频等内容 10,000,000 +次 素材制作从天级降至秒级 90%+ 旧版京点点AIGC 内容生成平台 内容生产成本降低90% 以上,商品图像、营销文案、 商品视频等内容素材制作成本极大降低
23. 我们能为商家做些什么(3/10 ) 旧版京点点平台 焕新版京点点平台 Oxygen Vision GUI ,工具箱式操作平台 LUI + GUI ,自然语言交互操作平台
24. 我们能为商家做些什么(4/10 ) 对话式人机交互 大模型规划与执行 商品一致性保持 无缝接入 AB 实验平台 纯自然语言交互形式 拟人式分步骤有序执行操作 强多样性但不损失一致性 素材线上实验及经验总结 焕新版京点点平台 Oxygen Vision的四个新特色
25. 我们能为商家做些什么(5 /10)
26. 我们能为商家做些什么(6/10 ) Agent 员工上岗,让时尚品牌内容供给提效95% 以上 像与员工对话 一样描述需求 AI对需求进行 分步规划 AI自动生成品 牌模特素材 AI自动投放 A/B 验证 图像理解与分割 模特风格 搜索场投放实验 设计元素挖掘 模特背景 商详场投放实验 品类知识注入 模特穿搭 AI自动分析报告 …… …… …… 焕新版京点点平台 Oxygen Vision x 大时尚领域应用
27. 我们能为商家做些什么(7/10) AI模特图- 万物试穿 商品平铺图 生成商品场景图(静态+ 动态) AI模特图- 万物试戴 商品平铺图 生成商品场景图(静态+ 动态) 某KA 服饰品牌成交转化率提升110% 以上,京东品牌自营店更换AI模 某KA 珠宝品牌成交订单量提升360% 以上,成交GMV 提升320% 以 特图商品销量TOP1 ,新品上新速度提升95% 以上。 上,成本较传统拍摄降低90% 以上。
28. 我们能为商家做些什么(8/10 ) 用户交互层 / User InteractionLayer 智能体核心层 / Agent - Core Layer 人机交互 响应渲染器 Human - in- the- Loop Response Renderer 安全与访问控制 熔断器与限流 Security & Access Control CircuitBreaker 记忆存储/ Memory 规划执行引擎/ Plan- Act Engine Plan Context 工程层/ Context Engineering Layer 计划创建阶段 计划执行阶段 计划总结阶段 Planning Phase Execution Phase FinalizationPhase 聊天记忆 Chat Message 执行记录 Act 顺序执行器 分布式执行器 Sequential Executor MapReduce Executor 流程执行器 Workflow Executor Plan Execution Record 上下文管理器/ Context Manager 上下文检索 上下文排序 Context Retrieval Context Ranking 上下文写入 上下文选择 Context Writing Context Selection 协议适配层 / Protocol Adapter Layer 状态记录 HTTP RPC WebSocket Think Act Record SSE 智能体工厂/ Agent Factory 通用组件层 / Common 会话管理 Session Management 命名空间管理 Namespace Management Factory Layer 资源管理 Resource Management 全链路追踪 流式响应处理系统 DistributedTracing Stream Processing 基础智能体 推理行动智能体 动态智能体 Base Agent ReAct Agent Dynamic Agent 工具通信 异常处理 事件总线/ Event Bus 配置变更事件 动态配置 Dynamic Configuration 智能体通信 Context Agent Communication Tool Communication 上下文处理器/ Context Processor 上下文压缩 Configuration Events Context Compression Token 优化 Token Optimization 上下文隔离 Context Isolation 噪声过滤 Noise Filtering Exception Handling 执行事件 Execution Events 异常事件 工具生态系统/ Tools Ecosystem Exception Events 记忆层次管理/ Memory Hierarchy Management 工作记忆 Working Memory 情节记忆 Episodic Memory 系统高可用层 / High AvailabilityLayer 通用工具 状态管理 故障识别与恢复 健康监测与指标 Agent State Fault Detection Health Monitoring 负载均衡 平滑发版 服务发现 Load Balancing Graceful Deployment Service Discovery Common Tools 智能生成工具 AIGC Tools 模型上下文协议 MCP Protocol 任务取消事件 Cancellation Events 语义记忆 Semantic Memory 程序记忆 Procedural Memory 自适应上下文/ Adaptive Context AB 测试系统/ AB Test System 上下文切换 意图识别 Context Switching IntentDetection 基础设施层 / InfrastructureLayer 大模型网关 算法接口 业务基础服务 LLM Gateway Algorithm APIs Business Services 实验配置引擎 素材库管理 归因分析 智能洞察 Experiment Configuration Asset Repository AttributionAnalysis Intelligent Insights 所谓的智能体都是 10% 的大模型 + 90% 的软件工程 动态适配 上下文多样化 Dynamic Adaptation Context Diversity
29. 我们能为商家做些什么(9/10 ) Phase1 :人机协作交互 用户需求输入 Phase 2 :智能规划 人机协作确认 AI需求解析 Phase4 :成果交付 智能任务规划 ① 商品信息采集 创建3张商品主图 SKU 信息验证 语义理解需求 包含不同场景风格 商品属性确认 识别风格要素 选择简约直观贴片 业务权限检查 评估复杂度 ② 智能抠图处理 ③ 模版风格匹配 ④ 文案内容生成 ⑤ 场景图像合成 ⑥ 最终效果整合 Phase3 :多智能体协作执行 ① 商品信息Agent ② 图像处理Agent ③ 模版设计Agent ④ 营销文案Agent ⑤ 场景设计Agent ⑥ 素材合成Agent 商品数据库 智能切图引擎 模版匹配算法 文案创作引擎 智能场景生成器 合成与输出引擎 信息核实->属性获取-> 数据整理 背景移除- >主体提取- >图像优化 风格分析- >模版选择- >设计配置 卖点提取- >文案生成- > 营销优化 场景设计- >智能生成- > 效果合成 素材整合- >成品合成- > 质量检测 焕新版京点点平台多智能体协作流程图
30. 我们能为商家做些什么(10/10) 批量素材生成能力 长短视频生成能力 经营效果直驱能力 外部平台支持能力 • 支持指定店铺 • 支持主图短视频生成 • 支持点击类目标驱动 • 支持京东外商家 • 支持上传列表 • 支持营销长视频生成 • 支持转化类目标驱动 • 支持跨境电商商家 焕新版京点点平台二期功能规划预览
31.
32. THANKS 欢迎试用焕新版京点点平台 oxygen - vision.jd.com

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-04 05:11
浙ICP备14020137号-1 $访客地图$