强化学习提升复杂场景下的拟人性与交互灵活性

如果无法正常显示，请先停止浏览器的去广告插件。

1. WOWService专题直播强化学习提升复杂场景下的拟人性与交互灵活性景晴美团研究专家 LongCat Interaction Team

2. 超越模仿：用强化学习突破 Open-Ended 任务上限 Exploration & Generalization —— 从数据拟合到策略探索试错 Trial and Error 探索试错边界内游走模型不再只输出"安全"答案，而是尝试不同策略（反问、幽默、长逻辑推导）在可验证约束下，探索最优解空间。多重信号融合 - 信用分配机制泛化超越数据上限突破将底层规则惩罚与高层灵活性判别结合，通过Reward信号指导长链条优化底层信号规则惩罚（可验证）：方案正确性、重复性、长度约束等高层信号灵活性判别（Open-Ended）超越数据本身的上限通过自主探索，模型不再局限于模仿人类数据，而是发现更高阶的智能策略真正的拟人化 3

3. 强化学习 —— 让模型学会“有头脑”地回复强化学习具备较强的探索能力，理论上能让模型在试错中找到更优、更拟人的回复路径。适合的奖励设计机制多轮交互的终极目标传统基于规则的奖励在围棋或代码模型需要在持续交互的场景中学习生成中有效，但在开放式对话中，更优的对话策略，建模用户的会话很难用规则匹配去评估什么是“高级偏好，实现从“短期话术对齐” 情商”或“幽默”。向“长期目标优化”的转变 4

4. 对话拟人性提升 - 生成式奖励模型拟人化强化训练构建“懂行”的裁判：基于对话的分阶段拆解（开场、方案、收尾），训练出一个能够理解细粒度业务标准（如是否澄清意图、是否挖掘需求）的生成式奖励模型（GRM）。贴近人工标准：它不仅给分，还能理解语义，提供更稠密、更符合人类直觉的反馈信号。目标：驱动策略模型在开放场景下主动探索，实现从“机械回复”到“灵动交互”的质变。 5

5. 对话拟人性提升 - 生成式奖励模型拟人化强化训练植入强化学习闭环：将训练好的 GRM 作为“核心评价器”接入 RL 训练流程，对策略模型（Policy Model）生成的每一次对话进行实时推演与打分混合信号驱动进化：最后，融合 GRM 的语义评分与基础规则（Rule-based）构建复合奖励信号，利用 GRPO/PPO等算法驱动模型不断自我修正，实现从“生硬回答”到“灵动交互”的质变。 6

6. 对话拟人性提升 - 生成式奖励模型拟人化强化训练  满分率 (FSR) 飙升至 69.28%，可用率 (UR) 突破 70% 大关。  相比基座模型，引入经过精心训练的 GRM 指导 RL 训练，显著提升了模型回复的“完美度”和“实用性”，证明模型成功学会了更灵活、更像真人的表达方式。  准确率 (Acc) 达到全场最高的 85.15%，远超基线（79.09%）。  GRM 提供的精细化反馈信号，不仅让模型“说话好听”，更让模型“听得懂话”，在复杂交互中对用户意图的把控更加精准。 7

7. 从单轮强化到多轮强化的技术跃迁  自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式获得空前热度以后，各类xPO强化算法层出不穷，但是本质上都还未跳脱出“多臂老虎机”的求解漩涡  这类算法求解过程被视为退化的单步 MDP（单 prompt、一次性文本输出、立即终止）  最近备受关注的多轮RL试图让 LLM 从「被动对齐」进化为「主动决策」的智能体，在动态环境中规划、行动、学习将 LLM 置于马尔可夫决策过程（MDP）下进行多步交互 8

8. 交互灵活性提升 - 业务视角 - 多轮强化训练  智能服务系统需要与用户、骑手、商家进行多轮对话。不仅要精准理解每一轮的对话意图，更要在完整交互链路中实现“建立信任->推动流程->解决问题”的递进式目标。  但目前垂域大模型的训练方式聚焦于轮次级对齐（SFT/DPO/单轮RL），重点优化“当前轮次的最优回复”，忽略了当前轮次对后续交互的影响，缺乏对于会话级偏好的建模，导致存在三大挑战：  ①难以保证跨轮对话逻辑的连贯性（对话连贯性不足）；  ②无法有效关联长期目标的达成（目标关联性不足）；  ③面对业务流程时缺乏足够的适应性（流程适应性不足）。亟需引入多轮RL，让模型在持续交互的场景中学习更优的对话策略，建模用户的会话级偏好，实现从“短期话术对齐”向“长期目标优化”的转变 10

9. 交互灵活性提升 - 多轮强化训练数据Pipeline：回流数据获取->数据预处理->高质量对话数据筛选->模拟会话产出->最优模型上线后进行自回流迭代训练Pipeline：模型与个性化模拟器进行多轮交互->模拟会话产出->多目标奖励融合->基于高质量对话数据进行多轮RL训练->离线评估选定最优模型->最优模型上线 11

10. 交互灵活性提升 - 多轮强化训练个性化模拟器为什么需要个性化模拟器？多轮RL通过在多轮交互中不断探索和调整来学习最优的对话策略。静态的真实对话数据无法动态适应模型不断变化的输出，限制RL对策略空间的充分探索。个性化模拟器能够灵活模拟用户/骑手/商家的反馈，实时响应模型的最新输出，为训练提供仿真环境实现思路：基于用户画像的个性化模拟器 => ①回流人人对话数据；②筛选高质量会话级数据；③使用LLM进行关键信息抽取；④按轮次拆分后作为模拟器的训练数据；⑤SFT/RL训练得到个性化模拟器 12

11. 交互灵活性提升 - 多轮强化训练多目标奖励融合 GRM-Based Reward：额外引入GRM-Based Reward，通过训练奖励模型对轮次级以及会话级对话质量进行评估  轮次级GRM奖励：①判断每一轮模型输出是否符合原则约束；②检查每一轮模型输出和对话历史的衔接性、思考过程和回复与方案的一致性  会话级GRM奖励：①评估多轮模型输出的连贯性、话术风格；②分析会话结束时的问题解决程度和用户/骑手/商家情绪 13

12. 交互灵活性提升 - 多轮强化训练业务结果话术更有温度：立场站用户，不只会说“您消消气、非常抱歉”，更具备“倾听、安抚、共情”。训练前非常抱歉，您的情况我已经记录。训练后我完全理解您的感受，点外卖本是为了方便，遇到这样的情况确实令人不悦的，我这边帮您反馈一下～对话连贯性强：重复交互的比例降低，流程推动更加流畅。训练前您好，团团这边为您催促一下，您看可以吗？训练后我知道这事儿让您不痛快，您放心，我们不会置之不理的，我这边给您申请了5元余额赔付，您看可以吗？也是希望弥补您一些。灵活的交互策略：跳出固定的模版话术，推动交互训练前优惠券会随着退款一并退回，您这边查收一下。训练后您别急，退款后优惠券会退回的，只要没有过期，您下次下单时还能用。真的很抱款，我知道退款不能让您满意，我们也很自责没能帮您拿到餐品，我们会反馈这个问题，避免再发生。 14

13. Q&A 15

14. 更多技术干货欢迎关注“美团技术团队”