AI产品：Kimi的相关资料

You Don't Know LLM Training: Principles, Pipelines, and New Practices

2026年，大模型的能力差距不再仅依赖预训练，而是更多地体现在后训练阶段。预训练奠定基础，后训练通过指令微调、奖励设计、评估优化等环节，显著提升用户体验。数据配方、系统约束和训练管道设计是关键，模型的能力增强源于整个训练栈的协同优化，而非单一因素。

How Kimi, Cursor, and Chroma Train Agentic Models with RL

Moonshot AI的Kimi K2.5通过强化学习实现任务并行分解，优化多代理协作；Cursor的Composer 2采用自总结和实时RL提升长代码任务处理能力；Chroma的Context-1则专注于自编辑上下文，动态剪枝无关文档以提升搜索效率。三者在RL应用上均注重基础模型、生产环境训练、结果导向奖励和大规模并行扩展，展示了垂直领域模型的高效性与实用性。

Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities

Kimi研究员展现两大亮点：面对信息冲突时，能通过假设迭代实现自我纠偏，如在《聊斋·绿衣女》中精准核验书生对话次数；回答看似简单的问题也保持严谨，通过多轮交叉验证确认委内瑞拉球星胡安·阿朗戈的德甲经历。这波操作秀出了AI的深度检索与逻辑校验能力！

在DeepSeek阴影（或启发）下：OpenAI o1、Kimi 1.5、Qwen 2.5技术路线解读

大语言模型技术不断进步，OpenAI o1通过自我反思和错误修正提升推理能力，可能融合了CoT、PRM和MCTS；Kimi 1.5结合长上下文CoT和强化学习，展现了深入推理的潜力；Qwen 2.5则注重数据质量和多规模模型，配合离线与在线强化学习进一步提升性能。这些模型在推理、长文本处理和强化学习方面各有创新，推动了大语言模型的发展。

豆包、kimi 这些大模型系统提示词里写了啥？(一)

大模型系统提示词全解析（Prompt合集）。