Long-Context vs RAG：谁将主导未来？

1. Long-Context vs RAG 谁将主导未来？唐飞虎@MoonshotAI

2.

3. 大纲 • RAG ○ 什么是 RAG？ ○ RAG 相关的技术与框架 • Long-Context ○ Long-Context 的发展历程 ○ Long-Context 摩尔定律？ ○ Long-Context 的评测：长文本和长文本亦有差距 • 能力边界与优势区间 • 更多案例 • 突破限制：如何提升 RAG 和 Long-Context 的边界

4. RAG

5. 什么是 RAG？ • RAG 全称 Retrieval-Augmented Generation，即检索增强生成，它结合了检索和生成的能力，为文本序列生成任务引入外部知识。 • 目前，大部分公司倾向于使用 RAG 方法进行信息检索，因为相比长文本的使用成本，使用向量数据库的成本更低。 • 而在 RAG 应用过程中，一些公司会使用微调的 Embedding Model，以增强 RAG 的检索能力；另一些些公司会选择使用知识图谱或者 ES 等非向量数据库的 RAG 方法。 • 大多数第三方个人和企业开发者会使用集成好的 RAG 框架（例如 llamaindex、langchain、etcs） • 或者直接使用 LLMOps 里内建的 RAG 工具。

6. 例子

7.

8.

9.

10.

11.

12.

13. 什么是 RAG (Retrieval Augmented Generation)?

14.

15.

16.

17.

18.

19.

20. Long-Context

21.

22.

23.

24.

25.

26.

27. Long-Context 的评测 • • • • 上下文长度可能存在摩尔定律，目前尚未触碰真正的瓶颈。目前从硬件、架构、算法等多种角度优化模型上下文长度的技术方案。很多厂商生称其模型支持百万、甚至五百万上下文长度。但长文本和长文本之间在质量和效果上亦有差距，「要同时优化长度和无损压缩水平两个指标，才是有意义的规模化」。

28.

29.

30. 核心技术全球领先：已支持200万字无损长窗口从20万字到200万字无损长窗口，只用了不到 6 个月约 20 万字约 10 万字约 16 万字约 80 万字约 200 万字正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正正 2023年10月上旬 2023年11月上旬 2023年11月下旬 2024年2月中旬 2024年3月中旬月之暗面 20 万汉字 Kimi OpenAI 128K GPT-4 Anthropic 200K Claude 2.1 Google 1M Gemini 1.5 月之暗面 200 万字 Kimi

31. 长窗口「无损压缩」能力强，不错过每个细节 “数星星”测试是大海捞针的升级版，由腾讯MLPD实验室自主进行，结果发表在 ArXiv 上 100% 准确率 98.8 96.8 96.5 86.4 Kimi GPT-4 16(2^4) Kimi GPT-4 32(2^5) 来源：https://arxiv.org/abs/2403.11802 93.1 Kimi 89.7 GPT-4 64(2^6) 计数次数

32.

33. 能力边界与优势区间

34. RAG • • Pros. ○ 无需额外训练 ○ 速度快 ○ 成本低 ○ 工程方案成熟 ○ 可设计多级检索方案 Cros. ○ Embedding 召回效果直接影响模型回答效果 ○ 无法处理复杂逻辑 ○ 对多模态支持不足

35. Long-Context • • Pros. ○ 无需额外训练 ○ 上下文兼顾更全面 ○ 可处理复杂逻辑和依赖 Cros. ○ 贵且慢 ○ 长度有限

36. 更多案例

37.

38.

39.

40.

41.

42. 结论 • Long-Context：修炼模型基本功 • RAG：扩展模型能力边界 • Long-Context + RAG 互补：给予开发者无限可能

43. 结论 • Software Engineering is about trade-offs: make sure you have options! • 何时使用 RAG，何时依赖模型 Long-context 能力？ • 考验架构师和产品经理对模型边界和现有 SOTA 框架的运用与理解。

44. 突破限制

45. RAG • • Pros. ○ 无需额外训练 ○ 速度快 ○ 成本低 ○ 工程方案成熟 ○ 可设计多级检索方案 Cros. ○ Embedding 召回效果直接影响模型回答效果 ○ 无法处理复杂逻辑 ○ 对多模态支持不足

46. RAG • • Pros. ○ 无需额外训练 ○ 速度快 ○ 成本低 ○ 工程方案成熟 ○ 可设计多级检索方案 Cros. ○ Embedding 召回效果直接影响模型回答效果 ○ 无法处理复杂逻辑 ○ 对多模态支持不足

47.

48. Long-Context • • Pros. ○ 无需额外训练 ○ 上下文兼顾更全面 ○ 可处理复杂逻辑和依赖 Cros. ○ 贵且慢 ○ 长度有限

49. Long-Context • • Pros. ○ 无需额外训练 ○ 上下文兼顾更全面 ○ 可处理复杂逻辑和依赖 Cros. ○ 贵且慢 ○ 长度有限

50.

51.

52. Long-Context 性能瓶颈 • 并发性能随着上下文长度的增加而反比下降。 • 预填充延迟随上下文长度的增长而呈平方级别的增长。 • 解码延迟和上下文切换开销随上下文长度的增加而线性增加。

53. Long-Context 性能瓶颈 • 并发性能随着上下文长度的增加而反比下降。 • 预填充延迟随上下文长度的增长而呈平方级别的增长。 • 解码延迟和上下文切换开销随上下文长度的增加而线性增加。

54. Long-Context 推理优化 • • • 硬件升级 ○ A100 Memory Hierarchy 机器学习工程 ○ FlashAttention ○ vLLM 模型架构 ○ MoE ○ Speculative Decoding

55. Long-Context 推理优化 • • Layer ○ Confident Adaptive Language Modeling, 2022 ○ CoLT5: Faster Long-Range Transformers with Conditional Computation, 2023 ○ LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding, 2024 ○ You Only Cache Once: Decoder-Decoder Architectures for Language Models, 2024 Head ○ GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, 2023

56. Long-Context 推理优化 • • Head ○ Retrieval Head Mechanistically Explains Long-Context Factuality, 2024 ○ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of- Experts Language Model, 2024 Hiden ○ KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache, 2024 ○ WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More, 2024

57. Long-Context 推理优化 • Token ○ H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models, 2023 ○ Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs, 2023 ○ Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, 2024 ○ SnapKV: LLM Knows What You are Looking for Before Generation, 2024 ○ TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding, 2024

58. 参考资料 • • • • • ACL 2023 Tutorial: Retrieval-based Language Models and Applications Retrieval-Augmented Generation for Large Language Models: A Survey Retrieval-Augmented Generation for AI-Generated Content: A Survey Large Language Model Based Long Context Modeling Papers and Blogs Full Stack Transformer Inference Optimization Season 2: Deploying Long-Context Models

59. 想要了解更多？欢迎加入我们的开发者社群。让 Kimi 告诉你更多

60.

61.