Long-Context vs RAG:谁将主导未来?
如果无法正常显示,请先停止浏览器的去广告插件。
1. Long-Context vs RAG
谁将主导未来?
唐飞虎@MoonshotAI
2.
3. 大纲
• RAG
○ 什么是 RAG?
○ RAG 相关的技术与框架
• Long-Context
○ Long-Context 的发展历程
○ Long-Context 摩尔定律?
○ Long-Context 的评测:长文本和长文本亦有差距
• 能力边界与优势区间
• 更多案例
• 突破限制:如何提升 RAG 和 Long-Context 的边界
4. RAG
5. 什么是 RAG?
• RAG 全称 Retrieval-Augmented Generation,即检索增强生成,它
结合了检索和生成的能力,为文本序列生成任务引入外部知识。
• 目前,大部分公司倾向于使用 RAG 方法进行信息检索,因为相比长
文本的使用成本,使用向量数据库的成本更低。
• 而在 RAG 应用过程中,一些公司会使用微调的 Embedding Model,
以增强 RAG 的检索能力;另一些些公司会选择使用知识图谱或者
ES 等非向量数据库的 RAG 方法。
• 大多数第三方个人和企业开发者会使用集成好的 RAG 框架(例如
llamaindex、langchain、etcs)
• 或者直接使用 LLMOps 里内建的 RAG 工具。
6. 例子
7.
8.
9.
10.
11.
12.
13. 什么是 RAG
(Retrieval Augmented Generation)?
14.
15.
16.
17.
18.
19.
20. Long-Context
21.
22.
23.
24.
25.
26.
27. Long-Context 的评测
•
•
•
•
上下文长度可能存在摩尔定律,目前尚未触碰真正的瓶颈。
目前从硬件、架构、算法等多种角度优化模型上下文长度的技术方案。
很多厂商生称其模型支持百万、甚至五百万上下文长度。
但长文本和长文本之间在质量和效果上亦有差距,「要同时优化长度和
无损压缩水平两个指标,才是有意义的规模化」。
28.
29.
30. 核心技术全球领先:已支持200万字无损长窗口
从20万字到200万字无损长窗口,只用了不到 6 个月
约 20 万字
约 10 万字
约 16 万字
约 80 万字
约 200 万字
正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正
正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正
正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正
正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正
2023年10月上旬 2023年11月上旬 2023年11月下旬 2024年2月中旬 2024年3月中旬
月之暗面
20 万汉字 Kimi OpenAI
128K GPT-4 Anthropic
200K Claude
2.1 Google
1M Gemini 1.5 月之暗面
200 万字 Kimi
31. 长窗口「无损压缩」能力强,不错过每个细节
“数星星”测试是大海捞针的升级版,由腾讯MLPD实验室自主进行,结果发表在 ArXiv 上
100%
准确率
98.8
96.8
96.5
86.4
Kimi
GPT-4
16(2^4)
Kimi
GPT-4
32(2^5)
来源:https://arxiv.org/abs/2403.11802
93.1
Kimi
89.7
GPT-4
64(2^6)
计数次数
32.
33. 能力边界与优势区间
34. RAG
•
•
Pros.
○ 无需额外训练
○ 速度快
○ 成本低
○ 工程方案成熟
○ 可设计多级检索方案
Cros.
○ Embedding 召回效果直接影响模型回答效果
○ 无法处理复杂逻辑
○ 对多模态支持不足
35. Long-Context
•
•
Pros.
○ 无需额外训练
○ 上下文兼顾更全面
○ 可处理复杂逻辑和依赖
Cros.
○ 贵且慢
○ 长度有限
36. 更多案例
37.
38.
39.
40.
41.
42. 结论
• Long-Context:修炼模型基本功
• RAG:扩展模型能力边界
• Long-Context + RAG 互补:给予开发者无限可能
43. 结论
• Software Engineering is about trade-offs: make sure
you have options!
• 何时使用 RAG,何时依赖模型 Long-context 能力?
• 考验架构师和产品经理对模型边界和现有 SOTA 框架
的运用与理解。
44. 突破限制
45. RAG
•
•
Pros.
○ 无需额外训练
○ 速度快
○ 成本低
○ 工程方案成熟
○ 可设计多级检索方案
Cros.
○ Embedding 召回效果直接影响模型回答效果
○ 无法处理复杂逻辑
○ 对多模态支持不足
46. RAG
•
•
Pros.
○ 无需额外训练
○ 速度快
○ 成本低
○ 工程方案成熟
○ 可设计多级检索方案
Cros.
○ Embedding 召回效果直接影响模型回答效果
○ 无法处理复杂逻辑
○ 对多模态支持不足
47.
48. Long-Context
•
•
Pros.
○ 无需额外训练
○ 上下文兼顾更全面
○ 可处理复杂逻辑和依赖
Cros.
○ 贵且慢
○ 长度有限
49. Long-Context
•
•
Pros.
○ 无需额外训练
○ 上下文兼顾更全面
○ 可处理复杂逻辑和依赖
Cros.
○ 贵且慢
○ 长度有限
50.
51.
52. Long-Context 性能瓶颈
• 并发性能随着上下文长度的增加而反比下降。
• 预填充延迟随上下文长度的增长而呈平方级别
的增长。
• 解码延迟和上下文切换开销随上下文长度的增
加而线性增加。
53. Long-Context 性能瓶颈
• 并发性能随着上下文长度的增加而反比下降。
• 预填充延迟随上下文长度的增长而呈平方级别
的增长。
• 解码延迟和上下文切换开销随上下文长度的增
加而线性增加。
54. Long-Context 推理优化
•
•
•
硬件升级
○ A100 Memory Hierarchy
机器学习工程
○ FlashAttention
○ vLLM
模型架构
○ MoE
○ Speculative Decoding
55. Long-Context 推理优化
•
•
Layer
○ Confident Adaptive Language Modeling, 2022
○ CoLT5: Faster Long-Range Transformers with Conditional
Computation, 2023
○ LayerSkip: Enabling Early Exit Inference and Self-Speculative
Decoding, 2024
○ You Only Cache Once: Decoder-Decoder Architectures for
Language Models, 2024
Head
○ GQA: Training Generalized Multi-Query Transformer Models
from Multi-Head Checkpoints, 2023
56. Long-Context 推理优化
•
•
Head
○ Retrieval Head Mechanistically Explains Long-Context
Factuality, 2024
○ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-
Experts Language Model, 2024
Hiden
○ KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV
Cache, 2024
○ WKVQuant: Quantizing Weight and Key/Value Cache for
Large Language Models Gains More, 2024
57. Long-Context 推理优化
•
Token
○ H2O: Heavy-Hitter Oracle for Efficient Generative Inference of
Large Language Models, 2023
○ Model Tells You What to Discard: Adaptive KV Cache
Compression for LLMs, 2023
○ Dynamic Memory Compression: Retrofitting LLMs for
Accelerated Inference, 2024
○ SnapKV: LLM Knows What You are Looking for Before
Generation, 2024
○ TriForce: Lossless Acceleration of Long Sequence Generation
with Hierarchical Speculative Decoding, 2024
58. 参考资料
•
•
•
•
•
ACL 2023 Tutorial: Retrieval-based Language Models and
Applications
Retrieval-Augmented Generation for Large Language Models: A
Survey
Retrieval-Augmented Generation for AI-Generated Content: A Survey
Large Language Model Based Long Context Modeling Papers and
Blogs
Full Stack Transformer Inference Optimization Season 2: Deploying
Long-Context Models
59. 想要了解更多?欢迎加入我们的开发者社群。
让 Kimi 告诉你更多
60.
61.