Long-Context vs RAG:谁将主导未来?

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. Long-Context vs RAG 谁将主导未来? 唐飞虎@MoonshotAI
2.
3. 大纲 • RAG ○ 什么是 RAG? ○ RAG 相关的技术与框架 • Long-Context ○ Long-Context 的发展历程 ○ Long-Context 摩尔定律? ○ Long-Context 的评测:长文本和长文本亦有差距 • 能力边界与优势区间 • 更多案例 • 突破限制:如何提升 RAG 和 Long-Context 的边界
4. RAG
5. 什么是 RAG? • RAG 全称 Retrieval-Augmented Generation,即检索增强生成,它 结合了检索和生成的能力,为文本序列生成任务引入外部知识。 • 目前,大部分公司倾向于使用 RAG 方法进行信息检索,因为相比长 文本的使用成本,使用向量数据库的成本更低。 • 而在 RAG 应用过程中,一些公司会使用微调的 Embedding Model, 以增强 RAG 的检索能力;另一些些公司会选择使用知识图谱或者 ES 等非向量数据库的 RAG 方法。 • 大多数第三方个人和企业开发者会使用集成好的 RAG 框架(例如 llamaindex、langchain、etcs) • 或者直接使用 LLMOps 里内建的 RAG 工具。
6. 例子
7.
8.
9.
10.
11.
12.
13. 什么是 RAG (Retrieval Augmented Generation)?
14.
15.
16.
17.
18.
19.
20. Long-Context
21.
22.
23.
24.
25.
26.
27. Long-Context 的评测 • • • • 上下文长度可能存在摩尔定律,目前尚未触碰真正的瓶颈。 目前从硬件、架构、算法等多种角度优化模型上下文长度的技术方案。 很多厂商生称其模型支持百万、甚至五百万上下文长度。 但长文本和长文本之间在质量和效果上亦有差距,「要同时优化长度和 无损压缩水平两个指标,才是有意义的规模化」。
28.
29.
30. 核心技术全球领先:已支持200万字无损长窗口 从20万字到200万字无损长窗口,只用了不到 6 个月 约 20 万字 约 10 万字 约 16 万字 约 80 万字 约 200 万字 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 正 2023年10月上旬 2023年11月上旬 2023年11月下旬 2024年2月中旬 2024年3月中旬 月之暗面 20 万汉字 Kimi OpenAI 128K GPT-4 Anthropic 200K Claude 2.1 Google 1M Gemini 1.5 月之暗面 200 万字 Kimi
31. 长窗口「无损压缩」能力强,不错过每个细节 “数星星”测试是大海捞针的升级版,由腾讯MLPD实验室自主进行,结果发表在 ArXiv 上 100% 准确率 98.8 96.8 96.5 86.4 Kimi GPT-4 16(2^4) Kimi GPT-4 32(2^5) 来源:https://arxiv.org/abs/2403.11802 93.1 Kimi 89.7 GPT-4 64(2^6) 计数次数
32.
33. 能力边界与优势区间
34. RAG • • Pros. ○ 无需额外训练 ○ 速度快 ○ 成本低 ○ 工程方案成熟 ○ 可设计多级检索方案 Cros. ○ Embedding 召回效果直接影响模型回答效果 ○ 无法处理复杂逻辑 ○ 对多模态支持不足
35. Long-Context • • Pros. ○ 无需额外训练 ○ 上下文兼顾更全面 ○ 可处理复杂逻辑和依赖 Cros. ○ 贵且慢 ○ 长度有限
36. 更多案例
37.
38.
39.
40.
41.
42. 结论 • Long-Context:修炼模型基本功 • RAG:扩展模型能力边界 • Long-Context + RAG 互补:给予开发者无限可能
43. 结论 • Software Engineering is about trade-offs: make sure you have options! • 何时使用 RAG,何时依赖模型 Long-context 能力? • 考验架构师和产品经理对模型边界和现有 SOTA 框架 的运用与理解。
44. 突破限制
45. RAG • • Pros. ○ 无需额外训练 ○ 速度快 ○ 成本低 ○ 工程方案成熟 ○ 可设计多级检索方案 Cros. ○ Embedding 召回效果直接影响模型回答效果 ○ 无法处理复杂逻辑 ○ 对多模态支持不足
46. RAG • • Pros. ○ 无需额外训练 ○ 速度快 ○ 成本低 ○ 工程方案成熟 ○ 可设计多级检索方案 Cros. ○ Embedding 召回效果直接影响模型回答效果 ○ 无法处理复杂逻辑 ○ 对多模态支持不足
47.
48. Long-Context • • Pros. ○ 无需额外训练 ○ 上下文兼顾更全面 ○ 可处理复杂逻辑和依赖 Cros. ○ 贵且慢 ○ 长度有限
49. Long-Context • • Pros. ○ 无需额外训练 ○ 上下文兼顾更全面 ○ 可处理复杂逻辑和依赖 Cros. ○ 贵且慢 ○ 长度有限
50.
51.
52. Long-Context 性能瓶颈 • 并发性能随着上下文长度的增加而反比下降。 • 预填充延迟随上下文长度的增长而呈平方级别 的增长。 • 解码延迟和上下文切换开销随上下文长度的增 加而线性增加。
53. Long-Context 性能瓶颈 • 并发性能随着上下文长度的增加而反比下降。 • 预填充延迟随上下文长度的增长而呈平方级别 的增长。 • 解码延迟和上下文切换开销随上下文长度的增 加而线性增加。
54. Long-Context 推理优化 • • • 硬件升级 ○ A100 Memory Hierarchy 机器学习工程 ○ FlashAttention ○ vLLM 模型架构 ○ MoE ○ Speculative Decoding
55. Long-Context 推理优化 • • Layer ○ Confident Adaptive Language Modeling, 2022 ○ CoLT5: Faster Long-Range Transformers with Conditional Computation, 2023 ○ LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding, 2024 ○ You Only Cache Once: Decoder-Decoder Architectures for Language Models, 2024 Head ○ GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, 2023
56. Long-Context 推理优化 • • Head ○ Retrieval Head Mechanistically Explains Long-Context Factuality, 2024 ○ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of- Experts Language Model, 2024 Hiden ○ KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache, 2024 ○ WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More, 2024
57. Long-Context 推理优化 • Token ○ H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models, 2023 ○ Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs, 2023 ○ Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, 2024 ○ SnapKV: LLM Knows What You are Looking for Before Generation, 2024 ○ TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding, 2024
58. 参考资料 • • • • • ACL 2023 Tutorial: Retrieval-based Language Models and Applications Retrieval-Augmented Generation for Large Language Models: A Survey Retrieval-Augmented Generation for AI-Generated Content: A Survey Large Language Model Based Long Context Modeling Papers and Blogs Full Stack Transformer Inference Optimization Season 2: Deploying Long-Context Models
59. 想要了解更多?欢迎加入我们的开发者社群。 让 Kimi 告诉你更多
60.
61.

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-26 01:44
浙ICP备14020137号-1 $お客様$