理解 Prefill / Decode:AI 回答慢,慢在输入还是输出?

摘要

AI回答慢分两种:迟迟不开口是“读题”阶段(Prefill),受输入长度影响;开口后说很慢是“写答案”阶段(Decode),受输出长度影响。长上下文会让两阶段都变慢,优化需对症下药。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-07-02 20:22
浙ICP备14020137号-1 $bản đồ khách truy cập$