Agent 如何重塑有声内容的创作与分发
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:徐文健
2.
3. 01
02
03
04
05
06
路线之争,MultiAgents vs Context?
移动互联网-> AI 时代,变量是?
4.
5. MultiAgents:Anthropic Context: Cognition
当个体智力进步趋于平缓时,通过合作和协调可以带来科技 反对观点认为不应构建多代理系统,因为上下文不一致会导
的指数级提升 致执行误差
多代理系统模拟人类社会的协作模式,各司其职完成复杂任 单一代理在保持思维连贯性方面可能更有优势
务
碳基社会:
学习现有社会的高效组织形态
VS
硅基社会:
超级天网,彻底变革人类组织形态
6. 02
移动互联网-> AI 时代,变量是?
7. 时间成本
优质内容创作需要大量时间投入,从调研选题、撰写到编辑、发布
的全流程耗时长
创作能力门槛
内容创作需要文字组织、叙事技巧、表达能力等多方面素养,普通
人难以达到专业水准
领域知识要求
专业内容需要创作者具备深厚的领域知识背景,限制了创作者的覆
盖范围
8. 拿着锤子找钉子:内容推给感兴趣的不同用户
没有达到真正意义上的千人千面
推荐系统仅能从有限内容池中筛选,而非创造定制内容
用户个体记忆和经验并没有融入内容消费体验
9. 降低创作门槛
让只具备两项要素(时间、领域知识或创作能力)的潜在创作者也
能产出高质量内容
帮助拥有三要素的创作者 * 100 提升创作能力,实现内容的规模
化生产
实现真正的个性化
为每位用户结合其记忆、偏好和背景定制内容
从"拿着锤子找钉子"转变为"送货到家"
10. 可落地性高
相比视频内容,音频生成技术更成熟,成本更可控,实现门槛更低
从技术到商业模式都有更清晰的落地路径
消费场景丰富
随着AI眼镜、AI耳机等新硬件兴起,音频内容的消费场景大幅增加
通勤、运动、家务等碎片化场景下,音频是最理想的内容形式
消费方式更轻松
我们身处视觉刺激过载的时代,用户会比以前更渴望轻松的内容消费方
式
11. 用户输入
捕获用户需求、问题、兴趣点
理解用户意图和背景
内容生成
组织信息和处理信息
创建结构化、有吸引力的内容
音频输出
转换为自然、流畅的语音
提升音频表现力
音频 Agent vs 端到端音频模型?
12. 03
核心信息的载体质量决定生成内容的上限
13. 核心信息的载体质量决定生成内容的上限
高质量的内容生成首先依赖于高质量的输入处理:
• 对用户问题进行深度理解,而非简单把问题扔给大模型
• 识别问题背后的真实需求和意图
• 判断所需信息的类型、深度和广度
• 确定最适合的内容结构和表达方式
• 评估是否需要补充外部信息源
14. 我们不会直接将用户的原始问题丢给脚本生成器:
问题分析
解析用户问题的核心要素、意图和背景
确定问题类型和所需专业领域
信息补充
判断是否需要通过搜索获取额外信息
收集相关背景资料和最新数据
结构规划
根据问题类型选择合适的内容框架
设计逻辑清晰的信息组织方式
生成指令
转化为明确的内容创作指令
指定重点、深度和风格要求
15. 时效性问题 通识类问题 决策类问题
仿造新闻直播间的框架 模仿大师讲堂的框架 采用专家咨询的框架
• 最新摘要 • 基础概念 •
选项分析
• 核心矛盾 • 历史背景 • 利弊对比
• 各方观点 • 深度探索 • 专家建议
• 事件时间线 • 关键洞察 • 风险评估
• 影响分析 • 实践应用 • 行动建议
16. 1
关键词扫描
识别用户问题中的时效性词汇,如"最新"、"近期"、"突发"等
检测特定事件、人物或产品名称是否需要最新信息
2
类别分析
判断问题是否属于快速变化的领域(如科技新闻、市场动态)
评估是否涉及争议性话题, 是否需要多方观点
3
知识库检查
验证内部知识库是否包含足够回答问题的信息
确认现有信息的时效性和完整性
4
搜索即停
每轮搜索结束时, LLM 判断搜索信息是否充足,及时中止搜索
不够则开启新一轮搜索
17. 针对不同信息源定制化处理
youtube 信息源 ⇒ 字幕
twitter 信息源 ⇒ post + coments
微信文章 ⇒ 端侧爬取
pdf、word、epub、图片.....
youtube 信息源 ⇒ 识别关键时间点和主题、捕捉视觉
内容中的重要信息
twitter 信息源 ⇒ 识别主流意见和少数派声音、过滤噪
音和无关 comments...
18. 零散信息
分散的事实和数据点
缺乏上下文的孤立观点
无序的信息碎片
智能处理
主题聚类与关联分析
矛盾点识别与调和
时序与因果关系建立
研究报告
结构化的论述框架
多层次的信息呈现
有洞见的综合分析
19. 04
技术是工具,而音频内容的本质是与人沟通
20. 过度侧重故事性的问题 纯粹堆积信息的问题
过分强调故事性可能导致: 仅关注信息量可能导致:
• 信息密度不足 •
难以吸引听众注意
• 核心观点被淹没 •
记忆点不清晰
• 过多无关细节 •
缺乏情感连接
• 内容虚而不实 •
听觉疲劳
我们的平衡策略
通过精心设计的叙事蓝图,在故事性叙
述中嵌入高密度信息
利用“三幕剧结构”、“开场钩子”,“叙事
弧光” 等叙事技巧增强信息记忆点,而非
简单堆砌事实
21. 问题:直接让 AI 基于长文写脚本会很虚
1
内容深度不够
AI生成内容常常覆盖面过广,缺乏明确焦点, 什么都聊没聊透
过多并列观点导致核心信息被淡化
2
内容同质化
往往陷入一问一答的枯燥重复,听多了很腻
3
逻辑性不够
缺少高质量播客应有的逻辑递进和过渡
4
解决方案
参考剧本的创作方式。构建叙事蓝图
22. 传统AI开场的问题 人类认知规律
AI生成的开场白往往难以理解人类对"钩子"的感知 研究表明有效的开场需要:
•平铺直叙,缺乏吸引力 •快速建立情感共鸣
•模板化严重,千篇一律 •创造认知悬念或冲突
•缺少情感钩子和悬念 •提供明确的价值预期
•未能在黄金30秒内抓住听众 •使用具体而非抽象的表达
我们通过设计不同场景下的具体策略,将感性的创作问题转化为有章可循的逻辑问题
•提问式:说起AI的最新进展,你关注2025年6月6号的新闻了吗?
•开门见山式:我们今天来探讨一个很有意思的话题
•共鸣式:最近很多人都在思考一个问题
23. 建立叙事骨架
使用专业叙事技巧设计内容结构,作为AI创作的框架
在骨架中明确划分信息要素的位置和比重
平衡叙事提示
精心设计提示词,同时保留增强戏剧性的元素和服务知识传递的要素
根据内容类型调整戏剧性和专业性的比例
角色设定优化
设计多样化的角色组合,如好奇的主持人与专业的嘉宾
通过角色互动自然呈现不同层次的信息
构建分镜脚本
参考专业剧本创作方式,构建详细的内容分镜
确保逻辑递进和自然过渡,避免内容同质化
24. 05
25. 响应速度挑战 优化策略
高质量音频内容生成面临的速度挑战: 我们采取多方面措施提升响应速度:
• 多步骤串行处理导致累积延迟 •
实现关键步骤的并发异步处理
• 外部API调用增加不确定性 •
采用段落级音频并行生成
• 音频合成本身耗时较长 •
针对不同场景选择最适合的模型
• 用户体验对实时性有较高要求 •
优化 llm 调度方案
•
实现预热机制和智能缓存
通过这些技术手段,我们将响应时间控制在用户可接受范围内,同时保证内容质量
26. 一致性保障
链路中设立多个检查点,对大模型的偶发性格式问题进行修补纠错或重试
质量控制
机评模型兜底,设置明确的质量阈值,低于阈值重新生成
27. Agent/模型迭代带来的不稳定问题
建立可靠的评估体系,确保升级不影响基础功能
28. 06
29. 真正的千人千面
基于用户记忆、知识图谱和行为模式,创
建真正个性化的内容体验
内容不再是静态产品,而是动态生成的个
人专属体验
重塑内容创作生态
降低创作门槛,催生新型创作者角色和商
业模式
建立更加开放、多元的内容生态系统
无处不在的音频助手
随着AI硬件普及,音频Agent将融入日常
生活的各个场景
从通勤、工作到休闲、学习,提供无缝的
智能音频体验
认知增强工具
音频Agent将成为人类认知的延伸,帮助
处理和理解复杂信息
创造人机协同的新模式,释放人类创造力
30.
31. Explore the limits of AI applications
演讲人:徐文健
32. 官网:https://listenhub.ai/