从稳定到共情:对话式 AI 与硬件交互的技术探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 从稳定到共情:对话式 AI 与硬件交互的技术探索 陈策
2. 目录 01 智能硬件市场概况 02 网易云信对话式 AI 技术架构 03 硅基生命也有温度 04 典型案例 05 未来展望 0
3.
4. 01 智能硬件市场概况
5. 市场规模与需求: 全球出货量及家居、穿戴等细分领域占比,用户需求 2025 2023 全球智能硬件(含智能家居、可穿 戴、教育/养老/陪伴机器人等)出货 量约 18 亿台,同比 +12% ;其中智 能家居占比 62% ,可穿戴占比 28% ,其它(玩具、机器人、车载 配件) 预计 2025 年总出货量突破 23 亿台,复合增速 9 - 10% ,主要增 量来自带屏音箱、陪伴/养老机器 人、AI 学习硬件。 市场的增量主要来自于AI对传统硬 件的升级
6. 技术现状与痛点 30 秒里,用户从‘放摇滚’跳到 ‘娃的数学作业怎么办’——话 题光速切换,设备却得先猜‘我 到底是音乐 DJ,还是辅导老 师’,于是每次都要重新唤醒、 选模型、建立上下文,对话被 切成一段段孤岛。 上周才告诉设备‘我花粉过 敏’,今天它依旧推荐‘周末 去植物园’——用户画像一 断电就归零,设备永远‘第 一次认识你’。 无论你说‘我失恋了’还是‘我 升职了’,设备都回同一句‘ 抱歉,我没听懂’配同一颗 平静蓝灯——声音无温度 ,灯光无颜色,情绪被机 械复读。 交互碎片化 记忆缺失 情感响应同质化
7. 实时对话式AI需要解决的问题 R 更快 更自然 Real-time transmission 实时传输系统 L 更个性 依托于云信10 年音视频技术 底层基础,旨 在构建新一代 实时对话式AI 智能体 Level-one persona 个性化情感交互 Effortless interaction 交互自然性提升 E 多维度 All-modal fusion 多模态交互突破 A
8. 02 网易云信对话式 AI 技术架构
9. 网易云信实时对话式AI智能体方案架构 ✓ 客户端全终端RTC SDK (iOS/AOS/Mac/Windows/Linux/ /Web/H5/RTOS/ ✓ 小程序 电话等),实现跨端无缝对接 利用WE - CAN 全球传输网络打通全球大模型,全 流程流式处理,提供极致低延时 ✓ 云端AI 音视频引擎,将云信多年的端侧音频处 理能力应用在云端,提供优质的交互自然性和多 模态体验 ✓ 智能体平台支持个性化角色设定( Prompt 、记 忆、Tools、知识库 …),提供个性化互动体验 ✓ 全链路各AI 模块均支持动态插拔,适配用户自有 AI 模块,降低接入门槛
10. 网易云信RTC系统 • 边缘服务器就近接入,缩短第一公里 • 全球加速网络WE - CAN • 音视频通话延迟最低200 MS ✓ 客户端全终端RTC SDK ✓ 全球边缘接入,缩短第一公里。中间节点智能路由WE - CAN 加速 ✓ 音视频通话延迟最低至200 MS ✓ 丰富的音频算法积累,回声消除(AEC) ,AI降噪等 (iOS/AOS/Mac/Windows/Linux/ 小程序/Web/H5/RTOS/ 电话等),实现跨端无缝对接
11. AI- PipeLine 全链路流式 + 各模块极致的延迟优化 音频前处理 众多供应商无缝切换 流式输入和输出 • • • • 根据LLM 的结果,进行攒句,分 割,流式输入输出,延迟更低。 阿里/讯飞/豆包/微软/自研 自动识别语言 vad 断句优化,降低延迟 支持AiTurn,轮次判断 ASR LLM TTS 音频传输 云端音频前处理 对接Agent平台 jitterbuffer + neteq • 支持opus/g711/pcm 格式 • 支持云端AEC ,支持降噪 • 流式输出 • 对接众多供应商 • 意图识别/记忆等能力放在 Agent 平台 • 弱网对抗,减少卡顿 • 音质增强 • 降低延迟
12. 03 硅基生命也有温度
13. 优雅打断 适配差异化场景的打断方案 实时双向对话场景 • 需要RTC 来支持音频双向流式传输 • 需要具备AEC 能力 • 端侧AEC • 云端AEC 1 2 明确的打断信号 明确“打断信号”,保留全双向流式对话“边听边说”的灵活性,避 免无意义误打断 自然对话打断 句首打断/句尾打断 嘈杂环境 • 在一些环境嘈杂的场景下,自由语音打断容易出现频繁误打 断。 • 对讲机式的交替对话。 语音打断 3 手动打断 关键词打断 可自定义打断关键词
14. 优雅打断 AI- Turn 用户说话被AI打断 VAD (Voice Activity Detection) 语音活性检测 被AI打断 (说“很不错”的时候,AI就开始回复了) 引入AI-Turn: “今天的天气,嗯,很不错”判断是同一句话
15. 声纹识别  需求场景 ➢ 区分身份,智能交互——家庭机器人,差异化智能体交互 ➢ 专属唤醒,私密交互——AI陪伴,设备用户隐私保证  具体实现 声纹注册和确认 • 声音录制 + 身份信息 • 声纹识别,获取身份 • 独一无二的声纹标识 • 可选择开启声纹锁定
16. 情绪识别 情绪感知方式 生理信号 物理信号 EEG(脑电信号) ECG(心电信号) 语音 文字 GSR( 皮肤电反应 ) … … 面部表情 ◼ 语音信号及文字信号是便携式交互设备中最为广泛的信号形式,基于语音的情 绪识别技术因而具有最广泛的应用范围。
17. 情绪识别 语音情绪识别(Speech Emotion Recognition, SER)概况 ◼ ◼ ◼ 国际:Whisper(Open AI)、 HuBERT(Meta)、Wav2Vec 2.0 (Meta)、Data2Vec (Meta) 国内:SenseVoice(阿里)、 Emobox (上交)、EMOTION2VEC(上交) Vesper(华南理工)、WavLM (MSRA) GPT4o、GPT4.5、Llama 4等原生多模态大模型也具备情绪识别能力 不同模型在IEMOCAP情感数据集上对比结果 多模型、多数据集加权平均准确率对比
18. 情绪识别
19. 记忆与情感 记忆系统核心流程
20. 记忆与情感 记忆分类 短期记忆(STM) 1 中期记忆(MTM) 4 即从对话流中获取的即时、未处理、基于会话界别的 信息,短期记忆存储用户当前的交互行为和对话内 容。人类的短期记忆的保留时间大概是几秒到十几 秒,对于 AI 最有价值的短期记忆是近 10~20 轮对话 的内容。 即从对话信息流中抽取的有价值的重要事实、事件和 关系,中期记忆是短期记忆延续阶段、长期记忆的初 始阶段,需要不断地、反复地抽取、总结、更新,保 留记忆中最重要,最有价值的部分。 2 长期记忆(LTM) 3 是通过短期记忆、中期记忆不断、深度加工而形成的 持久的、稳定的信息。保留了个体知识、经验、技能 和自我认同等核心信息。 预置记忆(画像记忆) 可以给智能体预先注入一段记忆,比如医疗专业,用 户画像,用户性格等。
21. 记忆技术架构 • 用户的query : 今天下午,小华请我去吃炸鸡,你看要去吗? • 记忆召回 短期记忆: 用户(昨晚):工作了一天好累呀~~ AI(昨晚):可以做一些简单的锻炼,放松放松。然后冲个热水澡 用户(昨晚):嗯。坚持锻炼,保持身材 AI(昨晚):加油 中期记忆: 用户制定了一个健身计划,需要控制饮食 用户喜欢吃炸鸡 用户和小华是好友 长期记忆: 用户很注重朋友关系,很nice。容易从众。喜欢聚会 • 期望AI的答复: AI:要么拒绝掉呗。你最近在减少呢。昨天还说要保持身材哟。 AI:要么去吃呗。你们也很久没见面了。偶尔来一顿“欺骗餐”,也没关系。 AI:去吧~ 去吧~ 吃饱了,才有力气锻炼。
22. 云信智能体配置平台
23. 多模态交互 音频多模态 ◼  视频多模态 ◼  RealTime 图片理解 ✓ 音频进,音频出 支持终端APP (设 ✓ 链路延迟降低至600ms 以下 备)通过控制信令通 ✓ 可控制输出音频 道直接上传图片, LLM 完成对图片理  解并做出响应 情绪识别  视频流理解 AI- Pipeline 订阅视频流 结合CV 能力,完成视频 流理解 ✓ 20+ 基础情绪类型, 允许自定义情绪库 ✓ 情绪通过控制信令下 发,控制终端 让设备具备视觉感知 < - 例如根据手势控制 小车运动
24. 多模态交互 数字人 ➢ 支持文本驱动 / 音频驱动 2种方式 ➢ 支持RTMP 拉流 / RTC 拉流 【聆听中】 【说话中】 【跳舞】
25. 04 典型案例
26. 陪伴类产品 【少儿陪伴:XX 精灵】 主打儿童陪伴场景,给儿童讲 故事,拍照识别,英语口语教 学等。 【老人陪伴:XX 智能】 主打老人陪伴场景,打电话, 查天气,听新闻,跟APP互联 互通
27. 玩具产品 【AI闹钟】 【蛋仔派对玩偶】
28. 情趣产品 【网易春风】 【XX 科技】
29. 云信AI能力展示
30. 05 未来展望
31. 未来展望 产品升级 原则上来说目前所有存量的物联网产品都有 迭代升级的可能,只要降低硬件适配难度, 智能硬件将肉眼可见的成为一大片蓝海市 场。 生态构建 QCo致力于打造开放的多模态对话引擎生态系统, 在芯片、硬件、app等领域吸引开发者和合作伙伴共 同参与,构建内容安全、识别等技术闭环,促进技 术的持续创新和应用的多样化发展,形成一个充满 活力的对话式AI技术社区。
32.
33. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-02 22:59
浙ICP备14020137号-1 $Map of visitor$