从安全角度，看AGI到来的可能性

1. 从安全角度，看AGI到来的可能性朱雀安全付山阳

2.

3. 个人介绍付山阳朱雀安全 CTO 主要成果和分享 • 2018 年带领平安口袋银行团队获得“亚洲银行家中国区最佳安全项目奖”，  曾任：平安银行信息安全部总经理安全性指标国内第一  曾任：腾讯云安全负责人 • 2016年，GEEKPWN黑客比赛上，全球首次远程入侵人形机器人NAO  曾任： yy安全通信公司技术合伙人 • 2019 全球安全开源组织 Owasp -区块链安全 top 10 项目主编和组长，全球  曾任：开源网安副总裁&合伙人  信息安全行业经验19+年  在国内外主流信息安全会议发表主旨演讲11次。  制定信通院安全标准和OWASP安全项目共 5 项  申请并授予发明专利13项首个区块链安全建设指引项目 • 主导平安集团和平安银行零售产品信息安全建设，最早互联网金融安全之一 • 主导腾讯云的整体安全建设项目，最早腾讯云安全之一 • 主导华为千兆级防火墙USG5000和防火墙USG2000系列产品的安全功能开发，最畅销的中端防火墙。 • 2017年中国金融科技系列峰会受邀演讲者，业界首次分享-“金融人工智能的安全风险浅析” • 2016 年阿里安全峰会受邀演讲者，业界首次分享-“互联网金融安全实战浅谈” • 2016 第二届互联网安全领袖峰会受邀演讲者，业界首次分享-“机器人如何变身窃听专家”

4. Sora的出现让行业很兴奋，豪言AGI会快速到来一 OpenAI CEO Sam Altman认为—— 再解决一两个小问题就可以进入AGI

5. Sora的出现让行业很兴奋，豪言AGI会快速到来二英伟达 CEO 黄仁勋认为—— 5年内就可以实现AGI

6. Sora的出现让行业很兴奋，豪言AGI会快速到来三 360董事长周鸿祎也认为—— Sora意味着AGI的实现将从 10 年缩短到一两年

7. Sora的出现让行业很兴奋，豪言AGI会快速到来四老板们可以仰望星空，畅想未来！我们做技术的得脚踏实地，分析可行的技术路径！

8. AGI的定义通常认知 AGI是指达到人类智能的AI水平 DeepMind 将 AGI 定义为「应该能够完成人类几乎可以完成的任何认知任务」的系统， OpenAI 将其描述为「在最具经济价值的工作中超越人类的高度自治系统」

9. AI安全很重要，不能保证安全的AI是无法使用的

10. AI带来的灾难性后果可能比核武器更严重 Ilya的导师，图灵奖得主，深度学习之父 Hinton—— 如果少数核弹爆炸，可能会造成数百万人死亡。尽管带来了大规模的伤害，但人类仍将继续存在。但如果我们创造了一个超越人类智能的AI，并且它认为自己在没有人类干预的情况下能发展得更好，那么它可能会发明一种生物武器来杀死全人类。

11. 中美俄政府都采取协调行动，说明政府层面也认为AI安全很重要

12. AGI最大的不“安全”是会让大家失业，失去搬砖的机会 OpenAI的AGI定义—— 在最具经济价值的工作中超越人类的高度自治系统资本家想裁掉你们，降低成本，所以我很有必要替大家研究清楚 

13. Sora并没有解决幻觉问题

14. 黑客视角：sora和大模型的幻觉问题约等于安全漏洞  业内专家表示，sora的这些表现类似大模型的幻觉幻觉失控安全漏洞安全事故  也有人说，这些幻觉的表现类似人类的做梦行为  正常人类是可以区分现实与梦境的，不能区分的是精神病，有精神病的AGI能安全吗？失控代码失控大模型失控内存溢出程序崩溃？

15. 知识库的方式来解决大模型幻觉问题行不通  英伟达 CEO 黄仁勋曾提出过，不用担心幻觉问题，他说通过一种增强检索的方法来对抗这种幻觉，让它在给出答案之前，先在可信的知识库中进行核实。 Sora等应用大模型知识库这确实能抑制幻觉，但也降低智商，不可能实现AGI

16. Sora是GPT4的应用，GPT4存在严重的安全问题一

17. Sora是GPT4的应用，GPT4存在严重的安全问题二

18. Sora是GPT4的应用，GPT4存在严重的安全问题三

19. Sora是GPT4的应用，GPT4存在严重的安全问题四

20. GPT的对齐等安全问题好解决吗？绕过只需一分钟

21. GPT修复方案有问题——成本高，修复时间长 SFT（Supervised Fine-Tuning）数据准备：收集大量的标注数据，这些数据包括输入和对应的正确输出。预训练模型：选择一个已经预训练好的模型，这个模型通常已经在大规模数据集上训练过，具有较好的泛化能力。微调：使用标注数据对预训练模型进行微调。这个过程通常涉及调整模型的参数，使得模型能够更好地适应特定的任务。评估：在验证集上评估模型的性能，确保模型没有过拟合。迭代优化：根据评估结果，调整训练策略，如学习率、批大小等，然后重复微调过程，直到达到满意的性能。 RLHF（Reinforcement Learning from Human Feedback）数据收集：收集用户与模型交互的数据，包括用户的反馈和模型的响应。预训练模型：同样选择一个已经预训练好的模型。策略学习：使用强化学习算法，根据用户的反馈来训练模型。模型会尝试最大化用户的满意度。奖励设计：设计奖励函数，根据用户的反馈来给予模型奖励或惩罚。迭代训练：模型通过不断与用户的交互来学习如何更好地完成任务。评估与优化：评估模型在实际任务中的表现，并根据需要进行优化。

22. GPT的修复成本是攻击成本的上百倍效费比低安全数据难收集攻击人数众多攻击面众多

23. 违背安全原则——安全是设计出来的，不是打补丁补起来的一粤港澳大桥设计安全参数  能抵抗16级台风  8级地震  承受30万吨巨轮撞击  使用寿命高达 120年

24. 违背安全原则——安全是设计出来的，不是打补丁补起来的二补丁式安全方案  抵御不了稍高的洪水  抵御不了较强的台风  抵御不了稍强的地震等风险

25. GPT的安全团队是个草台班子一前安全团队构成 Jan Leike （前 OpenAI 安全负责人）曾在 DeepMind 工作过四年时间，研究的是根据人类反馈的强化学习和递归式奖励建模。 2021 年初他加入了 OpenAI，现在他是 OpenAI 最近宣布的超级对齐团队的领导者之一。在OpenAI之前无安全经验没有招聘渗透等黑客思维的人员

26. GPT的安全团队是个草台班子二 ICML杰出论文的笑话 “A Watermark for Large Language Models ” 获2023年ICML官方公布的杰出论文奖被普通攻击者轻易攻破

27. GPT的安全团队是个草台班子三道：本质层面法：方法论层面术：实操层面器：工具层面黑客思维安全原则 AI方法 AI工具

28. GPT的安全团队是个草台班子四新的安全团队负责人仍然安全经验不足 Lilian Weng（安全系统负责人） 3年安全经验 2021 年，翁荔涉及安全相关的内容。 2023 年，她正式开始领导致力于人工智能安全的工程师和研究人员团队。 Matt Knight（安全负责人） 4年安全经验 Knight 负责领导 OpenAI 中安全、IT 和隐私相关的工程及研究。

29. GPT的安全结果不好一 Jailbroken: How Does LLM Safety Training Fail? 论文作者发现，尽管进行了大量的红队测试和安全训练，如GPT-4和Claude v1.3等模型依然容易受到攻击。 https://arxiv.org/pdf/2307.02483. pdf

30. GPT的安全结果不好二 GPT4训练时间长，效果不好 GPT-4是2022年8月训练完成，其中训练花了 3个月时间，训练完成后开始搞对齐、安全，花了 6个月时间。 2023年3月正式发布。发布的结果如右所示，一分钟就绕过。正式发布后，安全工作一直都没停，到目前为止2024年6月，一共又花了 15个月，使用咒语后还是一分钟绕过的结果。新发布的GPT4o也马上被越狱。

31. GPT的管理团队不够重视安全，商业组织注重利润优先 Openai 是一个商业组织，而不是开源组织  AGI的定义很商业化  Ilya等人控诉altman不诚信  表面说没股权，但有openai基金会控制权  偷偷训练新的AI  安全团队成员控诉承诺的资源没有到位

32. 不看好GPT的安全前景方法有团队有问题问题结果不好领导层不支持

33. 图灵奖级专家的观点一杨立昆基于概率模型的架构，在解决安全和幻觉问题上希望很渺茫！

34. 图灵奖级专家的观点二 Hilton 采用人工智能解决人工智能的安全问题

35. 我的观点——当进入到AGI阶段，这种策略是无效的同级智慧体可以实现完全控制管理吗？黑客架构师 VS 在架构师定义游戏规则的环境，黑客仍然有机会获胜，比如获得windows的控制权

36. 我的观点——当进入到AGI阶段，这种策略是无效的从Alpha Go跟人类的对弈，低级智慧体可以完全控制管理高级智慧体吗？可以看到AI的计算能力是远超人类的。那么当AGI与人类博弈控制权人类安全AGI 应用AGI 的时候，AGI可以在几千，几万步前就开始布局，单个棋子看起来都是无害的，但在几万低级智慧体不可能永久控制高级智慧体！一旦失去控制权，基本没有反转的机会步后，所有的棋子串起来，可以反转控制权。

37. 我的观点——AGI安全是灰犀牛，会对人类世界构成毁灭性打击最领先的OpenAI 在安全上都如此糟糕！ OpenAI目前的状态相当于windows90年代的安全状况，安全漏洞频发，并且看不到收敛的趋势！人类在AGI安全上还没有做好准备！

38. 结论两年内，AI安全问题难以解决，各位不用担心工作的问题！结果一结果二结果三 • 未来实现不了AGI， • 实验室内达到了AGI • 达到了AGI的水准，所以不会存在AGI安的水准，但是安全问也开始应用，安全问全问题题解决不了，没法广题也没解决，最终AI 泛应用，所以大家的会毁灭人类，大家也工作不会被替代。不用担心工作问题。

39. 仰望星空，展望未来去年的预测：     对齐问题将是大模型的牛皮癣，甚至是癌症大模型是开展认知战的屠龙刀人脸，声音不再适合作为强鉴权手段大模型加持下，黑客攻击事件将呈2个数量级的上升今年的预测：  AI对齐问题短期难以解决，最乐观的情况下都需要3-5年  在AGI安全上，商业公司，以及国家间的合作效果会让我们失望  低等智慧体不可能一直控制高等智慧体，人类可能得走科技体的路径，改造自己成为更高等的智慧体  有自主意识的AGI不会实现，但智能程度一直提高，甚至远超人类

40. THANKS 感谢观看