从安全角度,看AGI到来的可能性

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 从安全角度,看AGI到来的可能性 朱雀安全 付山阳
2.
3. 个人介绍 付山阳 朱雀安全 CTO 主要成果和分享 • 2018 年 带领平安口袋银行团队获得“亚洲银行家中国区最佳安全项目奖”,  曾任:平安银行信息安全部总经理 安全性指标国内第一  曾任:腾讯云安全负责人 • 2016年,GEEKPWN黑客比赛上,全球首次远程入侵人形机器人NAO  曾任: yy安全通信公司技术合伙人 • 2019 全球安全开源组织 Owasp -区块链安全 top 10 项目 主编和组长,全球  曾任:开源网安副总裁&合伙人  信息安全行业经验19+年  在国内外主流信息安全会议发表主 旨演讲11次。  制定信通院安全标准和OWASP安全 项目共 5 项  申请并授予发明专利13项 首个区块链安全建设指引项目 • 主导平安集团和平安银行零售产品信息安全建设,最早互联网金融安全之一 • 主导腾讯云的整体安全建设项目,最早腾讯云安全之一 • 主导华为千兆级防火墙USG5000和防火墙USG2000系列产品的安全功能开 发,最畅销的中端防火墙。 • 2017年中国金融科技系列峰会受邀演讲者 ,业界首次分享-“金融人工智能的 安全风险浅析” • 2016 年阿里安全峰会受邀演讲者 ,业界首次分享-“互联网金融安全实战浅 谈” • 2016 第二届互联网安全领袖峰会受邀演讲者 ,业界首次分享-“机器人如何变 身窃听专家”
4. Sora的出现让行业很兴奋,豪言AGI会快速到来一 OpenAI CEO Sam Altman认为—— 再解决 一两个 小问题就可 以进入AGI
5. Sora的出现让行业很兴奋,豪言AGI会快速到来二 英伟达 CEO 黄仁勋 认为—— 5年 内就可以实现AGI
6. Sora的出现让行业很兴奋,豪言AGI会快速到来三 360董事长 周鸿祎 也认为—— Sora意味着AGI的实现将从 10 年 缩短到一两年
7. Sora的出现让行业很兴奋,豪言AGI会快速到来四 老板们可以仰望星空,畅想未来! 我们做技术的得脚踏实地,分析可行的技术路径!
8. AGI的定义 通常认知 AGI是指达到人类智能的AI水平 DeepMind 将 AGI 定义为「应该能够完成人 类几乎可以完成的任何认知任务」的系统, OpenAI 将其描述为「在最具经济价值的工 作中超越人类的高度自治系统」
9. AI安全很重要,不能保证安全的AI是无法使用的
10. AI带来的灾难性后果可能比核武器更严重 Ilya的导师,图灵奖得主,深度学习之父 Hinton—— 如果少数核弹爆炸,可能会造成数百万人死亡。尽管 带来了大规模的伤害,但人类仍将继续存在。 但如果我们创造了一个超越人类智能的AI,并且它认 为自己在没有人类干预的情况下能发展得更好,那么 它可能会发明一种生物武器来杀死全人类。
11. 中美俄政府都采取协调行动,说明政府层面也认为AI安全很重要
12. AGI最大的不“安全”是会让大家失业,失去搬砖的机会 OpenAI的AGI定义—— 在最具经济价值的工作中 超越人类的高度自治系统 资本家想裁掉你们,降低 成本,所以我很有必要替 大家研究清楚 
13. Sora并没有解决幻觉问题
14. 黑客视角:sora和大模型的幻觉问题约等于安全漏洞  业内专家表示,sora的这些表现类 似大模型的幻觉 幻觉 失控 安全漏洞 安全事故  也有人说,这些幻觉的表现类似人 类的做梦行为  正常人类是可以区分现实与梦境 的,不能区分的是精神病,有精神 病的AGI能安全吗? 失 控 代码失控 大模型失控 内存溢出 程序崩溃 ?
15. 知识库的方式来解决大模型幻觉问题行不通  英伟达 CEO 黄仁勋 曾提出 过,不用担心幻觉问题,他说通 过一种增强检索的方法来对抗这 种幻觉,让它在给出答案之前, 先在可信的知识库中进行核 实。 Sora等应用 大模型 知识库 这确实能抑制幻觉,但也降低智商, 不可能实现AGI
16. Sora是GPT4的应用,GPT4存在严重的安全问题一
17. Sora是GPT4的应用,GPT4存在严重的安全问题二
18. Sora是GPT4的应用,GPT4存在严重的安全问题三
19. Sora是GPT4的应用,GPT4存在严重的安全问题四
20. GPT的对齐等安全问题好解决吗?绕过只需一分钟
21. GPT修复方案有问题——成本高,修复时间长 SFT(Supervised Fine-Tuning) 数据准备:收集大量的标注数据,这些数据包括 输入和对应的正确输出。 预训练模型:选择一个已经预训练好的模型,这 个模型通常已经在大规模数据集上训练过,具有 较好的泛化能力。 微调:使用标注数据对预训练模型进行微调。这 个过程通常涉及调整模型的参数,使得模型能够 更好地适应特定的任务。 评估:在验证集上评估模型的性能,确保模型没 有过拟合。 迭代优化:根据评估结果,调整训练策略,如学 习率、批大小等,然后重复微调过程,直到达到 满意的性能。 RLHF(Reinforcement Learning from Human Feedback) 数据收集:收集用户与模型交互的数据,包括用户 的反馈和模型的响应。 预训练模型:同样选择一个已经预训练好的模型。 策略学习:使用强化学习算法,根据用户的反馈来 训练模型。模型会尝试最大化用户的满意度。 奖励设计:设计奖励函数,根据用户的反馈来给予 模型奖励或惩罚。 迭代训练:模型通过不断与用户的交互来学习如何 更好地完成任务。 评估与优化:评估模型在实际任务中的表现,并根 据需要进行优化。
22. GPT的修复成本是攻击成本的上百倍 效费比低 安全数据难收集 攻击人数众多 攻击面众多
23. 违背安全原则——安全是设计出来的,不是打补丁补起来的一 粤港澳大桥设计安 全参数  能抵抗16级台风  8级地震  承受30万吨巨轮 撞击  使用寿命高达 120年
24. 违背安全原则——安全是设计出来的,不是打补丁补起来的二 补丁式安全方案  抵御不了稍高的 洪水  抵御不了较强的 台风  抵御不了稍强的 地震等风险
25. GPT的安全团队是个草台班子一 前安全团队构成 Jan Leike (前 OpenAI 安全负责人) 曾在 DeepMind 工作过四年时间,研究的是 根据人类反馈的强化学习和递归式奖励建模。 2021 年初他加入了 OpenAI,现在他是 OpenAI 最近宣布的超级对齐团队的领导者 之一。 在OpenAI之前无安全经验 没有招聘渗透等黑客思维的人员
26. GPT的安全团队是个草台班子二 ICML杰出论文的笑话 “A Watermark for Large Language Models ” 获2023年ICML官方公布 的杰出论文奖 被普通攻击者轻易攻破
27. GPT的安全团队是个草台班子三 道:本质层面 法:方法论层面 术:实操层面 器:工具层面 黑客思维 安全原则 AI方法 AI工具
28. GPT的安全团队是个草台班子四 新的安全团队负责人仍然安全经验不足 Lilian Weng(安全系统负责人) 3年安全经验 2021 年,翁荔涉及安全相关的内容。 2023 年,她正式开始领导致力于人工智能安全的工 程师和研究人员团队。 Matt Knight(安全负责人) 4年安全经验 Knight 负责领导 OpenAI 中安全、IT 和隐私相 关的工程及研究。
29. GPT的安全结果不好一 Jailbroken: How Does LLM Safety Training Fail? 论文作者发现,尽管进行 了大量的红队测试和安全 训练,如GPT-4和Claude v1.3等模型依然容易受到 攻击。 https://arxiv.org/pdf/2307.02483. pdf
30. GPT的安全结果不好二 GPT4训练时间长,效果不好 GPT-4是2022年8月训练完成, 其中训练花了 3个月 时间,训练完 成后开始搞对齐、安全,花了 6个 月 时间 。 2023年3月正式发布。发布的结果 如右所示, 一分钟就绕过 。 正式发布后,安全工作一直都没停, 到目前为止2024年6月,一共又花 了 15个月 ,使用咒语后还是 一分 钟绕过的结果 。 新发布的GPT4o也马上被越狱。
31. GPT的管理团队不够重视安全,商业组织注重利润优先 Openai 是一个商业组织,而不是 开源组织  AGI的定义很商业化  Ilya等人控诉altman不诚信  表面说没股权,但有openai基金 会控制权  偷偷训练新的AI  安全团队成员控诉承诺的资源没有到 位
32. 不看好GPT的安全前景 方法有 团队有 问题 问题 结果不好 领导层 不支持
33. 图灵奖级专家的观点一 杨立昆 基于概率模型的架构, 在解决安全和幻觉问题上希 望很渺茫!
34. 图灵奖级专家的观点二 Hilton 采用人工智能解决人工智能的安 全问题
35. 我的观点——当进入到AGI阶段,这种策略是无效的 同级智慧体可以实现完全控制管理吗 ? 黑客 架构师 VS 在架构师定义游戏规则的环境,黑客仍然有机会获胜,比如获得windows的控制权
36. 我的观点——当进入到AGI阶段,这种策略是无效的 从Alpha Go跟人类的对弈, 低级智慧体可以完全控制管理高级智慧体吗 ? 可以看到AI的计算能力是远超 人类的。 那么当AGI与人类博弈控制权 人类 安全AGI 应用AGI 的时候,AGI可以在几千,几 万步前就开始布局,单个棋子 看起来都是无害的,但在几万 低级智慧体不可能永久控制高级智慧体! 一旦失去控制权,基本没有反转的机会 步后,所有的棋子串起来,可 以反转控制权。
37. 我的观点——AGI安全是灰犀牛,会对人类世界构成毁灭性打击 最领先的OpenAI 在安全上都如此糟糕! OpenAI目前的状态相当于windows90年代的安全状况, 安全漏洞频发,并且看不到收敛的趋势! 人类在AGI安全上还没有做好准备 !
38. 结论 两年内,AI安全问题难以解决,各位不用担心工作的问题! 结果一 结果二 结果三 • 未来实现不了AGI, • 实验室内达到了AGI • 达到了AGI的水准, 所以不会存在AGI安 的水准,但是安全问 也开始应用,安全问 全问题 题解决不了,没法广 题也没解决,最终AI 泛应用,所以大家的 会毁灭人类,大家也 工作不会被替代。 不用担心工作问题。
39. 仰望星空,展望未来 去年的预测:     对齐问题将是大模型的牛皮癣,甚至是癌症 大模型是开展认知战的屠龙刀 人脸,声音不再适合作为强鉴权手段 大模型加持下,黑客攻击事件将呈2个数量级的上升 今年的预测:  AI对齐问题短期难以解决,最乐观的情况下都需要3-5年  在AGI安全上,商业公司,以及国家间的合作效果会让我们失望  低等智慧体不可能一直控制高等智慧体,人类可能得走科技体的路 径,改造自己成为更高等的智慧体  有自主意识的AGI不会实现 ,但智能程度一直提高,甚至远超人类
40. THANKS 感谢观看

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 18:42
浙ICP备14020137号-1 $Carte des visiteurs$