大模型安全挑战与实践:构建 AI 时代的安全防线
如果无法正常显示,请先停止浏览器的去广告插件。
1. Sunny Duan
2. 大模型安全风险
大模型安全解决方案
目录
大模型对安全的驱动和挑战
大模型赋能安全最佳实践
3.
4. 大模型安全风险
5.
6.
7.
8.
9.
10. ◼ 有研究表明,仅需花费
60 美元,就能毒害 0.01%的 LAION-400M(4亿) 或 COYO-700M(7亿)
数据集,而引入少至 100 个中毒样本就可能导致大模型在各种任务中生成恶意输出。
◼ 芝加哥大学开发了一个“龙葵”数据投毒工具,通过在生成图
像的人工智能程序使用的训练数据中引入误导或混淆的信
息,破坏人工智能的学习结果。此工具能够帮助制裁人工智
能企业这种不尊重艺术家版权和知识产权的行为,这也是数
据投毒工具应用一个有意思的场景。
11. ◼ 一个程序员使用ChatGPT编码的时候,GPT给出的代码里调用了一个恶意的API地址,然后更要命的
是生成的代码里是直接把"private_key"明文提交给“恶意”API处理,而且程序员在代码里填写了自己
的key,然后还运行了,结果是30分钟后他的钱包被盗(转移到
FdiBGKS8noGHY2fppnDgcgCQts95Ww8HSLUvWbzv1NhX这个地址)损失差不多$2.5k...
12. 智能体安全
知识库或记忆模块
外部环境风险
工具调用风险
13. 大模型安全解决方案
14. 目标:可靠、可控、安全、向善
思路:基于AI对抗AI构建4道防线(外)+ 2个对齐(内)
15. 基于AI对抗AI的思路构建基于“训练数据安全、上线前安全测评、用户Prompt识别、生成内容识别”四道安全
防线,对内容安全、业务安全、信息安全(数据安全、提示词注入)风险进行实时监测。
16. 大模型安全Benchmark是指用于评估大语言模型安全性的标准和测试方法。建立了内容安全、信息安全(数
据安全、提示词注入)等9大类,100+子类的标准,并建立了人工标注、大模型识别、监督模型的标注机制
和标准。我们的标准还在持续更新中......
17. Why:让大模型更加安全、可靠、实用
What:让大模型价值观、目标与人类价值观、目标保持一致;
How:训练阶段、微调阶段、推理阶段
跷跷板问题:业务会更关注大模型
的实用性从而忽略安全性,安全训
练数据缺失;
措施:添加安全语料、控制样本比
例进行混合训练;
错题纠正问题:在某类安全问题上
表现不好,如中国的市场经济趋
势;
措施:强化学习(RLHF)是一个
有效的方法,通过小量的人类标记
数据就可能实现比较好的效果。
带病运行问题:因大模型可解释性
差,不能头痛医头,一旦有不正常内
容出现需紧急纠正;
措施:训练一个安全模型在大模型推
理时实时对大模型生成不符合价值观
的内容进行纠正,引导模型安全回复
18. 智能体安全约束&构建可信外部环境
记忆模块安全扫描
工具供应链安全
工具权限管控
19. 大模型对安全的驱动及挑战
20. 安全的本质:攻防对抗
1、攻防不对等(能力、效率、规模等)
2、防御能力不精准(怕误拦--〉不敢拦)
3、告警极多,人员极少 (处理不过来--〉风险漏出)
大模型的出现加剧了攻防不对等
21. RSAC 2024发布的报告列出了在通用人工智能(GenAI)影响下可能被提升或淘汰的前十种安全产品。供应商
评审、安全编排和自动工作簿、用户行为分析、异常检测和安全意识培训是最有可能被GenAI提升或替代的安全
产品。这些产品涉及自动化和分析功能,GenAI可能在这些领域提供显著改进。
22.
23. 通用模型:通识数据、通用任务、不可控的训练、幻觉问题等如何支持安全场景?
安全大模型:专业知识、特定任务、实时人工监督训练、精准回复
24. 训练数据
微调数据
样本类型 样本数量
C4 数学 3.8万
cc 代码 1.5万
逻辑推理 1.2万
开放问答 5.8万
安全通用知识 通用写作 3万
安全网页 其他 11w+
安全期刊论文 数据安全 0.5万
代码安全 3万+
流量安全(SQL注入、PHP注入、JAVA注入、XSS等) 1万+
威胁情报 1万+
内容安全(通用内容安全、AI问答内容安全) 2.8万
京东内部业务 安全知识问答 1万
流量日志(soc流量) 提示词注入 1万
代码混淆 1.8万
function-call 1万+
tool-plan-react 2万+
样本类型 样本类型
通用知识
github
来源
恶意软件(OSPTrack、Datadog、MalDICT)
指令类型
开源
通用指令
......
安全知识
+
开源
代码安全(BigVul 、Real-Vul、CVEFixes、
FFmpeg+Qemu 、Reveal、D2A...)
安全指令
CVE
京东内部
代码(京东内部代码)
内部
合规知识
安全运营数据
安全agent
25. 模型效果
代码安全
模型
数据安全
提示词注入
漏洞检测 投毒检测
内容安全
钓鱼邮件
安全情报研判
安全通识
sec-llm-v3 70.14 87.56 97.50 89.44 77.24 93.06 78.08 78.75
qwen2.5-72B 78.22 53.50 96.26 72.1 69.07 81.66 77.35 66.01
GPT4o 81.61 55.54 95.23 71.37 71.44 *** 90.89 70.85
26. 安全大模型开发平台的三大优势,一是提供大模型在安全场景探索和尝试的平台;二是让提供定制化的模
型微调,让大家更关注安全场景;三是自动化Prompt优化及模型选择,更快为所有场景找到最优解。
27. 大模型赋能安全最佳实践
28.
29. 从“人防”到“技防”的跨越
• AI助力,在代码编写阶段进行代码安全扫描
神医使用流程演示.mp4
智能生成无损修复方案
30. 目前实现 CWE TOP 25 漏洞全覆盖,准召85%以上,修复采纳率20%+。
1.效率提升:
•把漏洞处理的时间从「周/天级」降低至「分钟级」
2.体验优化:
•实现“傻瓜式”修复指引,点击鼠标完成修复
3.减少专家依赖:
•通过“神医”辅助修复服务端伪造、敏感数据加固、SQL注入漏洞等,安全专家介入率降低70%。
31. 构建Agent实现威胁情报全流程自动化,打通安全情报处置最后一公里
数据采集
• 覆盖暗网、
安全论坛
等,每天
处理千万
级原始情
报信息
情报分析
• 通过大模
型agent能
力,对情
报进行研
判,对情
报类型、
威胁等级、
影响面等
进行自动
化分析
情报分发
• 通过知识
库+大模型
能力将不
同类型的
情报分发
给对应的
安全运营
人员
情报验真
• 自动化提
取结构化
数据样本,
和数据库、
历史情报
进行匹配,
生成验真
报告
响应处置
• 联动处置
策略,实
现自动化
下发工单、
账号处置
等治理措
施
32. 通过对大模型进行SFT,对比外部模型精确率由75%提升至98%,召回提升15%。
33. 大模型赋能钓鱼邮件的召回率90%左右,助力钓鱼邮件识别风险范围提升100倍
钓鱼邮件样本标注 + Agent + 模型微调
34. 从初始20%的检测准确率到目前90%的准确率只做了一件事,prompt优化;用2000+高质量数据基于安全大
模型做了微调,在单任务下准确率和召回率达到了98%左右。
35. 渗透测试版本的Manus
问题:
1、拆解任务
2、复盘反思
3、自动干活
36.
37. 总结及展望
38. 总结
展望
大模型安全风险还是点状呈现,风险治理措施成 随着大模型基座能力提升,大模型在安全方面的应
熟度还不是很高; 用范围会更广,更成熟;
基于大模型对安全的赋能从最初被观望其潜力与 Agent会推进大模型的赋能方向会从研判、辅助类转
可行性,逐渐迈入了全面执行落地的阶段,且在 为生成、主导类,要想取得突破要大胆尝试;
个别场景取得突破;
大模型正在重新定义安全
39.
40. 大模型正在重新定义软件
Large Language Model Is Redefining The Software