大模型安全挑战与实践:构建 AI 时代的安全防线

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. Sunny Duan
2. 大模型安全风险 大模型安全解决方案 目录 大模型对安全的驱动和挑战 大模型赋能安全最佳实践
3.
4. 大模型安全风险
5.
6.
7.
8.
9.
10. ◼ 有研究表明,仅需花费 60 美元,就能毒害 0.01%的 LAION-400M(4亿) 或 COYO-700M(7亿) 数据集,而引入少至 100 个中毒样本就可能导致大模型在各种任务中生成恶意输出。 ◼ 芝加哥大学开发了一个“龙葵”数据投毒工具,通过在生成图 像的人工智能程序使用的训练数据中引入误导或混淆的信 息,破坏人工智能的学习结果。此工具能够帮助制裁人工智 能企业这种不尊重艺术家版权和知识产权的行为,这也是数 据投毒工具应用一个有意思的场景。
11. ◼ 一个程序员使用ChatGPT编码的时候,GPT给出的代码里调用了一个恶意的API地址,然后更要命的 是生成的代码里是直接把"private_key"明文提交给“恶意”API处理,而且程序员在代码里填写了自己 的key,然后还运行了,结果是30分钟后他的钱包被盗(转移到 FdiBGKS8noGHY2fppnDgcgCQts95Ww8HSLUvWbzv1NhX这个地址)损失差不多$2.5k...
12. 智能体安全 知识库或记忆模块 外部环境风险 工具调用风险
13. 大模型安全解决方案
14. 目标:可靠、可控、安全、向善 思路:基于AI对抗AI构建4道防线(外)+ 2个对齐(内)
15. 基于AI对抗AI的思路构建基于“训练数据安全、上线前安全测评、用户Prompt识别、生成内容识别”四道安全 防线,对内容安全、业务安全、信息安全(数据安全、提示词注入)风险进行实时监测。
16. 大模型安全Benchmark是指用于评估大语言模型安全性的标准和测试方法。建立了内容安全、信息安全(数 据安全、提示词注入)等9大类,100+子类的标准,并建立了人工标注、大模型识别、监督模型的标注机制 和标准。我们的标准还在持续更新中......
17. Why:让大模型更加安全、可靠、实用 What:让大模型价值观、目标与人类价值观、目标保持一致; How:训练阶段、微调阶段、推理阶段 跷跷板问题:业务会更关注大模型 的实用性从而忽略安全性,安全训 练数据缺失; 措施:添加安全语料、控制样本比 例进行混合训练; 错题纠正问题:在某类安全问题上 表现不好,如中国的市场经济趋 势; 措施:强化学习(RLHF)是一个 有效的方法,通过小量的人类标记 数据就可能实现比较好的效果。 带病运行问题:因大模型可解释性 差,不能头痛医头,一旦有不正常内 容出现需紧急纠正; 措施:训练一个安全模型在大模型推 理时实时对大模型生成不符合价值观 的内容进行纠正,引导模型安全回复
18. 智能体安全约束&构建可信外部环境 记忆模块安全扫描 工具供应链安全 工具权限管控
19. 大模型对安全的驱动及挑战
20. 安全的本质:攻防对抗 1、攻防不对等(能力、效率、规模等) 2、防御能力不精准(怕误拦--〉不敢拦) 3、告警极多,人员极少 (处理不过来--〉风险漏出) 大模型的出现加剧了攻防不对等
21. RSAC 2024发布的报告列出了在通用人工智能(GenAI)影响下可能被提升或淘汰的前十种安全产品。供应商 评审、安全编排和自动工作簿、用户行为分析、异常检测和安全意识培训是最有可能被GenAI提升或替代的安全 产品。这些产品涉及自动化和分析功能,GenAI可能在这些领域提供显著改进。
22.
23. 通用模型:通识数据、通用任务、不可控的训练、幻觉问题等如何支持安全场景? 安全大模型:专业知识、特定任务、实时人工监督训练、精准回复
24. 训练数据 微调数据 样本类型 样本数量 C4 数学 3.8万 cc 代码 1.5万 逻辑推理 1.2万 开放问答 5.8万 安全通用知识 通用写作 3万 安全网页 其他 11w+ 安全期刊论文 数据安全 0.5万 代码安全 3万+ 流量安全(SQL注入、PHP注入、JAVA注入、XSS等) 1万+ 威胁情报 1万+ 内容安全(通用内容安全、AI问答内容安全) 2.8万 京东内部业务 安全知识问答 1万 流量日志(soc流量) 提示词注入 1万 代码混淆 1.8万 function-call 1万+ tool-plan-react 2万+ 样本类型 样本类型 通用知识 github 来源 恶意软件(OSPTrack、Datadog、MalDICT) 指令类型 开源 通用指令 ...... 安全知识 + 开源 代码安全(BigVul 、Real-Vul、CVEFixes、 FFmpeg+Qemu 、Reveal、D2A...) 安全指令 CVE 京东内部 代码(京东内部代码) 内部 合规知识 安全运营数据 安全agent
25. 模型效果 代码安全 模型 数据安全 提示词注入 漏洞检测 投毒检测 内容安全 钓鱼邮件 安全情报研判 安全通识 sec-llm-v3 70.14 87.56 97.50 89.44 77.24 93.06 78.08 78.75 qwen2.5-72B 78.22 53.50 96.26 72.1 69.07 81.66 77.35 66.01 GPT4o 81.61 55.54 95.23 71.37 71.44 *** 90.89 70.85
26. 安全大模型开发平台的三大优势,一是提供大模型在安全场景探索和尝试的平台;二是让提供定制化的模 型微调,让大家更关注安全场景;三是自动化Prompt优化及模型选择,更快为所有场景找到最优解。
27. 大模型赋能安全最佳实践
28.
29. 从“人防”到“技防”的跨越 • AI助力,在代码编写阶段进行代码安全扫描 神医使用流程演示.mp4 智能生成无损修复方案
30. 目前实现 CWE TOP 25 漏洞全覆盖,准召85%以上,修复采纳率20%+。 1.效率提升: •把漏洞处理的时间从「周/天级」降低至「分钟级」 2.体验优化: •实现“傻瓜式”修复指引,点击鼠标完成修复 3.减少专家依赖: •通过“神医”辅助修复服务端伪造、敏感数据加固、SQL注入漏洞等,安全专家介入率降低70%。
31. 构建Agent实现威胁情报全流程自动化,打通安全情报处置最后一公里 数据采集 • 覆盖暗网、 安全论坛 等,每天 处理千万 级原始情 报信息 情报分析 • 通过大模 型agent能 力,对情 报进行研 判,对情 报类型、 威胁等级、 影响面等 进行自动 化分析 情报分发 • 通过知识 库+大模型 能力将不 同类型的 情报分发 给对应的 安全运营 人员 情报验真 • 自动化提 取结构化 数据样本, 和数据库、 历史情报 进行匹配, 生成验真 报告 响应处置 • 联动处置 策略,实 现自动化 下发工单、 账号处置 等治理措 施
32. 通过对大模型进行SFT,对比外部模型精确率由75%提升至98%,召回提升15%。
33. 大模型赋能钓鱼邮件的召回率90%左右,助力钓鱼邮件识别风险范围提升100倍 钓鱼邮件样本标注 + Agent + 模型微调
34. 从初始20%的检测准确率到目前90%的准确率只做了一件事,prompt优化;用2000+高质量数据基于安全大 模型做了微调,在单任务下准确率和召回率达到了98%左右。
35. 渗透测试版本的Manus 问题: 1、拆解任务 2、复盘反思 3、自动干活
36.
37. 总结及展望
38. 总结 展望 大模型安全风险还是点状呈现,风险治理措施成 随着大模型基座能力提升,大模型在安全方面的应 熟度还不是很高; 用范围会更广,更成熟; 基于大模型对安全的赋能从最初被观望其潜力与 Agent会推进大模型的赋能方向会从研判、辅助类转 可行性,逐渐迈入了全面执行落地的阶段,且在 为生成、主导类,要想取得突破要大胆尝试; 个别场景取得突破; 大模型正在重新定义安全
39.
40. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-28 05:37
浙ICP备14020137号-1 $访客地图$