云原生安全可观测性探索与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 云原生安全可观测性探索与实践
江国⻰
腾讯安全 云鼎实验室
2.
3. 目 录
content
■ 云原生架构下,为什么安全需要可观测性
■ 云原生安全可观测性的定义以及方案架构
■ 如何依托观测数据实现入侵检测与防护
■ 如何实现安全⻛险与安全威胁的可观测
4. 01
为什么安全需要可观测性
5. 安全运营的诉求
• 我的集群里有多少个Pod拥有高权限、我的应用应该被赋予哪些权限?
• 如果发生了提权操作,我怎么知道是哪个Pod,我该怎么操作?
• 我发现有Pod在访问API Server执行操作,是被入侵了吗?
• 微服务之间的各种访问通信,都是正常的业务操作吗?
• 镜像扫出来一堆漏洞,我该怎么处理?
• 安全产品告警了,我该怎么进行处置、怎么溯源分析?
• ……
6. 现状1:云原生颠覆了IT生命周期与治理模式
相关统计显示:接近50%的容器服务生命周期小于5分钟;
将近70%生命周期小于1小时;
7. 现状2:云原生架构下的主机行为更复杂
• 工作负载密度更大
• 工作负载变化频率更高
• 工作负载调用关系更复杂
8. 现状3:现有安全能力无法识别全部⻛险
!
Internet
新技术带来新的⻛险挑战
•
!
Spine
Spine
新架构带来新的防护挑战
•
VXLAN
Leaf
Leaf
vSwitch
VM1
HID
S
VM2
HID
S
!
Leaf
VM3
HID
S
VM4
HID
S
微服务、不可变基础设施…
新模式带来新的安全治理挑战
•
DevOps、DevSecOps…
vSwitch
vSwitch
vFW
容器、服务网格、声明式API…
vNIDS
vNIDS
vSAS
vWAF
9. 现状4:合规标准提出可观测性要求
!
工作负载可观测
•
以详细准确的运行状态数据作为支撑,为自
动化的云原生安全提供充足的决策依据
!
应用安全可度量
•
等保2.0明确提出安全可度量指标,如何准
确选择应用的可信度量对象、如何高性能获
取指标的度量值,以及如何收集和管理验证
这些基准值,均需要安全可观测性
10. 02
什么是云原生安全可观测性
11. 云原生的可观测性
监控可以告诉我们系统的哪些部分不工作了
可观测性可以告诉我们那里为什么不工作了
经典可观测性三大支柱
CNCF Landscape
12. 云原生安全的可观测性
告警可以告诉我们系统的哪些部分是不安全的
持续的安全治理和运营
可观测性可以告诉我们那里为什么是不安全的
构建
部署
镜像及镜像仓库
安全⻛险
镜像及镜像仓库模
式,增加了软件供
应链的监管⻛险,
表现在:
镜像含软件漏洞;
配置
• 镜像配置缺陷;
• 镜像来源不可信;
• 镜像仓库自身漏洞及管理
问题;
•
镜像 像
云原生
网络安全⻛险
镜像仓库
安全⻛险
可观测
拉取镜像
调用编排组
文件
代码
推送镜
增加了东⻄向流量互
访,避开了传统南北
向网络防护,表现
在:
容器镜像
触发
代码管理
构建服务
编排组件
微服务
微服务
部署
运行
集群
Yaml
创建服务yaml
镜像获取通道不安全。
安全威胁
可观测
微服务
件API
提交
• 构建
运行
微服务
容器守护进程
• 访问控制粒度过粗;
• 网络分离管控不合
理。
操作系统
编排yaml
编排及组件安全⻛险
编排组件自身漏洞及管理缺陷,增
加容器安全⻛险,表现在:
• 编排工具自身漏洞;
• 编排组件不安全配置;
• 不同安全级容器混合部署;
• 编排组件资源使用不设限;
• 编排节点访问控制策略配置不当。
容器运行时安全⻛险
共享操作系统内核,提升了逃逸⻛险概率及影
响范围;容器生命周期缩短至分钟级,显著提
升了应用管理难度,表现在:
云原生架构下安全挑战
• 容器危险配置导致逃逸攻击;
• 容器危险挂载导致逃逸攻击;
• 相关程序漏洞导致逃逸攻击;
• 宿主机内核漏洞导致逃逸攻击;
• 安全容器逃逸⻛险。
13. 云原生可观测性 vs 安全可观测性
!
利用可观测性做安全
•
行为可观测(监控/日志/追
踪)
•
!
不可变基础设施
安全可观测
⻛险/威胁
可观测
支撑
行为可观测
安全可观测
•
安全本身的可观测性
利用可观测性做安全
“云” 原生安全
14. 云原生架构的特性使得安全可观测成为可能
容器
微服务
DevOps
云原生架构
IT开发/治理模式
不可变基础设施
声明式API
安全新模式
15. 安全可观测性三大支柱
!
⻛险
系统可观测
• ⻛险/行为可观测(监控/日志/追踪)
• 逃逸检测、越权检测、webshell检测、挖矿
威胁
安全可观测
检测等
!
!
网络可观测
• 网络连接、网络通信
• 挖矿检测、端口探测、异常连接检测等
应用可观测
•
API资产管理、API调用异常、业务安全等
系统
可观测性 网络
可观测性 应用
可观测性
Capabilities
系统调用
文件操作
…… 网络拓扑
南北向流量
东⻄向流量
…… 链路追踪
API调用
……
16. 03
如何实现安全可观测
17. 安全可观测实现路径
安全可观测
● ⻛险可观测、威胁可观测
安全治理 ● 漏洞管理、威胁管理、态势感知
安全能力 ● 集群安全、运行时安全、网络安全、应用安全
数据集合 ● 数据接入、数据归一化、数据质量管理
数据采集 ● 云原生可观测性、云平台、安全探针
18. 数据采集-“云”原生数据
监
控
数
据
多维度资产数据
详尽的审计日志数据
微
服
务
应
用
追
踪
数
据
19. 数据采集-安全探针数据
cilium_host
10.244.0.26
cilium_vxlan
lxc909734ef58f7
pod1
eth0
root
eth0
root
lxc909734ef58f7
eth0
Tcss
10.244.0.71
vm1
eth
0
10.244.0.162
cilium_host
10.244.1.7
cilium_vxlan
lxc909734ef58f7
pod2
lxc909734ef58f7
eth0
Tcss
10.244.0.71
node-1 node-2
192.168.19.161 192.168.19.162
vm2
eth
0
10.244.0.162
! 使用DaemonSet/agent模式,部
署安全服务资源
! 使用安全探针(Probe)采集相关运
行数据
• 进程创建
• 网络连接
• DNS请求
• 文件释放
• 高危系统调用
• ……
20. 数据采集-安全探针数据
!
基于eBPF实现安全数据可观测
•
!
kprobes, tracepoints, sockets,
system calls, …
采集典型低频率、高⻛险数据
• 建立新的网络连接
• 敏感路径访问
• 写敏感文件
• 创建新的子进程,clone(), fork()
• ……
21. 场景示例1——Kubernetes审计日志分析
• 创建的Pod使用主机网络
• 创建NodePort类型的Service
Master
请求
Node1
• 创建了未知的namespace
• 在kube-system命名空间创建
API
Server
Node2
审计日志
日志代理
service account
• 创建/修改包含私有凭证的
Node3
configmap
• 创建没有使用TLS的ingress
• 未知节点尝试加入集群
审计日志分析
MQ
22. 场景示例2——容器权限异常检测
细粒度实现容器的
权限管控与异常检测
23. 04
云原生安全可观测性实践
24. 腾讯云超大规模容器平台的安全体系架构
安全能力原生化
安全左移 安全防护全生命周期
更早的投入安全资源和能力 从开发到部署到运营
更有效的收敛安全漏洞问题 全面融入DevOps体系
更早的确定其安全性 实现DevSecOps
零信任安全架构
原生的基础设施安全 全面有效的身份权限管理
安全能力云原生化 持续的检测与响应
四大设计原则
25. 腾讯云容器安全体系框架
DevSecOps
代码审计
代码分析
代码加固
依赖加固
DevOps集成
应
用
安
全
基
础
架
构
安
全
基
础
安
全
API安全
软件供应链
安全
API网关
镜像扫
描
应用隔离
镜像签名
运行时安全 入侵检
测 零信任
网络安全 网络隔
离 访问控制
容器与编排
安全 配置加
固 漏洞修
复
镜像仓库安全
通信
⻩金镜像
态势监控
异常处
置
入侵检
测 异常行为
检测 持续检
测
资源隔离与
限制 身份管
理 权限管
理
漏洞修复
私有云
数据安全
准入控制
异常行为检测
安全内核
公有云
异常行为检测
安全基线
专有云
混合云
可观测 安全管理
调用请求追踪 持续监测和
响应
调用链路追踪
策略管理
拓扑关系追踪
密钥管理
进程行为追踪
性能监控
系统日志
漏洞管理
安全审计
26. 腾讯云容器安全服务技术架构
可观测
资产
中心
系统
网络
漏洞管理
安全
治理
安全
能力
中台
安全分析
XDR
SOAR
运行时安全
集群安全
镜像安全
威胁
告警管理
⻛险管理
态势感知
资产感知
⻛险
应用
容器入侵检测
资产发现 漏洞检测 合规检测 集群漏洞检测
资产管理 敏感信息检测 完整性检测 集群配置检测
资产画像 恶意文件检测 应用配置检测 工作负载配置检测
(CIDS)
容器行为分析
(CDR)
准入控制
应用安全
网络安全
容器配置检测
网络隔离
网络行为分析
容器权限检测
审计日志分析
通信安全检测 漏洞检测 API⻛险检测
自适应策略 权限检测 API行为检测
FaaS安全 API管控
(NDR)
网络入侵检测 网络入侵防护
(NIDS ) (NIPS )
数据服务总线
数据
中台
数据采集
资产数据
情报数据
系统数据
配置数据
应用数据
网络数据
监控数据
日志数据
集群资产 容器资产 漏洞数据 样本数据 k8S配置数据 Docker配置数据 进程数据 文件数据 流数据 包数据 业务数据 API数据 K8S日志数据 Docker日志数据 系统监控数据 中间件监控数据
镜像资产 其它资产 IP数据 其它数据 Istio配置数据 其它配置数据 网络数据 其它数据 数据 其它数据 应用行为数据 其它应用数据 Kubelet日志数据 其它日志数据 应用监控数据 其它监控数据
平行容器
主机agent
sidecar
云原生平台
日志
监控
策略执行
进程阻断
网络隔离
容器销毁
27. 容器镜像的安全⻛险可观测
!
!
镜像间的依赖关系,产生了基础镜像 通过基础镜像可以有效收敛镜像的安全⻛险
基础镜像覆盖范围大、影响范围广 ➢ 50%的镜像(24w),依赖13个基础镜像
➢ 47w个镜像,依赖2.6w个基础镜像,其中:
➢ 90%的镜像(43w),依赖637个基础镜像
镜像A
镜像A0
镜像B
镜像A1
镜像B0
镜像A01
镜像A10
镜像B00
镜像B10
app2:v2
app1:v2 app2:v3
app1:v2 app2:v4
app1:v3
base_image:v1 base_image:v1 base_image:v1 base_image:v2
app1:v1 app1:v2 app1:v2 app1:v3
base_image:v1 base_image:v1 base_image:v1 base_image:v2
base_image:v1 base_image:v1 base_image:v1 base_image:v2
应用2镜像
镜像B1
应用1镜像
基础镜像
镜像A00
app2:v1
app1:v1
镜像B11
时间轴
容器镜像的依赖关系
28. 容器镜像的安全⻛险可观测
如何过滤出真正有价值的⻛险
⻛险数量庞大,责任落实难
镜像修复难度大,成本高
僵尸镜像数量大、安全治理难
如何提供明确的⻛险修复路线
如何提供明确的修复能力
如何快速响应爆发漏洞
围绕运营和应急响应场景,深度实现镜像的⻛险可观测
应急响应
镜像安全运营 漏洞影响镜像、漏洞影响容器 漏洞详细信息
TOP5漏洞 漏洞验证信息 漏洞修复方案
严重&高危镜像趋势 漏洞影响镜像列表、容器列表
按漏洞/CVE/组件名称定位漏洞 镜像治理智能推荐
漏洞忽略 自动修复
最新版本镜像过滤 ⻛险的镜像分层定位
紧急度定义
漏洞分类
⻛险分层
⻛险优先级
⻛险影响面
⻛险修复
效果验证
CI/CD⻔禁、镜像启动阻断
镜像扫描
漏洞情报
黑产镜像情报
⻛险防御
容器网络隔离
运行时入侵防御规则
29. 云原生安全测试平台,全面覆盖安全⻛险可观测
● 腾讯云联合中国信通院和清华大学,共同发起成立“云原生安全实验室”
● 腾讯安全云鼎实验室牵头开发“云原生安全测试平台”,联合实验室成员单位,共同实现平台的相关能力建设
开放、合作、共建的模式,实现对云原生系统的安全诊断、分析、评估;
全面实现云原生安全的⻛险可观测
30. 云原生安全测试平台,全面覆盖安全⻛险可观测
信通院联合腾讯等多家单位,制定并发布云原生安全能力体系,
推动并助力实现云原生安全的能力建设以及标准化
● 平台能力将全面覆盖“云原生安全能力体系” 的五大安全能力域;
● 安全防护有效性验证的方式,实现安全⻛险可观测;
31. 运行时的安全威胁可观测
● 容器提权、逃逸、反弹shell、文件篡改等威胁检测;
● 威胁的上下文、资产映射、攻击阶段等多维度观测数据;
● 威胁处置、溯源分析;
32. 腾讯云容器服务TKE安全性获行业认可
2020年10月,TKE获得“可信云容器平 2021年6月4日,TKE Edge通过“基于云 2022年6月15日,TKE通过“云原生安全
台安全能力”先进级认证 边协同的边缘容器技术能力要求”标准, 成熟度模型”L4先进级,成为国内首批获
成为国内首批获得该认证的厂家 得该认证的厂家
33. 总结
● 云原生架构在安全防护和安全运营上存在挑战
● 云原生的可观测性可以很好地赋能安全能力的构建
● 云原生安全的可观测性包含事前的⻛险可观测和事中的威胁可观测
● 云原生安全的可观测性可以很好地赋能安全治理和安全运营
34.
35.