面向智算服务构建下一代可观测 Pipeline
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:徐可甲
2. 目录
01 云原生智算服务关键技术 02 智算服务可观测需求与挑战
03 下一代可观测 Pipeline 04 智算服务可观测 Pipeline 技术实践
05 未来展望
3.
4. 云原生智算服务关键技术
5. 数据
准备
持续发布
弹性
模型
构建
模型
推理
开发
探索
模型
训练
调优
提效
•
•
AI在计算机视觉、语音、NLP等领域取得突破,已深入
影响各行各业,并催生出了自动驾驶等领域。
AI服务上云形成趋势,深度学习/AIGC应用广泛采用容
器等云原生技术。
深度学习的特点
• 端到端流水线 – Raw data in, executable model out
• 持续迭代优化 – 梯度下降, 超参数调优, Prompt工程
• 任务长时运行 – 小时/天/周/月
• 消耗海量数据和大量算力
6. 大模型对基础设施服务能力的挑战是阶跃式的。
对“规模、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛。
效率
•
•
资源效率:高利用率、弹性可扩展
工程效率:持续快速迭代
性能
•
•
规模
•
•
•
模型参数量每年 10 倍指数级增长
算力:千卡GPU任务,万卡集群
数据:PB级存储,TB级吞吐
网络:800Gbps –3.2Tbps RDMA
训练:单卡 -> 分布式、混合并行加速
推理:模型优化、服务质量Qos
7. AI
工
程
异构硬件 设备插件灵活扩展
AI工程通常需要多样化的硬件支持。 支持各种设备插件,允许轻松将不同类型的硬件资源集成到集群中。
动态分布式计算 资源调度与弹性伸缩
AI工程中的计算需求常常具有高度的动态性,如模型训练和推理负载会
随数据量和算法复杂度变化。 K8s强大的调度能力,根据实际负载自动调整Pod数量,实现计算资源的
动态分配与回收。
资源隔离性 命名空间与资源配额
AI工程通常涉及多个团队,不同任务需要独立的资源隔离,避免资源竞
争导致性能下降。 通过命名空间和资源配额确保不同任务的资源独立性。
环境一致性
容器化应用管理
AI工程需要在不同环境(如开发、测试和生产环境)中保持一致性。 通过容器化技术,确保在不同环境中运行的AI应用具有一致的运行环境,
避免因环境差异引发的问题。
快速迭代 持续集成与持续部署(CI/CD)
AI模型和算法需要频繁更新和快速迭代。
与CI/CD工具的集成,支持自动化构建、测试和部署流程。
8. 计算
网络
存储
海量小文件数据集读取
CPU 、内存
RDMA网络
GPU Device-Plugin
Checkpoint大文件读写
9. 云原生架构的容器服务支撑AI智算基础底座
AI工程向云原生架构演进
在云原生架构的Kubernetes集群中管理调度GPU、NPU、RDMA等高性能异构资源,以容器化方式开发、
传统架构 云原生架构
• 资源管理分散、资源利 • 资源池化:弹性、灵活
用率低
运行AI、大数据任务,部署AI推理服务。
• 生产流程高效闭环
• 无法弹性伸缩 • 可观测手段丰富
• 生产流程割裂、效率低 • 多角色协同,加速迭代
• 团队协作、共享困难
开发模型
训练模型
发布模型
AI工程平台
更快的创新与迭代
更高的稳定性
GPU池
存储池
更弹性的算力
到2025年,接近50%的企业内部的数据密集
型或性能密集型计算工作负载都将迁移到云
原生架构上。
10. AI异构工作负载
云原生 AI
利用云计算的弹性资源、异构算力以及容器、自
动化、微服务等云原生技术,提升AI/ML的工程
效率,降低整体成本,提高可扩展性,并实现端
到端的解决方案。
算法与场景
框架
Tensorflow Pytorch Deepspeed Huggingface Langchain
统一工作流,统一调度
Docker Kubernetes Kubeflow Kserve Fluid
统一资源管理
持续优化利用率
统一任务调度
保障规模与性能
统一管理
MLFlow
11. GPU共享
单卡共享:模型推理场景
多卡共享:分布式模型训练
GPU异构管理与弹性伸缩
GPU监控
GPU Exporter + Node Problem Detector
12. All-or-Nothing 任务
任务组(Gang)内的所有任务必须同时
调度和执行
将任务打包到尽可能少的节点
上,提高资源的使用效率。
解决多租集群固定资源分配下,
不同用户使用周期不同导致资
源浪费问题。
13. 智算服务可观测需求与挑战
14. GPU坏卡
检测&自愈
模型性能优化 AI生产环境
资源利用率提升 稳定性保障
15. 云原生智算服务系统分层架构
模型训练可观测
生态扩展、集成
模型评估
工具链、API
数据质量
模型推理可观测
AI作业生命周期管理
RAG 诊断
任务性能优化
模型任务监控
人工智能平台 PAI
(PaaS)
模型监控
AB 测试
可观测
数据驱动
AI框架和运行时优化
容器可观测
容器服务 ACK
(CaaS)
任务调度和流水线
Workload 可观测、控制面可观测、GPU 监控、Ingress 监控、AI 套件、异构算力、
事件、审计
异构资源管理
高性能计算、存储、网络
云资源监控
容器平台
云
智算服务 PAI-灵骏
(IaaS)
IDC
CPU 利用率、GPU 利用率、GPU 监健康状态、磁盘利用率、存储 ( CPFS )I / O、网
络 ( RDMA )、GPU 物理指标
16. •
•
•
•
•
迫切需要一款采集器:
• 全面的数据采集能力、灵活的数
据处理
• 强大的弹性能力
• 性能好、资源开销低、稳定可靠
• 支持多租
• 管控能力强,易用
•
•
17. iLogtail
下一代开源可观测 Pipeline
18. 下一代可观测 Pipeline
19. Star 1.7K
定位
LoongCollector 是一款集卓越性能、超强稳定性和灵活可编程性于一身的数据
采集器,专为构建下一代可观测性数据传输 Pipeline 设计。
可观测数据采集
日志采集
SCOPE
扩展
日志处理
服务发现
2、端到端可观测 Pipeline(End-to-End Observability Pipeline)
高性能
高可靠
数据量 100PB/天
本地计算
1、可观测性统一 Agent(Unified Observability Agent)
广泛的
数据接入
装机量 1000W
可编程性
iLogtail
可管控性
云原生
支持
多租隔离
20. 环境
协议
中间件
SLS
Logs
Metrics
Traces
输入
输出
Telemetry
Profiles
Events
21. 设计注重性能与可靠性
一个轻量、高效、稳定、可靠的架构,能够实现高吞吐量,同时保持较
低的 CPU 和内存开销。
日志
流量
50M
日志生产速率
45000/slog mock
参数:logs-per-
sec = 1000pod =
15
Agent 采集速率
(/s) CPU(%) 内存(MB)
Filebeat 14530 722 205
Vector 19630 195 81
Rsyslog 28438 123 17
iLogtail 44886 251 110
Fluent Bit 7131 106 45
通用反馈队列机制
- 高低水位反压控制
- At-Least-Once语义保证
Pipeline多租隔离
- 数据流隔离
- 优先级保证
iLogtail在采集速率上优势明显。 ——《性能与可靠的超强碰撞!第三方测评开源日志采集器》
持续的性能突破
事件驱动模型
基于时间片调度
无锁化
内存管理精益求精
Memory Arena:减少内存分配
Zero Copy:减少内存拷贝
可持久化缓冲
-容忍短时环境异常数据不丢
22. 多语言 Plugin 引擎
原生插件 C++ Pipeline
扩展插件 Go Pipeline
自定义扩展
可编程引擎 分类 特点
多语言
Plugin 引擎 原生插件 C++实现,开发门槛中
性能高,资源开销极低
较完善的算子能力
扩展插件
SPL 引擎
SPL 引擎
Golang实现,开发门槛低
较高的性能,资源开销低
较完善的算子能力
C++实现
列式模型,向量化执行
性能高,资源开销低
全面的算子能力
管道式设计,可以处理复杂数据
灵活组合
Input
C++/Go
事件驱动模型
Flusher
通用数据模型(EventGroup)
C++/Go
SPL 引擎
Schema-free 处理
(parsejson/csv/regex) Schema固定
(where/extend)
Task Task
Schema-free 处理
(project-away/keep)
Task
Task
Task
列式模型
向量化执行
动态列
23. 百万级机器管控、灵活分组及采集配置分发
支持采集配置、进程配置、自定义命令
开放的管控协议
IP型机器组
为不同来源与架构的 Agent 提供一个标准化、可互操作的框架,促进配置
Collector (IP1) Collector (IP2)
Collector (IP3) Collector (IP4)
Collector (IP5) Collector (IP6)
管理的自动化建设。
采集配置1
控制台
标识型机器组(相同user_defined_id)
采集配置2
CRD
商业版管控
Collector (标识1) Collector (标识1)
Collector (标识1) Collector (标识1)
Collector (标识2) Collector (标识2)
谁可以管控 LoongCollector?
增强型机器组(基于ECS属性,即将支持)
SDK
采集配置3
Collector (TagA) Collector (TagA)
Collector (TagA) Collector (TagA)
商业版管控(百万级机器管控,企业级稳定性)
开源版管控服务(完全开源,可自由扩展)
托管版管控服务(免运维,敬请期待)
Collector (TagB)
Collector (TagB)
任何遵守开源管控协议v2的自有实现管控
24. 行业对比
大类 子类 LoongCollector
采集能
力 日志
指标
性能与
可靠性
FluentBit
OpenTelemetry
Collector Vector 大类 子类 LoongCollector FluentBit 强。
强
采集、处理插件丰富。尤
其是K8s友好,在Stdout
采集、AutoTagging方面
表现优异。 中 中 可编程
能力 插件开发语
言 C++、Go C++、Go、 Go
Lua、
WebAssemb
ly Rust
较强。
中
数据源较全,但是
较多处于Alpha阶
段。 SPL 处理/编排 基于 SQL 的 OpenTelemetry
能力强、性能高 Stream
Transformation
Processor
Language(OTTL) VRL
较强。
主机等场景原生支持、
Prometheus抓取。
后续通过eBPF能力持续
增强。 高级处理语
法 Pipeline 能
力 多语言 Pipeline
,可组合性高 全局管控 开放的管控协议 无
支持机器组、心
跳管理
配置热加载能力
ConfigServer实
现 OpAMP Server 无
K8s
Operator
与 CRD 商业版支持,开 Fluent
源敬请期待
Operator OpenTelemetry
Operator 无
中。刚起
步。
跟踪 中。主要作为代理场景。 中。主要
作为代理
场景。 性能与资
源开销 性能:高。日志场景极简 性能:高 性能:中
单核400M/s。
资源开销: 资源开销:高
资源开销:低
低 性能:中
资源开销:
中
可靠性 完善的checkpoint机制
多级高低水位反馈队列
多租隔离
整体资源控制 缓冲区模
型
事件确认
机制
可选的磁
盘缓冲队
列
完善的
checkpoin
t机制.
强
可选的磁盘缓冲队
列
插件统一发送重试
框架
中
管控
基于 Tag
Match 实现
OpenTelemetry
Collector
Vector
基于 Connector 插件 基于
Inputs 参
数指定上
游插件
25. 智算服务可观测 Pipeline 技术实践
26. 智算服务可观测方案
智算集群
Master节点
存储
GPU GPU GPU
计算节点 计算节点 计算节点
指标存储
RoCE RDMA 网络
可视化
告警
并行文件存储 CPFS
日志存储
27. 采集目标发现
API Server
采集目标
控制面组件 – LoongCollector Operator Master节点
Worker
Manager
Service
Discover
Target
Allocator
Auto
Scaler
Config
Manager
Target 1
Target 2
Worker管理、服务发现、负载均衡、水平扩容、平滑升级
Target 3
LoongCollector Worker 实例组
…
稳定:托管环境提供 99.95% 可用性的服务
Target N
•
•
•
•
Node Exporter
NVIDIA DCGM
Exporter
Metrics Server
Custom Exporter
Worker1 – LoongCollector
Worker2 – LoongCollector
Worker3 – LoongCollector
Scraper
Processor
Flusher
Worker.. – LoongCollector
Scraper
Processor
Flusher
Worker n – LoongCollector
Scraper
Processor
Flusher
Scraper
Processor
Flusher
Scraper
Processor
Flusher
云
产
品
用
户
性能:可水平扩展的架构满足万级目标抓取
可观测:丰富的自监控指标实现数据可解释
云
产
品
工
程
师
运维:无损重启、升级确保用户监控不中断
效能:自动均衡与水平扩容解放支持工作量
28. 容器 GPU 监控能力 多集多卡AI训练,存储时延增加导致GPU等待
GPU 坏卡状态检测 高性能计算,重负载情况下时延增加,毛刺增多
29. 耦合性
易用性
性价比
灵活性
高性能
隔离性
DaemonSet 模式:
K8s每个Node部署一个日志
Agent。
负责采集当前Node所有容器
标准输出、文件日志或宿主
机文件。
Sidecar 模式:
一个POD中运行一个Sidecar
日志Agent容器。
仅采集该POD内业务容器产
生的文件日志。
30. Logging- E.g. Ingress
Logging - Audit
Logging – Application Logs
31. 训练错误日志
SPL引擎
资源利用日志
推理服务
访问日志
K8s
元信息关联
多语言插件
引擎
操作审计日志
指标数据源
样例
32. 自动补充分布式训练容器上下文
分布式训练多行日志高性能切分
日志上下文顺序查看
33. 通过字节流解析应用层协议,屏蔽了编程语言和编程框架的影响,大幅减少开发的复杂度。
集群网络拓扑
- 连通性诊断
- 异常回溯
- 延迟探测
34. SLS Backend
LoongCollector Container
Input
Processor
Flusher Logstore • 极简模式440M/s
Thread 1
… Shard 1
… • 多行切分模式400M/s
• 正则/JSON 75M/s
network
Thread 10
Shard 4
LoongCollector Container
Input
• LoongCollector 单机极限性能
SLS Backend
Processor Flusher Logstore
Thread 1 Thread 1 Shard 1
Thread 2 Thread 2 … … Thread 8 Thread 50
network
…
Shard 64
• 客户端
• 增加资源
• 并行处理
• 并行发送
• 服务器资源
•
扩大容量
• 网络链路
• 保证带宽
• VIP、SLB
• 减小链路长度
35. Pipeline
• LoongCollector 整体状态
• LoongCollector 异常监控
• LoongCollector Pipeline监控:Pipeline 耗时、数据量、插件级统计
36. 未来展望
37.
38.
39. THANKS
大模型正在重新定义软件
Large Language Model Is Redefining
The Software