面向智算服务构建下一代可观测 Pipeline

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:徐可甲
2. 目录 01 云原生智算服务关键技术 02 智算服务可观测需求与挑战 03 下一代可观测 Pipeline 04 智算服务可观测 Pipeline 技术实践 05 未来展望
3.
4. 云原生智算服务关键技术
5. 数据 准备 持续发布 弹性 模型 构建 模型 推理 开发 探索 模型 训练 调优 提效 • • AI在计算机视觉、语音、NLP等领域取得突破,已深入 影响各行各业,并催生出了自动驾驶等领域。 AI服务上云形成趋势,深度学习/AIGC应用广泛采用容 器等云原生技术。 深度学习的特点 • 端到端流水线 – Raw data in, executable model out • 持续迭代优化 – 梯度下降, 超参数调优, Prompt工程 • 任务长时运行 – 小时/天/周/月 • 消耗海量数据和大量算力
6. 大模型对基础设施服务能力的挑战是阶跃式的。 对“规模、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛。 效率 • • 资源效率:高利用率、弹性可扩展 工程效率:持续快速迭代 性能 • • 规模 • • • 模型参数量每年 10 倍指数级增长 算力:千卡GPU任务,万卡集群 数据:PB级存储,TB级吞吐 网络:800Gbps –3.2Tbps RDMA 训练:单卡 -> 分布式、混合并行加速 推理:模型优化、服务质量Qos
7. AI 工 程 异构硬件 设备插件灵活扩展 AI工程通常需要多样化的硬件支持。 支持各种设备插件,允许轻松将不同类型的硬件资源集成到集群中。 动态分布式计算 资源调度与弹性伸缩 AI工程中的计算需求常常具有高度的动态性,如模型训练和推理负载会 随数据量和算法复杂度变化。 K8s强大的调度能力,根据实际负载自动调整Pod数量,实现计算资源的 动态分配与回收。 资源隔离性 命名空间与资源配额 AI工程通常涉及多个团队,不同任务需要独立的资源隔离,避免资源竞 争导致性能下降。 通过命名空间和资源配额确保不同任务的资源独立性。 环境一致性 容器化应用管理 AI工程需要在不同环境(如开发、测试和生产环境)中保持一致性。 通过容器化技术,确保在不同环境中运行的AI应用具有一致的运行环境, 避免因环境差异引发的问题。 快速迭代 持续集成与持续部署(CI/CD) AI模型和算法需要频繁更新和快速迭代。 与CI/CD工具的集成,支持自动化构建、测试和部署流程。
8. 计算 网络 存储 海量小文件数据集读取 CPU 、内存 RDMA网络 GPU Device-Plugin Checkpoint大文件读写
9. 云原生架构的容器服务支撑AI智算基础底座 AI工程向云原生架构演进 在云原生架构的Kubernetes集群中管理调度GPU、NPU、RDMA等高性能异构资源,以容器化方式开发、 传统架构 云原生架构 • 资源管理分散、资源利 • 资源池化:弹性、灵活 用率低 运行AI、大数据任务,部署AI推理服务。 • 生产流程高效闭环 • 无法弹性伸缩 • 可观测手段丰富 • 生产流程割裂、效率低 • 多角色协同,加速迭代 • 团队协作、共享困难 开发模型 训练模型 发布模型 AI工程平台 更快的创新与迭代 更高的稳定性 GPU池 存储池 更弹性的算力 到2025年,接近50%的企业内部的数据密集 型或性能密集型计算工作负载都将迁移到云 原生架构上。
10. AI异构工作负载 云原生 AI 利用云计算的弹性资源、异构算力以及容器、自 动化、微服务等云原生技术,提升AI/ML的工程 效率,降低整体成本,提高可扩展性,并实现端 到端的解决方案。 算法与场景 框架 Tensorflow Pytorch Deepspeed Huggingface Langchain 统一工作流,统一调度 Docker Kubernetes Kubeflow Kserve Fluid 统一资源管理 持续优化利用率 统一任务调度 保障规模与性能 统一管理 MLFlow
11. GPU共享 单卡共享:模型推理场景 多卡共享:分布式模型训练 GPU异构管理与弹性伸缩 GPU监控 GPU Exporter + Node Problem Detector
12. All-or-Nothing 任务 任务组(Gang)内的所有任务必须同时 调度和执行 将任务打包到尽可能少的节点 上,提高资源的使用效率。 解决多租集群固定资源分配下, 不同用户使用周期不同导致资 源浪费问题。
13. 智算服务可观测需求与挑战
14. GPU坏卡 检测&自愈 模型性能优化 AI生产环境 资源利用率提升 稳定性保障
15. 云原生智算服务系统分层架构 模型训练可观测 生态扩展、集成 模型评估 工具链、API 数据质量 模型推理可观测 AI作业生命周期管理 RAG 诊断 任务性能优化 模型任务监控 人工智能平台 PAI (PaaS) 模型监控 AB 测试 可观测 数据驱动 AI框架和运行时优化 容器可观测 容器服务 ACK (CaaS) 任务调度和流水线 Workload 可观测、控制面可观测、GPU 监控、Ingress 监控、AI 套件、异构算力、 事件、审计 异构资源管理 高性能计算、存储、网络 云资源监控 容器平台 云 智算服务 PAI-灵骏 (IaaS) IDC CPU 利用率、GPU 利用率、GPU 监健康状态、磁盘利用率、存储 ( CPFS )I / O、网 络 ( RDMA )、GPU 物理指标
16. • • • • • 迫切需要一款采集器: • 全面的数据采集能力、灵活的数 据处理 • 强大的弹性能力 • 性能好、资源开销低、稳定可靠 • 支持多租 • 管控能力强,易用 • •
17. iLogtail 下一代开源可观测 Pipeline
18. 下一代可观测 Pipeline
19. Star 1.7K 定位 LoongCollector 是一款集卓越性能、超强稳定性和灵活可编程性于一身的数据 采集器,专为构建下一代可观测性数据传输 Pipeline 设计。 可观测数据采集 日志采集 SCOPE 扩展 日志处理 服务发现 2、端到端可观测 Pipeline(End-to-End Observability Pipeline) 高性能 高可靠 数据量 100PB/天 本地计算 1、可观测性统一 Agent(Unified Observability Agent) 广泛的 数据接入 装机量 1000W 可编程性 iLogtail 可管控性 云原生 支持 多租隔离
20. 环境 协议 中间件 SLS Logs Metrics Traces 输入 输出 Telemetry Profiles Events
21. 设计注重性能与可靠性 一个轻量、高效、稳定、可靠的架构,能够实现高吞吐量,同时保持较 低的 CPU 和内存开销。 日志 流量 50M 日志生产速率 45000/slog mock 参数:logs-per- sec = 1000pod = 15 Agent 采集速率 (/s) CPU(%) 内存(MB) Filebeat 14530 722 205 Vector 19630 195 81 Rsyslog 28438 123 17 iLogtail 44886 251 110 Fluent Bit 7131 106 45 通用反馈队列机制 - 高低水位反压控制 - At-Least-Once语义保证 Pipeline多租隔离 - 数据流隔离 - 优先级保证 iLogtail在采集速率上优势明显。 ——《性能与可靠的超强碰撞!第三方测评开源日志采集器》 持续的性能突破 事件驱动模型 基于时间片调度 无锁化 内存管理精益求精 Memory Arena:减少内存分配 Zero Copy:减少内存拷贝 可持久化缓冲 -容忍短时环境异常数据不丢
22. 多语言 Plugin 引擎 原生插件 C++ Pipeline 扩展插件 Go Pipeline 自定义扩展 可编程引擎 分类 特点 多语言 Plugin 引擎 原生插件 C++实现,开发门槛中 性能高,资源开销极低 较完善的算子能力 扩展插件 SPL 引擎 SPL 引擎 Golang实现,开发门槛低 较高的性能,资源开销低 较完善的算子能力 C++实现 列式模型,向量化执行 性能高,资源开销低 全面的算子能力 管道式设计,可以处理复杂数据 灵活组合 Input C++/Go 事件驱动模型 Flusher 通用数据模型(EventGroup) C++/Go SPL 引擎 Schema-free 处理 (parsejson/csv/regex) Schema固定 (where/extend) Task Task Schema-free 处理 (project-away/keep) Task Task Task 列式模型 向量化执行 动态列
23. 百万级机器管控、灵活分组及采集配置分发 支持采集配置、进程配置、自定义命令 开放的管控协议 IP型机器组 为不同来源与架构的 Agent 提供一个标准化、可互操作的框架,促进配置 Collector (IP1) Collector (IP2) Collector (IP3) Collector (IP4) Collector (IP5) Collector (IP6) 管理的自动化建设。 采集配置1 控制台 标识型机器组(相同user_defined_id) 采集配置2 CRD 商业版管控 Collector (标识1) Collector (标识1) Collector (标识1) Collector (标识1) Collector (标识2) Collector (标识2) 谁可以管控 LoongCollector? 增强型机器组(基于ECS属性,即将支持) SDK 采集配置3 Collector (TagA) Collector (TagA) Collector (TagA) Collector (TagA) 商业版管控(百万级机器管控,企业级稳定性) 开源版管控服务(完全开源,可自由扩展) 托管版管控服务(免运维,敬请期待) Collector (TagB) Collector (TagB) 任何遵守开源管控协议v2的自有实现管控
24. 行业对比 大类 子类 LoongCollector 采集能 力 日志 指标 性能与 可靠性 FluentBit OpenTelemetry Collector Vector 大类 子类 LoongCollector FluentBit 强。 强 采集、处理插件丰富。尤 其是K8s友好,在Stdout 采集、AutoTagging方面 表现优异。 中 中 可编程 能力 插件开发语 言 C++、Go C++、Go、 Go Lua、 WebAssemb ly Rust 较强。 中 数据源较全,但是 较多处于Alpha阶 段。 SPL 处理/编排 基于 SQL 的 OpenTelemetry 能力强、性能高 Stream Transformation Processor Language(OTTL) VRL 较强。 主机等场景原生支持、 Prometheus抓取。 后续通过eBPF能力持续 增强。 高级处理语 法 Pipeline 能 力 多语言 Pipeline ,可组合性高 全局管控 开放的管控协议 无 支持机器组、心 跳管理 配置热加载能力 ConfigServer实 现 OpAMP Server 无 K8s Operator 与 CRD 商业版支持,开 Fluent 源敬请期待 Operator OpenTelemetry Operator 无 中。刚起 步。 跟踪 中。主要作为代理场景。 中。主要 作为代理 场景。 性能与资 源开销 性能:高。日志场景极简 性能:高 性能:中 单核400M/s。 资源开销: 资源开销:高 资源开销:低 低 性能:中 资源开销: 中 可靠性 完善的checkpoint机制 多级高低水位反馈队列 多租隔离 整体资源控制 缓冲区模 型 事件确认 机制 可选的磁 盘缓冲队 列 完善的 checkpoin t机制. 强 可选的磁盘缓冲队 列 插件统一发送重试 框架 中 管控 基于 Tag Match 实现 OpenTelemetry Collector Vector 基于 Connector 插件 基于 Inputs 参 数指定上 游插件
25. 智算服务可观测 Pipeline 技术实践
26. 智算服务可观测方案 智算集群 Master节点 存储 GPU GPU GPU 计算节点 计算节点 计算节点 指标存储 RoCE RDMA 网络 可视化 告警 并行文件存储 CPFS 日志存储
27. 采集目标发现 API Server 采集目标 控制面组件 – LoongCollector Operator Master节点 Worker Manager Service Discover Target Allocator Auto Scaler Config Manager Target 1 Target 2 Worker管理、服务发现、负载均衡、水平扩容、平滑升级 Target 3 LoongCollector Worker 实例组 … 稳定:托管环境提供 99.95% 可用性的服务 Target N • • • • Node Exporter NVIDIA DCGM Exporter Metrics Server Custom Exporter Worker1 – LoongCollector Worker2 – LoongCollector Worker3 – LoongCollector Scraper Processor Flusher Worker.. – LoongCollector Scraper Processor Flusher Worker n – LoongCollector Scraper Processor Flusher Scraper Processor Flusher Scraper Processor Flusher 云 产 品 用 户 性能:可水平扩展的架构满足万级目标抓取 可观测:丰富的自监控指标实现数据可解释 云 产 品 工 程 师 运维:无损重启、升级确保用户监控不中断 效能:自动均衡与水平扩容解放支持工作量
28. 容器 GPU 监控能力 多集多卡AI训练,存储时延增加导致GPU等待 GPU 坏卡状态检测 高性能计算,重负载情况下时延增加,毛刺增多
29. 耦合性 易用性 性价比 灵活性 高性能 隔离性 DaemonSet 模式: K8s每个Node部署一个日志 Agent。 负责采集当前Node所有容器 标准输出、文件日志或宿主 机文件。 Sidecar 模式: 一个POD中运行一个Sidecar 日志Agent容器。 仅采集该POD内业务容器产 生的文件日志。
30. Logging- E.g. Ingress Logging - Audit Logging – Application Logs
31. 训练错误日志 SPL引擎 资源利用日志 推理服务 访问日志 K8s 元信息关联 多语言插件 引擎 操作审计日志 指标数据源 样例
32. 自动补充分布式训练容器上下文 分布式训练多行日志高性能切分 日志上下文顺序查看
33. 通过字节流解析应用层协议,屏蔽了编程语言和编程框架的影响,大幅减少开发的复杂度。 集群网络拓扑 - 连通性诊断 - 异常回溯 - 延迟探测
34. SLS Backend LoongCollector Container Input Processor Flusher Logstore • 极简模式440M/s Thread 1 … Shard 1 … • 多行切分模式400M/s • 正则/JSON 75M/s network Thread 10 Shard 4 LoongCollector Container Input • LoongCollector 单机极限性能 SLS Backend Processor Flusher Logstore Thread 1 Thread 1 Shard 1 Thread 2 Thread 2 … … Thread 8 Thread 50 network … Shard 64 • 客户端 • 增加资源 • 并行处理 • 并行发送 • 服务器资源 • 扩大容量 • 网络链路 • 保证带宽 • VIP、SLB • 减小链路长度
35. Pipeline • LoongCollector 整体状态 • LoongCollector 异常监控 • LoongCollector Pipeline监控:Pipeline 耗时、数据量、插件级统计
36. 未来展望
37.
38.
39. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

- 위키
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-16 14:00
浙ICP备14020137号-1 $방문자$