vivo云原生容器探索和落地实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 潘良彪 | vivo互联网容器技术负责人
2. 01 02 03
容器技术
和云原生理念 vivo 容器技术
探索与实践 vivo对云原生的
未来展望
3. 01 02 03
容器技术
和云原生理念 vivo 容器技术
探索与实践 vivo对云原生的
未来展望
4. 容器技术
1979-2012 2013-2017 2017-2019 2019至今
技术萌芽期 技术迸发期 商用探索期 商用拓展期
AWS ECS/EKS AWS outposts
Google GKE Google Anthos / Cloud Sandbox
Microsoft ACI 确认了容器的
阿里 ACK/ASK/ECI
商用服务形态
华为 CCI/CCE 扩大适用场景及部署规模
阿里 Cloud Sandbox
技术创新提升产品竞争力
华为 StratoVirt
腾讯 TKE Knative【serverless】
Chroot【1979年】 Docker【2013年】
Jail/zone 解决了容器运行环境的
Openvz
Cgroup【2006年】
隔离问题 Kubernetes【2014年】
解决了软件分发及
CNCF【2015年】
Windows
container【2016年】
容器编排问题
Lxc【2008年】 Containerd【2017年】
Azure Arc / Microsoft WSL2
内容参考——https://developer.aliyun.com/article/775778
特性
隔离级别
隔离策略
虚拟机 容器
操作系统级 进程级
Hypervisor
2020年CNCF中国云原生调查报告
68%
cgroups
系统资源 5~15% 0~5%
启动时间 分钟级 秒级
镜像存储 GB-TB KB-MB
集群规模 上百 上万
高可用策略 备份、容灾、迁移 弹性、负载、动态
49%
20%
2018年
2019年
生产环境使用容器比例
2020年
5. 云原生理念
Pivotal:云原生的定义
CNCF:云原生的定义v1.0版本
容器
服务网格
持续交付
DEVOPS
云原生
微服务
微服务
不可变
基础设施
容器
云原生
公有云、私有云、混合云
声明式
API
6. 价值分析
7. 01 02 03
容器技术
和云原生理念 vivo 容器技术
探索与实践 vivo对云原生的
未来展望
8. 试点探索
基于容器打造一站式机器学习平台,为算法降本提效,云原生价值初露锋芒
效率低 开发效率低,算法迭代慢
成本高 机器管理乱,资源利用率低
体验差 支持场景少,接入成本高
性能低 任务隔离差,支持规模小
场景全 场景覆盖全,业务端到端
体验好 排队时间短,用户体验优
成本低 调度效率高,资源利用率
效率高 网络规模大,训练跑得快
结果优 迭代稳定,训练成功率高
(推广搜)
(P99≤45min)
高(CPU≥45%)
(8.3亿样本/H)
(≥95%)
已具备
建设中
规划中
9. 价值挖掘
容器和云原生是企业大规模降本增效的最佳方案
降本
各业务集群CPU利用率
大数据
商业化
算法
在线存储
增效
业务痛点
CPU利用率
人工智能
基础组件
虚拟化
解决方案
中间件版本升级,业务服务
端需要同步升级并重新发版。 云原生微服务架构,容器化发布,
中间件升级和业务发布解耦。
机房迁移耦合度高,业务研
发需全程深度参与。 全面容器化,云原生微服务治理,
降低机房迁移对业务的干扰。
测试环境无固定Stable版
本,测试环境管理维护复杂
度高。 测试环境全面容器化,根据业务
测试需求,一键部署整套环境。
应对突发流量,业务扩容时
效性不能保证。 全面容器化,配置自动扩缩容策
略,秒级扩容。
全球化部署,环境和依赖不
一致,版本维护成本高。 容器镜像打包,统一仓库管理,
一键全球发布。
10. 战略升级
基于云原生理念,构建行业一流的容器生态,规模化降本提效
CMDB
11. 面临挑战
容器集群缺乏规范化建设,无法满足大规模、高可用的业务接入需求
高可用
可观测
集群规模快速增长,性能问题凸显
集群服务器上万个节点
集群实例个数十万+
容器化业务服务上千个
单集群规模2千+
黑屏化操作,人为误操作
集群线上操作权限,无收敛
原生Prometheus扩展性不佳
原生Prometheus监控性能瓶颈
核心组件监控缺失、监控内容不标准
K8s集群版本无损升级困难
运维规范和意识不足,变更随意
运维黑屏化,缺少运维标准
自动化
容器监控不完善,告警不够详细
线上多个k8s集群版本,维护成本高
线上版本多样,配置不统一
标准化
12. 面临挑战
容器平台和生态能力不完善,对业务存在较高的适配和迁移成本
容器每次发布ip都变化
容器IP变化
业务有固定IP场景
周边生态
CICD一体化 内部微服务平台兼容
内部开发框架兼容 统一接入层兼容等
有成熟的虚拟机和物理机器发布平台
用户按机房发布,而非集群
亟待进行
效率的提升不好衡量
用户习惯
容器周边生态打通和建设功能完备和易用的
价值输出
容器平台产品能力
成本的节省短期不好衡量
13. 最佳实践 | 容器集群高可用建设
构建可用性保障体系及可观测看板,为业务提供99.99%可用性保障
容器集群可用性保障
从故障预防、发现、恢复多个角度,保障可用性目标达成
数字化SLO面板
通过SLO面板对集群状况实时监控,对运营状况了如指掌!
14. 最佳实践 | 容器集群自动化运维
容器集群管理平台,实现集群配置标准化,核心运维场景白屏化
北斗管理平台
云原生方式管理云原生
统一的多集群管理
集群部署标准化
节点扩缩容可视化
集群巡检
运维操作日志可追溯
15. 最佳实践 | 容器平台架构升级
以业务全面容器化为目标,升级平台架构,降低业务适配成本
vivo容器化平台架构
16. 最佳实践 | 容器平台能力增强
拥抱开源,自主可控,增强平台能力,支撑多场景业务高效接入
原生工作负载增强 容器镜像P2P加速
基于开源OpenKruise实现常见 基于开源Dragonfly2进行功能优化、扩
workload增强,实现原地升级、暂停、 展,支撑大规模集群镜像分发效率,并发
流式、配置优先级等扩展策略。 >8个时性能提升80%以上。
服务无损发布优化 固定IP能力支持
基于内部的HTTP、Dubbo、TARS等
框架,支持服务发布、重启时实现业务无
平台能力增强
业务安心接入
基于有状态服务和CNI进行自研,支撑黑
白名单、有状态服务场景诉求,降低业务
损,进一步提升业务的稳定性。 接入改造成本。
镜像安全增强 多集群调度能力支持
基于开源Harbor定制开发,实现镜像安 基于开源Karmada进行功能优化和扩展,
全管控。 提升业务容灾能力,支撑单集群横向扩展
能力。
17. 最佳实践 | 容器生态打通
容器CICD一体化:流水线支持容器构建和部署,降低业务迁移门槛
CAAS-
API
CICD
镜像编译
镜像安全检查
开发环境验证
(蛇口)
测试环境验证
预发环境验证
生产环境部署
(北京)
18. 最佳实践 | 容器生态打通
统一流量接入:构建稳定高效的云原生流量接入层,适应全面容器化需求
请求链路
管理链路
监控链路
已具备
建设中
规划中
19. 实践成果 | 趋于完善的产品能力矩阵
集群调度
CAAS-API
容器配置
监控&告警
日志
扩展能力
20. 实践成果 | 支撑更多场景的业务容器化,降本提效成果持续凸显
成本节省 通过资源隔离、弹性伸缩、故障自愈等容器技术优势,实现资源利用率提升
效率提升 基于容器的镜像交付技术,可快速部署和扩缩容,极大提升运维、研发效率
互联网在线业务
已接入600+服务
算法在线
已接入500+服务,3000+服务器
大数据计算
已接入20+集群
AI算法训练
提供GPU、CPU异构计算集群,
服务器规模数千台
涉及商城、账号、浏览器各场景
涉及搜索、游戏、效果广告等业务
涉及OLAP、Flink和Spark等业务
支持每月1万+任务,数十万次训练
可具备自动弹性伸缩能力
为业务提供故障自愈能力
CPU/内存利用率提升30%
CPU平均利用率大于40%
扩容效率提升10-20倍
同等资源承载业务流量增加30%
运维效率提升4倍
大数据集群部署效率提升6倍
21. 实践总结
技术服务于业务,企业应基于自身现状,寻找合适的解决方案,为业务创造价值
找价值 新技术 业务价值
定策略 自下而上 自上而下
融合共建 创新孵化
使用云原生 用好云原生
建平台
求突破
22. 01 02 03
容器技术
和云原生理念 vivo 容器技术
探索与实践 vivo对云原生的
未来展望
23. vivo基础架构发展
vivo
移动互联网业
务启航
运维岗位独
立,DO分
离研发模式
中间件技术引
入,开启在线
业务应用架构
互联网化
虚拟化技术引入
OpenStack+k
vm方案落地交
付
大中台技术体系
确立;依托容器
技术构建算法训
练平台
基于DevOps
构建私有云平
台,容器CICD
一体化
私有云平台
vivo cloud发
布;在线业务容
器化
容器平台战略
升级,容器生
态全面建设;
多场景业务容
器化推广;在
离线混部探索
24. vivo云原生未来展望
全面容器化 拥抱云原生 在离线混部
在线业务 微服务改造 资源池化
离线/计算业务 服务网格 存算分离
中间件/基础服务 统一接入 统一调度
25.