国产OS自主核心能力打磨实践TencentOS Server进击之路
如果无法正常显示,请先停止浏览器的去广告插件。
1. 国产操作系统自主核心能力打磨实践
-TencentOS Server进击之路
蒋彪-腾讯云操作系统研发负责人/OpenCloudOS社区ToC委员
2.
3. 目录
•
•
•
•
Linux行业背景
TencentOS Server简介
经济操作系统打磨实践
绿色操作系统打磨实践
4. Linux行业背景-前
L1国产发行版不足
L0
L1上游发行版需聚焦创新,投入大,社区版本未
经过大规模生产环境验证,非稳定版本,无法直
接用于生产环境
开源软件社区
上游发行版:
L1 Linux内核+GNU组件+
其他开源组件
L2国产商业版不足
企业版:
发 L2 L1版本加固+技术服务
L2国产商业版本稀缺。主要原因是上游社区维护
能力与投入不足
行
版
社区稳定版(经大规模
验证):基于L2衍生
玩
L3
家
L4
社区衍生版:
基于L3优化的发行版
其他下游发行版
L3/L4国产发行版不足
RedHat体系
SUSE体系
Debian体系
供应链风险暴露、核心能力不足、国产OS亟待自主
L3/L4社区聚焦版本的稳定和生产价值,但需要依
赖可靠上游版本(商业版本);
5. Linux行业背景-后
OpenCloudOS覆盖L1\L2\L3全链路,实现全链路国产化,输出生产级可用版本
L0
开源软件社区
上游发行版:
L1 Linux内核+GNU组件+
其他开源组件
行业问题:开源供应链安全风险
OSV商业版
企业版:
发 L2 L1版本加固+技术服务
行
版
社区稳定版(经大规模
验证):基于L2衍生
玩
L3
家
L4
社区衍生版:
基于L3优化的发行版
X
X
其他下游发行版
RedHat体系
SUSE体系
Debian体系
OpenCloudOS体系
红帽不再维护CentOS8;国产OS对其强
依赖,影响较大;充分暴露开源软件供应
链安全风险
6. 目录
•
•
•
•
Linux行业背景
TencentOS Server简介
经济操作系统打磨实践
绿色操作系统打磨实践
7. TencentOS Server简介
三个时代、十年积累、千万节点
早期
使用开源OS、采购商业OS
2000年
2006年
2010
年
使用开源 采购商业系统
SlackWare 服务难保障
不稳定 无法定制需求
无服务 稳定性不足
云原生创新时代
向外生长、社区生态、自主可控、技术引领
自主研发时代
自主研发运营、持续打磨
2011
2015年
2019年
2020年
2021年
2022年
年
品牌升级为 发布TencentOS OpenCloudOS社区成立
精简内核,稳定性 自研覆盖99% TencentOS Server Server 3 生态共建、引领核心技术 99.999%可用
/性能提升,新硬 对外开源,上线公有 云上主流版本 参与研发OpenCloudOS
云,落地私有云客户 Stream L1上游版本
开始自主研发 发布Tlinux1
tlinux诞生 代替商业系统
发布Tlinux2
支撑微信、QQ、
件支持,功能定制 游戏等核心业务
上游版本:
创新、共建、先进
商用版本:
企业、服务、性能
社区版本:
开源、生态、合作
L1
(上游版本)
L2
(商业版本)
L3
(社区版本)
L4
(衍生版本)
2022 2023 2024 2025 2026 2027 2028
OpenCloudOS Stream(OCS)
1000万节点
性
2029
TencentOS Server
3(2020-2029)
TencentOS
Server 4 (OCS,2024-
2034)
OpenCloudOS 8(TS3,2021-2029)
OpenCloudOS 2024(TS4?, 2024-2034)
基于OC 8的商业/社区衍生版本
基于OC 2024的商业/社区衍生版本
8. 目录
•
•
•
•
Linux行业背景
TencentOS Server简介
经济操作系统打磨实践-降本增效
绿色操作系统打磨实践
9. VMF(VM First)调度器-背景
(CPU全售卖场景)
(混部场景)
主机1(离线)
保留核(5%)
主机2(在线)
售卖核
虚拟机
监控进程
管理进程
干扰
大量资源空闲
虚拟机
VCPU VCPU
VCPU VCPU
Qemu Qemu
系统服务
干扰
Kthreads
干扰
OS
调度器
调度器
(CPU全售卖场景):5%保留核,干扰严重,实时性差
核心目标:CPU全售卖,微妙级延迟
核心:OS内核调度器
主机3(混部)
(混部场景):大盘资源利用率低(15%),离线干扰
核心目标:绝对压制离线,业务无感知
10. VMF内核调度器-设计
核心挑战
• CFS无法满足要求,需要重写
• 原因:公平性设计
核心设计(基于任务类型的非公平调度器)
• 特征画像->任务分类
• 离线任务绝对低优先级
效果
• VM优先(VM First),更实时
• 对离线绝对压制,完美隔离
高级特性:
• 超线程干扰隔离
• BG饥饿保护
• 超线程协同调度
• 动态MWait
…
1024
3
12ms
12ms
任务
优先级
运行时长
延迟敏感
容忍饥饿
抽象建模
1024
3
12ms
0
12ms
VCPU
4
长
是
否
VM
1024
12ms
0
无法绝对
压制
延迟12ms!
关键进程饿死
内核线程
普通进程
4/3
1
短
长
是
否
否
否
LL
BG
(Lowlatency) (BackGround)
离线任务
0
长
否
是
OF
(Offline)
11. VMF内核调度器-效果
(全售卖) 实时性(测试工具:cyclictest)
类型
时延
Idle
时延
Busy
VMF CFS
116 4689
Overflow 0.28 0.82
Max(us) 452 19969
Overflow 2.2 20
Max(us)
• 延迟微妙级,提升1个数量级
• CPU全售卖
(混部) 吞吐性能(测试工具:sysbench)
(混部) 现网业务(AMS)压测表现
• 在线业务对离线无感知
• 通过真实业务压测(敏感程度不同)
(混部) 资源利用率
• 样板集群CPU达65% ,行业标杆
• 大盘CPU利用率翻倍
12. 如意(RUE)-容器混部-架构
1 场景进阶
虚拟机混部->容器混部->
多优先级混部
2 架构进阶(三层架构)
• 统一优先级
• 资源全隔离
• 服务质量监控框架
3 资源隔离进阶
CPU->内存、IO、网络
(全覆盖)
4 影响力进阶
技术品牌打造:如意(RUE)
13. 如意(RUE)-多优先级混部-经济操作系统
容器1
容器2
AI模型+如意(RUE),提升资源利用率,降低成本
� �
CPU CPU
CPU1
2
3
容器1流量突发
跑满所有CPU
CPU CPU
4
5
容器2空闲
CPU闲置
CPU
6
弹性CPU
调度
[T1,T2)
AI预测模型
云原生
SLI增强
[T3,T4)
不同颜色代表不同业务
� �
CPU CPU CPU
CPU
CPU1
2
3
4
5
临时借用容器2空闲的
容器2空闲
CPU(离线运行)
CPU闲置
CPU
6
基于FinOps理念,基于RUE实现多优先级混
部,
打造“经济操作系统”标签
多优先级混部系统(成本大师)
Crane(容器管理平台-FinOps基金会)
� �
CPU CPU
CPU1
2
3
容器1负载降低
归还CPU
CPU
4
CPU CPU
5
6
容器2负载上升
取回CPU
TencentOS
RUE
弹性CPU调
度
current
资源request总量减少
optimization
45%左右
云原生SLI增强
Pod规格从8-16核减少为1-4核
14. 内存分级卸载-悟净
•UMRD模块:根据PSI模块提供的
cgroup内存访问延迟敏感性,决策出
对应cgroup中能够回收的页面量。
•Pageout Tiering模块:结合社区
DAMON物理地址监控功能,在待回
收的页面链表中,根据页面冷热频率
(DAMON动态迭代的采样频率)换
出到不同速度的后备设备上。
•SWAP BALANCER模块:每个
SWAP后备设备维护一个LRU链表,
当本SWAP设备快满时,demote冷页
到速度更慢的设备。
内存节省30%+
15. 目录
•
•
•
•
Linux行业背景
TencentOS Server简介
经济操作系统打磨实践
绿色操作系统打磨实践-节能低碳
16. 绿色操作系统-系统级能耗优化-悟
能
空闲算力扩缩容
算力分割
排队数据
task
task
算力数据
task
延迟数据
Active set
Cor
e1
Core
2
core
3
core
4
调度器
负载数据
Deactive
set
HEAD CPU
core
0
策略
core
5
Active核:类似客厅,运行业务
Deactive核:类似卧室,深度节能
core
6
缩容
SMT SMT SMT SMT
COR
E COR
E
扩容
SMT SMT
COR
DI E
E
任务迁移 && 中断迁移
SMT SMT
COR
E
根据算力、task数、延迟,动态调整可运行核数
空闲算力感知设计,完全自适应业务负载,业务侧透明,性能影
响小于1%
根据业务实时负载动态调整cpu core深度睡眠状态、 cpu core
频率以及调整 uncore频率
自动退出机制,轻松应对请求突发高负载场景
提供多个配置接口,用户可结合业务场景敏感度调节节能选项
双平面功耗监控
17.