云原生基础设施之数据中心操作系统建设之路

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. 云原生基础设施之数据中心操作系 统建设之路
3. 三墩IT人
4. Part 1 背景与历程
5. 什么是 DCOS DataCenter Operating System 数据中心操作系统
6. 为什么需要 DCOS 如何提升 利用 率 部署 效率 弹性 伸缩
7. DCOS赋予能力 IT 提高资 源使用 快速扩展 的支撑力 率 业务 最新市场活动 最佳用户体验 3 4 异常服务的快 5 环境统一 最大用户并发 测试生产 速隔离和发布 高效的弹性伸缩 应用级的 微隔离 合理的成 本控制
8. DCOS建设思路 服务能力 DevSecOps 持续集成 服务网格/微服务 数据库 Micro Service Serverless 安全防护 中间件 Service Mesh n 容器运行时接口:兼容不同种类容器, 满足不同应用需求,加速应用原生化 更好的构建应用 Service Mash Cloud Native Runtime n 容器网络接口:通过容器SDN网络实现 租户级别的网络隔离和应用安全防火墙, 状态应用原生化,拓展业务上云范围 机器 学习 区块链 边缘计算 n 服务化:原生新一代轻量级微服务技术, 实现业务逻辑与服务框架的解耦。 n 可观测性:实时掌握软件运行情况,不 Cloud Native Network Metric/Log/Tracing DCOS 提升应用安全水平。 n 容器存储接口:对接多种存储,实现有 创新服务 组件 Cloud Native Storge 断对业务健康度和用户体验进行数字化 衡量和持续优化 Security n 零信任:构建预防、检测、防御为一体 的容器全生命周期安全环境。
9. DCOS建设历程 201505 201511 201606 201806 201906 202006 云起浙里 • 浙江移动提出“云起 • 浙里时,新一代云平 台建设”总体建设规 划及可行性技术论证 。 手厅试点 浙江移动手机营 业厅系统成功试 点,顺利通过双 11充值1折秒杀 活动验证。 CRM试点 双平面 • 基于微服务框 架的账户中心 、开通中心成 功上线。 • 完成DCOS 平台双平 面功能建 设 双引擎 • 扩充DCOS平 台异构能力, 实现双引擎能 力上线。 云原生 • 进一步拥抱云 原生,打造更 好用的容器云 平台。
10. Part 2 建设与挑战
11. DCOS功能设计 PaaS门户 多 平 面 控 制 器 单 平 面 控 制 器 租户管理模块 资源管理模块 租户管理 资源分配管理 …… 租户管理 OpenAPI 门户、统一接口 应用管理模块 应用调度 应用编排 计算资源分配与申请管理 存储资源分配与申请管理 无状态应用编排 有状态应用编排 集群纳管 存储纳管 Helm模板编排 批处理应用编排 定时任务 编排 用户管理 用户管理 权限管理 应用服务管理 应用操作管理 多平面应用调度 灰度升级 应用服务管理 多平面组件调度 滚动升级 软负载管理 软负载安装部署 用户管理模块 组件应用编排 软负载分配管理 应用调度 集群调度 用户同步 亲和性调度 弹性伸缩调度 应用服务详情 平面调度配置分发 组件模板编排 应用操作 组件调度 应用服务管理 应用服务操作 组件应用调度 单平面服务 应用启停操作 弹性伸缩调度 单平面服务详情 容器操作 K8s集群管理模块 k8s集群代理映射 多集群纳管 k8s接口适配 Kubernetes资源池(ARM) 计算 存储 k8s多版本适配 Kubernetes资源池(X86) 网络 计算 存储 网络
12. DCOS技术组成 应用引擎 应用管理 应用组件 数据库 Controller 缓存 Controller 应用配置 消息队列 Controller AI Controller 监控 Controller 日志 Controller 链路追踪 Controller 批处理 配置 模版 Envoy Controller 性能 Controller 服务网格 容器编排 ISTIO Kubernetes资源对象+Operator扩展模式 CRD 技术服务组件 数据库 缓存 容器运行时 基础设施 应用特征 编排 消息 队列 可观察性服务组件 AI 监控 日志 runC 计算(X86、ARM) (GPU) 工具组件 CRD 链路 追踪 Helm Harbor 性能 Nvidia-container-runtime 存储(文件、对象、块) 网络(Calico、NSX-T) drag onfly
13. 领域资源模型 Region-A Region-B AZ(Available Zone) AZ(Available Zone) Env(Environment) Pln(Plane) Cell Cell AZ(Available Zone) Env(Environment) Pln(Plane) Clst Pln(Plane) Cell Cell Clst …… Env(Environment) Pln(Plane) Cell Env(Environment) Pln(Plane) Cell Env(Environment) Pln(Plane) Cell
14. 多集群统一纳管 DCOS管理面 可用区B 可用区A etcd etcd API Server Scheduler etcd API Server Controller Manager Scheduler kubelet API Server Controller Manager Scheduler Controller Manager 应用B 应用A kubelet 可用区C kubelet kubelet kubelet kubelet
15. 自助式应用上云 租户 平台维护 容器开通 并上传调 研表 生成开通 工单 填写应用 名称 制作镜像 应用调试 资源工单 选择管理 节点 应用调试 填写应用 相关参数 保姆式服务 完成容器 开通 应用调试 容器 开通 调试通过 租户 应用 联调 修改镜像 平台维护 修改应用 配置 分配HA 服务开放,效率提升,应用容器秒级开通 租户 容器开通 并上传调 研表 完成应用 开通并结 束工单 应用调试 修改镜像 转变 结束开通 工单 自助式服务 修改应用 配置 调试通过
16. DCOS异构计算资源兼容 统一构建、统一编排、统一调度、统一观测 开发 代码库 应用管理 构建 应用编排 应用调度 Kubernetes 控制节点 ARM镜像 应用观测 Kubernetes 控制节点 X86镜像 统一 镜像 kubelet kubelet 自适应下载 kubelet kubelet
17. 基于数字化的智能运维 数据基座 高效执行 n 全面的监控对象覆盖:IaaS、PaaS、SaaS全覆盖, 近千个监控指标。 n 完善的服务化融通:基于组件原生能力, 结合运维场景,进行接口化封装。 重启 扩容 隔离 数字驱动 运维升级 切流 智能决策 Hang机 CPU耗尽 NTP同步 内存耗尽 磁盘满 … 容器 … … IaaS PaaS SaaS n 海量数据的高效处理:每分钟处理千万条数据。 敏锐感知 n 灵活的告警策略配:自由组合监控指标,设置阀值 定义等级,形成告警规则。 n 可靠的自动驾驶:实践形成大量自愈规则, 辅助系统自我故障修复。 主机 … GC耗时 … n 丰富的可视化视图:按需订阅,千人千面 … 指标 日志 调用链
18. 基于服务网格功的服务治理 请求流向 服务监控: 服务 监控 ①自定义监控规则; ②自定义告警方式; 流量 控制 流量控制: ①主动通知应用进行失效转移; ②主动限制部分服务流量; 服务 跟踪 正常流量 繁忙流量 拥堵流量 异常 服务 正常 服务 服务跟踪 : ①快速定位异常服务;
19. 灰度发布 Cookie引流 因素一 l 应用范围包括前台、 中台、平台三类。 应用范围 IP引流 因素二 引流控制点 l 引流控制点可以在负 载均衡和应用自身上。 因素三 l 主动引流式蓝绿发 布+金丝雀发布。 白名单引流 六大模式 可用区引流 版本引流 发布过程 金丝雀环境
20. 传统代码发布的问题 Ø 性能问题 Please replace text, click add relevant headline, modify the text content, also can copy your content to this directly.。 n 1对N的分发,存在极大性 能瓶颈 。 Ø 可靠性问题 n 代码包的完整性和一致性 无法保障 。 Ø 灵活性问题 n 人工介入多,拖敏捷发布 后腿。
21. DCOS高速镜像发布 镜像同步 镜像同步 镜像同步 读镜像库 主镜像库 主镜像库 读镜像库 Supernode Supernode Supernode Supernode Worker Ø 镜像库读写分离 Worker Ø P2P镜像下载加速 DFClient DFClient DFClient DFClient DFClient DFClient Worker Worker Worker Worker
22. 基础设施安全问题 n BUILD n SHIP 容器的全生 命周期都存 在安全问题 容器镜像在build之后,可能存在各种漏洞问题,公有镜像源中的镜像1/2以上存在高危或高危以上的 漏洞问题。 SHIP 镜像在传输过程可能篡改,私有镜像仓库registry是否开启认证。 n RUN 容器内的应用可能存在漏洞,容器内存在恶意程序对其他容器发起横向攻击,容器的配置不当,拥有 对宿主机的访问权限,容器的宿主机内核存在漏洞引起容器逃逸,容器编排系统存在API访问漏洞等。 Ø 容器引擎 承载容器的 基础设施存 在安全问题 容器引擎 从对业界最流行的容器实现技术Docker分析来看,Docker自2014年正式发布以来已累计共发现 几十个相关漏洞。 调度引擎 Ø 调度引擎 操作系统&内核 大量容器编排平台目前暴露在互联网上,包括广泛使用的容器编排平台Kubernetes。 Ø 操作系统&内核 操作系统和内核层面的漏洞更新相当频繁。
23. 安全防护措施 以容器基础环境安全、镜像安全、容器边界安全以及容器运行安全为核心,构建容器全生命周期安全防护流程。 镜像构建 镜像仓库 构建规范 仓库加固 租户网络隔离 容器异常检测 镜像扫描 容器网络隔离 容器异常隔离 镜像阻断 容器访问限制 边界安全 分布式防火墙 容器运行 容器运行监控 镜像安全 多租户隔离 入侵监测与防控 主机基线合规 容器基线合规 集群基线合规 基础环境安全
24. 基础设施安全 建立数据中心资产的安全检查机制、安全加固机制,从宿主机、集群环境、Docker本身等维度实现安全扫描与加固,保障 基础环境的安全。 Ø 容器组件是提供容器化服务的主要载体, 容器组件的安全直接影响着整个容器环 境的安全。 组件漏洞 扫描与修复 4 2 3 容器统计 主机统计 组件访问 安全审计 组件访问 策略限制 主机入侵防护和检测,防止宿 主机防暴力破解,异常登陆检 测,非法外联,反弹shell等 1 镜像统计 实现对宿主机的漏洞扫描与安 全加固 组件配置 合规检查 Ø 层级式展示主机、容器、容器关 系,数字化安全风险,可对安全 风险一目了然。 Ø 容器基于宿主机运行,并于宿主机 共享内核,因此宿主机的安全很大 程度上影响了容器的安全运行 可视化展示 容器组件加固 宿主机安全 风险总览
25. 镜像安全 镜像安全主要对镜像仓库以及计算节点上应用镜像的补丁、中间件版本漏洞、病毒木马以及webshell和敏感信息等,然后 设置阻断规则,阻断异常镜像的运行。 n 仓库镜像扫描 分层扫描镜像文件并与CVE库进行对比 n 节点镜像扫描 通过节点代理定时扫描节点镜像 支持主流镜像仓库扫描 镜像构建 获取镜像列表 镜像仓库 镜像选择与部署 版本漏洞 异常镜像阻断 编排调度 镜像拉取 病毒木马 webshell 敏感信息 应用容器 支持主流镜像仓库扫描 n 镜像阻断 支持阻止低于安全等级的镜像下发
26. 容器运行安全 提供多锚点的入侵检测能力,实时准确地感知入侵事件,发现异常容器,提供对异常容器的隔离响应手段,形成安全闭环 暴力破解 1 p 通过实施监控登陆 实时扫描 异常隔离 暴力破解 Web后门 2 p 自动监控关键Web 行为,及时自动化 目录,结合恶意样 发现暴力破解对容 本库等检测方法, 器的攻击行为 实现感知文件变化。 及时发现Web后门 容器运行安全闭环 反弹Shell ……. Web后门 反弹Shell 3 本地提权监控 p 对用户容器进程进 p 对用户容器进程 行实时监控,及时 进行实时监控, 发现非法Shell连接 及时发现容器内 操作,识别反弹 的非法提权行为 shell行为 操作 4 恶意命令执行 5 p 对用户容器进程进 行实时监控,结合 规则库对例如SSH 端口转发等恶意命 令进行识别
27. 微隔离安全要求 各租户应用实例之间可互相连通,若某个实例被入侵极易在集群里扩散安全风险。 CMNET DMZ区 非安全区 DMZ负载 边界防火墙 缓冲区 集群A 集群B 边界防火墙 集群C 集群D 集群E 核心区 核心负载 集群F 安全风险扩散 安全区 PaaS
28. 应用访问隔离 根据标签将不同租户应用分组,根据分组设置分布式防火墙,实现租户级东西向流量隔离。 sec:t1 容器网络 租户1 DFW sec:t2 租户2 DFW sec:t3 租户3 DFW VM vNIC 策略匹配 Conn DFW(分布式防火墙) State Filter Rule N-VDS(分布式交换机)
29. Part 3 思考与探索
30. 智能负载均衡 智能 多云 自动化 CONTROLLER 控制和数据平面分离 私有云 弹性 裸金属 虚拟机 容器 虚拟机 容器 共有云
31. 融合调度 Ø 融合容器与虚拟机 runC runV Container Virtual Machine Bare Metal Kubernetes Cluster Ø 异构容器运行时runC和runV
32.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.132.0. UTC+08:00, 2024-09-21 13:46
浙ICP备14020137号-1 $访客地图$