虚拟机与容器:Kubernetes
K8S Service 适配多VPC
在多VPC场景下,K8S集群中Pod IP重复导致Kube-proxy规则失效,影响Service连通性。采用司内LVS方案,通过LB组件适配Service资源,CNI组件拦截流量,解决多VPC下的Service连通问题。方案复用现有LVS实现,降低复杂度,避免修改Kube-proxy源码,便于集群维护。同时,规划Service CIDR,区分业务和系统Service的隔离性,确保功能兼容性和资源管理。
Kubernetes 控制器开发、镜像构建及部署实践
这篇教程手把手教你开发Kubernetes控制器!从零开始用kubebuilder初始化项目,编写资源管理逻辑,到本地调试和性能监控全流程覆盖。详细演示了Docker镜像构建、私有仓库推送技巧,最后通过Helm实现自动化部署。跟着做就能掌握控制器开发核心技能,轻松实现集群管理自动化,干货满满值得收藏!
Migrating Large-Scale Interactive Compute Workloads to Kubernetes Without Disruption
Uber将数据科学工作台(DSW)从Peloton迁移至Kubernetes,以提升资源管理和云迁移能力。通过自定义Kubernetes Job配置,确保会话持久性和高可用性。利用Federator实现负载均衡和操作效率,并通过NFS共享保持数据一致性。创新性地使用inotify事件跟踪包安装,减少用户重启后的环境重建。最终,数千个交互会话顺利迁移,显著提升了平台稳定性和用户体验。
Migrating Uber’s Compute Platform to Kubernetes: A Technical Journey
Uber在2024年完成了从Apache Mesos到Kubernetes的容器编排平台迁移,主要基于Kubernetes的行业标准地位和社区活跃度。迁移过程中,Uber克服了大规模集群管理、API负载调度等挑战,优化了性能并实现了自动化迁移。通过自定义组件和工具,确保了开发体验的无缝过渡,最终成功将所有无状态服务迁移至Kubernetes,为未来技术演进奠定了基础。
Spark on K8s 在vivo大数据平台的混部实战
vivo通过Spark Operator方案实现了离线Spark任务在混部集群的容器化改造,优化了K8s资源调度与任务提交流程。借助弹性调度系统动态管理资源水位线,合理分配任务至多集群,显著提升CPU利用率,高峰期达30%。未来还将扩大任务类型覆盖并优化调度策略,进一步提升混部收益与资源填充效率。
Uber’s Journey to Ray on Kubernetes: Resource Management
Uber在Kubernetes上运行Ray作业管理系统,通过弹性资源管理和自定义调度器优化资源利用。资源池按团队划分,支持动态共享和抢占,提升集群利用率。针对异构集群,开发GPU过滤插件,确保GPU和非GPU任务高效调度。特殊硬件请求通过SKU过滤机制精准匹配,避免资源浪费。这些改进显著提升了机器学习管道的效率和可靠性。
Uber’s Journey to Ray on Kubernetes: Ray Setup
Uber将机器学习工作负载迁移至Kubernetes,解决了资源管理复杂、利用率低和容量规划不灵活等问题。通过构建联邦资源管理架构,抽象化底层基础设施,实现自动化资源分配和优化。新架构显著提升了训练速度,并提高了GPU资源的利用率,最终在2024年初完成所有项目的迁移。
K8S异常诊断之俺的内存呢
某客户集群出现OOM和Pod驱逐问题,涉及多节点、多业务。经排查,发现内存使用监控与实际不符,cgroup内存限制设置异常。深入分析系统日志和kubelet配置,发现systemd与kubelet在内存限制设置上存在冲突,导致cgroup内存限制被覆盖。最终通过升级K8S版本解决了问题。
从0到1构建 Kubernetes中间件运维平台:标准化、可视化与全栈运维的最佳实践
白屏化运维平台通过标准化、自动化和可视化,解决了传统运维的多痛点。平台集成多云管理,简化kubeconfig切换;提供Kafka、ES等中间件的可视化运维,提升效率;实现Node管理和PV云盘管理的自动化,节省资源和成本;通过CPU Burst管理保障高峰期服务稳定;YAML管理服务确保配置变更安全可控。平台显著提升了运维效率和安全性,降低了操作风险。未来将持续拓展运维场景和智能化能力。
K8s里我的容器到底用了多少内存?
如果你的应用程序刚刚迁移到K8s中,经常被诸如以下问题所困扰...
Kubernetes 中 RBAC 权限在生产环境中的应用
讲述 RBAC 权限在生产中的使用场景。
基于K8S构建Zeppelin大数据可视化分析工具
文章主要分几个方面进行介绍,先对Zeppelin进行介绍,接着会讲下Zeppelin 的生产实践,包括如何定制化去做K8S集群上的部署、资源的隔离、文件数据的上传和持久化。
AWS S3 对象存储以文件形式挂载到K8S Pod的实现方式
本文讲述了通过S3FS FUSE 可以实现像普通文件系统一样操作S3 Bucket,并采用K8S DaemonSet对像进行快速部署扩容,已达到能够在K8S计算节点把S3当系统文件一样进行使用。
基于Prometheus构建特征平台k8S集群监控告警
文章主要介绍项目中基于prometheus如何去做K8S集群、Flink作业运行、ElasticSearch的监控和告警
跟着iLogtail学习容器运行时与K8s下日志采集方案
本文跟随 iLogtail 的脚步,了解容器运行时与 K8s 下日志数据采集原理。
How we migrated onto K8s in less than 12 months
Migrating onto Kubernetes can take years. Here’s why we decided it was worth undertaking, and how we moved a majority of our core services.