虚拟机与容器：Kubernetes的相关资料

k8s共享存储fuse-client三种运行方案对比

本文探讨了polefs-client进程的三种部署方案。方案一将进程与CSI驱动绑定，升级时易中断业务；方案二为每个PVC创建专属Deployment，升级CSI无影响但客户端更新复杂；方案三为每个Pod创建专属Deployment，资源开销较大但升级和隔离性最佳。结合实际使用和运维成本，方案三更符合内部场景。

360技术

Client-Go是Kubernetes官方Go语言客户端库，为开发者提供与K8s集群交互的核心能力。其架构包括客户端体系、缓存与监听体系及工具链，支持多维度的资源操作和实时感知资源变更。通过Clientset、DynamicClient、Informer等组件，Client-Go实现了高效、灵活的API交互，是构建自定义控制器和Operator的基础。掌握Client-Go，深入理解Kubernetes控制平面工作原理，提升开发效率与系统性能。

360技术

GPU 环境搭建指南：如何在裸机、Docker、K8s 等环境中使用 GPU

本文探讨了在不同环境中如何使用GPU，包括裸机、Docker和Kubernetes。裸机环境需安装GPU驱动和CUDA工具包；Docker环境需额外配置NVIDIA容器工具包；Kubernetes环境则需部署设备插件以管理GPU资源。通过详细步骤和示例，帮助读者在各种平台上实现GPU的高效利用。

Rancher 统一管理多样化 Kubernetes 集群的实践

多K8s集群管理难题凸显，Rancher成统一管控利器！支持多集群接入、权限集中、监控集成，轻松应对多IDC、多运行时、多版本复杂场景。生产推荐RKE+Helm高可用部署，注意版本兼容与镜像仓库配置。升级备份token防失效，containerd集群需留意镜像操作规范。统一kubeconfig策略更安全高效，让混乱管理成为过去式~

360技术

Achieving High Availability with distributed database on Kubernetes at Airbnb

传统数据库部署在高成本独立服务器上，扩展受限。Airbnb创新采用跨Kubernetes集群的分布式数据库集群，结合AWS EBS实现高可用性和低延迟。通过自定义k8s操作符和多集群部署，确保节点替换和数据一致性，优化查询性能和成本。这一策略成功支持大规模生产环境，展示了开源数据库在云端的潜力。

airbnb技术

Debugging the One-in-a-Million Failure: Migrating Pinterest’s Search Infrastructure to Kubernetes

Pinterest在将搜索系统Manas迁移到Kubernetes时，发现每百万次搜索请求中，有一次会耗时100倍。经过排查，问题源于cAdvisor的container_referenced_bytes指标，该指标每30秒扫描并清除页表访问位，导致内存密集型搜索系统出现延迟。团队通过禁用该指标，成功解决了性能问题，确保Manas在Kubernetes上的稳定运行。

pinterest技术

K8s集群多租户管理

本文探讨了在多租户环境下实现GPU资源管理的三种主流方案：K8s Namespace & RBAC隔离、虚拟控制平面和多集群管理。K8s RBAC通过角色和绑定实现精细权限控制，适用于多团队资源隔离；虚拟控制平面如vcluster提供独立集群体验，适合开发和测试环境；多集群管理方案如Karmada和Virtual Kubelet则支持跨集群调度，适合复杂资源管理需求。根据实际需求选择合适方案，可有效提升资源利用率和安全性。

360技术

K8S Service 适配多VPC

在多VPC场景下，K8S集群中Pod IP重复导致Kube-proxy规则失效，影响Service连通性。采用司内LVS方案，通过LB组件适配Service资源，CNI组件拦截流量，解决多VPC下的Service连通问题。方案复用现有LVS实现，降低复杂度，避免修改Kube-proxy源码，便于集群维护。同时，规划Service CIDR，区分业务和系统Service的隔离性，确保功能兼容性和资源管理。

360技术

Kubernetes 控制器开发、镜像构建及部署实践

这篇教程手把手教你开发Kubernetes控制器！从零开始用kubebuilder初始化项目，编写资源管理逻辑，到本地调试和性能监控全流程覆盖。详细演示了Docker镜像构建、私有仓库推送技巧，最后通过Helm实现自动化部署。跟着做就能掌握控制器开发核心技能，轻松实现集群管理自动化，干货满满值得收藏！

360技术

Migrating Large-Scale Interactive Compute Workloads to Kubernetes Without Disruption

Uber将数据科学工作台（DSW）从Peloton迁移至Kubernetes，以提升资源管理和云迁移能力。通过自定义Kubernetes Job配置，确保会话持久性和高可用性。利用Federator实现负载均衡和操作效率，并通过NFS共享保持数据一致性。创新性地使用inotify事件跟踪包安装，减少用户重启后的环境重建。最终，数千个交互会话顺利迁移，显著提升了平台稳定性和用户体验。

uber技术

Migrating Uber’s Compute Platform to Kubernetes: A Technical Journey

Uber在2024年完成了从Apache Mesos到Kubernetes的容器编排平台迁移，主要基于Kubernetes的行业标准地位和社区活跃度。迁移过程中，Uber克服了大规模集群管理、API负载调度等挑战，优化了性能并实现了自动化迁移。通过自定义组件和工具，确保了开发体验的无缝过渡，最终成功将所有无状态服务迁移至Kubernetes，为未来技术演进奠定了基础。

uber技术

Spark on K8s 在vivo大数据平台的混部实战

vivo通过Spark Operator方案实现了离线Spark任务在混部集群的容器化改造，优化了K8s资源调度与任务提交流程。借助弹性调度系统动态管理资源水位线，合理分配任务至多集群，显著提升CPU利用率，高峰期达30%。未来还将扩大任务类型覆盖并优化调度策略，进一步提升混部收益与资源填充效率。

vivo技术

Uber’s Journey to Ray on Kubernetes: Resource Management

Uber在Kubernetes上运行Ray作业管理系统，通过弹性资源管理和自定义调度器优化资源利用。资源池按团队划分，支持动态共享和抢占，提升集群利用率。针对异构集群，开发GPU过滤插件，确保GPU和非GPU任务高效调度。特殊硬件请求通过SKU过滤机制精准匹配，避免资源浪费。这些改进显著提升了机器学习管道的效率和可靠性。

uber技术

Uber’s Journey to Ray on Kubernetes: Ray Setup

Uber将机器学习工作负载迁移至Kubernetes，解决了资源管理复杂、利用率低和容量规划不灵活等问题。通过构建联邦资源管理架构，抽象化底层基础设施，实现自动化资源分配和优化。新架构显著提升了训练速度，并提高了GPU资源的利用率，最终在2024年初完成所有项目的迁移。

uber技术

K8S异常诊断之俺的内存呢

某客户集群出现OOM和Pod驱逐问题，涉及多节点、多业务。经排查，发现内存使用监控与实际不符，cgroup内存限制设置异常。深入分析系统日志和kubelet配置，发现systemd与kubelet在内存限制设置上存在冲突，导致cgroup内存限制被覆盖。最终通过升级K8S版本解决了问题。

阿里巴巴技术

从0到1构建 Kubernetes中间件运维平台：标准化、可视化与全栈运维的最佳实践

白屏化运维平台通过标准化、自动化和可视化,解决了传统运维的多痛点。平台集成多云管理,简化kubeconfig切换;提供Kafka、ES等中间件的可视化运维,提升效率;实现Node管理和PV云盘管理的自动化,节省资源和成本;通过CPU Burst管理保障高峰期服务稳定;YAML管理服务确保配置变更安全可控。平台显著提升了运维效率和安全性,降低了操作风险。未来将持续拓展运维场景和智能化能力。

得物技术