虚拟机与容器:Kubernetes
从0到1构建 Kubernetes中间件运维平台:标准化、可视化与全栈运维的最佳实践
白屏化运维平台通过标准化、自动化和可视化,解决了传统运维的多痛点。平台集成多云管理,简化kubeconfig切换;提供Kafka、ES等中间件的可视化运维,提升效率;实现Node管理和PV云盘管理的自动化,节省资源和成本;通过CPU Burst管理保障高峰期服务稳定;YAML管理服务确保配置变更安全可控。平台显著提升了运维效率和安全性,降低了操作风险。未来将持续拓展运维场景和智能化能力。
K8s里我的容器到底用了多少内存?
如果你的应用程序刚刚迁移到K8s中,经常被诸如以下问题所困扰...
Kubernetes 中 RBAC 权限在生产环境中的应用
讲述 RBAC 权限在生产中的使用场景。
基于K8S构建Zeppelin大数据可视化分析工具
文章主要分几个方面进行介绍,先对Zeppelin进行介绍,接着会讲下Zeppelin 的生产实践,包括如何定制化去做K8S集群上的部署、资源的隔离、文件数据的上传和持久化。
AWS S3 对象存储以文件形式挂载到K8S Pod的实现方式
本文讲述了通过S3FS FUSE 可以实现像普通文件系统一样操作S3 Bucket,并采用K8S DaemonSet对像进行快速部署扩容,已达到能够在K8S计算节点把S3当系统文件一样进行使用。
基于Prometheus构建特征平台k8S集群监控告警
文章主要介绍项目中基于prometheus如何去做K8S集群、Flink作业运行、ElasticSearch的监控和告警
跟着iLogtail学习容器运行时与K8s下日志采集方案
本文跟随 iLogtail 的脚步,了解容器运行时与 K8s 下日志数据采集原理。
How we migrated onto K8s in less than 12 months
Migrating onto Kubernetes can take years. Here’s why we decided it was worth undertaking, and how we moved a majority of our core services.
Apache Flink® on Kubernetes
At Airbnb, Apache Flink was introduced in 2018 as a supplementary solution for stream processing. It ran alongside Apache Spark™ Streaming for several years before transitioning to become the primary stream processing platform. In this blog post, we will delve into the evolution of Flink architecture at Airbnb and compare our prior Hadoop Yarn platform with the current Kubernetes-based architecture. Additionally, we will discuss the efforts undertaken throughout the migration process and explore the challenges that arose during this journey. In the end we will summarize the impact, learnings along the way and future plans.
Kubernetes 架构学习笔记(下)
本文总结了eBay云计算系统架构设计思路与经验,全文分为上下两篇,本篇为下半部分,包含控制器逻辑、架构等内容。
探索 StarRocks on Kubernetes
StarRocks是一个高性能的分析型数据库,专为大规模数据分析而设计。它采用了MPP(Massively Parallel Processing)架构,能够在多个节点上并行处理查询,从而实现快速响应。
Kubernetes 架构学习笔记(上)
本文总结了eBay云计算系统架构设计思路与经验。全文分为上下两篇,本篇为上半部分,围绕API展开;后续推文将发布下半部分,包含控制器逻辑、架构等内容。
知乎k8s在离线混部-离线篇
知乎为解决离线集群资源不足问题,采用Hadoop YARN服务在在线环境下部署,并使用YARN Federation架构来管理集群的搬迁和任务迁移。这样可以提高在线集群资源利用率,降低离线集群的超负荷运转。在离线混部过程中,需要解决技术选型、数据完整性、在线集群稳定性、任务平滑过渡和配置管理等关键问题。知乎在2022年选择了YARN Federation架构,以满足业务对接简单、集群变更对业务无感知、架构可复用等需求。详细架构图请参考官网链接:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/Federation.html。
知乎k8s在离线混部-在线篇
知乎通过应用混部技术实现了大规模部署,但在离线混部过程中面临问题。为了成本优化,知乎采取了系统化资源利用提升和静态资源潮汐调度等手段。系统化资源利用提升通过建立数据和应用指标,通知应用方降低配置,优化资源利用。静态资源潮汐调度则解决了K8S调度不均衡和资源碎片问题,实现了真实资源使用的调度。这些方法在不同阶段使用,帮助知乎优化资源利用和降低成本。
Rancher 和知乎超大规模多集群管理联合实践
知乎是中文互联网高质量的问答社区,每天有上千万用户在知乎分享知识、经验和见解,找到自己的答案。文章介绍了Rancher在管理大规模集群时遇到的性能问题,特别是超级管理员用户登录时的数据加载量较大,导致UI不可用且下游集群频繁断连。通过与Rancher团队的沟通,发现问题的根本原因是集群节点总量较大。
Failing to Auto Scale Elasticsearch in Kubernetes
A story of operational failure in large scale Elastisearch installation including the root cause analysis and mitigations that followed.