Debugging the One-in-a-Million Failure: Migrating Pinterest’ s Search Infrastructure to Kubernetes
摘要
Pinterest在将搜索系统Manas迁移到Kubernetes时,发现每百万次搜索请求中,有一次会耗时100倍。经过排查,问题源于cAdvisor的
container_referenced_bytes
指标,该指标每30秒扫描并清除页表访问位,导致内存密集型搜索系统出现延迟。团队通过禁用该指标,成功解决了性能问题,确保Manas在Kubernetes上的稳定运行。
欢迎在评论区写下你对这篇文章的看法。