Finding zombies in our systems: A real-world story of CPU bottlenecks
摘要
小编发现Pinterest的ML训练任务因网络中断频繁崩溃,排查发现是AWS ENA驱动重置导致。深入分析后,发现是僵尸内存控制组(memcg)堆积引发CPU资源争抢,进而饿死网络线程。罪魁祸首竟是系统默认启动的ECS代理持续崩溃产生泄漏。关闭该服务后问题解决,同时揭露了跨可用区配置差异的乌龙事件。核心教训:警惕系统默认服务,善用性能分析工具,环境一致性至关重要。