Evolving from Rule-based Classifier: Machine Learning Powered Auto Remediation in Netflix Data Platform
摘要
Netflix开发了Auto Remediation功能,旨在自动修复失败的作业。该功能通过规则分类器和机器学习服务集成,可以处理由错误配置引起的错误,并分类新错误。Auto Remediation使用规则分类器进行初始分类,然后使用机器学习服务生成推荐配置。推荐配置存储于配置服务中,并自动应用。通过与Spark作业故障的生产部署验证了Auto Remediation的有效性和潜力。其优化器通过探索Spark配置参数空间来推荐最小化重试失败概率和成本的配置。预测模型每天离线重新训练,并在每个候选配置参数值上调用优化器进行评估。如果优化器找到可行的配置解决方案,响应中包含此推荐配置,由ConfigService用于更改重试的配置。如果没有可行的解决方案,响应中包含禁用重试的标记,从而消除了计算成本的浪费。训练时,使用了Feedforward Multilayer Perceptron (MLP)模型,将任务的元数据特征进行处理,并使用特征哈希和嵌入层进行建模。模型经过验证后存储在Metaflow Hosting中,然后由优化器根据每个配置请求进行调用。
欢迎在评论区写下你对这篇文章的看法。