框架与类库:Apache Airflow
Lyft’s Feature Store: Architecture, Optimization, and Evolution
Lyft的特征存储是其数据平台的核心基础设施,专为大规模机器学习特征的管理和部署优化。该系统通过批处理、在线和流式处理三种方式,简化了特征的生命周期管理,确保特征的一致性和高效访问。在线服务层结合DynamoDB和ValKey缓存,实现低延迟特征检索。系统还支持特征发现、版本控制和数据质量管理,显著提升了ML模型的开发效率和用户体验。
Search Quality Assurance with AI as a Judge
Zalando利用LLM作为评估员,自动化检测新市场搜索质量。通过NER标签聚类和LLM翻译复用现有市场搜索场景,构建多语言测试集。基于GPT-4o的视觉-文本评估框架可快速定位产品属性错误、NER识别缺失等问题,单次评估仅需250美元,5小时内完成1500个搜索场景的验证。该方案在葡萄牙、希腊等新市场落地前有效识别了词形还原、术语歧义等关键问题。
ByteHouse 与 Apache Airflow 的数据管理流程
如何简化数据工作流程并推动业务成功?
Lessons Learned From Running Apache Airflow at Scale
Shopify shares some of the lessons we learned and solutions we built in order to run Airflow at scale.
Orchestrating Data Pipelines at Lyft: comparing Flyte and Airflow
We will focus on comparing Airflow and Flyte implementations at Lyft: dive into the architecture and summarize its benefits and drawbacks.
- «
- 1
- »