公司:Netflix
Netflix(/ˈnɛtflɪks/)(官方中文译名网飞,非官方中文译名奈飞)是起源于美国、在世界各地提供网络视频点播的OTT服务公司,并同时在美国经营单一费率邮寄影像光盘出租服务,后者是使用回邮信封寄送DVD和Blu-ray出租光盘至消费者指定的收件地址。公司由里德·哈斯廷斯和马克·兰多夫在1997年8月29日成立,总部位于加利福尼亚州的洛斯盖图,1999年开始推出订阅制的服务。2009年,Netflix已可提供超过10万部电影DVD,订阅者数超过1000万人。另一方面,截至2022年6月的数据,Netflix的流服务已经在全球拥有2.20亿个订阅用户,在美国的订户已达到7330万。其主要的竞争对手有Disney+、Hulu、HBO Max、Amazon Prime Video、YouTube Premium及Apple TV+等。
Netflix在多个排行榜上均榜上有名:2017年6月6日,《2017年BrandZ最具价值全球品牌100强》公布,Netflix名列第92位。2018年10月,《财富》未来公司50强排行榜发布,Netflix排名第八。2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第88。在《财富》2018年世界500大排名261位,并连年增长。2019年10月,位列2019福布斯全球数字经济100强榜第46名。2019年10月,Interbrand发布的全球品牌百强榜排名65。2020年1月22日,名列2020年《财富》全球最受赞赏公司榜单第16位。2022年2月,按市值计算,Netflix为全球第二大的媒体娱乐公司。2019年,Netflix加入美国电影协会(MPA)。另外,Netflix也被部分媒体列为科技巨擘之一。
Netflix Live Origin
Netflix Live Origin 是一个基于 AWS EC2 的多租户微服务,负责管理直播内容的分发。其架构支持多区域冗余流管道,通过智能选择有效片段确保流畅播放。Open Connect 扩展了 nginx 代理缓存功能,优化了直播内容的交付。存储系统采用高可用性设计,支持大规模写入和读取,确保低延迟和高吞吐量。通过优先级限流和缓存优化,Netflix Live Origin 有效应对流量高峰,保障全球用户的直播体验。
How Temporal Powers Reliable Cloud Operations at Netflix
Netflix采用Temporal平台重构Spinnaker部署系统,将云操作失败率从4%降至0.0001%。通过Temporal的持久化工作流和自动重试机制,解决了原有系统状态丢失、复杂回滚逻辑等问题,实现服务解耦和运维可视化。迁移过程中优化了子工作流设计参数传递模式,最终支撑起全公司数百个用例,并通过Temporal Cloud实现弹性扩展。
The AI Evolution of Graph Search at Netflix: From Structured Queries to Natural Language
Netflix利用大型语言模型(LLM)将自然语言查询转换为Graph Search Filter DSL,简化了复杂数据搜索流程。通过检索增强生成(RAG)技术,系统精准匹配用户意图,生成语法、语义正确的查询语句。同时,结合上下文工程和后处理验证,确保查询结果的准确性和可信度,提升了用户体验和搜索效率。
Automating RDS Postgres to Aurora Postgres Migration
2024年,Netflix在线数据存储团队决定将Amazon Aurora PostgreSQL作为公司主要的关系型数据库标准,取代现有的RDS PostgreSQL。这一决策基于PostgreSQL的广泛使用、行业趋势以及Aurora的云原生架构优势。团队设计了自动化迁移流程,确保数据一致性、最小化停机时间,并支持自服务操作。迁移过程包括数据复制、静默期、验证和切换阶段,成功应用于Netflix的关键业务系统,提升了数据库的可扩展性和运维效率。
Scaling LLM Post-Training at Netflix
Netflix构建了LLM后训练框架,专注于解决大规模训练中的工程挑战。框架涵盖数据、模型、计算和工作流四大模块,支持SFT、RL等多种训练范式,优化了分布式训练流程。通过灵活架构和高效工具,开发者能专注于模型创新,而非底层系统复杂性,推动Netflix在推荐、个性化等领域的AI应用。
MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix
Netflix开发了首个三模态(音频、视频、文本)内容嵌入模型MediaFM,通过整合视觉、音频和文本信息,生成丰富的上下文嵌入,用于理解长视频中的叙事结构和情感变化。MediaFM采用Transformer架构,并通过自监督任务训练,显著提升了广告相关性、片段流行度预测等任务的表现。该模型不仅优化了内容推荐,还为内部分析工具提供了强大支持,展现了多模态融合在视频理解中的潜力。
Optimizing Recommendation Systems with JDK’s Vector API
Netflix的Ranker服务中,视频惊喜度评分功能因计算量大成为CPU热点。原方案逐个计算候选视频与历史记录的余弦相似度,效率低下。优化分四步:1)改用矩阵乘法批量处理;2)重构内存布局,减少GC压力;3)引入线程本地缓存复用数据;4)采用JDK Vector API实现SIMD加速。最终CPU消耗降低7%,延迟下降12%,性能提升显著。核心在于优化计算形态与内存访问,而非单纯依赖库函数。
Accelerating Video Quality Control at Netflix with Pixel Error Detection
Netflix开发了一种自动检测视频中像素级别错误的新方法,减少了早期质量检查中手动视觉审查的需求。该方法通过高效神经网络实时识别像素级伪影,特别针对相机传感器故障产生的亮点(热像素)。模型处理全分辨率输入,避免下采样导致的误差消失,并结合连续帧分析区分传感器故障和自然亮点。通过合成像素错误生成器和真实数据迭代训练,模型在减少误报的同时保持高灵敏度,显著提升了检测效率。
ML Observability: Bringing Transparency to Payments and Beyond
Netflix利用ML可观测性优化支付流程,确保用户订阅和续费无障碍。通过日志记录、监控和解释三大模块,实时追踪模型表现,快速定位数据漂移等问题。SHAP算法助力模型解释,分析特征贡献,提升决策透明度。这套框架不仅降低运营复杂度,还提高了交易成功率,未来将推广至更多业务场景。
From Facts & Metrics to Media Machine Learning: Evolving the Data Engineering Function at Netflix
Netflix正在推动数据工程的新发展,专注于媒体机器学习数据工程。通过构建媒体数据湖,整合视频、音频、文本等多模态数据,支持机器学习模型的训练与应用。新架构包括媒体表、数据模型和API,旨在标准化媒体资产,提供高效的数据访问和处理。这一创新不仅提升了模型质量,还加速了AI功能的实验与产品化,推动了内容创作与业务决策的深度洞察。
Unlocking Dynamic Pages: The Evolution of Netflix’s Client-Server GraphQL APIs
Netflix通过GraphQL API和触发器实现动态页面更新,提升个性化体验。设备首次请求页面时,服务器返回包含触发器的初始数据。用户行为触发事件后,设备通过GraphQL突变请求更新页面,避免重复获取未改变的数据。采用缓存归一化技术,高效管理复杂类型列表的更新。该系统支持多种页面修改,如插入、删除和重排部分内容,确保动态页面的灵活性和一致性。
Behind the Streams: Building a Reliable Cloud Live Streaming Pipeline for Netflix. Part 2.
从零搭建云端直播系统,团队创新采用双路冗余架构,通过SMPTE 2022-7协议实现毫秒级故障切换。自研打包器兼容全球海量设备,智能源站系统动态优选流媒体分片,配合自动化编排引擎支撑从喜剧专场到体育赛事的全场景直播。这套系统以2秒分段实现低延迟,云端编码适配HEVC/AVC等多格式,为4K高帧率内容智能分配码率,最终打造出无缝衔接的跨地区直播体验。
Empowering Netflix Engineers with Incident Management
Netflix通过引入直观的Incident.io工具,将事件管理从集中化转向全工程师参与,提升了系统的可靠性和学习机会。工具易用性推动了文化转变,事件不再被视作“大故障”,而是任何值得关注的服务问题。内部数据集成和标准化流程减少了认知负担,使团队能快速响应。这一转型促进了工程师对事件的所有权意识,持续优化系统以服务全球用户。
Scaling Muse: How Netflix Powers Data-Driven Creative Insights at Trillion-Row Scale
Netflix的Muse应用通过数据驱动优化内容推荐,采用HyperLogLog草图提升计数效率,结合Hollow内存库预计算聚合数据,大幅降低查询延迟。团队重构Druid集群配置,优化段大小和查询路由,实现50%的延迟下降。通过双栈验证和分段上线确保数据准确性,未来将扩展至直播和游戏内容分析,持续提升推荐精准度。(139字)
Building a Resilient Data Platform with Write-Ahead Log at Netflix
Netflix构建了一个通用的Write-Ahead Log(WAL)系统,解决了大规模数据平台中的一致性和可靠性问题。WAL通过抽象底层存储系统,支持多种数据操作场景,如延迟队列、跨区域复制和多分区写入。其核心架构分离了消息生产和消费,支持灵活的目标配置,确保数据的高可用性和最终一致性。WAL的应用显著提升了开发效率,减少了技术债务,并增强了系统的容错能力。
100X Faster: How We Supercharged Netflix Maestro’s Workflow Engine
Netflix的Maestro工作流引擎最近完成了重大升级,性能提升100倍,延迟从秒级降至毫秒级。新引擎采用基于内存的状态管理,简化了架构,消除了竞态条件,确保了任务的强一致性。通过引入流组概念和虚拟线程技术,Maestro在保持高扩展性的同时大幅提升了执行效率。这一优化显著改善了Netflix大规模数据处理和机器学习工作流的性能,为低延迟用例提供了更强支持。