公司:Netflix
Netflix(/ˈnɛtflɪks/)(官方中文译名网飞,非官方中文译名奈飞)是起源于美国、在世界各地提供网络视频点播的OTT服务公司,并同时在美国经营单一费率邮寄影像光盘出租服务,后者是使用回邮信封寄送DVD和Blu-ray出租光盘至消费者指定的收件地址。公司由里德·哈斯廷斯和马克·兰多夫在1997年8月29日成立,总部位于加利福尼亚州的洛斯盖图,1999年开始推出订阅制的服务。2009年,Netflix已可提供超过10万部电影DVD,订阅者数超过1000万人。另一方面,截至2022年6月的数据,Netflix的流服务已经在全球拥有2.20亿个订阅用户,在美国的订户已达到7330万。其主要的竞争对手有Disney+、Hulu、HBO Max、Amazon Prime Video、YouTube Premium及Apple TV+等。
Netflix在多个排行榜上均榜上有名:2017年6月6日,《2017年BrandZ最具价值全球品牌100强》公布,Netflix名列第92位。2018年10月,《财富》未来公司50强排行榜发布,Netflix排名第八。2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第88。在《财富》2018年世界500大排名261位,并连年增长。2019年10月,位列2019福布斯全球数字经济100强榜第46名。2019年10月,Interbrand发布的全球品牌百强榜排名65。2020年1月22日,名列2020年《财富》全球最受赞赏公司榜单第16位。2022年2月,按市值计算,Netflix为全球第二大的媒体娱乐公司。2019年,Netflix加入美国电影协会(MPA)。另外,Netflix也被部分媒体列为科技巨擘之一。
Accelerating Video Quality Control at Netflix with Pixel Error Detection
Netflix开发了一种自动检测视频中像素级别错误的新方法,减少了早期质量检查中手动视觉审查的需求。该方法通过高效神经网络实时识别像素级伪影,特别针对相机传感器故障产生的亮点(热像素)。模型处理全分辨率输入,避免下采样导致的误差消失,并结合连续帧分析区分传感器故障和自然亮点。通过合成像素错误生成器和真实数据迭代训练,模型在减少误报的同时保持高灵敏度,显著提升了检测效率。
ML Observability: Bringing Transparency to Payments and Beyond
Netflix利用ML可观测性优化支付流程,确保用户订阅和续费无障碍。通过日志记录、监控和解释三大模块,实时追踪模型表现,快速定位数据漂移等问题。SHAP算法助力模型解释,分析特征贡献,提升决策透明度。这套框架不仅降低运营复杂度,还提高了交易成功率,未来将推广至更多业务场景。
From Facts & Metrics to Media Machine Learning: Evolving the Data Engineering Function at Netflix
Netflix正在推动数据工程的新发展,专注于媒体机器学习数据工程。通过构建媒体数据湖,整合视频、音频、文本等多模态数据,支持机器学习模型的训练与应用。新架构包括媒体表、数据模型和API,旨在标准化媒体资产,提供高效的数据访问和处理。这一创新不仅提升了模型质量,还加速了AI功能的实验与产品化,推动了内容创作与业务决策的深度洞察。
Unlocking Dynamic Pages: The Evolution of Netflix’s Client-Server GraphQL APIs
Netflix通过GraphQL API和触发器实现动态页面更新,提升个性化体验。设备首次请求页面时,服务器返回包含触发器的初始数据。用户行为触发事件后,设备通过GraphQL突变请求更新页面,避免重复获取未改变的数据。采用缓存归一化技术,高效管理复杂类型列表的更新。该系统支持多种页面修改,如插入、删除和重排部分内容,确保动态页面的灵活性和一致性。
Behind the Streams: Building a Reliable Cloud Live Streaming Pipeline for Netflix. Part 2.
从零搭建云端直播系统,团队创新采用双路冗余架构,通过SMPTE 2022-7协议实现毫秒级故障切换。自研打包器兼容全球海量设备,智能源站系统动态优选流媒体分片,配合自动化编排引擎支撑从喜剧专场到体育赛事的全场景直播。这套系统以2秒分段实现低延迟,云端编码适配HEVC/AVC等多格式,为4K高帧率内容智能分配码率,最终打造出无缝衔接的跨地区直播体验。
Empowering Netflix Engineers with Incident Management
Netflix通过引入直观的Incident.io工具,将事件管理从集中化转向全工程师参与,提升了系统的可靠性和学习机会。工具易用性推动了文化转变,事件不再被视作“大故障”,而是任何值得关注的服务问题。内部数据集成和标准化流程减少了认知负担,使团队能快速响应。这一转型促进了工程师对事件的所有权意识,持续优化系统以服务全球用户。
Scaling Muse: How Netflix Powers Data-Driven Creative Insights at Trillion-Row Scale
Netflix的Muse应用通过数据驱动优化内容推荐,采用HyperLogLog草图提升计数效率,结合Hollow内存库预计算聚合数据,大幅降低查询延迟。团队重构Druid集群配置,优化段大小和查询路由,实现50%的延迟下降。通过双栈验证和分段上线确保数据准确性,未来将扩展至直播和游戏内容分析,持续提升推荐精准度。(139字)
Building a Resilient Data Platform with Write-Ahead Log at Netflix
Netflix构建了一个通用的Write-Ahead Log(WAL)系统,解决了大规模数据平台中的一致性和可靠性问题。WAL通过抽象底层存储系统,支持多种数据操作场景,如延迟队列、跨区域复制和多分区写入。其核心架构分离了消息生产和消费,支持灵活的目标配置,确保数据的高可用性和最终一致性。WAL的应用显著提升了开发效率,减少了技术债务,并增强了系统的容错能力。
100X Faster: How We Supercharged Netflix Maestro’s Workflow Engine
Netflix的Maestro工作流引擎最近完成了重大升级,性能提升100倍,延迟从秒级降至毫秒级。新引擎采用基于内存的状态管理,简化了架构,消除了竞态条件,确保了任务的强一致性。通过引入流组概念和虚拟线程技术,Maestro在保持高扩展性的同时大幅提升了执行效率。这一优化显著改善了Netflix大规模数据处理和机器学习工作流的性能,为低延迟用例提供了更强支持。
How and Why Netflix Built a Real-Time Distributed Graph: Part 1 — Ingesting and Processing Data Streams at Internet Scale
Netflix业务扩展后,成员行为数据分散在不同微服务中,传统数据仓库难以实时关联分析。为此,团队构建了实时分布式图(RDG),利用图结构高效处理跨域关系。数据通过Kafka实时摄入,由Flink作业处理并转换为图节点和边,支持低延迟更新。采用流处理架构和分主题作业设计,解决了高吞吐量下的稳定性问题,为个性化体验提供实时数据支撑。
Behind the Streams: Real-Time Recommendations for Live Events Part 3
Netflix为应对直播活动的高并发需求,设计了实时推荐系统,通过预取数据和低基数广播两种方式,确保全球数百万设备同步更新。预取阶段提前加载数据,避免流量高峰;广播阶段在关键时刻发送轻量消息,触发设备本地更新。系统还优化了缓存同步和流量管理,成功在高峰期一分钟内向超1亿设备推送更新,提升了直播体验的可靠性和实时性。
Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning
生成式推荐系统面临模仿用户行为可能导致推荐质量不佳的挑战。用户反馈虽丰富,但难以获取反事实数据,且奖励模型噪声较大。为此,提出优势加权监督微调(A-SFT)算法,结合监督学习和优势函数,有效应对奖励模型高方差问题。实验表明,A-SFT在推荐质量和奖励得分上均优于其他方法,为生成式推荐系统的后训练提供了新思路。
Behind the Streams: Three Years Of Live at Netflix. Part 1.
Netflix三年前开始进军直播领域,从首个喜剧特别节目到数百场直播活动,如NFL圣诞赛和WWE,技术团队不断突破。采用云端冗余转码、Open Connect CDN和HTTPS流媒体技术,确保全球300多亿用户的无缝体验。通过自动化、实时监控和预测性扩展,团队持续优化直播质量与稳定性,未来还将探索更多直播形式与技术改进。
Netflix Tudum Architecture: from CQRS with Kafka to CQRS with RAW Hollow
文章介绍了如何利用Kafka分离读写数据库,优化内容存储与分发。通过Tudum Ingestion Service将CMS数据转换为读优化格式,Data Service Consumer将内容存入Cassandra数据库,支持页面构建服务。然而,这种架构导致编辑内容延迟显示。为解决此问题,引入了RAW Hollow技术,提供内存中强一致性数据访问,显著提升性能与可用性。
AV1 @ Scale: Film Grain Synthesis, The Awakening
Netflix为全球会员提供了AV1电影颗粒合成(FGS)流媒体体验,该技术通过自回归模型和缩放功能精确模拟电影颗粒,在保持艺术完整性的同时优化数据效率。FGS在编码前去除颗粒,压缩后重新生成,显著降低比特率,提升视觉质量,为观众带来更优质的观影体验。
Driving Content Delivery Efficiency Through Classifying Cache Misses
Netflix通过Open Connect项目优化内容分发,提升用户体验。利用本地化Open Connect Appliances(OCAs)与ISP合作,减少延迟和缓冲。缓存未命中分为内容未命中和健康未命中,分别由内容缺失和资源饱和引起。通过实时日志分析,Netflix监控缓存未命中情况,确保用户从最优OCA获取内容,持续改进内容分发效率,应对新流媒体类型的挑战。