公司:Netflix
Netflix(/ˈnɛtflɪks/)(官方中文译名网飞,非官方中文译名奈飞)是起源于美国、在世界各地提供网络视频点播的OTT服务公司,并同时在美国经营单一费率邮寄影像光盘出租服务,后者是使用回邮信封寄送DVD和Blu-ray出租光盘至消费者指定的收件地址。公司由里德·哈斯廷斯和马克·兰多夫在1997年8月29日成立,总部位于加利福尼亚州的洛斯盖图,1999年开始推出订阅制的服务。2009年,Netflix已可提供超过10万部电影DVD,订阅者数超过1000万人。另一方面,截至2022年6月的数据,Netflix的流服务已经在全球拥有2.20亿个订阅用户,在美国的订户已达到7330万。其主要的竞争对手有Disney+、Hulu、HBO Max、Amazon Prime Video、YouTube Premium及Apple TV+等。
Netflix在多个排行榜上均榜上有名:2017年6月6日,《2017年BrandZ最具价值全球品牌100强》公布,Netflix名列第92位。2018年10月,《财富》未来公司50强排行榜发布,Netflix排名第八。2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第88。在《财富》2018年世界500大排名261位,并连年增长。2019年10月,位列2019福布斯全球数字经济100强榜第46名。2019年10月,Interbrand发布的全球品牌百强榜排名65。2020年1月22日,名列2020年《财富》全球最受赞赏公司榜单第16位。2022年2月,按市值计算,Netflix为全球第二大的媒体娱乐公司。2019年,Netflix加入美国电影协会(MPA)。另外,Netflix也被部分媒体列为科技巨擘之一。
Video annotator: a framework for efficiently building video classifiers using vision-language models and active learning
这篇文章介绍了一个名为Video Annotator (VA)的交互式框架,用于标注视频数据。VA利用大型视觉语言模型的零样本能力和主动学习技术,提高了样本效率和降低成本。它提供了一种独特的方法来标注、管理和迭代视频分类数据集,强调领域专家在人机交互系统中的直接参与。通过在标注过程中让用户快速做出决策,VA提高了系统的整体效率。它还支持持续的标注过程,用户可以快速部署模型、监控质量并迅速修复问题。这种自助式架构赋予领域专家在不需要数据科学家或第三方标注者的参与下进行改进的能力,建立了对系统的信任。经过实验,VA在多个视频理解任务中相对于竞争对手平均提高了8.3个平均精度点。他们还发布了一个包含153k标签的数据集和复制实验的代码。
Round 2: A Survey of Causal Inference Applications at Netflix
文章讨论了Netflix的实验平台,强调了在产品设计中考虑用户需求和数据呈现方式的重要性。作者通过比较表格、饼图、堆叠柱状图和柱状图等不同数据呈现方式的优缺点,强调了设计对于用户理解数据的影响。作者还提到了设计在交互体验和产品策略中的作用,以及如何通过关注设计来确保工具能够最大限度地帮助团队从实验中学习。文章还提到了来自哈佛大学的Kosuke Imai教授在演讲中介绍了一种名为“cram method”的学习和评估治疗政策的方法。
The Making of VES: the Cosmos Microservice for Netflix Video Encoding
Netflix的Cosmos平台是下一代媒体计算平台,旨在通过提高灵活性、效率和开发人员的生产力,现代化Netflix的媒体处理流程。其中一个微服务是视频编码服务(VES),它将输入的原始素材编码成适合Netflix流媒体或某些工作室/制作用途的视频流。VES通过多个编解码器格式、分辨率和质量级别的支持,满足多设备、低延迟、快速创新和成本效益的要求。VES构建在Cosmos的三个层级上,包括API层(Optimus)、工作流层(Plato)和无服务器计算层(Stratum),并通过优先级消息传递系统Timestone进行异步通信。VES的构建过程中,团队学到了微服务架构的多个经验教训,包括定义适当的服务范围和通过持续发布来支持新的业务需求、提升性能和改进韧性。在第二次迭代中,团队通过将不同编解码器格式的编码合并到一个服务中,减少了代码重复,同时保证了每种编解码器格式的独立演进。此外,团队还强调了在数据建模方面要实事求是,平衡共享和耦合的关系。
Reverse Searching Netflix’s Federated Graph
Netflix的Content Engineering团队与Studio Engineering团队合作开发了Reverse Search功能。该功能可以根据文档查询与之匹配的搜索条件,实现精确的查询结果。通过将搜索条件保存为SavedSearches
,并将其转换为Elasticsearch查询语句,在percolator字段中进行索引。此外,reverse search还可用于创建更响应的UI。通过GraphQL订阅,搜索结果可以实时更新,而不是一次性查询。这些订阅可以与SavedSearch
相关联,并利用reverse search来确定何时更新订阅返回的键集合。总之,reverse search是一个功能强大的外部标准匹配器,不仅适用于电影标准,还可用于任何具有逆向搜索能力的索引。
Sequential A/B Testing Keeps the World Streaming Netflix Part 2: Counting Processes
Michael Lindon, Chris Sanden, Vache Shirikian, Yanjun Liu, Minal Mishra, Martin Tingley
Evolving from Rule-based Classifier: Machine Learning Powered Auto Remediation in Netflix Data Platform
Netflix开发了Auto Remediation功能,旨在自动修复失败的作业。该功能通过规则分类器和机器学习服务集成,可以处理由错误配置引起的错误,并分类新错误。Auto Remediation使用规则分类器进行初始分类,然后使用机器学习服务生成推荐配置。推荐配置存储于配置服务中,并自动应用。通过与Spark作业故障的生产部署验证了Auto Remediation的有效性和潜力。其优化器通过探索Spark配置参数空间来推荐最小化重试失败概率和成本的配置。预测模型每天离线重新训练,并在每个候选配置参数值上调用优化器进行评估。如果优化器找到可行的配置解决方案,响应中包含此推荐配置,由ConfigService用于更改重试的配置。如果没有可行的解决方案,响应中包含禁用重试的标记,从而消除了计算成本的浪费。训练时,使用了Feedforward Multilayer Perceptron (MLP)模型,将任务的元数据特征进行处理,并使用特征哈希和嵌入层进行建模。模型经过验证后存储在Metaflow Hosting中,然后由优化器根据每个配置请求进行调用。
Bending pause times to your will with Generational ZGC
The surprising and not so surprising benefits of generations in the Z Garbage Collector.
Introducing SafeTest: A Novel Approach to Front End Testing
In this post, we’re excited to introduce SafeTest, a revolutionary library that offers a fresh perspective on End-To-End (E2E) tests for web-based User Interface (UI) applications.
Sequential A/B Testing Keeps the World Streaming Netflix Part 1: Continuous Data
Can you spot any difference between the two data streams below? Each observation is the time interval between a Netflix member hitting the play button and playback commencing, i.e., play-delay. These observations are from a particular type of A/B test that Netflix runs called a software canary or regression-driven experiment. More on that below — for now, what’s important is that we want to quickly and confidently identify any difference in the distribution of play-delay — or conclude that, within some tolerance, there is no difference.
In this blog post, we will develop a statistical procedure to do just that, and describe the impact of these developments at Netflix. The key idea is to switch from a “fixed time horizon” to an “any-time valid” framing of the problem.
Rebuilding Netflix Video Processing Pipeline with Microservices
This is the first blog in a multi-part series on how Netflix rebuilt its video processing pipeline with microservices, so we can maintain our rapid pace of innovation and continuously improve the system for member streaming and studio operations. This introductory blog focuses on an overview of our journey. Future blogs will provide deeper dives into each service, sharing insights and lessons learned from this process.
Causal Machine Learning for Creative Insights
A framework to identify the causal impact of successful visual components.
Incremental Processing using Netflix Maestro and Apache Iceberg
本文介绍了Netflix在处理延迟到达数据时采用的增量处理模式。作者详细解释了增量处理模式的应用场景和用例,并提供了一个使用增量处理重新构建的数据流程示例。通过使用增量处理模式,Netflix成功降低了计算成本和执行时间。文章还提到了一些对业务逻辑的更改,如将playback_daily_table与playback_daily_icdc_table进行JOIN,以处理延迟到达的数据。通过这些改变,数据管道的效率得到了极大提升,新的基于IPS的管道只需要原来的资源的约10%的时间来完成。作者还展望了IPS的未来发展,并感谢参与开发IPS的同事们的建议和反馈。
Streamlining Membership Data Engineering at Netflix with Psyberg
Netflix的Membership and Finance Data Engineering团队负责处理与计划、定价、会员生命周期和收入相关的多样化数据,以支持分析、驱动各种仪表盘,并做出数据驱动的决策。然而,当数据延迟到达时,管理数据可能会带来很大的挑战。为了解决这个问题,团队开发了一个增量数据处理框架Psyberg。这个框架可以处理延迟到达的数据,并确保数据的准确性和完整性。通过这个系列的博客文章,读者可以了解Psyberg框架的内部机制、独特特性以及如何与数据流水线集成。Psyberg框架的使用使得数据处理更加高效、准确和及时。
Diving Deeper into Psyberg: Stateless vs Stateful Data Processing
Psyberg是一个数据处理平台,支持无状态和有状态的数据处理模式。对于无状态模式,它根据提供的输入检测Iceberg快照的变化,并将相关信息存储在psyberg_session_f表中。对于有状态模式,它可以处理多个输入流,并根据不同的时间戳字段来跟踪源表快照的变化。无论是哪种模式,Psyberg都能解析出每个Iceberg快照的分区信息。
Psyberg: Automated end to end catch up
本文介绍了Psyberg如何帮助自动化处理数据管道的端到端补偿,包括维度表。文章首先介绍了Psyberg的核心操作模式,即无状态和有状态数据处理。然后,介绍了在集成Psyberg后管道的状态。文章详细解释了Psyberg如何处理延迟到达的数据,并提供了一个通用的处理流程。最后,强调了Psyberg的优点和适用性。文章总结了如何将Psyberg与客户生命周期的四个组件集成,实现自动补偿。
Detecting Speech and Music in Audio Content
When you enjoy the latest season of Stranger Things or Casa de Papel (Money Heist), have you ever wondered about the secrets to fantastic story-telling, besides the stunning visual presentation? From the violin melody accompanying a pivotal scene to the soaring orchestral arrangement and thunderous sound-effects propelling an edge-of-your-seat action sequence, the various components of the audio soundtrack combine to evoke the very essence of story-telling. To uncover the magic of audio soundtracks and further improve the sonic experience, we need a way to systematically examine the interaction of these components, typically categorized as dialogue, music and effects.
In this blog post, we will introduce speech and music detection as an enabling technology for a variety of audio applications in Film & TV, as well as introduce our speech and music activity detection (SMAD) system which we recently published as a journal article in EURASIP Journal on Audio, Speech, and Music Processing.