知鸦日报2026-03-24

2026-03-23 16:30:00 ~ 2026-03-24 16:30:00

技术

业务逻辑的“坍塌”:当应用层只剩下胶水代码,在 AI Agent 时代,我们该构建什么

摘要

AI开发从质疑到驾驭,揭秘大模型不确定性源于硬件异构与数值精度。Agent开发如同胶水层,需平衡Prompt工程、Context管理与工具编排。Transformer架构通过注意力机制实现语义理解,而算力与数据驱动其强大泛化能力。传统架构与AI融合面临概率性挑战,需重构业务流程。理解底层原理,方能高效驾驭AI潜能。

登录后可查看文章图片

龙虾盛宴下的冷思考

摘要

AI工具的流行带来了新的职业和工具断货现象,但很多人使用后不知如何有效利用。AI编程工具虽提升了效率,但存在代码质量不高、伪需求等问题。关键在于找到真实需求,避免自我感动,合理利用AI工具而非盲目依赖。认清瓶颈,谨慎应对认知陷阱,按特长分工使用不同模型,才能让AI真正助力工作。

登录后可查看文章图片

lyft技术:Migrating Lyft’s Android Codebase to Kotlin

摘要

Lyft安卓团队耗时7年完成Java到Kotlin的全量迁移,2022年后重点攻克剩余15%代码。通过自研迁移追踪工具和自动化脚本,日均处理2个模块,最终覆盖20+团队的150+模块。迁移中遇到空类型泛滥、循环语句冗余等编译器缺陷,还处理了历史遗留的INullable接口和特定设备API兼容问题。现通过CI检查彻底杜绝Java回退,全面拥抱Kotlin特性如协程和Compose框架。(138字)

lyft技术:Lyft’s Feature Store: Architecture, Optimization, and Evolution

摘要

Lyft的特征存储是其数据平台的核心基础设施,专为大规模机器学习特征的管理和部署优化。该系统通过批处理、在线和流式处理三种方式,简化了特征的生命周期管理,确保特征的一致性和高效访问。在线服务层结合DynamoDB和ValKey缓存,实现低延迟特征检索。系统还支持特征发现、版本控制和数据质量管理,显著提升了ML模型的开发效率和用户体验。

lyft技术:Trusting the Untestable: Validation and Diagnostics for the Doubly Robust Models

摘要

Lyft工程团队探讨了在无法进行随机实验时,如何通过准实验方法评估政策和产品变化的因果效应。重点介绍了双重稳健模型(AIPW),该模型通过拟合结果模型和倾向得分模型,在至少一个模型正确的情况下,能够一致估计平均处理效应(ATE)。文章还强调了验证的重要性,尤其是在处理选择偏差和协变量平衡时,提出了严格的诊断和验证机制,以确保结果的可靠性。通过实验与观察数据的对比,验证了AIPW模型的准确性,并探讨了其在实际应用中的局限性。

lyft技术:Scaling Localization with AI at Lyft

摘要

Lyft通过AI重构翻译流程,结合LLM生成与评估,实现从多天到分钟的翻译速度,同时保障质量。系统分三个阶段:草稿生成、早期发布和最终审核。LLM处理上下文,生成多种翻译候选,评估模型筛选最优方案,并通过反馈迭代优化。引入术语表和防护机制,确保品牌术语和格式一致性。实验配置和多模型支持进一步提升效率和准确性,满足全球市场快速扩展需求。

netflix技术:Netflix Live Origin

摘要

Netflix Live Origin 是一个基于 AWS EC2 的多租户微服务,负责管理直播内容的分发。其架构支持多区域冗余流管道,通过智能选择有效片段确保流畅播放。Open Connect 扩展了 nginx 代理缓存功能,优化了直播内容的交付。存储系统采用高可用性设计,支持大规模写入和读取,确保低延迟和高吞吐量。通过优先级限流和缓存优化,Netflix Live Origin 有效应对流量高峰,保障全球用户的直播体验。

netflix技术:How Temporal Powers Reliable Cloud Operations at Netflix

摘要

Netflix采用Temporal平台重构Spinnaker部署系统,将云操作失败率从4%降至0.0001%。通过Temporal的持久化工作流和自动重试机制,解决了原有系统状态丢失、复杂回滚逻辑等问题,实现服务解耦和运维可视化。迁移过程中优化了子工作流设计参数传递模式,最终支撑起全公司数百个用例,并通过Temporal Cloud实现弹性扩展。

netflix技术:The AI Evolution of Graph Search at Netflix: From Structured Queries to Natural Language

摘要

Netflix利用大型语言模型(LLM)将自然语言查询转换为Graph Search Filter DSL,简化了复杂数据搜索流程。通过检索增强生成(RAG)技术,系统精准匹配用户意图,生成语法、语义正确的查询语句。同时,结合上下文工程和后处理验证,确保查询结果的准确性和可信度,提升了用户体验和搜索效率。

netflix技术:Automating RDS Postgres to Aurora Postgres Migration

摘要

2024年,Netflix在线数据存储团队决定将Amazon Aurora PostgreSQL作为公司主要的关系型数据库标准,取代现有的RDS PostgreSQL。这一决策基于PostgreSQL的广泛使用、行业趋势以及Aurora的云原生架构优势。团队设计了自动化迁移流程,确保数据一致性、最小化停机时间,并支持自服务操作。迁移过程包括数据复制、静默期、验证和切换阶段,成功应用于Netflix的关键业务系统,提升了数据库的可扩展性和运维效率。

netflix技术:Scaling LLM Post-Training at Netflix

摘要

Netflix构建了LLM后训练框架,专注于解决大规模训练中的工程挑战。框架涵盖数据、模型、计算和工作流四大模块,支持SFT、RL等多种训练范式,优化了分布式训练流程。通过灵活架构和高效工具,开发者能专注于模型创新,而非底层系统复杂性,推动Netflix在推荐、个性化等领域的AI应用。

netflix技术:MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix

摘要

Netflix开发了首个三模态(音频、视频、文本)内容嵌入模型MediaFM,通过整合视觉、音频和文本信息,生成丰富的上下文嵌入,用于理解长视频中的叙事结构和情感变化。MediaFM采用Transformer架构,并通过自监督任务训练,显著提升了广告相关性、片段流行度预测等任务的表现。该模型不仅优化了内容推荐,还为内部分析工具提供了强大支持,展现了多模态融合在视频理解中的潜力。

netflix技术:Optimizing Recommendation Systems with JDK’s Vector API

摘要

Netflix的Ranker服务中,视频惊喜度评分功能因计算量大成为CPU热点。原方案逐个计算候选视频与历史记录的余弦相似度,效率低下。优化分四步:1)改用矩阵乘法批量处理;2)重构内存布局,减少GC压力;3)引入线程本地缓存复用数据;4)采用JDK Vector API实现SIMD加速。最终CPU消耗降低7%,延迟下降12%,性能提升显著。核心在于优化计算形态与内存访问,而非单纯依赖库函数。

shopify技术:Building the Universal Commerce Protocol

摘要

Shopify推出的通用商务协议(UCP)为AI代理与商家交易提供开放标准,支持灵活的能力发现与谈判。UCP分层设计,核心交易功能与扩展能力分离,商家可自定义功能,代理仅处理支持的操作。协议无需中央审批,支持动态支付谈判与无缝交接,适应多样化的商务需求,推动电商生态持续进化。

登录后可查看文章图片

shopify技术:SkyPilot at Shopify: Multi-cloud GPUs without the pain

摘要

Shopify利用SkyPilot框架实现多云GPU资源智能调度,通过YAML声明式配置自动路由任务——H200需求分发给Nebius集群,L4/CPU任务定向到GCP。定制插件集成Kueue实现配额管理与优先级调度,开发环境一键启停。系统自动处理InfiniBand配置和缓存挂载,工程师只需专注资源需求描述,底层跨云复杂性由平台消化。(139字)

登录后可查看文章图片

shopify技术:The generative recommender behind Shopify's commerce engine

摘要

Shopify构建了一套基于用户行为序列的生成式推荐系统,通过时序编码捕捉购物场景的季节性变化,利用负采样技术优化商品边界区分,并采用增量召回策略增强推荐多样性。该系统将买家旅程转化为连续事件预测任务,结合高效CUDA内核实现低延迟推理,在BFCM大促期间成功提升5%高价值点击率及0.71%转化率。当前正探索语义ID技术以突破商品ID空间的算力限制。

登录后可查看文章图片

shopify技术:Shopify’s journey to faster breadth-first GraphQL execution

摘要

Shopify开发了GraphQL Cardinal,一款广度优先执行引擎,解决深度优先遍历在高基数查询中的性能瓶颈。通过一次性解析所有对象的字段,Cardinal显著提升了大型列表查询的速度和内存效率,减少了CPU开销和垃圾回收压力。迁移过程中,Shopify逐步更新了字段解析器和追踪器,进一步优化性能。Cardinal的成功为GraphQL社区提供了新的执行模型思路,展示了广度优先策略在处理大规模数据时的潜力。

登录后可查看文章图片

shopify技术:Building a Magic Mirror: AI retail experiences with Remix

摘要

线上购物愈发便捷,实体店的价值转向体验化。AI魔镜应运而生,通过视觉识别和互动,为顾客提供个性化信息、产品推荐等,提升购物趣味性。魔镜核心由全尺寸镜子、摄像头和计算机组成,运行HTTP协议,实现快速互动。借助Remix框架,服务器和客户端逻辑统一,简化开发流程。魔镜可自定义,适用于多种场景,如美妆试色、互动挑战等,为品牌创造独特购物体验。

Cursor 逆向笔记 1 —— 我是如何拦截解析 Cursor 的 gRPC 通信流量的

摘要

小编带你揭秘Cursor AI的通信机制!通过MITM代理抓包,发现Cursor采用读写分离设计:RunSSE长连接接收AI响应流,BidiAppend短连接发送用户消息。协议使用Connect Protocol,proto定义藏在JS文件中,通过解析typeName和fields可还原结构。KV存储让客户端充当缓存层,服务端控制上下文存取。隐私模式下代码仍会上传用于索引,实际数据收集范围比宣称的更广。

登录后可查看文章图片

一套跑了 9 个月的全自动 AI 日报系统是怎么搭的:从数据采集到 AI 分析到三端分发,附完整 Prompt

摘要

这套全自动日报系统从数据采集到AI分析再到分发,实现了行业资讯的高效处理。通过三层解耦设计,系统稳定运行9个月,每天精准推送游戏和AI领域的Top 10精选。核心亮点包括:N8N+RSS实现数据采集标准化,三路并行LLM提速分析,智能分组去重技术,以及企微/GitHub/Wiki三端自动分发。实战经验证明,合理运用现有工具链,个人开发者也能搭建专业级信息处理系统。

登录后可查看文章图片

Claude Code 里,Subagents 和 Agent Teams 到底怎么选?有什么区别?

摘要

Multi-Agent系统有两种核心模式:Sub-agents专注独立任务压缩输出,适合极致并行场景;Agent Teams支持长期协作与点对点通信,适合需持续协调的复杂任务。设计关键在于按上下文而非角色拆分,避免信息衰减。五种常见模式覆盖多数需求,但需警惕过度设计——单Agent调优无效时再考虑多Agent架构。记住:复杂性要为可衡量的收益服务。

登录后可查看文章图片

Electron逆向工程入门

摘要

这篇干货教程带你入门Electron逆向工程!从识别Electron应用到拆解核心框架,手把手教你处理app.asar文件、调试主进程与渲染进程。重点解析jsc字节码技术,包括版本检测、反汇编与反编译技巧,还附赠v8源码编译指南。无论是抓包分析IPC通信,还是绕过开发者工具限制,这里都有实战解决方案,堪称Electron逆向的全套武功秘籍!

More Easy Light-Dark Mode Switching: light-dark() is about to support images!

摘要

CSS的light-dark()函数即将支持图片切换啦!以前只能用来切换颜色,现在连背景图、遮罩等都能一键适配深浅模式,再也不用写繁琐的媒体查询了。只需一行代码background-image: light-dark(url(浅色图),url(深色图)),还能自动响应局部配色覆盖。目前Chrome需开实验性功能,Firefox150+已原生支持。未来还可能通过CSS自定义函数实现更多类型值的切换,开发者们可以提前尝鲜啦~

Abusing Customizable Selects

摘要

来看看如何用新版CSS玩转自定义下拉菜单!通过三个创意案例——弧形文件夹堆叠、扇形扑克牌和圆形表情选择器,展示了如何利用<select>的新特性实现炫酷交互效果。关键技巧包括:用::picker()重置默认样式,sibling-index()实现动态排列,@starting-style添加入场动画,以及三角函数精准定位圆形菜单。这些功能目前仅支持Chromium内核浏览器,但在不支持的环境会优雅降级为普通下拉框,是完美的渐进增强实践。

登录后可查看文章图片

让AI变成Super员工的秘密:高效训练Skills

摘要

AI虽聪明,却在复杂任务中常表现不稳,根源在于缺乏“业务SOP”。通过web-testing Skill的打造,发现关键在于将AI从通用模型训练为懂业务、会自检、能稳定交付的S级员工。训练过程中,需明确触发条件、必做动作、自检方式及门禁规则,确保AI在复杂任务中不遗漏、不偷懒,最终实现稳定可靠的业务闭环交付。

Claude Code + OpenSpec 正在加速 AICoding 落地:从模型博弈到工程化的范式转移

摘要

Claude Code与OpenSpec正在重塑AI编程范式。核心突破在于上下文管理——通过终端原生代理循环和规格驱动开发,解决模型在复杂业务中的失控问题。CC提供精准的代码操作与验证能力,而OpenSpec则像"产品说明书"一样规范开发流程。二者结合形成闭环,将散落的业务知识转化为可执行的工程约束,让AI真正理解项目语境。这标志着开发者角色从"写代码"向"定规格"的转变,技术债务转化为组织资产。

登录后可查看文章图片

百度MEG数据中台ClickHouse在数据湖仓中的探索和应用

摘要

百度MEG数据中台构建了存算分离的湖仓一体架构,解决了传统ClickHouse面临的长周期存储成本高、即席探索链路冗长、故障恢复缓慢等问题。通过冷热分层缓存、数据上卷及布局优化,显著提升了查询性能。同时,引入统一查询网关,支持将复杂查询透明降级至Spark运行,确保系统稳定性。该架构已在多个业务线成功应用,提升了数据分析效率和用户体验。

登录后可查看文章图片


‹ 2026-03-23 日报 2026-03-25 日报 ›

qrcode

关注公众号
接收推送