公司:小红书
小红书,是中华人民共和国的网络购物和社交平台,成立于2013年6月,该网站声称截至2019年1月拥有2亿用户。在小红书社区有桌面跟手机端,信息以瀑布流(Pinterest-style layout)的方式呈现,但又结合视频与直播功能,用户还可以分享产品评测和旅游目的地的文字介绍,即“种草笔记”。该软件被视为中国改良版的instagram,用户相对年轻而受教育,细分的化妆品搜索功能成功打入购物市场,同时透过素人跟口碑来创造体验旅游消费真实感,尤其对于新博主曝光度相对友善、但也有容易盗用个人照的质疑,另外,小红书也为网络和电视的多个节目冠名赞助,为小红书带来用户和内容的增长。
Apache Pulsar在小红书在线场景下的探索与实践
Pulsar在小红书在线消息队列的场景下如何落地。
小红书提出大模型推理加速算法 HASS 刷新 SOTA
聚焦草稿模型训练与解码间差异,强化两者在目标和上下文上对齐。
AIOps在小红书的探索与实践——故障定位与诊断
微服务智能根因定位系统,帮助业务故障快速定位。
多模态对齐在小红书推荐的研究及应用
小红书提出新型多模态推荐的对齐和训练框架AlignRec。
小红书推出AIGC加速新算法TDD
由目标驱动蒸馏,文生图精准加速。
探索可观测的新视角—— eBPF 在小红书的实践
深度解析 eBPF 技术在小红书大规模落地的实践。
AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践
深度剖析大模型在多样化广告创意生成中的实践。
语义与效率、算法与算力双飞轮——小红书广告召回实践
小红书作为一个集内容分享、社区互动与电商购物于一体的平台,其搜索功能已成为人们获取信息、做出消费决策的重要渠道。随着用户需求的多样化和广告物料的快速增长,小红书搜索广告召回系统面临着业务与技术上的多重挑战。
本文深入探讨了小红书在业务增长阶段的搜索广告召回实践与思考,通过召回水位分析与策略演进,介绍了如何通过构建数据循环、优化复杂召回模型等技术手段,在保证用户体验的同时实现广告的高效分发。
此外,大模型技术的应用,如复杂查询常识推理、大模型表征等,也为召回系统带来了新的突破。在大模型时代,搜索技术栈的变革将不可避免,小红书搜索广告召回协同算力引擎团队已经为未来做好了准备。
时延降低 50%,小红书图数据库如何实现多跳查询性能大幅提升
小红书图数据库 REDgraph 在分布式并行查询上的探索。
小红书云原生 Kafka 技术剖析:分层存储与弹性伸缩
存储成本直降 60%,运维效率增至 10 倍,打造「弹性伸缩、按量付费」商品化模式
小红书搜索团队提出新解码策略,降低大模型推理成本
此创新成果 Early-Stopping Self-Consistency 已被人工智能顶会 ICLR 2024 接收。
小红书离线数仓提效新思路,提升百倍回刷性能
一文解析 StarRocks 如何提升数据处理效率,回刷时间减少 90%,回刷成本减少 99%
释放数据湖潜力:小红书如何实现数仓效率与成本的双重优化
实时技术与数据湖技术的结合,成为催动数仓架构迭代的新引擎,提升数仓产出时效\x26amp;查询性能,助力数据协助业务决策走上新台阶。
代码之外:工程师的成长进阶秘籍
不止会写代码,看十年互联网工程师如何成长蜕变。
小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。
在 AAAI 2024 上,小红书搜索算法团队提出了一个创新框架,在蒸馏大模型推理能力的过程中充分利用负样本知识。负样本,即那些在推理过程中未能得出正确答案的数据,虽常被视为无用,实则蕴含着宝贵的信息。
论文提出并验证了负样本在大模型蒸馏过程中的价值,构建一个模型专业化框架:除了使用正样本外,还充分利用负样本来提炼 LLM 的知识。该框架包括三个序列化步骤,包括负向协助训练(NAT)、负向校准增强(NCE)和动态自洽性(ASC),涵盖从训练到推理的全阶段过程。通过一系列广泛的实验,我们展示了负向数据在 LLM 知识蒸馏中的关键作用。
小红书可观测 Metrics 架构演进,如何实现数十倍性能提升?
基于 Victoriametrics 重构时序架构,实现性能和稳定性的同步提升。