知鸦日报2025-09-12

2025-09-11 16:30:00 ~ 2025-09-12 16:30:00

Công nghệ

美团技术:LongCat-Flash:如何使用SGLang部署美团Agentic模型

摘要

美团开源了LongCat-Flash智能体模型,采用混合专家模型(MoE)架构,通过创新设计实现了计算效率与性能的双重优化。模型总参数量达5600亿,具备512个前馈网络专家和256个零计算专家,支持计算-通信重叠和多头潜在注意力机制。通过SGLang框架优化部署,LongCat-Flash在推理速度和智能体任务表现上显著优于同类模型,适用于复杂场景。

Defeating Nondeterminism in LLM Inference

摘要

大语言模型(LLM)推理中的非确定性问题源于浮点数非结合性和并发计算的复杂性。尽管通过调整温度等参数理论上可以实现确定性,但实际应用中仍存在差异。主要原因在于推理过程中的批处理大小变化,导致输出结果不一致。解决这一问题的关键在于实现批处理不变性,确保每个请求的推理结果不受其他并发请求的影响,从而获得可复现的结果。

58同城技术:别等用户报bug!QA 提前堵线上 Bug 的 3 个实战心法,常规手段也能超高效!

摘要

QA的核心在于把常规手段做透。上线前集测要明确目标、及时奖励,确保问题落地;平日监察需精准选接口、高效定断言,跟紧迭代;人工巡检要分级计划,沉浸体验;复盘则需深挖根因,措施具体,跟进公开。每个环节都堵住漏洞,动作产生实效,提前化解用户问题。


‹ 2025-09-11 日报 2025-09-13 日报 ›

qrcode

关注公众号
接收推送