知鸦日报2025-04-17

2025-04-16 16:30:00 ~ 2025-04-17 16:30:00

기술

文本向量的长度偏差及其在搜索中的影响

摘要

文本向量模型在语义相似度测量中存在长度偏差,长文本的相似度得分往往更高,即使内容不相关。余弦相似度无法直接判断相关性,只能反映相对相似度。实验表明,文档越长,余弦相似度越高,句子间相似度则较低。非对称编码虽能改进信息检索,但无法消除长度偏差。建议结合重排器或大模型评估相关性,而非依赖单一阈值。

腾讯技术:大厂都在用!Protobuf原理解析与优化技巧

摘要

Protobuf编码原理基于proto3语法,涵盖基本和复合类型的序列化与反序列化。通过分析varint和zigzag编码,优化技巧包括选择合适的数据类型、精简结构信息和利用数据分布特征。未来研究方向在于结合数据特性减少信息冗余,提升编码效率。

登录后可查看文章图片

阿里巴巴技术:100行代码讲透MCP原理

摘要

MCP(Model Context Protocol)通过100行代码展示了其核心原理,巧妙设计支持双向通信和异步任务。MCP采用SSE和HTTP POST实现双向通信,结合JSON-RPC规范,适合AI应用集成。其有状态会话、事件通知和动态能力协商,使其在API、MQ和WebSocket中独树一帜,为AI与外部系统集成提供灵活方案。

登录后可查看文章图片

How to Build an Agent

摘要

AI 助手构建简明指南:只需 300 行代码,结合 LLM 和工具调用,即可实现代码编辑代理。通过定义 read_filelist_filesedit_file 等工具,Claude 能自主调用工具完成任务,如创建和修改文件。核心逻辑在于工具定义与执行,模型在对话中自动判断何时使用工具。简单循环与工具调用机制,展现了 AI 辅助编程的强大潜力。

AI王炸:MCP服务端客户端的完整实现

摘要

MCP(Model Context Protocol)是一种标准接口,让AI模型能够连接不同应用和工具,类似于USB-C接口。通过MCP Server,可以暴露资源、工具和提示,实现AI与应用的交互。文章以Python为例,展示了如何开发MCP Server,并提供了客户端集成的代码示例,帮助开发者在现有应用上构建AI功能。

登录后可查看文章图片

vivo技术:Spark on K8s 在vivo大数据平台的混部实战

摘要

vivo通过Spark Operator方案实现了离线Spark任务在混部集群的容器化改造,优化了K8s资源调度与任务提交流程。借助弹性调度系统动态管理资源水位线,合理分配任务至多集群,显著提升CPU利用率,高峰期达30%。未来还将扩大任务类型覆盖并优化调度策略,进一步提升混部收益与资源填充效率。

登录后可查看文章图片

腾讯技术:从模型原理到代码实践,深入浅出上手Transformer,叩开大模型世界的大门

摘要

Transformer架构通过编码器和解码器实现翻译任务,编码器提取源文特征,解码器结合上下文预测下一个词。输入包括源文和目标译文,输出为逐词生成的翻译结果。模型通过嵌入将词转化为向量,利用自注意力机制捕捉词间关系,多头注意力提升模型表现。前向传播结合残差和归一化,反向传播更新参数优化模型。

登录后可查看文章图片

京东技术:Spring缓存注解浅析及实践

摘要

Spring提供了强大的缓存注解功能,包括@EnableCaching、@Cacheable、@CachePut和@CacheEvict,帮助开发者轻松实现缓存读写、更新和删除。通过AOP机制,这些注解避免了缓存逻辑与业务代码的耦合,提升了代码优雅性和开发效率。不过,@EnableCaching并未提供缓存超时属性,需借助CacheManager统一设置。Spring的扩展性为自定义缓存超时预留了空间。

登录后可查看文章图片

得物技术:得物自研DGraph4.0推荐核心引擎升级之路

摘要

DGraph是得物自研的推荐引擎,2024年完成两大架构升级:垂直拆分业务集群和分布式能力支持,突破单节点资源限制。性能方面优化了算子执行框架和传输编解码,提升高负载下的稳定性和效率。用户体验改进包括DAG图增强调试、TimeLine分析和动态子图功能,方便业务迭代和问题排查。系统已支撑百万级QPS,未来将聚焦易用性和扩展性优化。

登录后可查看文章图片

58同城技术:加Log就卡?不加Log就瞎?”——这个插件治好了我的精神内耗

摘要

日志管理在系统监控和异常诊断中至关重要,但不当配置可能导致日志阻塞和性能瓶颈。深入理解Log4j2异步日志机制,优化配置参数,可实现高效日志输出。通过分层管理日志,区分功能日志和业务排查日志,确保核心日志稳定输出,同时灵活控制辅助日志打印,提升系统稳定性和可观测性。

登录后可查看文章图片

得物技术:风控基建实战:风控业务视角下的流批一体数据架构应用

摘要

数据架构是企业数字化转型的核心,通过规范化设计体系管理数据全生命周期,驱动智能化决策与业务创新。随着数据规模增长,架构设计面临标准不统一、扩展性不足等挑战。实时计算架构如Lambda和Kappa在数据处理中各有优劣,结合使用可提升效率。Hologres平台通过流批一体架构,兼顾实时性与成本效益,为复杂业务场景提供高效解决方案。

登录后可查看文章图片

과학

章鱼真聪明啊,不该10元3串

摘要

章鱼,拥有九个大脑、三颗心脏和蓝色血液,是地球上最聪明的无脊椎动物之一。它们能迅速伪装、使用工具,甚至识别人脸。章鱼寿命短暂,但生活精彩,从出生起便自学生存技能,最终为繁殖后代牺牲。尽管无法将智慧传给下一代,它们通过快速进化和适应环境,展现了生命的无限可能。

登录后可查看文章图片


‹ 2025-04-16 日报 2025-04-18 日报 ›

qrcode

关注公众号
接收推送