知鸦日报2025-09-11

2025-09-10 16:30:00 ~ 2025-09-11 16:30:00

Công nghệ

360技术:Paimon在会员数仓的运用案例分享

摘要

会员中台携手奇麟云构建Paimon流批一体化数仓,解决传统架构组件多、数据冗余、开发成本高等痛点。Paimon支持Streaming实时计算和Lakehouse架构,简化数据处理链路,提升数据复用性和实时性。通过案例展示,Paimon在订单宽表、UV统计、数据修正等场景中表现出色,显著降低成本和开发复杂度,助力会员服务高效运转。

酷家乐技术:当接口自动化遇见AI大模型:基于Metersphere的失败用例智能分析实战方案

摘要

在数字化转型背景下,接口自动化测试面临用例失败定位难、分析效率低、知识复用性差等痛点。通过引入AI大模型技术,结合多维异常信息提取、优化Prompt与知识库,实现失败用例的智能诊断与快速修复。这一闭环方案显著提升了测试效率,减少了无效Issue,为测试流程的智能化转型奠定了基础。未来,AI与接口自动化的融合将进一步拓展,推动测试向事前预警和跨行业知识复用方向发展。

利用抽象语法树AST提升代码问答的深度与精度(下)

摘要

大语言模型(LLM)在代码理解与生成方面展现了强大能力,但也存在“幻觉”和缺乏深层结构理解的局限。抽象语法树(AST)通过提供精确的结构化上下文,有效弥补了LLM的不足。AST与LLM的协同,结合检索增强生成(RAG)技术,显著提升了代码问答的准确性和相关性。前沿模型如AST-T5、CodeGRAG等进一步推动了结构化代码分析与智能生成的融合,为构建下一代智能编程辅助工具奠定了基础。

爱奇艺技术:基于StarRocks释放天玑买量数据价值

摘要

天玑买量平台面临数据孤岛、实时性与查询性能难以兼顾等问题,决定基于StarRocks构建统一数仓。新架构通过简化存储层、消除冗余存储类型,解决了跨数据源查询与时效性问题。SR的高吞吐写入、部分列更新和物化视图技术,显著提升了数据准确性和查询效率,降低了开发成本,满足了复杂OLAP需求。

Don’t Inherit the Box Model

摘要

现代CSS重置常以box-sizing设置开始,通常使用border-boxinheritbox-sizing的继承在某些场景下可能有用,但并非最佳实践。content-box模型在关注内容大小时仍具价值,尤其在处理文本行宽时。对于伪元素::before::after,默认设置通常无需更改。避免继承box-sizing,因为它可能导致不必要的复杂性和错误的思维模式。

Should you preload fonts for performance?

摘要

预加载字体看似能提升网页速度,但可能延迟首次内容绘制(FCP)和最大内容绘制(LCP)。Chrome浏览器自2023年起,会等待预加载字体完成后再渲染,以避免字体切换和布局偏移。这虽能减少重绘,但可能延长FCP和LCP时间。建议仅预加载首屏使用的字体,并自托管字体,避免过多预加载。预加载虽能优化渲染,但需谨慎使用,结合实际数据调整策略。

登录后可查看文章图片

Deriving Client State from Server State

摘要

在处理客户端状态与服务器状态同步时,常见的做法是使用 useEffect 来手动更新状态,但这往往显得繁琐且容易出错。更好的方式是采用派生状态的思想,即通过当前数据和选择状态直接推导出最终值,而非在状态变化时手动调整。这种方法不仅简化了代码,还能避免不必要的副作用,提升应用的健壮性和可维护性。

登录后可查看文章图片

Mixins & Functions to Streamline CSS

摘要

CSS技术要点:CSS Mixins与Sass Mixins的区别、使用方法及浏览器支持情况;CSS函数的基本概念、应用方式及在Chromium中的实验性支持;CSSWG会议讨论了Masonry显示、色彩映射提案及Mixins与CSS层的交互。这些内容帮助开发者更好地掌握CSS的高级特性与最新进展。

阿里巴巴技术:《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场

摘要

本文深入探讨了ODPS SQL查询优化技巧,帮助非专业数据研发人员提升查询效率。通过理解MapReduce原理和SQL执行逻辑,掌握识别与解决全表扫描、数据倾斜等常见问题的方法。文章提供了实用的调优策略,如Map端预聚合、SkewJoin等,并结合真实案例展示了如何通过优化SQL代码和参数设置,显著提升任务性能,节省集群资源,实现高效数据处理。

腾讯技术:一文搞懂架构顶层设计之业务建模

摘要

建模是软件开发中的关键环节,通过将复杂业务抽象为可理解的结构,连接需求分析与代码实现。软件工程涉及三类建模:业务建模、领域建模和数据建模。建模的难点在于语言模糊、现实世界复杂及团队沟通障碍。业务建模关注组织价值点,通过业务流程图和系统用例规约实现。领域建模是需求与计算机世界的桥梁,需平衡不变性与扩展性。

Implementing A Byte Pair Encoding (BPE) Tokenizer From Scratch

摘要

这篇文章深入浅出地讲解了字节对编码(BPE)算法,这是GPT等大语言模型的核心分词技术。从基础概念入手,详解了BPE如何通过合并高频字符对构建词表,将文本压缩为更高效的子词标记。手把手带读者实现了简易版BPE分词器,支持训练新词表或加载GPT-2预训练模型,并演示了编解码全过程。最后通过性能对比,点明该实现虽侧重教学性,但完整复现了业界标准功能。

登录后可查看文章图片

自作トークナイザーを作ってみた。

摘要

BPE(Byte Pair Encoding)是一种用于NLP的算法,通过递归替换高频字节对生成新词,广泛应用于GPT等大语言模型。它介于字符和单词之间,能有效处理未知词。OpenAI提出字节级BPE,将基础词汇限制在256个,同时通过限制跨字符类别合并优化效率。本文通过实例和代码展示了BPE的实现过程,适合自定义领域词汇或特定文本类型的Tokenizer开发。

Writing Code Is Easy. Reading It Isn’t.

摘要

编程中,写代码容易,理解代码难。构建系统的心理模型是真正的挑战,需要追踪函数定义、数据返回、调用路径等细节。调试比编码更难,因为没有上下文难以定位问题。AI生成的大量代码仍需人工理解,阅读和理解的速度成了软件开发的瓶颈。未来编程的关键或许不是更快地生成代码,而是更快地理解代码。

搜狐技术:CAEmitterLayer:iOS 中创建炫酷粒子效果的魔法工具

摘要

CAEmitterLayer 是 iOS 中实现粒子效果的核心工具,通过 CAEmitterCell 定义粒子属性,如速度、颜色、生命周期等。粒子系统通过共享渲染模板,高效生成视觉元素,适合模拟自然现象或增强应用视觉效果。合理组合发射器形状、模式与粒子属性,可实现复杂效果。注意控制粒子数量、优化图片资源及生命周期,以提升性能。掌握 CAEmitterLayer,能为应用增添炫酷的视觉体验。

360技术:别让 AI 代码变成技术负债:Vibe Coding 提效实践

摘要

Vibe Coding 通过自然语言驱动代码生成,提升开发效率,适合个人项目和原型开发。企业项目需谨慎,及时修正AI生成的代码。使用高质量模型和Prompt,分阶段对话,优先Agent模式,指定技术栈和代码模板,分块完成开发,Review AI代码,确保代码质量。Vibe Coding 在良好规则下,能显著提升效率,但需建立质量管控机制。

vivo技术:聚焦结构化注意力,探索提升多模态大模型文档问答性能

摘要

多模态大语言模型在文档问答任务中面临理解挑战,传统无结构OCR输入导致注意力分散。通过结构化输入方法,保留文档层次与空间关系,显著提升模型性能。实验验证,结构化输入在复杂图表任务中效果尤为突出,为智能文档处理提供高效解决方案。

得物技术:0基础带你精通Java对象序列化--以Hessian为例

摘要

Hessian作为Java生态中的高效二进制编解码器,专为Java优化,支持泛型、多态等特性。其核心机制通过对象图遍历和编码协议实现对象与字节流的转换,利用数据块标签、重复对象复用、数据压缩等技术提升效率。Hessian在处理小整数、字符串和POJO时,通过内联、分段和复用策略,显著减少冗余数据,提升编解码性能,是Java RPC场景下的稳健选择。

58同城技术:转转LLM应用-重排阶段商品粒度的跨品类搭配

摘要

转转首页推荐通过构建跨品类商品搭配pair对,利用大模型进行标注打分,提升商品搭配效率。首先,根据用户行为收集pair数据,并分为高频、中频、低频三类进行处理。随后,通过大模型从品类、颜色等维度评估搭配性,并设计prompt优化打分效率。为解决大模型上线耗时问题,采用Qwen 7B微调和bert蒸馏技术,最终上线后显著提升了商详到达率。未来将优化商品属性粒度,并探索新用户搭配策略。

腾讯技术:万字长文详解腾讯优图RAG技术的架构设计与创新实践

摘要

腾讯优图实验室通过前沿RAG技术,解决了信息爆炸时代下数据检索与生成的难题。其全栈解决方案涵盖了语义检索、结构化表检索和图检索,突破了传统局限。通过多阶段训练、精细化数据工程和多任务均衡配置,大幅提升了Embedding和Reranker模型的性能。自研的GraphRAG框架在构图效率和复杂推理上取得突破,推动了产业智能化升级。

百度技术:大模型评测实践与思考

摘要

2023年是大模型元年,但真正被记住的模型不多。2024年技术与应用驱动下,大模型发布数量激增,2025年DeepSeek爆火,模型竞争白热化。面对众多SOTA模型,企业和开发者如何选型成难题。评测方法、数据集和指标的选择至关重要,需结合业务实践进行综合评估,避免盲目追逐最新模型。

阿里巴巴技术:AI赋能前端开发提效实践:以长颈鹿接入为例

摘要

本文探讨了如何通过AI赋能提升前端开发效率,特别是在手淘搜索“长颈鹿”场景下的实践。作者构建了结构化研发知识库,结合项目级编码规范与RAG技术,实现AI在组件开发、埋点集成等环节的高效协同,显著缩短开发周期,提出“AI编程即上下文工程”的核心理念,展望知识驱动AI自动编码的未来方向。

货拉拉技术:揭秘语音交互的核心技术

摘要

AI语音拟人化技术通过ASR、智能打断和TTS三大核心模块,解决了传统客服效率低、成本高的问题。ASR提升语音识别准确率,智能打断实现自然对话,TTS赋予AI人性化声线。三者的协同优化,让AI客服更接近真人交互,显著提升用户体验和服务效率,助力企业降本增效。未来,技术将进一步突破,迈向更加智能化的语音交互时代。

一个月搞定!AI赋能Unreal原型开发演进:从执行者到主导者的工作流实战

摘要

AI赋能Unreal开发新范式:创作者主导的认知驱动工作流。通过品位与意图把控方向,AI工具链实现全流程加速——从策划案生成、2D/3D资产制作到代码编写与叙事设计。关键突破在于用Unreal静帧引导AI视频生成,解决角色一致性难题,并构建因果叙事框架平衡创作意图与玩家自由度。一个月完成融合轨道射击与动态对话的复杂原型,展现AI作为创意放大器的巨大潜力。


‹ 2025-09-10 日报 2025-09-12 日报 ›

qrcode

关注公众号
接收推送