知鸦日报2025-02-12

2025-02-11 16:30:00 ~ 2025-02-12 16:30:00

Business

疯狂的幻方：一家隐形AI巨头的大模型之路

摘要

幻方量化基金在大模型热潮中独树一帜,成立“深度求索”新公司,专注研究通用人工智能(AGI)。拥有超1万枚GPU,幻方在算力上已具备领先优势。创始人梁文锋强调,团队以好奇心驱动,敢于探索未知,目标是揭秘AGI的更多可能性。尽管研究成本高昂,幻方仍坚持开放共享,推动技术普惠,避免垄断。

Product

史诗级效率工具！藏师傅教你玩转，飞书多维表格+Deepseek组合

摘要

飞书多维表格接入Deepseek R1后,功能大幅提升,支持批量处理表格内容,结合其他工具实现高效工作流。通过三个案例展示了多平台文案改写、论文解读与输出、以及关键词生成AI故事视频的功能。操作简便,只需设置提示词,系统自动处理并生成结果,极大提升了工作效率。教程详细,模板可直接使用,适合不同需求用户。

Technology

京东技术：云电脑:快速部署无限制、可联网、带专属知识库的私人 DeepSeek 大数据模型

摘要

本文探讨了如何利用京东云电脑快速部署私人DeepSeek大数据模型,并详细介绍了本地部署的优势,如降低成本、保护数据隐私、提升性能等。通过Ollama服务搭建和模型运行步骤,读者可以轻松实现DeepSeek模型的本地化应用。此外,还介绍了如何利用Cherry Studio和Page Assist等工具构建本地知识库,并实现模型的联网功能,满足多样化需求。

云电脑:快速部署无限制、可联网、带专属知识库的私人 DeepSeek 大数据模型

字节跳动技术：以抖音集团信息流推荐场景为例｜如何做复杂的AB实验设计？

摘要

短视频平台的推荐场景A/B测试面临双边效应和网络效应等复杂问题。双边效应导致用户和创作者同时受影响,简单实验设计无法全面评估策略效果。网络效应则通过社交互动影响对照组,削弱实验准确性。解决方案包括开展双边实验和社区分流实验,通过调整流量分配和隔离社交行为,减少偏差,提高策略评估的准确性。

信也技术：基于Dify工作流的AI查单助手实践

摘要

在线下渠道业务中,卡单问题频发,耗费研发资源。为提升效率,团队利用Dify平台开发AI查单助手,通过工作流和LLM技术,实现问题自动排查。初期采用Workflow+Agent方案,后优化为Chatflow,显著提升召回率并降低成本。最终,客服问题解决时间从数十分钟缩短至10秒,大幅提升服务效率。

pinterest技术：The Quest to Understand Metric Movements

摘要

Pinterest通过三种方法分析关键指标波动的原因:首先,“切片分析”通过细分指标维度,找到显著变化的部分;其次,“通用相似性”通过扫描其他指标,找出与目标指标相似或相反的变化;最后,“实验效应”通过分析A/B测试,识别对指标影响最大的实验。这些方法结合使用,能有效缩小根因搜索范围,提升分析效率。

The Quest to Understand Metric Movements

Elasticsearch 性能优化实战——10 个高效 DSL 技巧直击生产痛点

摘要

Elasticsearch性能优化聚焦查询DSL、索引设计等关键点。通过精准使用Filter与Query、避免深分页陷阱、优化索引映射、提升聚合性能、谨慎处理Nested对象查询、减少Script查询消耗、自动化索引生命周期管理、合理使用Force Merge、调优Bulk写入性能、利用Profile API定位慢查询,全面提升集群稳定性和查询效率。

Elasticsearch 性能优化实战——10 个高效 DSL 技巧直击生产痛点

京东技术：京东广告基于Apache Doris的冷热数据分层实践

摘要

Doris冷热分层方案历经V1数据湖和V2分布式存储两代演进。V1通过SDC将冷数据入湖,实现查询解耦,但存在ETL复杂、Schema变更受限等问题。V2基于分布式存储,支持冷数据自动迁移,简化了架构,但需限流冷查询。升级至Doris 2.0后,解决了查询性能下降、分桶裁剪失效、FE CPU使用率高等问题,优化了冷数据Schema Change,提升了并发查询能力和存储效率,显著降低了成本。

字节跳动技术：AI 与星辰大海：2025，从新手到开挂勇士的奇幻旅程

摘要

AI正逐步成为开发者工作中的全能助手,从产品设计到运维管理,AI能提供灵感、优化代码、生成测试用例、自动审查代码,并辅助运维监控。大模型能力的提升让AI在开发流程中扮演越来越重要的角色,帮助开发者提高效率、保障质量,推动技术生产力迈向新高度。未来,AI将在更多场景中展现其价值。

一文读懂！多语言大模型数据研发在大模型时代的实战全解

摘要

大模型时代,数据成为核心要素,多语言大模型研发聚焦全球电商业务,通过数据清洗、平行语料合成等技术提升翻译效果。阿里国际多语言翻译大模型在20+语言中表现优异,采用两阶段CT学习方法优化多语言能力。模型评估通过Benchmark和业务评测不断迭代,未来挑战在于从海量数据中精准提取高质量业务领域数据,推动AI应用发展。

阿里巴巴技术：「缓存」会用很容易，用好才是技术活

摘要

本文深入探讨了缓存技术的演进与应用,重点介绍了Guava本地缓存和Tair分布式缓存的原理与使用。通过案例分析了缓存使用不当的后果,并提供了多级缓存的优化策略。详细解析了Guava Cache的源码实现,探讨了Tair的架构、数据一致性及热点处理方案。最后,总结了缓存一致性、并发问题的解决方案,为高效使用缓存提供了实用指导。

Supercharge Cline: 4 Ways to Build Better with Perplexity MCP

摘要

开发复杂应用时,频繁切换研究、编码和文档会打断思路。通过Perplexity MCP与Cline结合,可大幅优化工作流:1)在编辑器中直接进行深度研究,保持项目上下文;2)发现并评估开源方案,避免重复造轮子;3)创建定制化文档,提升AI辅助精准度;4)通过研究打破AI循环,提供新视角。这些模式让AI助手更懂项目,实现无缝开发体验。

腾讯大数据基于 StarRocks 的向量检索探索

摘要

向量检索技术通过近似最近邻查询(ANN)提升性能,结合量化、倒排和图算法(如HNSW)实现高效检索。StarRocks引入该技术后,查询延迟从15秒降至2秒,成本降至1/3。该技术适用于大模型场景,支持混合检索、范围查询等,优化了前过滤与后过滤策略,确保高召回率和低延迟,为海量数据处理提供高效解决方案。

Popular Science

到底离货车多近，等于自杀

摘要

大货车盲区多,司机视野受限,内轮差盲区尤其危险。货车司机常因驾驶疲劳和长时间工作,忽视路况,增加事故风险。超载超速更使货车成为公路杀手,行人需远离转弯中的大货车,保持安全距离,避免悲剧发生。

当人们还在讨论结婚人数减少的原因时，却没有发现年轻人正在对婚姻失去兴趣？

摘要

近年来,我国结婚人数持续下降,2024年结婚登记数仅为610.6万对,创下1980年以来的最低纪录。年轻人对婚姻的兴趣逐渐减弱,经济压力、个体主义兴起和性别平等观念的普及是主要原因。高房价、高彩礼等现实问题让结婚变得“奢侈”,婚姻从“必选项”转变为“可选项”。晚婚现象普遍,婚姻的社会功能减弱,年轻人更注重个人自由与幸福。

‹ 2025-02-11 日报 2025-02-13 日报 ›