2025-08-19 16:30:00 ~ 2025-08-20 16:30:00
大语言模型的第一步训练是将原始文本转换为模型可处理的数据。首先,文本被分割为词元,再通过嵌入模型转换为向量表示。词嵌入将离散的单词映射到连续向量空间,便于神经网络处理。接着,词元被转换为词元ID,并通过滑动窗口生成输入-目标对,用于模型训练。最后,嵌入层将词元ID转换为嵌入向量,并添加位置信息,提升模型对词序的理解。
登录后可查看文章图片
容器网络在云计算和容器技术中扮演着关键角色,面临性能、安全、可观测性等挑战。Calico作为纯三层网络方案,通过BGP协议和多种数据平面支持高效通信,适用于不同规模的集群部署。Flannel则专为Kubernetes设计,提供简单易用的Overlay网络,支持VXLAN和host-gw模式。两者各有优劣,需根据实际场景选择,共同推动容器网络向更灵活、安全、可观测的方向发展。
货拉拉质量保障部重构覆盖率平台,解决了传统系统指标单一、测试粒度过粗和稳定性不足的问题。通过实时数据流架构和多维度分析,实现了用例级覆盖追踪和测试来源精准归因。创新Agent技术保障了无侵入、高稳定的数据采集,提升了测试效率和覆盖率数据的参考价值,推动质量保障迈向智能化新时代。
登录后可查看文章图片
机场是Uber的重要场景,但存在排队时间长、需求波动大等挑战。Uber开发了ETR、EPH和司机缺口预测模型,优化机场运营。ETR预测排队时间,EPH比较机场与城市收入,缺口预测主动调度司机。这些模型提升了司机效率,减少了乘客等待时间,改善了机场交通流。未来计划扩展预测范围,优化匹配系统,进一步提升机场运营效率。
App稳定性对用户体验至关重要,但传统人工值班和问题处理流程效率低下。通过飞书Aily平台开发的稳定性Agent,实现了智能监控和智能归因,提升了问题感知与分析效率。Agent整合多系统数据,自动分析崩溃原因,缩短处理时间。未来将接入更多数据,提升自主性,推动多Agent协作,自主完成复杂任务,进一步优化稳定性保障流程。
登录后可查看文章图片
Grab为应对数据管理的复杂性和扩展需求,采用了数据网格架构,将数据视为产品,由特定领域团队负责。通过数据认证和合同机制,确保数据质量和可靠性,提升数据的可重用性和跨领域共享。实施中,Grab建立了数据所有权、自动化数据生产事件等关键环节,显著提高了查询效率,减少了重复数据,加速了创新进程。这一转型为Grab的未来发展奠定了坚实的数据基础。
登录后可查看文章图片
AI工程实践正重演软件工程历史,追求形式化与可靠性。编译原理中的形式化定义为AI编程提供了理论基础,尤其是乔姆斯基谱系揭示了语言表达能力与可预测性的权衡。Prompt Engineering依赖非形式化指令,而Context Engineering则通过结构化系统提升可靠性。Anthropic的think tool将推理过程显式化,增强了可验证性与策略遵循,为复杂任务提供了模块化支持。未来,AI系统有望通过形式化理论实现精确规约与验证,推动高风险领域的自主智能体应用。
登录后可查看文章图片
数据湖通过三层防护机制保障数据质量:事前校验拦截异常文件,事中控制实时阻断问题数据入湖,事后监控追踪质量并可视化结果。采用GX框架动态核验规则,结合Dolphin调度工具高效执行,最终通过统一平台展示检核评分。方案已在新核心系统测试中验证有效性,未来将推进规则自动化提升效率。
登录后可查看文章图片
大语言模型(LLM)的构建分为预训练、后训练和强化学习三阶段。预训练通过海量数据获取世界知识,后训练通过QA对微调模型使其具备对话能力,强化学习则通过试错和奖励机制提升模型推理能力。LLM本质是知识的压缩与回放,数据和使用方式决定模型上限。未来,LLM将向多模态、任务代理和持续学习方向发展。
登录后可查看文章图片
关注公众号
接收推送