话题公司 › Grab

公司:Grab

Grab(前身为MyTeksi)是一间在东南亚地区提供服务的技术公司和交通网络公司,总部位于新加坡,由陈炳耀和陈慧玲于2012年在马来西亚雪兰莪州八打灵再也创立的移动应用程序。该应用连结乘客和司机,提供载客车辆租赁及即时共乘的分享型经济服务。乘客可以透过发送短信或是使用移动应用程序来预约这些载客的车辆,利用移动应用程序时还可以追踪车辆的位置。疫情期间兼开始经营外卖、送货、电子商务等等,成为全方面的生活平台。

Data mesh at Grab part I: Building trust through certification

Grab为应对数据管理的复杂性和扩展需求,采用了数据网格架构,将数据视为产品,由特定领域团队负责。通过数据认证和合同机制,确保数据质量和可靠性,提升数据的可重用性和跨领域共享。实施中,Grab建立了数据所有权、自动化数据生产事件等关键环节,显著提高了查询效率,减少了重复数据,加速了创新进程。这一转型为Grab的未来发展奠定了坚实的数据基础。

The evolution of Grab

Grab采用Amazon Aurora Postgres构建新一代ML特征存储,解决高基数、高维数据管理等挑战。通过特征表设计,实现原子性更新、读写隔离及上下文检索,提升模型性能。数据摄取框架确保版本兼容性与原子性,Aurora的分布式存储架构则优化了读写分离与成本效益。去中心化部署进一步提升了系统可用性与缓存效率。

Grab's service mesh evolution: From Consul to Istio

2024年,Grab的服务网格架构面临挑战,Consul和Catcher的旧方案已无法满足复杂微服务生态的需求。经过全面评估,Istio因其强大的多集群支持、灵活部署和丰富的功能成为首选。Grab设计了独特的Istio架构,采用多控制平面和跨集群通信方案,支持高吞吐量和复杂路由规则。迁移过程中,优先处理跨云迁移,逐步推进gRPC和HTTP流量迁移,确保零停机。经验表明,创新需平衡稳定性,灵活应对变化是关键。

DispatchGym: Grab’s reinforcement learning research framework

DispatchGym是一个强化学习研究框架,专为调度系统设计,帮助数据科学家快速开发和测试调度算法。它集成了强化学习算法、调度模拟和Gymnasium API接口,支持高效、低成本的研究。框架强调模拟环境的可靠性和方向准确性,采用模块化设计和Python语言,便于用户灵活调整和实验。通过优化奖励函数和操作杠杆,DispatchGym助力解决调度系统中的实际问题,提升业务效率。

Counter Service: How we rewrote it in Rust

Grab团队将高QPS的Golang微服务重写为Rust,实现了70%的基础设施节省,性能相近但过程充满挑战。Rust虽高效但学习曲线陡峭,需谨慎选择重写项目。通过识别简单但流量大的服务,团队成功重写了Counter Service,使用Rust生态系统库并克服了异步和借用检查器等问题。最终,Rust在资源效率上显著优于Golang,但性能提升有限,重写投资回报合理。

The complete stream processing journey on FlinkSQL

实时数据处理在现代业务中至关重要,Apache Flink凭借其强大的流处理能力成为关键工具。为解决Zeppelin笔记本在Flink版本维护、集群启动时间和集成方面的不足,团队转向了共享FlinkSQL网关架构。该架构分为计算层、集成层和查询层,显著缩短了查询响应时间,简化了用户操作,并支持实时数据分析的多种应用场景,如欺诈检测和模型验证,提升了数据处理效率。

Effortless enterprise authentication at Grab: Dex in action

Grab为解决内部应用认证和授权问题,开发了Concedo系统,但面临外部平台集成挑战。为统一用户体验,采用了OpenID Connect (OIDC)协议,并选择开源项目Dex作为认证平台。Dex支持多重身份提供商,实现单点登录,简化了认证流程。通过令牌交换功能,解决了服务间身份验证的复杂性,并设计了“紧急切换”机制应对身份提供商故障。最终,Grab构建了统一的认证和授权模型,提升了安全性和效率。

From failure to success: The birth of GrabGPT, Grab’s internal ChatGPT

2023年3月,Grab的一名工程师为解决机器学习平台团队支持渠道过载问题,尝试利用大型语言模型(LLM)构建支持聊天机器人。尽管初始尝试因GPT-3.5-turbo的token限制而失败,但工程师迅速转向构建内部ChatGPT工具——GrabGPT。该工具迅速在Grab内部普及,成为全球员工的重要助手,不仅解决了数据安全与访问限制问题,还推动了公司整体LLM战略的发展。

Streamlining RiskOps with the SOP agent framework

SOP驱动的LLM代理框架在风险操作中展现了巨大潜力,特别是在自动化账户接管(ATO)调查中。传统方法耗时且易出错,而该框架通过标准操作流程(SOP)和动态执行引擎,显著提升了效率和准确性。框架自动执行SQL查询、分析数据并生成报告,将处理时间从22分钟缩短至3分钟,错误率降至零。这一创新为各行业提供了高效、可靠的解决方案,推动业务运营的数字化转型。

Introducing the SOP-driven LLM agent frameworks

这篇介绍了一个创新的LLM代理框架,通过标准操作程序(SOPs)确保AI执行的可靠性和一致性。该框架在复杂流程中表现出色,如账户接管调查机器人将处理时间从23分钟降至3分钟,欺诈调查用例每月节省300多小时。框架还提供直观的SOP编辑器和强大的功能,如Graph Retrieval-Augmented Generation管道和多语言用户代理,提升了自动化和应用开发效率。安全性和透明度也是其核心设计,确保数据安全和过程可解释性。

Evaluating performance impact of removing Redis-cache from a Scylla-backed service

Grab的计数服务面临性能挑战,主要因Redis缓存机制导致Scylla数据库查询量周期性激增。通过逐步禁用Redis缓存,并优化Scylla的压缩策略,成功消除了15分钟间隔的查询峰值,同时提升了Scylla自身缓存的利用率。最终,服务性能保持稳定,且显著降低了系统成本。

Facilitating Docs-as-Code implementation for users unfamiliar with Markdown

Grab推出WYSIWYG编辑器,简化非工程师使用Markdown和GitLab的文档编写流程。通过TechDocs编辑器,用户可在Backstage门户中轻松编辑文档,避免直接操作MkDocs和Markdown语法。编辑器支持页面重排、重命名、删除、文本格式化等功能,并与GitLab无缝集成,确保文档更新高效且无冲突。此外,实时预览功能帮助用户直观查看最终渲染效果,提升协作效率。Lexical框架的引入进一步增强了编辑器的扩展性和用户友好性。

Improving Hugo stability and addressing oncall challenges through automation

Hugo通过自动化解决方案提升了数据管道的稳定性和运营效率。其架构包括信号、诊断、RCA表、自动修复、数据健康API和健康仪表盘等模块,实现了问题的快速监测、诊断和解决。自动化功能显著提升了数据可见性,减少了人工干预,缩短了故障处理时间。未来,Hugo将优化自动修复策略,扩展诊断范围,进一步提升数据健康管理能力。

Building a Spark observability product with StarRocks: Real-time and historical performance analysis

Grab 的 Spark 可观测性工具 Iris 通过引入 StarRocks 数据库,解决了实时和历史数据管理的挑战。新架构简化了数据流,支持复杂查询和实时监控,提升了查询性能和用户体验。通过 Kafka 直接数据摄入、物化视图和动态分区优化,Iris 实现了高效的数据存储与分析,为 Spark 作业提供了更强大的监控和调试能力,推动了资源管理和决策效率的提升。

TechDocs at Grab: Cultivating a culture of quality documentation

Grab通过Docs-as-Code方法将文档集成到工程流程中,推出了基于Helix平台的TechDocs,提升文档的创建与管理效率。团队通过用户调研、制定政策、赋能维护者、跟踪指标等步骤,逐步构建了健康的文档文化。通过展示“最后更新”日期、明确文档负责人、提供培训等策略,确保了文档的及时更新与高质量。未来计划进一步提升文档质量、扩展培训、优化TechDocs门户,并完善文档创建与编辑流程。

Grab AI Gateway: Connecting Grabbers to Multiple GenAI Providers

Grab AI Gateway通过集中化管理,简化了多AI服务提供商的接入流程,支持实验、成本优化和审计。它提供统一的API接口,动态路由和智能负载均衡,确保资源高效利用。网关还集成了ML平台,支持从开发到部署的全流程。面对创新快速迭代和配额公平分配等挑战,Grab持续优化用户体验,推动AI应用创新。

- 위키
Copyright © 2011-2025 iteam. Current version is 2.145.0. UTC+08:00, 2025-08-23 05:40
浙ICP备14020137号-1 $방문자$