Modernising Grab’ s model serving platform with NVIDIA Triton Inference Server
摘要
Grab的机器学习模型服务平台Catwalk逐步整合NVIDIA Triton,以提升性能并降低成本。Triton支持多框架、硬件优化和高级推理功能,显著提高了模型推理的效率和稳定性。通过Triton Manager组件,Catwalk实现了无缝迁移,减少了用户代码改动。初步结果显示,迁移后模型延迟大幅下降,部分模型成本节省超90%。未来将继续优化,进一步提升性能。