Reinforcement Learning for Modeling Marketplace Balance - Online Tools

Online Tools

Online Tools

Ranking List

反馈

Library Code Library Shop

More

Reinforcement Learning for Modeling Marketplace Balance

出处：www.uber.com

存档：存档

译文：中文

摘要

Uber利用强化学习优化司机与乘客的匹配算法，通过马尔可夫决策过程（MDP）框架建模，采用深度Q网络（DQN）方法学习价值函数，提升长期效率。系统通过离线训练和在线反馈循环，调整匹配策略，减少乘客等待时间并增加司机收入。该技术已在全球400多个城市部署，显著提高了市场平衡和用户体验。

阅读原文

潮流打杂于 2025-07-03 分享

7647

关联话题： #Uber #RL

欢迎在评论区写下你对这篇文章的看法。

评论

据说喜欢分享的,后来都成了大神

国别域名注册8折优惠

vultr activity

tencent

拉肚子的时候，不要相信任何一个屁。

文库

更多

Home - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-09 14:25
浙ICP备14020137号-1 $Map of visitor$