格式化字帖地图坐标转换
离线多智能体强化学习(MARL)面临分布偏移和智能体协调难题。中山大学与美团合作提出样本内顺序策略优化(InSPO),通过逆KL散度和最大熵正则化,避免分布外动作并增强探索性。实验验证InSPO在桥博弈和星际争霸II中表现优异,有效解决局部最优问题,展现了在多智能体任务中的强大潜力。
欢迎在评论区写下你对这篇文章的看法。
Home - Wiki Copyright © 2011-2025 iteam. Current version is 2.142.0. UTC+08:00, 2025-02-22 02:12 浙ICP备14020137号-1 $Map of visitor$