行为正则化与顺序策略优化结合的离线多智能体学习算法

摘要

离线多智能体强化学习(MARL)面临分布偏移和智能体协调难题。中山大学与美团合作提出样本内顺序策略优化(InSPO),通过逆KL散度和最大熵正则化,避免分布外动作并增强探索性。实验验证InSPO在桥博弈和星际争霸II中表现优异,有效解决局部最优问题,展现了在多智能体任务中的强大潜力。

欢迎在评论区写下你对这篇文章的看法。

评论

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.142.0. UTC+08:00, 2025-02-22 02:19
浙ICP备14020137号-1 $お客様$