如发现有乱码,
请直接从这里浏览原文
正文摘录:《现代电子技术》2007年第4期总第243期》新型元器件q2.2分布式强化学习过程我们的策略是,引入主智能体的概念。主智能体就是执行学习任务的主角,其他智能体为辅智能体,通过主智能体和辅智能体的角色切换来实现整个团队的学习。在比赛中,控球的队员为主智能体,具有主智能体的群体强化学习具有以下特点:(1)多个智能体具有共同的长期目标,形成一个智能体团队,并与另一个团队对抗。(2)在某一特定时刻,智能体团队的策略仅体现在一个智能体的动作选择上,该智能体称为当时的主智能体,只有主智能体能够执行学习任务。所有辅智能体为主智能体的动作服务。(3)主智能体执行的动作可使其他的辅智能体成为主智能体,而自身成为辅智能体,即主智能体和辅智能体可以相互角色转换。(4)主智能体完成自己的动作之后,不一定能直接知道本次动作导致的状态转换以及带来的回报,但是可以通过队友之间的通讯解决这个问题。基于主智能体概念,改进了文献[7]群体强化学习策略,给出如下群体学习算法:使用的状态评价函数为:V(s)一maxminQ(s,n,厂)n∈Ar∈F其中,F为辅智能体集合,A为辅智能体动作集合。step1:初始化。step2:随机初始化Q值;智能体0为主智能体,智能体1~智能体”一1为辅智能体。智能体策略7c一{Ⅱ。,Ⅱ。,…,%一,};step3:循环1:初始化S(初态s0,终态suc);循环2:智能体1~智能体n—l识别并匹配当前的局部状态S—loc;根据V(S10c)产生动作a;智能体1~智能体”一1执行动作a;智能体l~智能体”一1计算Q。,Q2,…,Q一,,学习“;智能体O执行动作a;循环3(对所有智能体):计算智能体j执行a,的奖赏值r(s,n)Q“一loc,n)一(1一a)Q“一10c,。)+d(r(s,n)+yn-laxQ(s’loc,口’))口∈A—IF出现异常(如控球队员失球)跳出循环1,重新计算;循环3结束。S+一S’:循环2结束;直到S—Ssuc。3分布式强化学习模型在RoboCup中的应用足球机器人多智能体的协作系统结构如图1所示,系统主要由通信模块、信息处理模块、强化学习模块、个体行为选择模块、群体行为选择模块和动作规划模块等部分组成。图1足球机器人多智能体协作系统结构每一个机器人的控制流程为机器人通过传感器获得关于外界的信息,通过通信模块获得其他机器人的传感信息,信息经过信息处理模块之后传递给本机器人的分布式强化学习模块规划,然后通过个体行为选择模块后得到个体决定采取的行为。其他机器人的个体选择信息通过通信模块传递到群体选择模块后,通过选举的方法得到整体行为。根据整体的行为,机器人的环境中执行相应的动作。这里的行为表示机器人对整体趋势的一种高级判断,例如阵形调整、进攻、防守等。而动作则表示机器人实现这些行为的物理能力,例如传球、射门、抢断等。Agent选择一个动作作为输出,然后强化信号,并用来更新当前状态中每个动作执行的可能性。分布式强化学习模型仿真实验表明,在缺少先验知识的情况下学习,系统提供了一种通过奖赏和惩罚对.Agent进行规划的方法,无需指定如何完成。在每一步交互的步骤中,Agent接收通常由当前环境状态提供输入,然后Agent选择动作来产生输出。动作改变了环境的状态,而且也提供给智能体动作执行效果的奖惩。Agent应选择能最大化长期奖赏之和的动作。4仿真实验及结论把第1.2节介绍的分布式协作强化学习模型应用在机器人足球上做了仿真试验,主要进行了射门实验,实验结果如图2所示。可以看出在实验的前期,球队的成绩没有什么大的进步,这主要有2个原因:一是因为状态空间较大,学习得初期Q值对动作的选择影响不大;二是因为比赛的随机性较大对比赛的影响大于学习得效果,大概经过50场比赛后,进球数开始逐步的提高,在经过100场之后每场进球数达到了10~12个,平均值也在6~7个左右,在第3个50场之后,每场的进球数平均能维持在7~8个左右,可以看出经过Q学习之后,射手的成功率可以得到提高,远比随机45
阅读此文(图):
在线翻阅