• 《现代电子技术》2007年第4期摘录:分布式强化学习在RoboCup中的应用

如发现有乱码, 请直接从这里浏览原文
正文摘录:

张振文等:分布式强化学习在.Robo(:up中的应甩分布式强化学习在R0b0Cup中的应用张振文,程显毅,李明(江苏大学计算机与通信工程学院江苏镇江212013)摘要:强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注。基于主Agent的概念改进了传统的群体强化学习算法,应用于机器人足球(Roboc·up)仿真实验中,取得了初步结果。关键词:强化学习;分布式强化学习;Agent;RoboCup中图分类号:TPl8文献标识码:B文章编号:1004—373X(2007)04一044一03ApplicationoftheDistributedReinf.)reementLearninginROboCupZHANGZhenwen.CHEN(;Xianyi,LIMing(SchoolofC0mpurerScienceandCommunicationE“gmeering,JiangstlUniversity,Zhenj’lang,212013,China)Abstract:Inthefieldofartificialintelligence,thereinforcementlearningtheoryisreceivingmoreandmoreattentionwiththeadvantageofitsself—learningandself—adaptability.Wepresentanalgor。ithmofgroupreinforcementlearningbased0ntheconceptionofmainAgentandapplicationitintoRoboC:up.We:gettheprimar’yresultbyexper’t‘menl..Keywords:reinforcementlearning;distributedreinforcementlearning;Agent;RoboCup1引言强化学习已成为机器学习的一个基本方法而广为接受。这种学习方法是从动物学习和自适应控制理论发展来的。强化学习在自适应控制领域中占有重要的位置,尤其是当外界环境不能提供明确的教师信号,而交互式代理体必须学习最优控制动作时才非常有效。在博弈、机器人控制等领域都有强化学习的讨论。强化学习的概念是由Minsky在20世纪60年代最先提出的,在其发展的几十年中,形成的主要算法主要有以下5种:时间差分学习;自适应启发式评判;Q一学习;基于规则的自学习(模糊)控制;基于进化计算的强化学习”。’。Q一学习算法由于事先的简便和理论证明的完备,成为这些方法中应用最广泛的一个。随着智能体技术的发展,应用分布式强化学习实现智能体间的协作逐渐成为研究的热点,同时也促进了分布式人工智能的发展以及应用。现在的分布式强化学习方法主要有4种:中央强化学习;独立强化学习;群体强化学习;社会强化学习。Mingtan文章中提出了独立强化学习的思想,指出了机器人进行强化学习时,互相交换传感器信息、经验以及策略,揭开了分布式强化学习的序幕。’。之后不久,美国学者JunlingHu明确的提出了群体强化学习的思想”0,进一步发展了I。ittman提出的马尔科夫游戏模型”’。Jun一收稿日期:2006一06—3044lingHu从整体考虑,算法可以达到最优。随着分布式强化学习研究的逐步深入,原始的博弈游戏已经不能够满足需要。近年来,研究者已经把机器人足球比赛(RoboCup)作为分布式人工智能的测试床邸]。本文基于主agent的概念改进了传统的群体强化学习算法,应用于机器人足球(RoboCup)仿真实验中,取得了初步结果。2分布式强化学习模型2.1群体强化学习的局限性在RoboCup中,关心的是多个智能体在对抗环境下如何通过协同工作,以完成一个共同的目标。已有的强化学习算法中,智能体的学习过程实际上仍主要是研究单个智能体与环境交互的强化学习,而将其他智能体看作是环境中的一部分。但实际上,具有主动性的智能体和非主动性的环境是不同的,他们的动作具有目的性和适应性。此需在基本强化学习的基础上进行扩展,使之能够应用于群体学习环境。文献[7]引入群体强化学习方法,该方法将所有智能体的状态或动作看作组合状态或组合动作,每个智能体维护的Q一表都是组合状态和组合动作到Q值的映射。群体强化学习的每个智能体。都必须考虑其他智能体的状态,选择动作时也必须考虑集体的利益,所以具有状态空间和动作空间庞大,学习速度很慢等缺陷,这种的方法一般只适用于智能体很少的情况下,否则会有组合爆炸问题。

阅读此文(图):   在线翻阅