收藏本站
《2009中国控制与决策会议论文集(2)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用

王珏  程然  王骄  
【摘要】:本文着重介绍人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用。使用人工神经元网络(ANN)表示博弈系统中的评价函数,并采用TD(λ)增强算法达到修改网络的权值参数的目的,大量的专家棋谱用来作为学习的训练数据。设计及开发了基于上述方法的增强学习系统,实验结果表明这些技术可以有效提高中国象棋的计算机博弈水平。
【作者单位】:东北大学信息科学与工程学院
【基金】:博士启动基金(合同编号:76105115)
【分类号】:TP183

【共引文献】
中国期刊全文数据库 前10条
1 李春贵,吴沧浦,刘永信;一种集成规划的SARSA(λ)强化学习算法[J];北京理工大学学报;2002年03期
2 林海,孙吉贵;预测及其主要模型的实现系统[J];吉林大学学报(信息科学版);2002年04期
3 吕志来,张保会,哈恒旭;一种变结构的时间序列预测算法及其在电力系统暂态稳定预测中的应用[J];电工技术学报;2002年03期
4 秦斌 ,王欣 ,吴敏;基于RBF神经网络的铁水硅含量预报模型[J];电气传动;2002年03期
5 王玉涛,周建常,王师;神经网络模型与时差方法结合预报铁水硅含量[J];钢铁;1999年11期
6 殷苌茗,陈焕文,谢丽娟;样本有限关联值递归Q学习算法及其收敛性证明[J];计算机研究与发展;2002年09期
7 顾国昌,仲宇,张汝波;一种新的多智能体强化学习算法及其在多机器人协作任务中的应用[J];机器人;2003年04期
8 殷苌茗,陈焕文,谢丽娟;基于每阶段平均费用最优的激励学习算法[J];计算机应用;2002年04期
9 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期
10 仲宇,顾国昌,张汝波;多智能体系统中的分布式强化学习研究现状[J];控制理论与应用;2003年03期
中国重要会议论文全文数据库 前10条
1 胡光华;;平均准则TD策略迭代算法[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
2 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
3 王直杰;方建安;邵世煌;;一种增强式学习算法及其在控制中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
4 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
5 徐义春;韩芳;;结合TD(0)的马尔可夫链扰动分析求解算法[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
6 任燚;陈宗海;;一种强化学习算法应用于多移动机器人的觅食实例研究[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
8 Kao-Shing Hwang;Jeng-Yih Chiou;;Adaptive Linearization Control Based on Reinforcement Learning[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
9 Guo-Fei Jiang and Cang-Pu Wu Department of Automatic Control, Beijing Institute of Technology Beijing 100081 , China;Function Approximation in Minimax-Based Reinforcement Learning[A];Systems Science and Systems Engineering--Proceedings of the Third International Conference on Systems Science and Systems Engineering(ICSSSE'98)[C];1998年
10 Agus Naba;Kazuo Miyashita;;GRADIENT-BASED TUNING OF FUZZY CONTROLLER WITH APPROXIMATED EVALUATION FUNCTION[A];Proceedings of the Eleventh International Fuzzy Systems Association World Congress(Volume Ⅱ)[C];2005年
中国博士学位论文全文数据库 前10条
1 张涛;非线性系统控制策略的研究[D];浙江大学;2001年
2 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
3 佘震宇;复杂经济系统演化建模研究[D];天津大学;2003年
4 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
5 赵黎明;灾害管理系统研究[D];天津大学;2003年
6 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
7 张双民;群体Agent合作求解方法的研究[D];清华大学;2004年
8 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
9 王醒策;基于强化学习和群集智能方法的多机器人协作协调研究[D];哈尔滨工程大学;2005年
10 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
中国硕士学位论文全文数据库 前10条
1 王醒策;基于强化学习的多机器人编队方法研究[D];哈尔滨工程大学;2002年
2 张必勇;强化学习在用户学习中的应用研究[D];太原理工大学;2003年
3 赵秀粉;蓝牙技术及多代理技术在车间控制系统中的应用研究[D];重庆大学;2003年
4 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
5 邹丹;自主式水下机器人运动规划技术[D];哈尔滨工程大学;2003年
6 罗宁泉;增强学习在共面双机空战格斗中的应用[D];沈阳工业大学;2003年
7 滕轶栋;移动通信系统信道分配算法研究[D];浙江工业大学;2004年
8 陈雪江;基于强化学习的多机器人协作机制研究[D];浙江工业大学;2004年
9 郭方铭;基于增强学习算法的智能排课模型[D];武汉理工大学;2004年
10 孙光余;强化学习及其在空中拦截中的应用[D];沈阳工业大学;2004年
【同被引文献】
中国期刊全文数据库 前3条
1 王骄,王涛,罗艳红,徐心和;中国象棋计算机博弈系统评估函数的自适应遗传算法实现[J];东北大学学报(自然科学版);2005年10期
2 莫建文,林士敏,张顺岚;基于TD强化学习智能博弈程序的设计与实现[J];计算机应用;2004年S1期
3 徐心和;王骄;;中国象棋计算机博弈关键技术分析[J];小型微型计算机系统;2006年06期
【相似文献】
中国期刊全文数据库 前10条
1 张贤勇;莫智文;;变精度粗糙集[J];模式识别与人工智能;2004年02期
2 姚碧芬;;基于动态评价函数的试卷自动生成系统的设计与实现[J];现代计算机;2006年09期
3 郭茂祖,陈彬,王晓龙;评价函数驱动的抖动模式的研究[J];软件学报;1998年05期
4 胡涛;陈世哲;刘国栋;浦昭邦;;大范围自动调焦快速搜索算法[J];光电子.激光;2006年04期
5 高鹰;;基于小波概率密度函数估计的盲信号分离算法[J];广州大学学报(自然科学版);2006年06期
6 蔡昌金;朱明;;基于DSP的自动调焦系统[J];电子器件;2007年01期
7 蒋慧钧;王耀明;王沛;;基于Pearson系统模型的盲信号分离研究[J];计算机应用与软件;2007年04期
8 王昕;徐抒岩;孙荣春;田宝凤;;空间遥感相机的自动检焦技术研究[J];红外;2007年06期
9 贾红伟;王兆明;方泳泽;;演化计算的机理与一般性设计原则探讨[J];集美大学学报(自然科学版);2007年01期
10 蒋莎;张晓龙;;一种用于非平衡数据的SVM学习算法[J];计算机工程;2008年20期
中国重要会议论文全文数据库 前10条
1 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
2 左劼;于中华;郭颖;唐常杰;;一种通用的基于数据挖掘技术的评价函数构造方法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 曹茂永;孙农亮;郁道银;;离焦模糊图像清晰度评价函数的研究[A];中国仪器仪表学会第三届青年学术会议论文集(上)[C];2001年
4 孙农亮;曹茂永;;运动模糊图像清晰度评价函数的研究[A];中国仪器仪表学会第三届青年学术会议论文集(上)[C];2001年
5 曹长庆;曾晓东;;半导体激光器光束质量评价方法研究[A];2009年西部光子学学术会议论文摘要集[C];2009年
6 张国超;敬斌;;基于满意度的优化传球路线策略[A];2005中国机器人大赛论文集[C];2005年
7 段其昌;黄欢;;基于蚁群算法的中压配电网结构规划技术及其研究[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅱ)[C];2008年
8 成孝刚;陈启美;刘国庆;;总有界变差与图像清晰度之间的关系[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
9 陶军;高翔;周全;李晓亚;;利用自学习算法为机器人选择最优目标点的决策设计[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
10 刘维东;陈德春;王志平;;基本遗传算法在围海规划中的应用研究[A];第十二届中国海岸工程学术讨论会论文集[C];2005年
中国重要报纸全文数据库 前5条
1 刘乾福;企业绩效评价的“软肋”在哪里[N];中国财经报;2008年
2 ;期货公司核心竞争力研究(1)[N];期货日报;2004年
3 孙富春 孙增圻;计算智能技术[N];计算机世界;2001年
4 国家统计局统计科学研究所研究基地 山东大学生活质量与公共政策研究中心;改善民生关键是提升百姓幸福感[N];社会科学报;2011年
5 本报记者 吴佩;机器人摘棉花可以识别好与坏[N];农民日报;2011年
中国博士学位论文全文数据库 前10条
1 时贞军;约束优化问题的参数控制算法研究[D];大连理工大学;2002年
2 徐尚志;盲信号分离算法的研究[D];中国科学技术大学;2005年
3 张慧杰;面向大数据集的地形模型多分辨率建模关键技术研究[D];吉林大学;2009年
4 于保军;基于显微视觉的微操作系统及其伺服控制研究[D];吉林大学;2008年
5 苏时光;谱主成分分析及其在多指标评价体系中的应用[D];中国农业大学;2004年
6 胡涛;机器视觉中的自动调焦及形貌恢复技术研究[D];哈尔滨工业大学;2007年
7 谭志国;点模式匹配及应用研究[D];国防科学技术大学;2008年
8 韩军;光学膜厚宽带监控关键技术研究[D];西安电子科技大学;2011年
9 张明键;盲分离算法的研究[D];华南理工大学;2004年
10 徐敏;基于博弈思想的优化算法研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 黄灿彰;T型管内高压成形数值模拟及工艺参数优化[D];合肥工业大学;2008年
2 蒋莎;一种用于学习非平衡数据支持向量机的改进[D];武汉科技大学;2008年
3 李向莉;基于模糊神经网络的电梯群控系统调度方法研究[D];苏州大学;2006年
4 周宇;脱机手写中文识别中粘连文本行的切分与提取[D];哈尔滨工业大学;2007年
5 刘涛;基于FPGA的图像采集、显示与调焦系统设计[D];西北大学;2011年
6 袁翊国;面向多评价函数的故障检测技术的研究[D];北京邮电大学;2011年
7 何玉林;瞬时差分方法在中国象棋计算机博弈中的应用[D];河北大学;2009年
8 王彦芳;自动聚焦系统中评价函数性能与动态区域选取的研究[D];山东大学;2011年
9 谢丁杰;中心遮拦光学遥感系统图像退化机理及恢复方法研究[D];浙江大学;2011年
10 刘瑜;基于改进的模拟退火算法的波前校正方法研究[D];华中科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026