收藏本站
《’2004系统仿真技术及其应用学术交流会论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

结合TD(0)的马尔可夫链扰动分析求解算法

徐义春  韩芳  
【摘要】:我们分析了马尔可夫链转移矩阵的扰动对平均报酬的影响,讨论了系统敏感性的计算。并结合TD(0)算法,给出马尔可夫链性能敏感性的在线算法以及简化算法。我们给出了数值计算以表明给出的算法是可行的。
【作者单位】:三峡大学电气信息学院 三峡大学电气信息学院
【分类号】:O211.62

【共引文献】
中国期刊全文数据库 前10条
1 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期
2 徐文焘;张侃健;;基于性能势的随机系统最优控制[J];兵工自动化;2006年12期
3 孙若莹;李忱;赵刚;;基于强化学习的牛鞭效应对策模型[J];北京信息科技大学学报(自然科学版);2011年01期
4 李春贵,吴沧浦,刘永信;一种集成规划的SARSA(λ)强化学习算法[J];北京理工大学学报;2002年03期
5 刘向东;崔晓婷;王华;张宇河;;TD再励学习在卫星姿态控制中的应用[J];北京理工大学学报;2006年03期
6 毕金波,吴沧浦;有效的自适应λ即时差异学习(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期
7 王雪松,程玉虎,彭光正;Modeling and Simulation of Time Series Prediction Based on Dynamic Neural Network[J];Journal of Beijing Institute of Technology(English Edition);2004年02期
8 林海,孙吉贵;预测及其主要模型的实现系统[J];吉林大学学报(信息科学版);2002年04期
9 杨东,殷苌茗,陈焕文,吴柏森;基于Q-学习的非线性控制[J];长沙电力学院学报(自然科学版);2003年01期
10 殷苌茗,王汉兴,陈焕文,谢丽娟;基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)[J];长沙电力学院学报(自然科学版);2003年04期
中国重要会议论文全文数据库 前10条
1 陈泰任;曹卫华;吴敏;雷琪;;一种新的集成模型在焦炉火道温度软测量中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 ;Reinforcement Strategy Using Quantum Amplitude Amplification for Robot Learning[A];第二十六届中国控制会议论文集[C];2007年
3 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中国自动化学会控制理论专业委员会D卷[C];2011年
4 郭成安;李建华;李明伟;;从观测数据学习后验概率函数:一种最佳神经网络模型的设计与分析[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
5 胡光华;;平均准则TD策略迭代算法[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
6 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
7 陈焕文;谢丽娟;谢建平;;TD方法与BP神经网络结合构造预测学习系统的算法分析与实现[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
8 王直杰;方建安;邵世煌;;一种增强式学习算法及其在控制中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
9 唐昊;周雷;陆阳;袁继彬;;SMDP基于TD(λ)学习的统一神经元动态规划优化方法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
10 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
中国博士学位论文全文数据库 前10条
1 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
2 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
3 蔡军;家电产品市场营销研究[D];天津大学;2010年
4 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
5 徐一帆;天基海洋移动目标监视的联合调度问题研究[D];国防科学技术大学;2011年
6 董孟高;基于Agent的自适应系统运行机制及其构造技术研究[D];国防科学技术大学;2011年
7 李鑫;基于强化学习理论的网络拥塞控制算法研究[D];东北大学;2009年
8 金卓军;逆向增强学习和示教学习算法研究及其在智能机器人中的应用[D];浙江大学;2011年
9 张涛;非线性系统控制策略的研究[D];浙江大学;2001年
10 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
中国硕士学位论文全文数据库 前10条
1 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
2 胡慧敏;河北省集体林权制度改革绩效评价[D];河北农业大学;2011年
3 柴雪霞;基于强化学习的Web服务组合优化研究[D];合肥工业大学;2011年
4 刘文静;连续时间统一MAXQ算法及其应用研究[D];合肥工业大学;2011年
5 任玲;无线传感器网络能量高效的传输策略研究[D];合肥工业大学;2011年
6 黄付亮;联合博弈框架下的多Agent强化学习算法研究[D];太原科技大学;2011年
7 方珍;基于Android平台的中国象棋设计与实现[D];电子科技大学;2011年
8 王明明;基于强化学习的机械臂控制研究[D];华中科技大学;2009年
9 任建功;基于强化学习的自主式移动机器人导航控制[D];哈尔滨工业大学;2010年
10 李兆斌;自主移动机器人导航与控制中的增强学习方法研究[D];国防科学技术大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 关恕;角谷猜想的证明[J];宝鸡文理学院学报(自然科学版);2005年03期
2 张雅清;罗洪林;;马尔可夫链在中国各地区人均GDP预测中的应用[J];山西师范大学学报(自然科学版);2006年02期
3 吴翠兰;;关于设备维修与更新决策问题的两种方法[J];北京工业职业技术学院学报;2007年04期
4 马源良;孟娟;金雪莲;李国新;;基于个性化需求的市场需求预测[J];中国电力教育;2008年S2期
5 高亚爽;蒋晓文;;基于马尔可夫链的服装销售预测模型的研究[J];国际纺织导报;2008年11期
6 高亚爽;蒋晓文;;马尔可夫链的服装销售预测模型的研究[J];四川丝绸;2008年04期
7 陈伯成;李英杰;刘文煌;;求解一类马尔可夫链方程的逆矩阵[J];数学的实践与认识;2009年13期
8 杨卫国;纪灵军;孙杰;;关于m重隐非齐次马尔可夫模型的混合性[J];江苏大学学报(自然科学版);2009年06期
9 王刈禾;;马尔可夫链的极限性态及应用[J];技术与市场;2010年05期
10 杨金英;白玉梅;;用母函数求解有限马尔可夫链问题[J];内蒙古民族大学学报;2010年02期
中国重要会议论文全文数据库 前10条
1 徐义春;韩芳;;结合TD(0)的马尔可夫链扰动分析求解算法[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 彭志行;夏乐天;刘俊峰;;教学质量评价中的马尔可夫链方法[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 王秀峰;;串行生产线扰动分析新算法及仿真研究[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
4 涂摹生;;排队网络的建模及扰动分析[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
5 严姝娜;韦司滢;;改进权马尔可夫链实现对相依随机变量序列的预测[A];第10届计算机模拟与信息技术会议论文集[C];2005年
6 寇学智;张启义;方东;;基于改进灰色马尔可夫模型的交通运输量预测[A];中国运筹学会第九届学术交流会论文集[C];2008年
7 沈绿珠;王涛;;中国省区城市化水平的马尔可夫预测[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
8 牛艳;费为银;陈超;李淑娟;;在机制转换金融市场中带有红利支付的最优消费投资问题研究[A];第四届中国智能计算大会论文集[C];2010年
9 刘喜华;吴育华;;无赔款优待类保单经营状况预测的吸收Markov链模型[A];2001年中国管理科学学术会议论文集[C];2001年
10 周晖;王玮;钮文洁;谢欣荣;;基于灰色马尔可夫链的能源市场占有率的研究[A];第16届全国灰色系统学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 王烜;结构转换条件下利率期限结构建模及应用研究[D];哈尔滨工业大学;2009年
2 陈海燕;图上随机游动的若干问题[D];厦门大学;2004年
3 张乃敏;相容和不相容奇异线性方程组的算法与扰动分析[D];复旦大学;2003年
4 詹蓉;面向即时顾客化定制的个性化需求预测方法研究[D];华中科技大学;2008年
5 徐传胜;彼得堡数学学派的概率思想研究[D];西北大学;2007年
6 刘金禄;模糊决策权重灵敏度分析及其应用研究[D];大连理工大学;2004年
7 罗季;有限混合分布模型与线性模型的估计和检验问题[D];华东师范大学;2008年
8 段雪峰;几类非线性矩阵方程的理论与方法[D];湖南大学;2008年
9 童金英;复杂网络拓扑特征的理论研究及仿真分析[D];中南大学;2010年
10 向华;结构线性方程组的迭代方法与扰动分析[D];复旦大学;2006年
中国硕士学位论文全文数据库 前10条
1 王新蕾;上证综合指数的马氏性和时间序列模型的组合分析和预测[D];南京信息工程大学;2006年
2 马丽娜;若干强极限定理及其在广义Bethe树上奇偶马尔可夫链场上的应用[D];河北工业大学;2004年
3 孙豪杰;中国出口商品比较优势动态转换分析[D];同济大学;2008年
4 沈永梅;基于统计试验的马氏链点值预测方法和时间序列分析预测方法的比较分析[D];河海大学;2006年
5 刘东海;信用风险模型的破产问题[D];中南大学;2006年
6 丁晨华;基于模糊集和马尔可夫链的优化算法研究[D];上海交通大学;2011年
7 温海彬;马尔可夫链预测模型及一些应用[D];南京邮电大学;2012年
8 高卓;离散时间SM[K]/PH[K]/C(C=1,2)/FCFS排队系统的年龄过程[D];首都师范大学;2007年
9 沈亮;用游程理论证明Q过程唯一性准则[D];中南大学;2006年
10 张鹏;有负顾客到达的离散时间排队系统[D];北京交通大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026