收藏本站
《第25届中国控制会议论文集(中册)》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

半Markov控制过程在线自适应优化算法

江琦  奚宏生  殷保群  
【摘要】:考虑半Markov控制过程核未知情况下的优化问题,提出一种基于强化学习的在线自适应优化算法。运用基于事件的优化方法,通过建立半Markov控制过程事件驱动的随机切换分析模型,利用此模型的动态结构特性,结合在线学习估计梯度与随机逼近改进策略,导出在线自适应优化算法。该算法不依赖于半Markv核的信息,也无需计算相关状态的性能势,且以概率1收敛到全局最优。仿真实验结果验证了算法的有效性。

【共引文献】
中国博士学位论文全文数据库 前2条
1 李衍杰;扩展Markov决策过程的性能灵敏度分析与优化[D];中国科学技术大学;2006年
2 贾庆山;增强序优化理论研究及应用[D];清华大学;2006年
中国硕士学位论文全文数据库 前1条
1 李豹;大规模Markov决策过程基于性能势的并行算法研究与应用[D];合肥工业大学;2007年
【同被引文献】
中国期刊全文数据库 前1条
1 吴琦;熊光泽;;基于随机决策模型的动态功耗管理策略研究[J];计算机学报;2007年04期
中国博士学位论文全文数据库 前1条
1 吴琦;嵌入式操作系统功耗管理技术研究[D];电子科技大学;2006年
【相似文献】
中国重要会议论文全文数据库 前8条
1 江琦;奚宏生;殷保群;;半Markov控制过程在线自适应优化算法[A];第25届中国控制会议论文集(中册)[C];2006年
2 袁继彬;唐昊;韩江洪;;马尔可夫决策过程基于TD(0)学习和性能势的NDP优化[A];第二十三届中国控制会议论文集(上册)[C];2004年
3 李衍杰;殷保群;奚宏生;周亚平;;一类半Markov过程的灵敏度分析和性能优化[A];第二十二届中国控制会议论文集(下)[C];2003年
4 奚宏生;唐昊;殷保群;周亚平;;Markov控制过程在紧致行动集上的性能优化[A];第二十一届中国控制会议论文集[C];2002年
5 唐昊;周雷;陆阳;袁继彬;;SMDP基于TD(λ)学习的统一神经元动态规划优化方法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
6 唐昊;陈栋;周雷;;MDP基于actor-critic网络的统一NDP方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 陆慧;王金田;;单个销售商垄断电子销售市场的动态定价研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
8 江琦;奚宏生;殷保群;;网络新媒体服务系统事件驱动的动态服务组合[A];第二十九届中国控制会议论文集[C];2010年
中国重要报纸全文数据库 前3条
1 海防;保障中小企业安全[N];中国计算机报;2003年
2 丁宁;七嘴八舌 “话”装机[N];中国电脑教育报;2004年
3 肖冠丁;缩水版GeForce FX 5200,你需要吗[N];中国计算机报;2003年
中国博士学位论文全文数据库 前2条
1 徐琰恺;控制系统的学习和优化:马尔可夫性能势理论与方法[D];清华大学;2008年
2 胡晗;大规模网络服务系统能耗控制与性能优化[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
2 吴玉华;SMDP基于性能势的异步优化算法[D];合肥工业大学;2006年
3 刘春;不确定半马尔可夫系统最优鲁棒决策研究[D];合肥工业大学;2005年
4 陈栋;SMDP基于性能势的NDP优化方法及应用研究[D];合肥工业大学;2006年
5 周雷;折扣和平均准则下SMDP基于性能势的统一强化学习算法[D];合肥工业大学;2006年
6 程燕;不确定SMDP基于性能势的鲁棒控制研究[D];合肥工业大学;2007年
7 吴慧;CSPS模型基于学习的Look-ahead控制研究[D];合肥工业大学;2007年
8 王金田;基于强化学习的电子销售市场动态定价研究[D];合肥工业大学;2009年
9 李豹;大规模Markov决策过程基于性能势的并行算法研究与应用[D];合肥工业大学;2007年
10 丁丽洁;多机器人搬运系统的作业分配研究[D];合肥工业大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026