收藏本站
《中国运筹学会第六届学术交流会论文集(上卷)》2000年
收藏 | 手机打开
二维码
手机客户端打开本文

平均准则TD策略迭代算法

胡光华  
【摘要】:本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法一即时差分(TD)策略迭代法。通过引入所谓即时差分的概念,将传统的策略迭代算法的策略赋值步改进为近似策略赋值,相当于将值迭代算法与策略迭代算法进行了折中。最后对所给的TD策略迭代算法的收敛性进行了讨论。
【作者单位】:云南大学数学系
【分类号】:O225

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期
2 孙若莹;李忱;赵刚;;基于强化学习的牛鞭效应对策模型[J];北京信息科技大学学报(自然科学版);2011年01期
3 李春贵,吴沧浦,刘永信;一种集成规划的SARSA(λ)强化学习算法[J];北京理工大学学报;2002年03期
4 刘向东;崔晓婷;王华;张宇河;;TD再励学习在卫星姿态控制中的应用[J];北京理工大学学报;2006年03期
5 毕金波,吴沧浦;有效的自适应λ即时差异学习(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期
6 王雪松,程玉虎,彭光正;Modeling and Simulation of Time Series Prediction Based on Dynamic Neural Network[J];Journal of Beijing Institute of Technology(English Edition);2004年02期
7 林海,孙吉贵;预测及其主要模型的实现系统[J];吉林大学学报(信息科学版);2002年04期
8 杨东,殷苌茗,陈焕文,吴柏森;基于Q-学习的非线性控制[J];长沙电力学院学报(自然科学版);2003年01期
9 殷苌茗,王汉兴,陈焕文,谢丽娟;基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)[J];长沙电力学院学报(自然科学版);2003年04期
10 吕志来,张保会,哈恒旭;一种变结构的时间序列预测算法及其在电力系统暂态稳定预测中的应用[J];电工技术学报;2002年03期
中国重要会议论文全文数据库 前10条
1 陈泰任;曹卫华;吴敏;雷琪;;一种新的集成模型在焦炉火道温度软测量中的应用[A];第二十六届中国控制会议论文集[C];2007年
2 ;Reinforcement Strategy Using Quantum Amplitude Amplification for Robot Learning[A];第二十六届中国控制会议论文集[C];2007年
3 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中国自动化学会控制理论专业委员会D卷[C];2011年
4 郭成安;李建华;李明伟;;从观测数据学习后验概率函数:一种最佳神经网络模型的设计与分析[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
5 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
6 陈焕文;谢丽娟;谢建平;;TD方法与BP神经网络结合构造预测学习系统的算法分析与实现[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
7 王直杰;方建安;邵世煌;;一种增强式学习算法及其在控制中的应用[A];1996中国控制与决策学术年会论文集[C];1996年
8 王珏;程然;王骄;;人工神经元网络结合TD(λ)算法在中国象棋机器博弈中的应用[A];2009中国控制与决策会议论文集(2)[C];2009年
9 ;An Adaptive Inventory Control for a Supply Chain[A];2009中国控制与决策会议论文集(3)[C];2009年
10 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
2 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
3 蔡军;家电产品市场营销研究[D];天津大学;2010年
4 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
5 徐一帆;天基海洋移动目标监视的联合调度问题研究[D];国防科学技术大学;2011年
6 董孟高;基于Agent的自适应系统运行机制及其构造技术研究[D];国防科学技术大学;2011年
7 李鑫;基于强化学习理论的网络拥塞控制算法研究[D];东北大学;2009年
8 金卓军;逆向增强学习和示教学习算法研究及其在智能机器人中的应用[D];浙江大学;2011年
9 张涛;非线性系统控制策略的研究[D];浙江大学;2001年
10 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
中国硕士学位论文全文数据库 前10条
1 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
2 柴雪霞;基于强化学习的Web服务组合优化研究[D];合肥工业大学;2011年
3 黄付亮;联合博弈框架下的多Agent强化学习算法研究[D];太原科技大学;2011年
4 方珍;基于Android平台的中国象棋设计与实现[D];电子科技大学;2011年
5 王明明;基于强化学习的机械臂控制研究[D];华中科技大学;2009年
6 任建功;基于强化学习的自主式移动机器人导航控制[D];哈尔滨工业大学;2010年
7 李兆斌;自主移动机器人导航与控制中的增强学习方法研究[D];国防科学技术大学;2010年
8 宗露艳;强化学习和相关反馈在口腔正畸图像检索中的应用[D];江苏科技大学;2011年
9 赵俊杰;中高速单体船流体动力学性能和结构特性综合优化研究[D];江苏科技大学;2011年
10 左磊;基于值函数逼近与状态空间分解的增强学习方法研究[D];国防科学技术大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 唐绍祥;基于马尔可夫过程的有限平均动态委托代理模型[J];数量经济技术经济研究;2001年10期
2 徐晨,甘小冰;半马氏环境连续时间马氏决策过程:平均准则[J];数学研究;1998年03期
3 张兰兰;郭先平;;受控排队系统的平均最优与约束平均最优[J];控制理论与应用;2009年02期
4 唐昊,韩江洪,高隽;连续时间Markov控制过程的平均代价最优鲁棒控制策略[J];中国科学技术大学学报;2004年02期
5 黄永皓;陈曦;;机会式频谱接入优化问题的研究[J];控制与决策;2010年06期
6 茆田杨,黄朝贵;技术分析准则与随机漫步模型Bootstrap检验[J];预测;1996年03期
7 胡奇英;报酬无界的平均准则马氏决策过程(英文)[J];运筹学学报;2002年01期
8 胡光华,吴沧浦;多步 R 学习算法(英文)[J];Journal of Beijing Institute of Technology;1999年03期
9 贺仲雄,隋志强;FHW决策系统 第三讲[J];预测;1988年02期
10 温盛儒;;设备维修的马尔可夫决策[J];数量经济技术经济研究;1989年03期
中国重要会议论文全文数据库 前5条
1 胡光华;;平均准则TD策略迭代算法[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
2 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
3 王晓敏;;多目标规划的H_a—鞍点定理[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年
4 刘春;唐昊;高隽;;半马尔可夫控制过程基于全局优化的最优鲁棒控制策略求解[A];第二十三届中国控制会议论文集(上册)[C];2004年
5 袁继彬;唐昊;韩江洪;;马尔可夫决策过程基于TD(0)学习和性能势的NDP优化[A];第二十三届中国控制会议论文集(上册)[C];2004年
中国博士学位论文全文数据库 前2条
1 朱全新;离散时间马氏过程的最优控制——新的最优性条件和新的方法[D];中山大学;2005年
2 徐琰恺;控制系统的学习和优化:马尔可夫性能势理论与方法[D];清华大学;2008年
中国硕士学位论文全文数据库 前2条
1 宫雪;多目标马氏决策过程摄动问题的研究[D];西南交通大学;2005年
2 周显俊;基于数据的ADP离线值迭代算法和在线Q学习算法研究[D];广西大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026