收藏本站
《中国自动化学会控制理论专业委员会D卷》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

Sample-Based Potentials Estimation for the Optimal Control of Stochastic System

【摘要】:正An optimization method based on perturbation analysis is applied to stochastic system.A policy iteration approach is designed by the performance sensitivity formula which is constructed with potentials.For estimating the potentials,the Poisson equation is viewed as a system of linear equation,then a least squares policy evaluation method is adopted,and the selection of basis function is also discussed for getting a better performance of approximation.The simulation shows the effectiveness of the policy iteration and the approximation approach.

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 黄炳强;曹广益;王占全;;强化学习原理、算法及应用[J];河北工业大学学报;2006年06期
2 岳峰;;一阶非线性随机系统的学习优化控制[J];合肥工业大学学报(自然科学版);2010年05期
3 张汝波,仲宇,顾国昌;A new accelerating algorithm for multi-agent reinforcement learning[J];Journal of Harbin Institute of Technology;2005年01期
4 付强;陈焕文;;基于RL算法的自学习博弈程序设计及实现[J];长沙理工大学学报(自然科学版);2007年04期
5 殷苌茗,陈焕文,谢丽娟;样本有限关联值递归Q学习算法及其收敛性证明[J];计算机研究与发展;2002年09期
6 顾国昌,仲宇,张汝波;一种新的多智能体强化学习算法及其在多机器人协作任务中的应用[J];机器人;2003年04期
7 殷苌茗,陈焕文,谢丽娟;激励学习的广义平均算法及其收敛性[J];计算机工程与应用;2002年20期
8 张文志,吕恬生;强化学习理论在机器人应用中的几个关键问题探讨[J];计算机工程与应用;2004年04期
9 杨克巍;张少丁;岑凯辉;谭跃进;;基于半自治agent的profit-sharing增强学习方法研究[J];计算机工程与应用;2007年15期
10 薛丽华;殷苌茗;李立云;胡明辉;;基于多智能体的融合Sarsa(λ)学习算法[J];计算机工程与应用;2008年04期
中国重要会议论文全文数据库 前10条
1 ;Optimization of Semi-Markov Switching State-space Control Processes for Network Communication Systems[A];第二十六届中国控制会议论文集[C];2007年
2 陈泰任;曹卫华;吴敏;雷琪;;一种新的集成模型在焦炉火道温度软测量中的应用[A];第二十六届中国控制会议论文集[C];2007年
3 ;Reinforcement Strategy Using Quantum Amplitude Amplification for Robot Learning[A];第二十六届中国控制会议论文集[C];2007年
4 ;An Event-Driven Dynamic Load Balancing Strategy for Streaming Media Clustered Server Systems[A];第二十七届中国控制会议论文集[C];2008年
5 ;Admission Control for P2P-Based Media Delivery Network[A];第二十九届中国控制会议论文集[C];2010年
6 ;On Solving Optimal Policies for Event-based Dynamic Programming[A];第二十九届中国控制会议论文集[C];2010年
7 郭成安;李建华;李明伟;;从观测数据学习后验概率函数:一种最佳神经网络模型的设计与分析[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
8 胡光华;;平均准则TD策略迭代算法[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
9 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
10 陈焕文;谢丽娟;谢建平;;TD方法与BP神经网络结合构造预测学习系统的算法分析与实现[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
中国博士学位论文全文数据库 前10条
1 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
2 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
3 蔡军;家电产品市场营销研究[D];天津大学;2010年
4 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
5 徐一帆;天基海洋移动目标监视的联合调度问题研究[D];国防科学技术大学;2011年
6 董孟高;基于Agent的自适应系统运行机制及其构造技术研究[D];国防科学技术大学;2011年
7 李鑫;基于强化学习理论的网络拥塞控制算法研究[D];东北大学;2009年
8 金卓军;逆向增强学习和示教学习算法研究及其在智能机器人中的应用[D];浙江大学;2011年
9 张涛;非线性系统控制策略的研究[D];浙江大学;2001年
10 徐昕;增强学习及其在移动机器人导航与控制中的应用研究[D];国防科学技术大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 程勉,高为炳;机器人动力学与控制——讲座连载之四[J];控制与决策;1987年01期
2 ;《控制理论与应用》第5卷(1988年)总目录[J];控制理论与应用;1988年04期
3 ;《控制理论与应用》第三卷总目录(1986年)[J];控制理论与应用;1986年04期
4 ;《控制理论与应用》第6卷(1989)总目录[J];控制理论与应用;1989年04期
5 冯纯伯;关于自适应控制理论的发展[J];机器人;1982年02期
6 ;《控制理论与应用》第一卷总目录(1984年)[J];控制理论与应用;1984年04期
7 黄琳,王龙,于年才;系统鲁棒性的若干问题——背景、现状与挑战[J];控制理论与应用;1991年01期
8 马扣根,顾仲权;结构振动主动控制技术的现状与发展趋向[J];南京航空航天大学学报;1991年02期
9 ;信息与控制第11卷(1982)总目录[J];信息与控制;1982年06期
10 ;《控制理论与应用》第二卷总目录(1985年)[J];控制理论与应用;1985年04期
中国重要会议论文全文数据库 前10条
1 ;A Discontinuous Output Feedback Control Law for Stabilization of Oscillators with Bounded Delayed Input[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中国自动化学会控制理论专业委员会D卷[C];2011年
3 ;Improved Successive Approximation Procedure for Optimal Control of Nonlinear Systems[A];中国自动化学会控制理论专业委员会D卷[C];2011年
4 ;On Competitive Control Systems[A];中国自动化学会控制理论专业委员会D卷[C];2011年
5 ;The Quadratic Problem for Stochastic Linear Control Systems with Delay[A];中国自动化学会控制理论专业委员会C卷[C];2011年
6 ;Maximum Principle for Partially Observed Optimal Control of Backward Doubly Stochastic Systems[A];中国自动化学会控制理论专业委员会B卷[C];2011年
7 ;Optimal Control Problem of Fully Coupled Forward-Backward Stochastic Systems with Poisson Jumps Under Partial Information[A];中国自动化学会控制理论专业委员会C卷[C];2011年
8 ;Control for the Traveling Wave Solution to the Degasperis-Procesi Equation[A];中国自动化学会控制理论专业委员会A卷[C];2011年
9 Mojtaba Hosseini Toodeshki;Javad Askari;Saeed Hosseinnia;;Asymptotic Stability of Time Delay Systems with Unknown Uncertainty Bounds Using Adaptive Robust Control[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
10 ;Robust Fault-tolerant Control for a Class of Uncertain Switched Fuzzy Systems[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国重要报纸全文数据库 前1条
1 本报记者 刘菁菁;移动智能家庭平台让家跟着手机走[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 MOHAMMED MOHAMMED SALEH ALL-BAIL;[D];武汉理工大学;2011年
2 Syed Bilal Hussain Shah;超声速流中反向和横向射流及静止流中射流的数值研究[D];中国科学技术大学;2010年
3 何所惧;人工智能在游戏中的应用:游戏玩家的实时建模及对手的智能适配[D];北京邮电大学;2010年
4 李维;几类群集系统的稳定性分析[D];上海交通大学;2008年
5 邓春坚;带时延和扰动的网络控制系统的分析与设计[D];华中科技大学;2012年
6 王爽;电力系统非线性模型预测紧急电压控制方法研究[D];华南理工大学;2012年
7 杨江照;高性能连续轨迹控制系统研究[D];哈尔滨工业大学;2010年
8 刘新金;Hadamard关联协调控制研究[D];南京理工大学;2010年
9 史蒂文(Oodo Ogidi Stephen);协调分布式无功补偿控制及其应用研究[D];大连理工大学;2011年
10 兰永红;基于二维模型的重复控制系统分析与设计[D];中南大学;2010年
中国硕士学位论文全文数据库 前10条
1 Ibeh Theophilus K;倒立摆的应用分析控制方法研究[D];哈尔滨工程大学;2011年
2 翟军勇;DCS通讯与软测量技术研究及在丁二烯装置的应用[D];南京工业大学;2003年
3 蒋鑫;基于TM5的MPEG(Rate Control)算法研究与基于PCI总线的逐扫视频采集系统的硬件设计[D];浙江大学;2002年
4 李扬;基于IEC61499功能块的控制系统建模与设计[D];浙江大学;2005年
5 Ivanov Valerii;[D];哈尔滨工程大学;2011年
6 MBARUSHIMANA Ally;基于逆变器的模块化智能电网监控和能量管理[D];华北电力大学;2012年
7 陈鹏;基于IP的网络控制系统建模与控制器设计[D];浙江大学;2005年
8 刘焰峰;基于负荷与卡片的Job-shop生产控制系统研究[D];华中科技大学;2010年
9 袁成志;持续激励与确定学习算法的性能分析[D];华南理工大学;2012年
10 刘子行;基金会现场总线协议的开发[D];浙江大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026