专利详情

专利名称	基于监督式强化学习的最优控制方法
申请号	CN201310232043.8	专利类型	发明专利
公开（公告）号	CN103324085A	公开（授权）日	2013.09.25
申请（专利权）人	中国科学院自动化研究所	发明（设计）人	赵冬斌;王滨;刘德荣
主分类号	G05B13/02(2006.01)I	IPC主分类号	G05B13/02(2006.01)I
专利有效期	基于监督式强化学习的最优控制方法至基于监督式强化学习的最优控制方法	法律状态	实质审查的生效
说明书摘要	本发明提出一种基于监督式强化学习的最优控制方法，包括步骤：步骤1，初始化控制器和评价器的人工神经网络的权值等参数，及一组训练数据集；步骤2，选择一组系统状态开始迭代；步骤3，监督式控制器产生初始稳定的控制策略，控制器通过调整自身权值逼近该控制策略；步骤4，控制器生成相应的控制动作，并附加一定的随机噪声作为探索；步骤5，将带有噪声的控制动作施加到被控制的系统上，观测下一时刻系统的状态和回报；步骤6，调整控制器和评价器的人工神经网络的权重；步骤7，判断当前状态是否满足终止条件，是则进入步骤8，否则回到步骤3；步骤8，判断初始的系统状态数据是否已经全部用于训练，是则输出最终的控制器，否则回到步骤2。