基于强化学习的互联电网CPS自校正控制

余涛; 周斌

引用本文:	余涛，周斌.基于强化学习的互联电网CPS自校正控制[J].电力系统保护与控制,2009,37(10):33-38.
	.[J].Power System Protection and Control,2009,37(10):33-38

【打印本页】【下载PDF全文】【查看/发表评论】【EndNote】【RefMan】【BibTex】

←前一篇|后一篇→

过刊浏览高级检索

本文已被：浏览 4890次下载 3073次	码上扫一扫！
分享到：微信更多字体:加大+\|默认\|缩小-
基于强化学习的互联电网CPS自校正控制
余涛，周斌¹
华南理工大学电力学院，广东广州 510640

摘要:

AGC是一个动态多级决策问题——马尔可夫决策过程(MDP)，应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策。引入Q学习算法作为强化学习核心算法，将CPS值看作包含AGC的电力系统“环境”所给的“奖励”，依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习。学习目标是使CPS控制动作从环境获得的长期积累奖励值最大，从而快速自动地在线优化CPS控制系统的输出。仿真研究显示，引入强化学习自校正控制后显著增强了整个AGC系统的鲁棒性和适应性，有效提高了CPS考核合格率。

关键词: 强化学习 Q学习算法自动发电控制 CPS标准自校正控制

DOI：10.7667/j.issn.1674-3415.2009.10.007

分类号:

基金项目:国家自然科学基金项目（50807016）;广东省自然科学基金博士启动基金项目（06300091）

Abstract:

Key words:

X关闭