摘要: |
AGC是一个动态多级决策问题——马尔可夫决策过程(MDP),应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策。引入Q学习算法作为强化学习核心算法,将CPS值看作包含AGC的电力系统“环境”所给的“奖励”,依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习。学习目标是使CPS控制动作从环境获得的长期积累奖励值最大,从而快速自动地在线优化CPS控制系统的输出。仿真研究显示,引入强化学习自校正控制后显著增强了整个AGC系统的鲁棒性和适应性,有效提高了CPS考核合格率。 |
关键词: 强化学习 Q学习算法 自动发电控制 CPS标准 自校正控制 |
DOI:10.7667/j.issn.1674-3415.2009.10.007 |
|
基金项目:国家自然科学基金项目(50807016);广东省自然科学基金博士启动基金项目(06300091) |
|
|
|
() |
Abstract: |
|
Key words: |