学术报告

25-06-2021

学习与控制系列学术报告—— 基于梯度校正作用的强化学习及其稀疏化策略评价算法研究——李大字(北京化工大学)

报告人:李大字,北京化工大学信息科学与技术学院

报告题目:基于梯度校正作用的强化学习及其稀疏化策略评价算法研究

报告时间:2021年6月28日14:00-16:00

报告地点:腾讯会议 ID:374 364 380

报告摘要:

机器学习是实现人工智能最有潜力的工具,而强化学习是实现自主学习的最有力的途径。策略评价和学习控制是强化学习问题中两大主要任务。其中策略评价过程是指在给定策略下,对特定起始状态之后可获得的未来奖赏折扣和的期望值做出估计。我们研究了提高正则化在线策略评价算法的方法,提出了带有梯度修正项的最小二乘时域差分策略评价算法,并基于多步递推最小二乘技术,实现了稀疏化邻近递推算法,证明了算法的学习和泛化能力。

个人简历:

李大字,教授,博士生导师,北京市教学名师。担任北京化工大学信息科学与技术学院副院长、国家一流本科专业建设点“自动化”专业负责人,首批国家级一流本科课程《过程控制工程》课程负责人。主要研究方向为机器学习与人工智能、先进控制、复杂系统建模与优化、分数阶系统等。是控制学科国际知制期刊《ISA Transactions》的编委。担任中国自动化学会自适应动态规划与强化学习专业委员会委员、中国自动化学会数据驱动控制、学习与优化专业委员会委员等。发表高水平论文100余篇,参与编写出版教材6部,学术专著一部。

分享

学院办公室:010-82507161

本科生教务:010-62513386

研究生教务与国际交流:010-82507161

党团学办公室:010-62515886

在职课程培训班:010-82507075

 

邮编:100872

电话:010-82507161

传真:010-62513316

E-mail:mathruc@ruc.edu.cn/mathrucdw@ruc.edu.cn

地址:北京市海淀区中关村大街59号中国人民大学数学楼

数学学院公众号

版权所有 中国人民大学数学学院 升星提供技术服务