中国人民大学数学学院

学术动态

学术报告

首页 · 学术动态 · 学术报告 ·

25-06-2021

学习与控制系列学术报告—— 基于梯度校正作用的强化学习及其稀疏化策略评价算法研究——李大字（北京化工大学）

报告人：李大字，北京化工大学信息科学与技术学院

报告题目：基于梯度校正作用的强化学习及其稀疏化策略评价算法研究

报告时间：2021年6月28日14:00-16:00

报告地点：腾讯会议 ID：374 364 380

报告摘要：

机器学习是实现人工智能最有潜力的工具，而强化学习是实现自主学习的最有力的途径。策略评价和学习控制是强化学习问题中两大主要任务。其中策略评价过程是指在给定策略下，对特定起始状态之后可获得的未来奖赏折扣和的期望值做出估计。我们研究了提高正则化在线策略评价算法的方法，提出了带有梯度修正项的最小二乘时域差分策略评价算法，并基于多步递推最小二乘技术，实现了稀疏化邻近递推算法，证明了算法的学习和泛化能力。

个人简历：

李大字，教授，博士生导师，北京市教学名师。担任北京化工大学信息科学与技术学院副院长、国家一流本科专业建设点“自动化”专业负责人，首批国家级一流本科课程《过程控制工程》课程负责人。主要研究方向为机器学习与人工智能、先进控制、复杂系统建模与优化、分数阶系统等。是控制学科国际知制期刊《ISA Transactions》的编委。担任中国自动化学会自适应动态规划与强化学习专业委员会委员、中国自动化学会数据驱动控制、学习与优化专业委员会委员等。发表高水平论文100余篇，参与编写出版教材6部，学术专著一部。

学院办公室：010-62515886

本科生教务：010-62513386

研究生教务与国际交流：010-82507161

党团学办公室：010-62515886

在职课程培训班：010-82507083

友情链接

邮编：100872

电话：010-82507161

传真：010-62513316

E-mail：mathruc@ruc.edu.cn/mathrucdw@ruc.edu.cn

地址：北京市海淀区中关村大街59号中国人民大学数学楼

数学学院公众号