作  者

不  限

  • 不  限
  • 1915年
  • 1949年
  • 1979年

不  限

  • 不  限
  • 1979年
  • 1949年
  • 1915年
  • 全  文
  • 主  题
  • 篇  名
  • 关键词
  • 作  者
  • 作者单位
  • 摘  要
  • 参考文献
  • 基  金
  • 文献来源
  • 发表时间
  • 中图分类号

全  文

不  限

  • 不  限
  • 1915年
  • 1949年
  • 1979年

不  限

  • 不  限
  • 1979年
  • 1949年
  • 1915年
  • 全  文
  • 主  题
  • 篇  名
  • 关键词
  • 作  者
  • 作者单位
  • 摘  要
  • 参考文献
  • 基  金
  • 文献来源
  • 发表时间
  • 中图分类号
手机远见搜索 |设置
  • 关闭历史记录
  • 打开历史纪录
  • 清除历史记录
引用
筛选:
文献类型 文献类型
学科分类 学科分类
发表年度 发表年度
作者 作者
机构 机构
基金 基金
研究层次 研究层次
排序:
显示:
CNKI为你找到相关结果

分布式Q学习多目标函数优化策略  CNKI文献

将分布式Q学习算法与Pareto排序法相结合,提出了一种利用强化学习算法解决多目标优化问题的策略。该策略充分利用Q学习语句式的奖赏机制来描述问题的多重目标函数,并结合一般的Pareto排序法,在有限的迭代过程后输出可...

宋天恒 李大字... 《北京化工大学学报(自然科学版)》 2011年05期 期刊

关键词: Q学习算法 / 多目标优化 / Pareto排序法

下载(243)| 被引(1)

强化学习问题中的正则化最小二乘策略评价算法的研究  CNKI文献

策略评价和学习控制是强化学习问题中两大主要任务。其中策略评价过程是指在给定策略下,对特定起始状态之后可获得的未来奖赏折扣和的期望值做出估计。近年来,许多基于时域差分和值函数逼近的改进策略评价算法被提出,...

宋天恒 导师:李大字 北京化工大学 2016-12-02 博士论文

关键词: 强化学习 / 策略评价 / 正则化 / 时域差分

下载(117)| 被引(0)

基于强化学习算法的发酵过程多目标优化  CNKI文献

分批补料发酵过程的反应特点包括强非线性、时间滞后、参数时变性以及生物状态量难以实时测量等,对产物、底物和时间消耗进行直接的在线控制非常困难。因此,离线优化成为了改善各个生产指标的主要手段。另外,这种复杂...

宋天恒 导师:李大字 北京化工大学 2011-06-09 硕士论文

关键词: Q-learning算法 / 多步Q-learning算法 / 分批补料发酵过程 / 多目标优化

下载(214)| 被引(0)

分批补料发酵过程多目标优化的分布式强化学习策略  CNKI文献

发酵过程优化问题通常包含有互相冲突的多重优化目标,另外反应本身具有诸多复杂性。提出一种基于Pareto的分布式Q学习多目标策略,用以求解赖氨酸分批补料发酵过程流加速率轨迹的Pareto最优解。该策略中,Q学习算法和Pa...

李大字 宋天恒... 《化工学报》 2011年08期 期刊

关键词: Q学习算法 / 多目标优化 / 赖氨酸分批补料发酵

下载(281)| 被引(2)

基于交叉熵算法的无模控制器在多变量时滞系统中的应用  CNKI文献

多变量时滞系统广泛存在于工业对象中,受到广泛的关注。多变量时滞系统的控制器必须同时解决多变量和时滞问题。通常用于处理多变量问题的解耦方法是建立在精确模型的基础上,但复杂工业对象难以精确建模,再加上时滞问...

李大字 李野... 第26届中国过程控制会议(CPCC2015)论文集 2015-07-31 国际会议

关键词: 交叉熵 / 无模控制 / 混沌映射 / 多变量系统

下载(8)| 被引(0)

学术研究指数分析(近十年)详情>>

  • 发文趋势

热门学者(按发文篇数排行)

相关机构

大成编客