首页 > AI前沿 > 正文

GitHub万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划 清晰的学习路径 实现算法列表

转载 2019-08-11 0 40

自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让内行人沉醉,让外行人惊奇。

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

这里恰有一份标星过万的强化学习资源,既有教程推荐,又有配套练习,网友学了都说好,并且还在实时更新。

入学要求并不高,只需要一些基础的数学和机器学习知识。

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

想要入门强化学习,一份优质的课程必不可少。

强化学习资源千千万,项目作者 Denny Britz 大力推荐这两个:

David Silver 的强化学习课程

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

以及 Richard Sutton 和 Andrew Barto的《强化学习:简介(第二版)》

http://incompleteideas.net/book/RLbook2018.pdf

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

p.s. 实测无需魔法

Denny Britz 小哥表示,这两本书几乎涵盖了入门强化学习需要了解的大部分研究论文,基础决定高度,理论知识还是要扎扎实实学起来。

理论有了,可书里并没有算法实现。

别担心,帮人帮到底,送佛送到西,Denny Britz 亲自动手,用 Python,OpenAI Gym 和 Tensorflow 实现了大多数标准强化算法,并把它们都共享了出来,方便大家配合教材食用。

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

简直太贴心。

在这份万星资源里,每个文件夹都对应着教材的一个或多个章节。除了练习和解决方案之外,每个文件夹下还包含了一系列学习目标,基础概念摘要,以及相关链接。

基于模型的强化学习:使用动态规划的策略迭代和值迭代这一章为例。

这一章配套的是 David Silver RL课程的第三讲,动态编程规划。

首先是学习目标:

  • 了解策略评估和策略改进之间的区别,以及这些流程如何相互作用
  • 理解策略迭代算法
  • 理解值迭代算法
  • 了解动态规划方法的局限性

设定好学习目标,这份教程还替你划了重点概念。

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

最后,奉上实战演练。

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

大框架已经搭好,只需专注重点思考如何填空:

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

文后附标准答案:

GitHub万星资源:强化学习算法实现,教程代码学习规划全都有

这份教程现在涵盖了以下算法实现。

  • 动态规划策略评估
  • 动态规划策略迭代
  • 动态规划值迭代
  • 蒙特卡洛预测
  • Epslion-Greedy 策略的蒙特卡洛控制
  • 具有重要性抽样的蒙特卡洛非策略控制
  • SARSA(策略 TD 学习)
  • Q学习(非策略 TD 学习)
  • 线性函数逼近的Q学习
  • 雅达利游戏的深度Q学习
  • 雅达利游戏的双重深度Q学习
  • 优先经验回放的深度Q学习(施工中)
  • 策略梯度:基线强化
  • 策略梯度:基线Actor-Critic 算法
  • 策略梯度:具有连续动作空间的基线 Actor-Critic 算法
  • 连续动作空间的确定性策略梯度(施工中)
  • DDPG(施工中)
  • 异步优势 Actor-Critic 算法(A3C)

学习路径如此清晰,这样的优质资源,不Mark一下吗?

传送门:

https://github.com/dennybritz/reinforcement-learning

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关文章


  • 腾讯极客攻破iPhone刷脸解锁,凭一副眼镜,转走熟睡用户的钱 戴眼镜的漏洞
  • 旷视5号员工陈可卿:1991生于绍兴、10岁买电脑改变命运,信息奥赛金牌保送清华 天才少年启航:兴趣是第一任老师 痴迷于编程 “卿沐组合”:旷视“超级英雄” 第一次蜕变:追求极致,暴走成长 第二次蜕变:最靠谱的产品经理 第三次蜕变:做英雄联盟的一块砖 从个人成长到集体成长 陈可卿背后:组织的成长才是本质
  • 任正非最新内部信:过去只为赚点小钱,现在要用5G+AI战胜美国
  • 半数顶级论文摘要存在倾向性描述,心理学精神病学研究成重灾区
  • 中国公司再获KDD两项最佳:松鼠AI拿下图深度学习研讨会最佳论文&最佳学生论文
  • 用飞桨做自然语言处理:神经网络语言模型应用实例
  • “人工智能”之父明斯基卷入性交易丑闻,当时73岁高龄
  • 微内核、分布式、全场景、更安全,200秒看余承东讲解华为鸿蒙OS
  • 作者信息

    清酒竹杯

    好好学习天天向上!

    最近文章
    微信公众号网页授权详解 10
    jsapi支付什么意思 7
    scope权限什么意思啊 5