欢迎学习《Python基于进化策略/A2C/DDPG深度强化学习尖端AI技术视频教程》课程,你将学习使用进化策略、A2C 和 DDPG 将深度学习应用于人工智能和强化学习。
最后更新 10/2022
MP4 | 视频:h264, 1280×720 | 音频:AAC,44.1 KHz,2 Ch
类型:eLearning | 语言:英语 + srt | 时长:50 节课(8 小时 32 分)| 大小:2 GB
你会学到什么
- 了解 A2C 算法的前沿实现(OpenAI Baselines)
- 了解和实施 AI 的进化策略 (ES)
- 理解和实施 DDPG(深度确定性策略梯度Deep Deterministic Policy Gradient)
要求
- 了解 MDP(马尔可夫决策过程)和强化学习的基础知识
- 看到我的前两个强化学习课程很有帮助
- 了解如何在 Tensorflow 中构建卷积神经网络
描述
欢迎来到尖端人工智能!
从技术上讲,这是我的深度学习系列的第 11 部分 Python 中的深度学习,也是我的第三门强化学习课程。
深度强化学习实际上是 2 个主题的组合:强化学习和深度学习(神经网络)。
虽然这两者已经存在了很长一段时间,但直到最近深度学习才真正起飞,随之而来的是强化学习。
深度学习的成熟推动了自 1980 年代以来一直存在的强化学习的进步,尽管它的某些方面,例如贝尔曼方程,已经存在了更长的时间。
最近,这些进步使我们能够展示强化学习的强大功能。
我们已经看到 AlphaZero 如何仅使用自我对弈来掌握围棋游戏。
这是在最初的 AlphaGo 击败围棋世界冠军之后的几年。
我们已经看到现实世界的机器人学习如何走路,甚至在被踢倒后恢复,尽管只是使用模拟进行训练。
模拟很好,因为它不需要昂贵的实际硬件。如果您的代理跌倒,则不会造成真正的损害。
我们已经看到现实世界的机器人学会了手的灵巧性,这是一项不小的壮举。
走路是一回事,但这涉及粗略的运动。手的灵巧性是复杂的——你有很多自由度,其中很多力量都非常微妙。
想象一下用你的脚做一些你通常用手做的事情,你会立即明白为什么这会很困难。
最后但并非最不重要的——电子游戏。
即使仅考虑过去几个月,我们也看到了一些惊人的发展。AI 现在正在 CS:GO 和 Dota 2 中击败职业选手。
那么,这门课程与前两门课程有何不同呢?
既然我们知道深度学习与强化学习一起工作,那么问题就变成了:我们如何改进这些算法?
本课程将向您展示几种不同的方式:包括强大的 A2C(Advantage Actor-Critic)算法、DDPG(深度确定性策略梯度)算法和进化策略。
进化策略是一种全新的强化学习方法,它抛弃了所有旧理论,转而采用更“黑匣子”的方法,受生物进化的启发。
这门新课程的另一个优点是我们可以看到的各种环境。
首先,我们将看看经典的 Atari 环境。这些很重要,因为它们表明强化学习代理可以仅基于图像进行学习。
其次,我们要看看 MuJoCo,它是一个物理模拟器。这是构建能够在现实世界中导航并理解物理的机器人的第一步——我们首先必须证明它可以与模拟物理一起工作。
最后,我们来看看几年前大家最喜欢的手机游戏《Flappy Bird》。
感谢您的阅读,我们课堂上见!
“如果你不能实现它,你就不会理解它”
或者正如伟大的物理学家理查德费曼所说:“我无法创造的东西,我不明白”。
我的课程是您将学习如何从头开始实施机器学习算法的唯一课程
其他课程会教你如何将数据插入库中,但你真的需要 3 行代码的帮助吗?
在用 10 个数据集做同样的事情之后,你意识到你没有学到 10 件事。你学到了 1 件事,只是重复了相同的 3 行代码 10 次……
建议的先决条件
- Calculus
- Probability
- Object-oriented programming
- Python coding: if/else, loops, lists, dicts, sets
- Numpy coding: matrix and vector operations
- Linear regression
- Gradient descent
- Know how to build a convolutional neural network (CNN) in TensorFlow
- Markov Decision Proccesses (MDPs)
本课程适用于谁
- 想要将强化学习应用于他们的工作和项目的学生和专业人士
- 任何想学习尖端人工智能和强化学习算法的人