描述

本课程是您进入令人兴奋的强化学习领域的完美切入点,其中构建了数字人工智能代理以自动学习如何通过反复试验做出连续决策。具体来说,本课程侧重于多臂老虎机问题以及各种算法策略的实际动手实现,以平衡探索和利用。每当您希望随着时间的推移从有限数量的选项中始终做出最佳选择时,您正在处理多臂强盗问题,本课程将教您构建现实的业务代理以处理所需的所有细节这种情况。

通过非常简洁的解释,本课程教你如何自信地将看似可怕的数学公式轻松地转换为 Python 代码。我们知道,我们当中没有多少人在技术上精通数学,因此除非有必要,否则本课程有意远离数学。即使有必要谈论数学,本课程采用的方法是任何具有基本代数技能的人都可以理解并且最重要的是可以轻松地将数学转化为代码并在此过程中建立有用的直觉。

本课程教授的一些算法策略是 Epsilon Greedy、Softmax Exploration、Optimistic Initialization、Upper Confidence Bounds 和 Thompson Sampling。有了这些工具,您就有足够的能力轻松构建和部署 AI机器人,这些代理可以在不确定的情况下处理关键业务操作。

本课程于2022.6月发布了后续课程《基于MAB算法广告点击AI机器人开发实战训练视频教程》

MP4 | 视频:h264, 1280×720 | 音频:AAC,44.1 KHz,2 Ch
类型:eLearning | 语言:英语 + 英语字幕srt | 时长:13 节课(3 小时 45 分)| 大小:1.15 GB

你会学到什么:

  • 了解并能够识别多臂强盗问题。
  • 将实际业务问题建模为 MAB,并实施数字 AI 代理以使其自动化。
  • 了解 RL 在探索-开发困境方面的挑战。
  • 用于平衡探索和利用的各种算法策略的实际实现。
  • Epsilon-greedy 策略的 Python 实现。
  • Softmax 探索策略的 Python 实现。
  • 乐观初始化策略的 Python 实现。
  • 置信上限 (UCB) 策略的 Python 实现。
  • 了解 RL 在奖励函数设计和样本效率方面的挑战。
  • 通过增量抽样估计行动价值。

要求

  • 能够理解 Python 中的基本 OOP 程序。
  • 具备基本的 Numpy 和 Matplotlib 知识。
  • 基本代数技能。如果你知道如何加、减、乘和除数,你就可以开始了。

本课程适用于谁

  • 任何具有基本 Python 技能并希望开始强化学习的人。
  • 希望将强化学习应用于实际业务问题的经验丰富的 AI 工程师、ML 工程师、数据科学家和软件工程师。
  • 愿意学习强化学习如何帮助自动化自适应决策过程的商业专业人士。

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源