Python 中的实用多臂老虎机算法
获得构建数字 AI 代理的技能,该代理能够在不确定的情况下自适应地做出关键业务决策。
讲师:Edward Pie
双语IT资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
您将学到什么
- 理解并能够识别多臂老虎机问题。
- 将实际业务问题建模为 MAB,并实施数字 AI 代理来实现其自动化。
- 了解 RL 在探索-利用困境方面面临的挑战。
- 在探索和利用之间取得平衡的各种算法策略的实际实现。
- Epsilon-greedy 策略的 Python 实现。
- Softmax Exploration 策略的 Python 实现。
- 乐观初始化策略的 Python 实现。
- 上限置信边界 (UCB) 策略的 Python 实现。
- 了解 RL 在奖励函数设计和样本效率方面的挑战。
- 通过增量采样估计行动价值。
探索相关主题
- Python
- 编程语言
- 发展
要求
- 能够理解 Python 中的基本 OOP 程序。
- 具有基本的 Numpy 和 Matplotlib 知识。
- 基本代数技能。如果你知道如何加、减、乘、除数字,那么你就可以开始了。
描述
本课程是您进入令人兴奋的强化学习领域的完美切入点,在该领域,数字人工智能代理被构建为通过反复试验自动学习如何做出连续决策。具体来说,本课程重点介绍多臂老虎机问题以及各种算法策略的实际动手实施,以平衡探索和利用。每当您希望在一段时间内从有限的选项中始终做出最佳选择时,您就会遇到多臂老虎机问题,本课程将教您构建现实的业务代理来处理这种情况所需的每一个细节。
本课程通过非常简明的解释,教您如何自信地将看似可怕的数学公式轻松转换成 Python 代码。我们知道,我们中并不是很多人都精通数学,因此本课程有意远离数学,除非必要。即使有必要谈论数学,本课程采用的方法也是这样的,任何具有基本代数技能的人都可以理解,最重要的是,可以轻松地将数学转化为代码,并在此过程中建立有用的直觉。
本课程教授的一些算法策略包括 Epsilon Greedy、Softmax Exploration、Optimistic Initialization、Upper Confidence Bounds 和 Thompson Sampling。掌握这些工具后,您就能够轻松构建和部署 AI 代理,以处理不确定情况下的关键业务运营。
为了弥合理论与应用之间的差距,我更新了本课程,增加了一个部分,展示如何使用 EV3 Mindstorm 在机器人技术中应用 MAB 算法。我很快会上传一个部分,展示如何应用本课程中教授的算法来优化广告。
本课程适合哪些人:
- 任何具有基本 Python 技能并希望开始强化学习的人。
- 经验丰富的人工智能工程师、机器学习工程师、数据科学家和软件工程师希望将强化学习应用于实际的业务问题。
- 商业专业人士愿意了解强化学习如何帮助实现自适应决策过程的自动化。
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。