大型语言模型和 Transformer 背后的数学
深入探究 Transformer 数学:从标记化到多头注意力,再到掩码语言建模及其他
讲师:Patrik Szepesi
双语IT资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
您将学到什么
- 大型语言模型背后的数学
- 位置编码
- 多头注意力机制
- 查询、值和键矩阵
- 注意力面具
- 掩蔽语言建模
- 点积和向量对齐
- 位置编码中正弦和余弦函数的性质
- ChatGPT 等模型的工作原理
- 双向模型
- 上下文感知词语表示
- 词嵌入
- 点积的工作原理
- 矩阵乘法
- 以编程方式创建代币
探索相关主题
- 机器学习
- 其他 IT 和软件
- 信息技术与软件
要求
- 基础高中数学(线性代数)
描述
欢迎来到 Transformers 的数学,这是一门深入的课程,专为那些渴望了解 GPT、BERT 等大型语言模型的数学基础的人而设计。本课程深入探讨了复杂的数学算法,这些算法使这些复杂的模型能够处理、理解和生成类似人类的文本。从标记化开始,学生将学习如何通过 WordPiece 算法等技术将原始文本转换为模型可以理解的格式。我们将探索 Transformer 架构的核心组件——关键矩阵、查询矩阵和值矩阵——以及它们在编码信息中的作用。重点将放在注意力机制的机制上,包括对多头注意力和注意力掩码的详细研究。这些概念对于使模型能够专注于输入数据的相关部分,增强其理解上下文和细微差别的能力至关重要。我们还将介绍位置编码,这对于维护输入中的单词序列至关重要,利用余弦和正弦函数以数学方式嵌入位置信息。此外,本课程还将全面介绍双向和掩码语言模型、向量、点积和多维词嵌入,这些对于创建密集的词表示至关重要。在本课程结束时,参与者不仅将掌握 Transformer 的理论基础,还将获得对其功能和应用的实践见解。这些知识将帮助您在机器学习领域进行创新和超越,让您跻身 AI 工程师和研究人员的顶尖行列
本课程适合哪些人:
- 面向志在跻身编程世界高层的雄心勃勃的学习者:本课程专为那些渴望成为数据科学家和机器学习工程师前 1% 的人而设计。它特别适合那些渴望深入了解大型语言模型背后的先进技术 Transformer 的人。本课程将为您提供在开发和实施尖端 AI 应用程序方面出类拔萃所需的基础知识和技术技能
显示更多显示较少
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。