数据工程师掌握 Amazon Redshift 和无服务器技术
有关 Amazon Redshift、Redshift Serverless、与 EMR 集成、AWS Step Functions、AWS Lambda 等的深入课程
讲师:Durga Viswanatha Raju Gadiraju
双语IT资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
您将学到什么
- 通过 AWS Web 控制台开始使用 Amazon Redshift
- 使用 Redshift 查询或命令将数据从 s3 复制到 AWS Redshift 表
- 使用 Python 作为编程语言,使用 Redshift Cluster 开发应用程序
- 使用 Python 作为编程语言将数据从 s3 复制到 AWS Redshift 表
- 使用分配键和排序键在 AWS Redshift 数据库服务器上设置的数据库创建表
- 运行连接到传统 RDBMS 数据库(例如 Postgres)的 AWS Redshift 联合查询
- 使用 AWS Redshift 联合查询和 Redshift 容量执行 ETL
- 集成 AWS Redshift 与 AWS Glue Catalog 以使用 Redshift Spectrum 运行查询
- 使用 AWS s3 设置的 Datalake 上的 Glue Catalog Tables 运行 AWS Redshift Spectrum 查询
- 通过创建工作组和命名空间开始使用 Amazon Redshift Serverless
- 使用无服务器工作组集成 AWS EMR 集群与 Amazon Redshift
- 在 AWS EMR 集群上开发和部署 Spark 应用程序,其中处理后的数据将加载到 Amazon Redshift Serverless Workgroup 中
要求
- 计算机科学或 IT 学位或 1 至 2 年 IT 经验
- 能够使用任何关系数据库、数据仓库数据库或 MPP 数据库编写 SQL 查询
- 具备基本 Linux 技能,能够使用终端运行命令
- 尽管 Python 编程是课程大部分内容的必修内容,但课程要求学生具备 Python 编程基础
描述
AWS 或 Amazon Redshift 是用于构建数据仓库或数据集市以向业务用户提供报告和仪表板的关键 AWS 服务之一。作为本课程的一部分,您将通过学习 AWS 或 Amazon Redshift 的所有重要功能来构建数据仓库或数据集市,从而最终学习 AWS 或 Amazon Redshift。
我们介绍了联合查询、Redshift Spectrum、与Python集成、AWS Lambda 函数、Redshift 与 EMR 集成以及使用AWS Step Functions的端到端管道等功能。
这是课程的详细大纲。
- 首先,我们将了解如何使用 AWS Web 控制台开始使用 Amazon Redshift。我们将了解如何创建集群、如何连接集群以及如何使用基于 Web 的查询编辑器运行查询。我们还将继续在 Redshift 集群中创建数据库和表。设置数据库和表后,我们还将详细介绍针对 Redshift 集群中数据库的表执行 CRUD 操作的相关细节。
- 一旦我们在 Redshift Cluster 中有了数据库和表,我们就该了解如何将数据放入 Redshift Cluster 中的表中了。我们将数据放入 Redshift 集群的常用方法之一是将数据从 s3 复制到 Redshift 表中。我们将逐步介绍使用 copy 命令将数据从 s3 复制到 Redshift 表中的过程。
- Python 是构建数据工程或 ETL 应用程序的主要编程语言之一。它广泛用于构建 ETL 作业,以将数据放入 Redshift 集群中的数据库表中。一旦我们了解如何使用复制命令将数据从 s3 导入 Redshift 表,我们将学习如何使用Redshift 集群开发基于 Python 的数据工程或 ETL 应用程序。我们将学习如何执行 CRUD 操作以及如何使用基于 Python 的程序运行 COPY 命令。
- 一旦我们了解如何使用 Redshift Cluster 构建应用程序,我们将介绍使用 Distkeys 和 Sortkeys 创建 Redshift 表时使用的一些关键概念。
- 我们还可以连接到远程数据库(例如 Postgres),并使用Redshift 联合查询直接在远程数据库表上运行查询,还可以使用Redshift Spectrum在 Glue 或 Athena Catalog 上运行查询。您将学习如何利用Redshift 联合查询和 Spectrum来处理远程数据库表或 s3 中的数据,而无需复制数据。
- 作为Amazon Redshift Serverless 入门的一部分,您还将获得 Amazon Redshift Serverless 的概述。
- 一旦您了解了 Amazon Redshift Serverless,您最终将部署一个管道,其中 Spark 应用程序部署在AWS EMR 集群上,该集群会将 Spark 处理的数据加载到 Redshift 中。
本课程适合哪些人:
- 想要学习 AWS Redshift 用于数据仓库的大学生
- 有志于了解 AWS Redshift 用于数据仓库的数据工程师和数据科学家
- 希望探索 AWS Redshift 用于数据仓库的经验丰富的应用程序开发人员
- 经验丰富的数据工程师使用 Python 围绕使用 AWS Redshift 创建的数据集市构建端到端数据管道
- 任何热衷于深入研究 AWS Redshift 以在 AWS 上进行数据仓库的 IT 专业人士
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。