使用 AWS Data Analytics 进行数据工程
使用数据分析服务 (Glue、EMR、Athena、Kinesis、Lambda、Redshift) 在 AWS 上构建数据工程管道
讲师:Durga Viswanatha Raju Gadiraju
双语IT资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
您将学到什么
- 利用 AWS 数据分析服务进行数据工程
- AWS Essentials,例如 S3、IAM、EC2 等
- 了解基于云的存储 AWS S3
- 了解与 AWS 上称为 EC2 的虚拟机相关的详细信息
- 管理 AWS IAM 用户、组、角色和 RBAC(基于角色的访问控制)策略
- 使用 AWS Glue Catalog 管理表
- 使用 AWS Glue 作业设计批量数据管道
- 使用 AWS Glue 工作流编排批量数据管道
- 使用 AWS Athena 运行查询 – 无服务器查询引擎服务
- 使用 AWS Elastic Map Reduce(EMR)集群构建数据管道
- 使用 AWS Elastic Map Reduce (EMR) 集群来生成报告和仪表盘
- 使用 AWS Lambda 函数进行数据提取
- 使用 AWS Events Bridge 进行调度
- 使用 AWS Kinesis 构建流式传输管道
- 使用 AWS Kinesis Firehose 流式传输 Web 服务器日志
- 使用 AWS Athena 进行数据处理概述
- 使用 CLI 运行 AWS Athena 查询或命令
- 使用 Python boto3 运行 AWS Athena 查询
- 创建 AWS Redshift 集群、创建表并执行 CRUD 操作
- 将数据从 s3 复制到 AWS Redshift 表
- 了解分布样式并使用 Distkeys 创建表
- 使用 AWS Redshift 联合查询对外部 RDBMS 表运行查询
- 使用 AWS Redshift Spectrum 在 Glue 或 Athena Catalog 表上运行查询
探索相关主题
- 数据工程
- 数据科学
- 发展
要求
- 至少有 8 GB RAM 的计算机
- 非常需要使用 Python 的编程经验,因为有些主题是使用 Python 演示的
- 由于部分主题是使用 SQL 进行演示的,因此非常需要具备 SQL 经验
- 最好具有使用 Pandas 或 Pyspark 的数据工程经验
- 本课程非常适合经验丰富的数据工程师,可将 AWS 分析服务作为关键技能添加到其个人资料中
描述
数据工程就是构建数据管道,将来自多个来源的数据导入数据湖或数据仓库,然后从数据湖或数据仓库导入下游系统。作为本课程的一部分,我将引导您了解如何使用 AWS Data Analytics Stack 构建数据工程管道。它包括 Glue、Elastic Map Reduce (EMR)、Lambda 函数、Athena、EMR、Kinesis 等服务。
以下是您在课程中将遵循的高级步骤。
-
设置开发环境
-
开始使用 AWS
-
存储 – 关于 AWS s3(简单存储服务)的所有信息
-
用户级别安全性 – 使用 IAM 管理用户、角色和策略
-
基础设施 – AWS EC2(弹性云计算)
-
使用 AWS Lambda 函数进行数据提取
-
AWS Glue 组件概述
-
为 AWS Glue 作业设置 Spark History Server
-
深入了解 AWS Glue 目录
-
探索 AWS Glue 作业 API
-
AWS Glue 作业书签
-
Pyspark 的开发生命周期
-
开始使用 AWS EMR
-
使用 AWS EMR 部署 Spark 应用程序
-
使用 AWS Kinesis 的流式传输管道
-
使用 boto3 从 AWS s3 消费数据,并使用 AWS Kinesis 提取数据
-
将 GitHub 数据填充到 AWS Dynamodb
-
Amazon AWS Athena 概述
-
使用 AWS CLI 的 Amazon AWS Athena
-
使用 Python boto3 的 Amazon AWS Athena
-
开始使用 Amazon AWS Redshift
-
将数据从 AWS s3 复制到 AWS Redshift 表
-
使用 AWS Redshift Cluster 开发应用程序
-
带有 Distkeys 和 Sortkeys 的 AWS Redshift 表
-
AWS Redshift 联合查询和 Spectrum
以下是您将在本课程中学习的内容的详细信息。我们将通过实践练习介绍 AWS Data Analytics 下提供的大多数常用服务。
开始使用 AWS
作为本节的一部分,您将了解与开始使用 AWS 相关的详细信息。
-
简介 – AWS 入门
-
创建 s3 存储桶
-
创建 AWS IAM 组和 AWS IAM 用户以获得对 S3 存储桶和其他服务的必要访问权限
-
AWS IAM 角色概述
-
创建自定义 AWS IAM 策略并将其附加到 AWS IAM 组和用户
-
配置并验证 AWS CLI 以使用 AWS CLI 命令访问 AWS 服务
存储 – 关于 AWS s3(简单存储服务)的所有信息
AWS s3 是最突出的完全托管 AWS 服务之一。所有想要在 AWS 上工作的 IT 专业人员都应该熟悉它。我们将在本节中介绍与 AWS s3 相关的许多常见功能。
-
开始使用 AWS S3
-
在本地设置数据集以上传到 AWS s3
-
添加 AWS S3 存储桶并管理 AWS S3 存储桶中的对象(文件和文件夹)
-
AWS S3 存储桶的版本控制
-
AWS S3 存储桶的跨区域复制
-
AWS S3 存储类概述
-
AWS S3 Glacier 概述
-
使用 AWS CLI 命令管理 AWS S3
-
使用 CLI 管理 AWS S3 中的对象 – 实验室
用户级别安全性 – 使用 IAM 管理用户、角色和策略
一旦开始使用 AWS,您就需要了解作为非管理员用户所拥有的权限。作为本节的一部分,您将了解与 AWS IAM 用户、组、角色以及策略相关的详细信息。
-
创建 AWS IAM 用户
-
使用 AWS IAM 用户登录 AWS 管理控制台
-
验证对 AWS IAM 用户的编程访问
-
AWS IAM 基于身份的策略
-
管理 AWS IAM 组
-
管理 AWS IAM 角色
-
自定义 AWS IAM 策略概述
-
使用 AWS CLI 命令管理 AWS IAM 用户、组、角色以及策略
基础设施 – AWS EC2(弹性云计算)基础知识
AWS EC2 实例不过是 AWS 上的虚拟机。作为本节的一部分,我们将介绍一些与 AWS EC2 基础知识相关的基础知识。
-
开始使用 AWS EC2
-
创建 AWS EC2 密钥对
-
启动 AWS EC2 实例
-
连接到 AWS EC2 实例
-
AWS EC2 安全组基础知识
-
AWS EC2 公有和私有 IP 地址
-
AWS EC2 生命周期
-
分配和指定 AWS 弹性 IP 地址
-
使用 AWS CLI 管理 AWS EC2
-
升级或降级 AWS EC2 实例
基础设施 – AWS EC2 高级版
在本节中,我们将继续使用 AWS EC2 来了解如何使用 AWS 命令管理 EC2 实例,以及如何利用引导脚本安装其他操作系统模块。
-
开始使用 AWS EC2
-
了解 AWS EC2 元数据
-
查询 AWS EC2 元数据
-
根据 AWS EC2 元数据进行筛选
-
使用引导脚本和 AWS EC2 实例在 AWS EC2 实例上安装其他软件
-
使用 AWS EC2 实例创建 AWS AMI
-
验证 AWS AMI – 实验室
使用 Lambda 函数进行数据提取
AWS Lambda 函数只不过是无服务器函数。在本节中,我们将了解如何使用 Python 作为编程语言开发和部署 Lambda 函数。我们还将了解如何使用 s3 维护书签或检查点。
-
使用 AWS Lambda 的 Hello World
-
设置用于 AWS Lambda 函数本地开发的项目
-
将项目部署到 AWS Lambda 控制台
-
使用 AWS Lambda 函数请求开发下载功能
-
在 AWS Lambda 函数中使用第三方库
-
验证 AWS s3 访问权限以进行 AWS Lambda 函数的本地开发
-
使用 AWS Lambda 函数开发 s3 上传功能
-
使用 AWS Lambda 控制台验证 AWS Lambda 函数
-
使用 AWS Lambda 控制台运行 AWS Lambda 函数
-
使用 AWS Lambda 函数验证增量下载的文件
-
使用 AWS Lambda 函数读取和写入书签到 s3
-
使用 AWS Lambda 函数维护 s3 上的书签
-
查看使用 AWS Lambda 函数开发的增量上传逻辑
-
部署 AWS Lambda 函数
-
使用 AWS Event Bridge 安排 AWS Lambda 函数
AWS Glue 组件概述
在本节中,我们将全面了解所有重要的 Glue 组件,例如 Glue Crawler、Glue 数据库、Glue 表等。我们还将了解如何使用 AWS Athena 验证 Glue 表。AWS Glue(尤其是 Glue Catalog)是 AWS 数据分析服务领域的关键组件之一。
-
简介 – AWS Glue 组件概述
-
创建 AWS Glue 爬虫和 AWS Glue 目录数据库以及表
-
使用 AWS Athena 分析数据
-
创建 AWS S3 存储桶和角色,以使用 S3 位置上的爬虫创建 AWS Glue 目录表
-
创建并运行 AWS Glue 作业以处理 AWS Glue 目录表中的数据
-
使用 AWS Glue 目录表并使用 AWS Athena 运行查询进行验证
-
创建并运行 AWS Glue 触发器
-
创建 AWS Glue 工作流
-
运行 AWS Glue 工作流并验证
为 AWS Glue 作业设置 Spark History Server
AWS Glue 在后台使用 Apache Spark 来处理数据。为 AWS Glue 作业设置 Spark History Server 以排除任何问题非常重要。
-
简介 – 适用于 AWS Glue 的 Spark History Server
-
在 AWS 上设置 Spark History Server
-
克隆 AWS Glue 示例存储库
-
构建 AWS Glue Spark UI 容器
-
更新 AWS IAM 策略权限
-
启动 AWS Glue Spark UI 容器
深入了解 AWS Glue 目录
AWS Glue 有几个组件,但最重要的是 AWS Glue 爬虫、数据库以及目录表。在本节中,我们将介绍 AWS Glue 目录中一些最重要和最常用的功能。
-
AWS Glue 目录表的先决条件
-
创建 AWS Glue 目录表的步骤
-
下载用于创建 AWS Glue 目录表的数据集
-
将数据上传到 s3,使用 AWS Glue Crawler 进行抓取,以创建所需的 AWS Glue 目录表
-
创建 AWS Glue 目录数据库 – itvghlandingdb
-
创建 AWS Glue 目录表 – ghactivity
-
使用 AWS Athena 运行查询 – ghactivity
-
使用 AWS Glue 爬虫程序爬取多个文件夹
-
使用 AWS CLI 管理 AWS Glue 目录
-
使用 Python Boto3 管理 AWS Glue 目录
探索 AWS Glue 作业 API
一旦我们部署了 AWS Glue 作业,我们就可以使用 AWS Glue 作业 API 来管理它们。在本节中,我们将概述如何使用 AWS Glue 作业 API 来运行和管理作业。
-
更新 AWS Glue 作业的 AWS IAM 角色
-
生成基线 AWS Glue 作业
-
运行基线 AWS Glue 作业
-
用于分区数据的 AWS Glue 脚本
-
使用 AWS Athena 进行验证
了解 AWS Glue 作业书签
可以利用 AWS Glue 作业书签来维护增量加载的书签或检查点。在本节中,我们将介绍与 AWS Glue 作业书签相关的详细信息。
-
AWS Glue 作业书签简介
-
清理数据以运行 AWS Glue 作业
-
AWS Glue CLI 和命令概述
-
使用 AWS Glue 书签运行 AWS Glue 作业
-
使用 AWS CLI 验证 AWS Glue 书签
-
将新数据添加到登陆区以使用书签运行 AWS Glue 作业
-
使用书签重新运行 AWS Glue 作业
-
验证 AWS Glue 作业书签和文件以进行增量运行
-
使用 AWS CLI 命令重新抓取 AWS Glue 目录表
-
运行 AWS Athena 查询进行数据验证
Pyspark 的开发生命周期
在本节中,我们将重点介绍使用 Pyspark 开发 Spark 应用程序。稍后我们将在详细探索 EMR 时使用此应用程序。
-
设置虚拟环境并安装 Pyspark
-
Pycharm 入门
-
传递运行时参数
-
访问操作系统环境变量
-
Spark 入门
-
为 Spark 会话创建函数
-
设置示例数据
-
从文件读取数据
-
使用 Spark API 处理数据
-
将数据写入文件
-
验证将数据写入文件
-
产品化代码
开始使用 AWS EMR (Elastic Map Reduce)
作为本节的一部分,我们将了解如何开始使用 AWS EMR 集群。我们将主要关注 AWS EMR Web 控制台。Elastic Map Reduce 是 AWS 数据分析服务中的关键服务之一,它能够利用 Spark 等分布式计算框架运行处理大规模数据的应用程序。
-
规划 AWS EMR 集群
-
为 AWS EMR 集群创建 AWS EC2 密钥对
-
使用 Apache Spark 设置 AWS EMR 集群
-
了解AWS EMR集群摘要
-
查看 AWS EMR 集群应用程序用户界面
-
查看 AWS EMR 集群监控
-
审查 AWS EMR 集群硬件和集群扩展策略
-
检查 AWS EMR 集群配置
-
查看 AWS EMR 集群事件
-
查看 AWS EMR 集群步骤
-
查看 AWS EMR 集群引导操作
-
使用 SSH 连接到 AWS EMR 主节点
-
禁用 AWS EMR 群集的终止保护并终止 AWS EMR 群集
-
克隆并创建新的 AWS EMR 集群
-
在 AWS EMR 集群上使用 AWS CLI 列出 AWS S3 存储桶和对象
-
使用 AWS EMR 集群上的 HDFS CLI 列出 AWS S3 存储桶和对象
-
使用 AWS EMR 集群上的 HDFS CLI 管理 AWS S3 中的文件
-
查看 AWS Glue 目录数据库和表
-
使用 AWS EMR 集群访问 AWS Glue 目录数据库和表
-
访问 AWS EMR 集群的 spark-sql CLI
-
访问 AWS EMR 集群的 pyspark CLI
-
访问 AWS EMR 集群的 spark-shell CLI
-
为 Notebooks 创建 AWS EMR 集群
使用 AWS EMR 部署 Spark 应用程序
作为本节的一部分,我们将了解如何使用 AWS EMR 部署 Spark 应用程序。我们将使用之前部署的 Spark 应用程序。
-
使用 AWS EMR 部署应用程序 – 简介
-
设置AWS EMR集群以部署应用程序
-
验证与 AWS EMR 集群主节点的 SSH 连接
-
在 AWS EMR 集群上设置 Jupyter Notebook 环境
-
为 AWS EMR 集群创建所需的 AWS s3 存储桶
-
将 GHActivity 数据上传到 s3,以便我们可以使用部署在 AWS EMR 集群上的 Spark 应用程序进行处理
-
使用 AWS EMR 兼容版本的 Python 和 Spark 验证应用程序
-
将 Spark 应用程序部署到 AWS EMR 主节点
-
在 AWS EMR 集群上为 ec2-user 创建用户空间
-
在 AWS EMR 主节点上使用 spark-submit 运行 Spark 应用程序
-
使用 AWS EMR 集群上的 Jupyter Notebooks 验证数据
-
克隆并启动自动终止的 AWS EMR 集群
-
使用 AWS EMR 集群删除由 GHAcitivity 应用程序填充的数据
-
AWS EMR 集群上 Spark 客户端与集群部署模式的区别
-
在 AWS EMR 集群上使用集群模式运行 Spark 应用程序
-
将 Pyspark 应用程序添加到 AWS EMR 集群的概述
-
将 Spark 应用程序部署到 AWS S3 以使用 AWS EMR 步骤运行
-
在客户端模式下将 Spark 应用程序作为 AWS EMR 步骤运行
-
在集群模式下将 Spark 应用程序作为 AWS EMR 步骤运行
-
验证 Spark 应用程序的 AWS EMR 步骤执行
使用 AWS Kinesis 的流数据提取管道
作为本节的一部分,我们将详细介绍使用 AWS Kinesis(AWS 数据分析服务的流式传输服务)的流式数据提取管道。我们将使用 AWS Kinesis Firehose Agent 和 AWS Kinesis Delivery Stream 从日志文件中读取数据并将其提取到 AWS s3 中。
-
使用 AWS Kinesis Firehose Agent 和 Delivery Stream 构建流式传输管道
-
轮换日志,以便频繁创建文件,这些文件最终将使用 AWS Kinesis Firehose Agent 和 AWS Kinesis Firehose Delivery Stream 进行提取
-
设置 AWS Kinesis Firehose Agent 以将日志中的数据导入 AWS Kinesis Delivery Stream。
-
创建 AWS Kinesis Firehose 传输流
-
规划使用 AWS Kinesis Delivery Stream 将数据导入 S3 的管道
-
使用 AWS Kinesis 组件为流式管道创建 AWS IAM 组和用户
-
使用 AWS Kinesis 组件通过流式管道策略向 AWS IAM 用户授予权限
-
配置 AWS Kinesis Firehose Agent 以从日志文件读取数据并将其提取到 AWS Kinesis Firehose Delivery Stream 中。
-
启动并验证 AWS Kinesis Firehose 代理
-
结论 – 使用 AWS Kinesis Firehose 构建简单的蒸汽管道
使用 Python boto3 从 AWS s3 消费数据,使用 AWS Kinesis 提取数据
当数据被引入 AWS S3 时,我们将了解如何使用 boto3 处理 AWS S3 中引入的数据。
-
使用 AWS Kinesis Delivery Stream 自定义 AWS s3 文件夹
-
创建 AWS IAM 策略以从 AWS s3 存储桶读取
-
使用 AWS CLI 验证 AWS s3 访问
-
设置 Python 虚拟环境来探索 boto3
-
使用 Python boto3 验证对 AWS s3 的访问
-
从 AWS s3 对象读取内容
-
读取多个 AWS s3 对象
-
使用标记获取 AWS s3 对象的数量
-
使用标记获取 AWS s3 对象的大小
将 GitHub 数据填充到 AWS Dynamodb
作为本节的一部分,我们将了解如何使用 Python 作为编程语言将数据填充到 AWS Dynamodb 表中。
-
安装所需的库以将 GitHub 数据传输到 AWS Dynamodb 表。
-
了解 GitHub API
-
设置 GitHub API Token
-
了解 GitHub 速率限制
-
创建新存储库
-
使用 Python 提取所需信息
-
使用 Python 处理数据
-
授予使用 boto3 创建 AWS dynamodb 表的权限
-
创建 AWS Dynamodb 表
-
AWS Dynamodb CRUD 操作
-
填充 AWS Dynamodb 表
-
AWS Dynamodb 批量操作
Amazon AWS Athena概述
作为本节的一部分,我们将了解如何使用 AWS Web 控制台开始使用 AWS Athena。我们还将重点介绍使用 AWS Athena 查询编辑器进行的基本 DDL 和 DML 或 CRUD 操作。
-
开始使用 Amazon AWS Athena
-
快速回顾 AWS Glue 目录数据库和表
-
使用 AWS Athena 查询编辑器访问 AWS Glue 目录数据库和表
-
使用 AWS Athena 创建数据库和表
-
使用 AWS Athena 将数据填充到表中
-
使用 CTAS 通过 AWS Athena 创建表
-
Amazon AWS Athena 架构概述
-
Amazon AWS Athena 资源以及与 Hive 的关系
-
使用 AWS Athena 创建分区表
-
开发分区列查询
-
使用 AWS Athena 插入分区表
-
使用 AWS Athena 验证数据分区
-
删除 AWS Athena 表并删除数据文件
-
使用 AWS Athena 删除分区表
-
使用 CTAS 在 AWS Athena 中进行数据分区
使用 AWS CLI 的 Amazon AWS Athena
作为本节的一部分,我们将了解如何使用 AWS CLI 命令与 AWS Athena 交互。
-
使用 AWS CLI 的 Amazon AWS Athena – 简介
-
使用 AWS CLI 获取帮助并列出 AWS Athena 数据库
-
使用 AWS CLI 管理 AWS Athena 工作组
-
使用 AWS CLI 运行 AWS Athena 查询
-
使用 AWS CLI 获取 AWS Athena 表元数据
-
使用 AWS CLI 在自定义位置运行 AWS Athena 查询
-
使用 AWS CLI 删除 AWS Athena 表
-
使用 AWS CLI 在 AWS Athena 下运行 CTAS
使用 Python boto3 的 Amazon AWS Athena
作为本节的一部分,我们将了解如何使用 Python boto3 与 AWS Athena 交互。
-
使用 Python boto3 的 Amazon AWS Athena – 简介
-
使用 Python boto3 开始管理 AWS Athena
-
使用 Python boto3 列出 Amazon AWS Athena 数据库
-
使用 Python boto3 列出 Amazon AWS Athena 表
-
使用 boto3 运行 Amazon AWS Athena 查询
-
使用 boto3 查看 AWS Athena 查询结果
-
使用 boto3 将 Amazon AWS Athena 查询结果保留在自定义位置
-
使用 Pandas 处理 AWS Athena 查询结果
-
使用 Python boto3 针对 Amazon AWS Athena 运行 CTAS
开始使用 Amazon AWS Redshift
作为本节的一部分,我们将了解如何使用 AWS Web 控制台开始使用 AWS Redshift。我们还将重点介绍使用 AWS Redshift 查询编辑器进行的基本 DDL 和 DML 或 CRUD 操作。
-
开始使用 Amazon AWS Redshift – 简介
-
使用免费试用版创建 AWS Redshift 集群
-
使用 AWS Redshift 查询编辑器连接数据库
-
获取查询信息架构的表列表
-
使用查询编辑器针对 AWS Redshift 表运行查询
-
使用主键创建 AWS Redshift 表
-
将数据插入 AWS Redshift 表
-
更新 AWS Redshift 表中的数据
-
从 AWS Redshift 表中删除数据
-
使用查询编辑器保存的 Redshift 查询
-
删除 AWS Redshift 集群
-
从快照恢复 AWS Redshift 集群
将数据从 s3 复制到 AWS Redshift 表
作为本节的一部分,我们将详细介绍使用 AWS Redshift Copy 命令将数据从 s3 复制到 AWS Redshift 表中。
-
将数据从 S3 复制到 AWS Redshift – 简介
-
在 s3 中为 AWS Redshift Copy 设置数据
-
使用 AWS Redshift 复制命令复制数据库和表
-
创建对 AWS Redshift Copy 具有 s3 完全访问权限的 IAM 用户
-
运行复制命令将数据从 s3 复制到 AWS Redshift 表
-
解决与 AWS Redshift Copy 命令相关的错误
-
运行复制命令从 s3 复制到 AWS Redshift 表
-
使用针对 AWS Redshift 表的查询进行验证
-
AWS Redshift 复制命令概述
-
为 AWS Redshift 创建 IAM 角色以访问 s3
-
使用 IAM 角色将数据从 s3 复制到 AWS Redshift 表
-
在 s3 中为 AWS Redshift 复制命令设置 JSON 数据集
-
使用 IAM 角色将 JSON 数据从 s3 复制到 AWS Redshift 表
使用 AWS Redshift Cluster 开发应用程序
作为本节的一部分,我们将了解如何针对作为 AWS Redshift Cluster 的一部分创建的数据库和表开发应用程序。
-
使用 AWS Redshift Cluster 开发应用程序 – 简介
-
为 AWS Redshift 集群分配弹性 IP
-
为 AWS Redshift 集群启用公共可访问性
-
更新安全组中的入站规则以访问 AWS Redshift 集群
-
在 AWS Redshift 集群中创建数据库和用户
-
使用 psql 连接到 AWS Redshift 中的数据库
-
更改 AWS Redshift 表的所有者
-
下载 AWS Redshift JDBC Jar 文件
-
使用 SQL Workbench 等 IDE 连接到 AWS Redshift 数据库
-
为 AWS Redshift 设置 Python 虚拟环境
-
使用 Python 对 AWS Redshift 数据库表运行简单查询
-
使用 Python 截断 AWS Redshift 表
-
创建 IAM 用户以从 s3 复制到 AWS Redshift 表
-
使用 Boto3 验证 IAM 用户的访问权限
-
使用 Python 运行 AWS Redshift 复制命令
带有 Distkeys 和 Sortkeys 的 AWS Redshift 表
作为本节的一部分,我们将介绍 AWS Redshift 特定的功能(例如分发键和排序键)来创建 AWS Redshift 表。
-
带有 Distkeys 和 Sortkeys 的 AWS Redshift 表 – 简介
-
AWS Redshift 架构快速回顾
-
创建多节点 AWS Redshift 集群
-
使用查询编辑器连接到 AWS Redshift 集群
-
创建 AWS Redshift 数据库
-
创建 AWS Redshift 数据库用户
-
创建 AWS Redshift 数据库架构
-
AWS Redshift 表的默认分配样式
-
向 AWS Redshift 数据库用户授予目录选择权限
-
更新搜索路径以查询 AWS Redshift 系统表
-
使用 DISTSTYLE AUTO 验证 AWS Redshift 表
-
从快照创建 AWS Redshift 集群到原始状态
-
AWS Redshift 集群中的节点切片概述
-
与 AWS Redshift 表相关的分发样式概述
-
AWS Redshift 数据库中零售表的分发策略
-
使用分配样式 all 创建 AWS Redshift 表
-
排除故障并修复加载或复制错误
-
使用自动分配方式创建 AWS Redshift 表
-
使用分配样式键创建 AWS Redshift 表
-
使用手动快照删除 AWS Redshift 集群
AWS Redshift 联合查询和 Spectrum
作为本节的一部分,我们将介绍 Redshift 的一些高级功能,例如 AWS Redshift 联合查询和 AWS Redshift Spectrum。
-
AWS Redshift 联合查询和 Spectrum – 简介
-
集成 AWS RDS 与 AWS Redshift 进行联合查询的概述
-
为 AWS Redshift 集群创建 IAM 角色
-
为 AWS Redshift 联合查询设置 Postgres 数据库服务器
-
在 Postgres 数据库中为 AWS Redshift 联合查询创建表
-
使用 Secrets Manager 为 Postgres 数据库创建 Secret
-
使用 Python Boto3 访问机密详细信息
-
使用 Pandas 读取 Json 数据到 Dataframe
-
使用 Pandas 将 JSON 数据写入 AWS Redshift 数据库表
-
为 Secret 创建 AWS IAM 策略并与 Redshift 角色关联
-
使用具有 secret 权限的 AWS IAM 角色创建 AWS Redshift 集群
-
创建 AWS Redshift 外部模式到 Postgres 数据库
-
更新联合查询的 AWS Redshift 集群网络设置
-
使用 AWS Redshift 联合查询执行 ETL
-
清理为 AWS Redshift 联合查询添加的资源
-
向 AWS Redshift Cluster for Spectrum 授予对 AWS Glue 数据目录的访问权限
-
设置 AWS Redshift 集群以使用 Spectrum 运行查询
-
快速回顾 AWS Glue 目录数据库和 AWS Redshift Spectrum 的表
-
使用 AWS Redshift Spectrum 创建外部架构
-
使用 AWS Redshift Spectrum 运行查询
-
清理 AWS Redshift 集群
本课程适合哪些人:
- 想要学习 AWS 分析服务进行数据工程的初级或中级数据工程师
- 希望使用 AWS Analytics Services 探索数据工程的中级应用程序工程师
- 希望使用 AWS 分析服务学习数据工程的数据和分析工程师
- 想要学习测试使用 AWS Analytics Services 构建的数据工程应用程序的关键技能的测试人员
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。