【Udemy中英字幕】Data Engineering using AWS Data Analytics
最近更新 2024年11月22日
资源编号 32872

【Udemy中英字幕】Data Engineering using AWS Data Analytics

2024-11-22 Udemy 0 445
郑重承诺丨视频 中英文字幕 配套课件
增值服务:免费提供代找课服务:
¥ 42.9 金币
VIP折扣
    折扣详情
  • 体验会员

    免费

  • 包月会员

    免费

  • 包年会员

    免费

  • 永久会员

    免费

开通VIP尊享优惠特权
立即下载 升级会员
微信扫码咨询 微信扫码咨询
进入TA的商铺 联系官方客服
信息属性
详情介绍

使用 AWS Data Analytics 进行数据工程

使用数据分析服务 (Glue、EMR、Athena、Kinesis、Lambda、Redshift) 在 AWS 上构建数据工程管道

讲师:Durga Viswanatha Raju Gadiraju

双语IT资源独家Udemy付费课程独家中英文字幕配套资料齐全!

不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。

您将学到什么

  • 利用 AWS 数据分析服务进行数据工程
  • AWS Essentials,例如 S3、IAM、EC2 等
  • 了解基于云的存储 AWS S3
  • 了解与 AWS 上称为 EC2 的虚拟机相关的详细信息
  • 管理 AWS IAM 用户、组、角色和 RBAC(基于角色的访问控制)策略
  • 使用 AWS Glue Catalog 管理表
  • 使用 AWS Glue 作业设计批量数据管道
  • 使用 AWS Glue 工作流编排批量数据管道
  • 使用 AWS Athena 运行查询 – 无服务器查询引擎服务
  • 使用 AWS Elastic Map Reduce(EMR)集群构建数据管道
  • 使用 AWS Elastic Map Reduce (EMR) 集群来生成报告和仪表盘
  • 使用 AWS Lambda 函数进行数据提取
  • 使用 AWS Events Bridge 进行调度
  • 使用 AWS Kinesis 构建流式传输管道
  • 使用 AWS Kinesis Firehose 流式传输 Web 服务器日志
  • 使用 AWS Athena 进行数据处理概述
  • 使用 CLI 运行 AWS Athena 查询或命令
  • 使用 Python boto3 运行 AWS Athena 查询
  • 创建 AWS Redshift 集群、创建表并执行 CRUD 操作
  • 将数据从 s3 复制到 AWS Redshift 表
  • 了解分布样式并使用 Distkeys 创建表
  • 使用 AWS Redshift 联合查询对外部 RDBMS 表运行查询
  • 使用 AWS Redshift Spectrum 在 Glue 或 Athena Catalog 表上运行查询

探索相关主题

  • 数据工程
  • 数据科学
  • 发展

要求

  • 至少有 8 GB RAM 的计算机
  • 非常需要使用 Python 的编程经验,因为有些主题是使用 Python 演示的
  • 由于部分主题是使用 SQL 进行演示的,因此非常需要具备 SQL 经验
  • 最好具有使用 Pandas 或 Pyspark 的数据工程经验
  • 本课程非常适合经验丰富的数据工程师,可将 AWS 分析服务作为关键技能添加到其个人资料中

描述

数据工程就是构建数据管道,将来自多个来源的数据导入数据湖或数据仓库,然后从数据湖或数据仓库导入下游系统。作为本课程的一部分,我将引导您了解如何使用 AWS Data Analytics Stack 构建数据工程管道。它包括 Glue、Elastic Map Reduce (EMR)、Lambda 函数、Athena、EMR、Kinesis 等服务。

以下是您在课程中将遵循的高级步骤。

  • 设置开发环境

  • 开始使用 AWS

  • 存储 – 关于 AWS s3(简单存储服务)的所有信息

  • 用户级别安全性 – 使用 IAM 管理用户、角色和策略

  • 基础设施 – AWS EC2(弹性云计算)

  • 使用 AWS Lambda 函数进行数据提取

  • AWS Glue 组件概述

  • 为 AWS Glue 作业设置 Spark History Server

  • 深入了解 AWS Glue 目录

  • 探索 AWS Glue 作业 API

  • AWS Glue 作业书签

  • Pyspark 的开发生命周期

  • 开始使用 AWS EMR

  • 使用 AWS EMR 部署 Spark 应用程序

  • 使用 AWS Kinesis 的流式传输管道

  • 使用 boto3 从 AWS s3 消费数据,并使用 AWS Kinesis 提取数据

  • 将 GitHub 数据填充到 AWS Dynamodb

  • Amazon AWS Athena 概述

  • 使用 AWS CLI 的 Amazon AWS Athena

  • 使用 Python boto3 的 Amazon AWS Athena

  • 开始使用 Amazon AWS Redshift

  • 将数据从 AWS s3 复制到 AWS Redshift 表

  • 使用 AWS Redshift Cluster 开发应用程序

  • 带有 Distkeys 和 Sortkeys 的 AWS Redshift 表

  • AWS Redshift 联合查询和 Spectrum

以下是您将在本课程中学习的内容的详细信息。我们将通过实践练习介绍 AWS Data Analytics 下提供的大多数常用服务。

开始使用 AWS

作为本节的一部分,您将了解与开始使用 AWS 相关的详细信息。

  • 简介 – AWS 入门

  • 创建 s3 存储桶

  • 创建 AWS IAM 组和 AWS IAM 用户以获得对 S3 存储桶和其他服务的必要访问权限

  • AWS IAM 角色概述

  • 创建自定义 AWS IAM 策略并将其附加到 AWS IAM 组和用户

  • 配置并验证 AWS CLI 以使用 AWS CLI 命令访问 AWS 服务

存储 – 关于 AWS s3(简单存储服务)的所有信息

AWS s3 是最突出的完全托管 AWS 服务之一。所有想要在 AWS 上工作的 IT 专业人员都应该熟悉它。我们将在本节中介绍与 AWS s3 相关的许多常见功能。

  • 开始使用 AWS S3

  • 在本地设置数据集以上传到 AWS s3

  • 添加 AWS S3 存储桶并管理 AWS S3 存储桶中的对象(文件和文件夹)

  • AWS S3 存储桶的版本控制

  • AWS S3 存储桶的跨区域复制

  • AWS S3 存储类概述

  • AWS S3 Glacier 概述

  • 使用 AWS CLI 命令管理 AWS S3

  • 使用 CLI 管理 AWS S3 中的对象 – 实验室

用户级别安全性 – 使用 IAM 管理用户、角色和策略

一旦开始使用 AWS,您就需要了解作为非管理员用户所拥有的权限。作为本节的一部分,您将了解与 AWS IAM 用户、组、角色以及策略相关的详细信息。

  • 创建 AWS IAM 用户

  • 使用 AWS IAM 用户登录 AWS 管理控制台

  • 验证对 AWS IAM 用户的编程访问

  • AWS IAM 基于身份的策略

  • 管理 AWS IAM 组

  • 管理 AWS IAM 角色

  • 自定义 AWS IAM 策略概述

  • 使用 AWS CLI 命令管理 AWS IAM 用户、组、角色以及策略

基础设施 – AWS EC2(弹性云计算)基础知识

AWS EC2 实例不过是 AWS 上的虚拟机。作为本节的一部分,我们将介绍一些与 AWS EC2 基础知识相关的基础知识。

  • 开始使用 AWS EC2

  • 创建 AWS EC2 密钥对

  • 启动 AWS EC2 实例

  • 连接到 AWS EC2 实例

  • AWS EC2 安全组基础知识

  • AWS EC2 公有和私有 IP 地址

  • AWS EC2 生命周期

  • 分配和指定 AWS 弹性 IP 地址

  • 使用 AWS CLI 管理 AWS EC2

  • 升级或降级 AWS EC2 实例

基础设施 – AWS EC2 高级版

在本节中,我们将继续使用 AWS EC2 来了解如何使用 AWS 命令​​管理 EC2 实例,以及如何利用引导脚本安装其他操作系统模块。

  • 开始使用 AWS EC2

  • 了解 AWS EC2 元数据

  • 查询 AWS EC2 元数据

  • 根据 AWS EC2 元数据进行筛选

  • 使用引导脚本和 AWS EC2 实例在 AWS EC2 实例上安装其他软件

  • 使用 AWS EC2 实例创建 AWS AMI

  • 验证 AWS AMI – 实验室

使用 Lambda 函数进行数据提取

AWS Lambda 函数只不过是无服务器函数。在本节中,我们将了解如何使用 Python 作为编程语言开发和部署 Lambda 函数。我们还将了解如何使用 s3 维护书签或检查点。

  • 使用 AWS Lambda 的 Hello World

  • 设置用于 AWS Lambda 函数本地开发的项目

  • 将项目部署到 AWS Lambda 控制台

  • 使用 AWS Lambda 函数请求开发下载功能

  • 在 AWS Lambda 函数中使用第三方库

  • 验证 AWS s3 访问权限以进行 AWS Lambda 函数的本地开发

  • 使用 AWS Lambda 函数开发 s3 上传功能

  • 使用 AWS Lambda 控制台验证 AWS Lambda 函数

  • 使用 AWS Lambda 控制台运行 AWS Lambda 函数

  • 使用 AWS Lambda 函数验证增量下载的文件

  • 使用 AWS Lambda 函数读取和写入书签到 s3

  • 使用 AWS Lambda 函数维护 s3 上的书签

  • 查看使用 AWS Lambda 函数开发的增量上传逻辑

  • 部署 AWS Lambda 函数

  • 使用 AWS Event Bridge 安排 AWS Lambda 函数

AWS Glue 组件概述

在本节中,我们将全面了解所有重要的 Glue 组件,例如 Glue Crawler、Glue 数据库、Glue 表等。我们还将了解如何使用 AWS Athena 验证 Glue 表。AWS Glue(尤其是 Glue Catalog)是 AWS 数据分析服务领域的关键组件之一。

  • 简介 – AWS Glue 组件概述

  • 创建 AWS Glue 爬虫和 AWS Glue 目录数据库以及表

  • 使用 AWS Athena 分析数据

  • 创建 AWS S3 存储桶和角色,以使用 S3 位置上的爬虫创建 AWS Glue 目录表

  • 创建并运行 AWS Glue 作业以处理 AWS Glue 目录表中的数据

  • 使用 AWS Glue 目录表并使用 AWS Athena 运行查询进行验证

  • 创建并运行 AWS Glue 触发器

  • 创建 AWS Glue 工作流

  • 运行 AWS Glue 工作流并验证

为 AWS Glue 作业设置 Spark History Server

AWS Glue 在后台使用 Apache Spark 来处理数据。为 AWS Glue 作业设置 Spark History Server 以排除任何问题非常重要。

  • 简介 – 适用于 AWS Glue 的 Spark History Server

  • 在 AWS 上设置 Spark History Server

  • 克隆 AWS Glue 示例存储库

  • 构建 AWS Glue Spark UI 容器

  • 更新 AWS IAM 策略权限

  • 启动 AWS Glue Spark UI 容器

深入了解 AWS Glue 目录

AWS Glue 有几个组件,但最重要的是 AWS Glue 爬虫、数据库以及目录表。在本节中,我们将介绍 AWS Glue 目录中一些最重要和最常用的功能。

  • AWS Glue 目录表的先决条件

  • 创建 AWS Glue 目录表的步骤

  • 下载用于创建 AWS Glue 目录表的数据集

  • 将数据上传到 s3,使用 AWS Glue Crawler 进行抓取,以创建所需的 AWS Glue 目录表

  • 创建 AWS Glue 目录数据库 – itvghlandingdb

  • 创建 AWS Glue 目录表 – ghactivity

  • 使用 AWS Athena 运行查询 – ghactivity

  • 使用 AWS Glue 爬虫程序爬取多个文件夹

  • 使用 AWS CLI 管理 AWS Glue 目录

  • 使用 Python Boto3 管理 AWS Glue 目录

探索 AWS Glue 作业 API

一旦我们部署了 AWS Glue 作业,我们就可以使用 AWS Glue 作业 API 来管理它们。在本节中,我们将概述如何使用 AWS Glue 作业 API 来运行和管理作业。

  • 更新 AWS Glue 作业的 AWS IAM 角色

  • 生成基线 AWS Glue 作业

  • 运行基线 AWS Glue 作业

  • 用于分区数据的 AWS Glue 脚本

  • 使用 AWS Athena 进行验证

了解 AWS Glue 作业书签

可以利用 AWS Glue 作业书签来维护增量加载的书签或检查点。在本节中,我们将介绍与 AWS Glue 作业书签相关的详细信息。

  • AWS Glue 作业书签简介

  • 清理数据以运行 AWS Glue 作业

  • AWS Glue CLI 和命令概述

  • 使用 AWS Glue 书签运行 AWS Glue 作业

  • 使用 AWS CLI 验证 AWS Glue 书签

  • 将新数据添加到登陆区以使用书签运行 AWS Glue 作业

  • 使用书签重新运行 AWS Glue 作业

  • 验证 AWS Glue 作业书签和文件以进行增量运行

  • 使用 AWS CLI 命令重新抓取 AWS Glue 目录表

  • 运行 AWS Athena 查询进行数据验证

Pyspark 的开发生命周期

在本节中,我们将重点介绍使用 Pyspark 开发 Spark 应用程序。稍后我们将在详细探索 EMR 时使用此应用程序。

  • 设置虚拟环境并安装 Pyspark

  • Pycharm 入门

  • 传递运行时参数

  • 访问操作系统环境变量

  • Spark 入门

  • 为 Spark 会话创建函数

  • 设置示例数据

  • 从文件读取数据

  • 使用 Spark API 处理数据

  • 将数据写入文件

  • 验证将数据写入文件

  • 产品化代码

开始使用 AWS EMR (Elastic Map Reduce)

作为本节的一部分,我们将了解如何开始使用 AWS EMR 集群。我们将主要关注 AWS EMR Web 控制台。Elastic Map Reduce 是 AWS 数据分析服务中的关键服务之一,它能够利用 Spark 等分布式计算框架运行处理大规模数据的应用程序。

  • 规划 AWS EMR 集群

  • 为 AWS EMR 集群创建 AWS EC2 密钥对

  • 使用 Apache Spark 设置 AWS EMR 集群

  • 了解AWS EMR集群摘要

  • 查看 AWS EMR 集群应用程序用户界面

  • 查看 AWS EMR 集群监控

  • 审查 AWS EMR 集群硬件和集群扩展策略

  • 检查 AWS EMR 集群配置

  • 查看 AWS EMR 集群事件

  • 查看 AWS EMR 集群步骤

  • 查看 AWS EMR 集群引导操作

  • 使用 SSH 连接到 AWS EMR 主节点

  • 禁用 AWS EMR 群集的终止保护并终止 AWS EMR 群集

  • 克隆并创建新的 AWS EMR 集群

  • 在 AWS EMR 集群上使用 AWS CLI 列出 AWS S3 存储桶和对象

  • 使用 AWS EMR 集群上的 HDFS CLI 列出 AWS S3 存储桶和对象

  • 使用 AWS EMR 集群上的 HDFS CLI 管理 AWS S3 中的文件

  • 查看 AWS Glue 目录数据库和表

  • 使用 AWS EMR 集群访问 AWS Glue 目录数据库和表

  • 访问 AWS EMR 集群的 spark-sql CLI

  • 访问 AWS EMR 集群的 pyspark CLI

  • 访问 AWS EMR 集群的 spark-shell CLI

  • 为 Notebooks 创建 AWS EMR 集群

使用 AWS EMR 部署 Spark 应用程序

作为本节的一部分,我们将了解如何使用 AWS EMR 部署 Spark 应用程序。我们将使用之前部署的 Spark 应用程序。

  • 使用 AWS EMR 部署应用程序 – 简介

  • 设置AWS EMR集群以部署应用程序

  • 验证与 AWS EMR 集群主节点的 SSH 连接

  • 在 AWS EMR 集群上设置 Jupyter Notebook 环境

  • 为 AWS EMR 集群创建所需的 AWS s3 存储桶

  • 将 GHActivity 数据上传到 s3,以便我们可以使用部署在 AWS EMR 集群上的 Spark 应用程序进行处理

  • 使用 AWS EMR 兼容版本的 Python 和 Spark 验证应用程序

  • 将 Spark 应用程序部署到 AWS EMR 主节点

  • 在 AWS EMR 集群上为 ec2-user 创建用户空间

  • 在 AWS EMR 主节点上使用 spark-submit 运行 Spark 应用程序

  • 使用 AWS EMR 集群上的 Jupyter Notebooks 验证数据

  • 克隆并启动自动终止的 AWS EMR 集群

  • 使用 AWS EMR 集群删除由 GHAcitivity 应用程序填充的数据

  • AWS EMR 集群上 Spark 客户端与集群部署模式的区别

  • 在 AWS EMR 集群上使用集群模式运行 Spark 应用程序

  • 将 Pyspark 应用程序添加到 AWS EMR 集群的概述

  • 将 Spark 应用程序部署到 AWS S3 以使用 AWS EMR 步骤运行

  • 在客户端模式下将 Spark 应用程序作为 AWS EMR 步骤运行

  • 在集群模式下将 Spark 应用程序作为 AWS EMR 步骤运行

  • 验证 Spark 应用程序的 AWS EMR 步骤执行

使用 AWS Kinesis 的流数据提取管道

作为本节的一部分,我们将详细介绍使用 AWS Kinesis(AWS 数据分析服务的流式传输服务)的流式数据提取管道。我们将使用 AWS Kinesis Firehose Agent 和 AWS Kinesis Delivery Stream 从日志文件中读取数据并将其提取到 AWS s3 中。

  • 使用 AWS Kinesis Firehose Agent 和 Delivery Stream 构建流式传输管道

  • 轮换日志,以便频繁创建文件,这些文件最终将使用 AWS Kinesis Firehose Agent 和 AWS Kinesis Firehose Delivery Stream 进行提取

  • 设置 AWS Kinesis Firehose Agent 以将日志中的数据导入 AWS Kinesis Delivery Stream。

  • 创建 AWS Kinesis Firehose 传输流

  • 规划使用 AWS Kinesis Delivery Stream 将数据导入 S3 的管道

  • 使用 AWS Kinesis 组件为流式管道创建 AWS IAM 组和用户

  • 使用 AWS Kinesis 组件通过流式管道策略向 AWS IAM 用户授予权限

  • 配置 AWS Kinesis Firehose Agent 以从日志文件读取数据并将其提取到 AWS Kinesis Firehose Delivery Stream 中。

  • 启动并验证 AWS Kinesis Firehose 代理

  • 结论 – 使用 AWS Kinesis Firehose 构建简单的蒸汽管道

使用 Python boto3 从 AWS s3 消费数据,使用 AWS Kinesis 提取数据

当数据被引入 AWS S3 时,我们将了解如何使用 boto3 处理 AWS S3 中引入的数据。

  • 使用 AWS Kinesis Delivery Stream 自定义 AWS s3 文件夹

  • 创建 AWS IAM 策略以从 AWS s3 存储桶读取

  • 使用 AWS CLI 验证 AWS s3 访问

  • 设置 Python 虚拟环境来探索 boto3

  • 使用 Python boto3 验证对 AWS s3 的访问

  • 从 AWS s3 对象读取内容

  • 读取多个 AWS s3 对象

  • 使用标记获取 AWS s3 对象的数量

  • 使用标记获取 AWS s3 对象的大小

将 GitHub 数据填充到 AWS Dynamodb

作为本节的一部分,我们将了解如何使用 Python 作为编程语言将数据填充到 AWS Dynamodb 表中。

  • 安装所需的库以将 GitHub 数据传输到 AWS Dynamodb 表。

  • 了解 GitHub API

  • 设置 GitHub API Token

  • 了解 GitHub 速率限制

  • 创建新存储库

  • 使用 Python 提取所需信息

  • 使用 Python 处理数据

  • 授予使用 boto3 创建 AWS dynamodb 表的权限

  • 创建 AWS Dynamodb 表

  • AWS Dynamodb CRUD 操作

  • 填充 AWS Dynamodb 表

  • AWS Dynamodb 批量操作

Amazon AWS Athena概述

作为本节的一部分,我们将了解如何使用 AWS Web 控制台开始使用 AWS Athena。我们还将重点介绍使用 AWS Athena 查询编辑器进行的基本 DDL 和 DML 或 CRUD 操作。

  • 开始使用 Amazon AWS Athena

  • 快速回顾 AWS Glue 目录数据库和表

  • 使用 AWS Athena 查询编辑器访问 AWS Glue 目录数据库和表

  • 使用 AWS Athena 创建数据库和表

  • 使用 AWS Athena 将数据填充到表中

  • 使用 CTAS 通过 AWS Athena 创建表

  • Amazon AWS Athena 架构概述

  • Amazon AWS Athena 资源以及与 Hive 的关系

  • 使用 AWS Athena 创建分区表

  • 开发分区列查询

  • 使用 AWS Athena 插入分区表

  • 使用 AWS Athena 验证数据分区

  • 删除 AWS Athena 表并删除数据文件

  • 使用 AWS Athena 删除分区表

  • 使用 CTAS 在 AWS Athena 中进行数据分区

使用 AWS CLI 的 Amazon AWS Athena

作为本节的一部分,我们将了解如何使用 AWS CLI 命令与 AWS Athena 交互。

  • 使用 AWS CLI 的 Amazon AWS Athena – 简介

  • 使用 AWS CLI 获取帮助并列出 AWS Athena 数据库

  • 使用 AWS CLI 管理 AWS Athena 工作组

  • 使用 AWS CLI 运行 AWS Athena 查询

  • 使用 AWS CLI 获取 AWS Athena 表元数据

  • 使用 AWS CLI 在自定义位置运行 AWS Athena 查询

  • 使用 AWS CLI 删除 AWS Athena 表

  • 使用 AWS CLI 在 AWS Athena 下运行 CTAS

使用 Python boto3 的 Amazon AWS Athena

作为本节的一部分,我们将了解如何使用 Python boto3 与 AWS Athena 交互。

  • 使用 Python boto3 的 Amazon AWS Athena – 简介

  • 使用 Python boto3 开始管理 AWS Athena

  • 使用 Python boto3 列出 Amazon AWS Athena 数据库

  • 使用 Python boto3 列出 Amazon AWS Athena 表

  • 使用 boto3 运行 Amazon AWS Athena 查询

  • 使用 boto3 查看 AWS Athena 查询结果

  • 使用 boto3 将 Amazon AWS Athena 查询结果保留在自定义位置

  • 使用 Pandas 处理 AWS Athena 查询结果

  • 使用 Python boto3 针对 Amazon AWS Athena 运行 CTAS

开始使用 Amazon AWS Redshift

作为本节的一部分,我们将了解如何使用 AWS Web 控制台开始使用 AWS Redshift。我们还将重点介绍使用 AWS Redshift 查询编辑器进行的基本 DDL 和 DML 或 CRUD 操作。

  • 开始使用 Amazon AWS Redshift – 简介

  • 使用免费试用版创建 AWS Redshift 集群

  • 使用 AWS Redshift 查询编辑器连接数据库

  • 获取查询信息架构的表列表

  • 使用查询编辑器针对 AWS Redshift 表运行查询

  • 使用主键创建 AWS Redshift 表

  • 将数据插入 AWS Redshift 表

  • 更新 AWS Redshift 表中的数据

  • 从 AWS Redshift 表中删除数据

  • 使用查询编辑器保存的 Redshift 查询

  • 删除 AWS Redshift 集群

  • 从快照恢复 AWS Redshift 集群

将数据从 s3 复制到 AWS Redshift 表

作为本节的一部分,我们将详细介绍使用 AWS Redshift Copy 命令将数据从 s3 复制到 AWS Redshift 表中。

  • 将数据从 S3 复制到 AWS Redshift – 简介

  • 在 s3 中为 AWS Redshift Copy 设置数据

  • 使用 AWS Redshift 复制命令复制数据库和表

  • 创建对 AWS Redshift Copy 具有 s3 完全访问权限的 IAM 用户

  • 运行复制命令将数据从 s3 复制到 AWS Redshift 表

  • 解决与 AWS Redshift Copy 命令相关的错误

  • 运行复制命令从 s3 复制到 AWS Redshift 表

  • 使用针对 AWS Redshift 表的查询进行验证

  • AWS Redshift 复制命令概述

  • 为 AWS Redshift 创建 IAM 角色以访问 s3

  • 使用 IAM 角色将数据从 s3 复制到 AWS Redshift 表

  • 在 s3 中为 AWS Redshift 复制命令设置 JSON 数据集

  • 使用 IAM 角色将 JSON 数据从 s3 复制到 AWS Redshift 表

使用 AWS Redshift Cluster 开发应用程序

作为本节的一部分,我们将了解如何针对作为 AWS Redshift Cluster 的一部分创建的数据库和表开发应用程序。

  • 使用 AWS Redshift Cluster 开发应用程序 – 简介

  • 为 AWS Redshift 集群分配弹性 IP

  • 为 AWS Redshift 集群启用公共可访问性

  • 更新安全组中的入站规则以访问 AWS Redshift 集群

  • 在 AWS Redshift 集群中创建数据库和用户

  • 使用 psql 连接到 AWS Redshift 中的数据库

  • 更改 AWS Redshift 表的所有者

  • 下载 AWS Redshift JDBC Jar 文件

  • 使用 SQL Workbench 等 IDE 连接到 AWS Redshift 数据库

  • 为 AWS Redshift 设置 Python 虚拟环境

  • 使用 Python 对 AWS Redshift 数据库表运行简单查询

  • 使用 Python 截断 AWS Redshift 表

  • 创建 IAM 用户以从 s3 复制到 AWS Redshift 表

  • 使用 Boto3 验证 IAM 用户的访问权限

  • 使用 Python 运行 AWS Redshift 复制命令

带有 Distkeys 和 Sortkeys 的 AWS Redshift 表

作为本节的一部分,我们将介绍 AWS Redshift 特定的功能(例如分发键和排序键)来创建 AWS Redshift 表。

  • 带有 Distkeys 和 Sortkeys 的 AWS Redshift 表 – 简介

  • AWS Redshift 架构快速回顾

  • 创建多节点 AWS Redshift 集群

  • 使用查询编辑器连接到 AWS Redshift 集群

  • 创建 AWS Redshift 数据库

  • 创建 AWS Redshift 数据库用户

  • 创建 AWS Redshift 数据库架构

  • AWS Redshift 表的默认分配样式

  • 向 AWS Redshift 数据库用户授予目录选择权限

  • 更新搜索路径以查询 AWS Redshift 系统表

  • 使用 DISTSTYLE AUTO 验证 AWS Redshift 表

  • 从快照创建 AWS Redshift 集群到原始状态

  • AWS Redshift 集群中的节点切片概述

  • 与 AWS Redshift 表相关的分发样式概述

  • AWS Redshift 数据库中零售表的分发策略

  • 使用分配样式 all 创建 AWS Redshift 表

  • 排除故障并修复加载或复制错误

  • 使用自动分配方式创建 AWS Redshift 表

  • 使用分配样式键创建 AWS Redshift 表

  • 使用手动快照删除 AWS Redshift 集群

AWS Redshift 联合查询和 Spectrum

作为本节的一部分,我们将介绍 Redshift 的一些高级功能,例如 AWS Redshift 联合查询和 AWS Redshift Spectrum。

  • AWS Redshift 联合查询和 Spectrum – 简介

  • 集成 AWS RDS 与 AWS Redshift 进行联合查询的概述

  • 为 AWS Redshift 集群创建 IAM 角色

  • 为 AWS Redshift 联合查询设置 Postgres 数据库服务器

  • 在 Postgres 数据库中为 AWS Redshift 联合查询创建表

  • 使用 Secrets Manager 为 Postgres 数据库创建 Secret

  • 使用 Python Boto3 访问机密详细信息

  • 使用 Pandas 读取 Json 数据到 Dataframe

  • 使用 Pandas 将 JSON 数据写入 AWS Redshift 数据库表

  • 为 Secret 创建 AWS IAM 策略并与 Redshift 角色关联

  • 使用具有 secret 权限的 AWS IAM 角色创建 AWS Redshift 集群

  • 创建 AWS Redshift 外部模式到 Postgres 数据库

  • 更新联合查询的 AWS Redshift 集群网络设置

  • 使用 AWS Redshift 联合查询执行 ETL

  • 清理为 AWS Redshift 联合查询添加的资源

  • 向 AWS Redshift Cluster for Spectrum 授予对 AWS Glue 数据目录的访问权限

  • 设置 AWS Redshift 集群以使用 Spectrum 运行查询

  • 快速回顾 AWS Glue 目录数据库和 AWS Redshift Spectrum 的表

  • 使用 AWS Redshift Spectrum 创建外部架构

  • 使用 AWS Redshift Spectrum 运行查询

  • 清理 AWS Redshift 集群

本课程适合哪些人:

  • 想要学习 AWS 分析服务进行数据工程的初级或中级数据工程师
  • 希望使用 AWS Analytics Services 探索数据工程的中级应用程序工程师
  • 希望使用 AWS 分析服务学习数据工程的数据和分析工程师
  • 想要学习测试使用 AWS Analytics Services 构建的数据工程应用程序的关键技能的测试人员
请注意:
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务