【Udemy中英字幕】Data Engineering using AWS Data Analytics

使用 AWS Data Analytics 进行数据工程

使用数据分析服务 (Glue、EMR、Athena、Kinesis、Lambda、Redshift) 在 AWS 上构建数据工程管道

讲师：Durga Viswanatha Raju Gadiraju

双语IT资源独家Udemy付费课程，独家中英文字幕，配套资料齐全！

用不到1/10的价格，即可享受同样的高品质课程，且可以完全拥有，随时随地都可以任意观看和分享。

您将学到什么

利用 AWS 数据分析服务进行数据工程
AWS Essentials，例如 S3、IAM、EC2 等
了解基于云的存储 AWS S3
了解与 AWS 上称为 EC2 的虚拟机相关的详细信息
管理 AWS IAM 用户、组、角色和 RBAC（基于角色的访问控制）策略
使用 AWS Glue Catalog 管理表
使用 AWS Glue 作业设计批量数据管道
使用 AWS Glue 工作流编排批量数据管道
使用 AWS Athena 运行查询 – 无服务器查询引擎服务
使用 AWS Elastic Map Reduce（EMR）集群构建数据管道
使用 AWS Elastic Map Reduce (EMR) 集群来生成报告和仪表盘
使用 AWS Lambda 函数进行数据提取
使用 AWS Events Bridge 进行调度
使用 AWS Kinesis 构建流式传输管道
使用 AWS Kinesis Firehose 流式传输 Web 服务器日志
使用 AWS Athena 进行数据处理概述
使用 CLI 运行 AWS Athena 查询或命令
使用 Python boto3 运行 AWS Athena 查询
创建 AWS Redshift 集群、创建表并执行 CRUD 操作
将数据从 s3 复制到 AWS Redshift 表
了解分布样式并使用 Distkeys 创建表
使用 AWS Redshift 联合查询对外部 RDBMS 表运行查询
使用 AWS Redshift Spectrum 在 Glue 或 Athena Catalog 表上运行查询

探索相关主题

数据工程
数据科学
发展

要求

至少有 8 GB RAM 的计算机
非常需要使用 Python 的编程经验，因为有些主题是使用 Python 演示的
由于部分主题是使用 SQL 进行演示的，因此非常需要具备 SQL 经验
最好具有使用 Pandas 或 Pyspark 的数据工程经验
本课程非常适合经验丰富的数据工程师，可将 AWS 分析服务作为关键技能添加到其个人资料中

描述

数据工程就是构建数据管道，将来自多个来源的数据导入数据湖或数据仓库，然后从数据湖或数据仓库导入下游系统。作为本课程的一部分，我将引导您了解如何使用 AWS Data Analytics Stack 构建数据工程管道。它包括 Glue、Elastic Map Reduce (EMR)、Lambda 函数、Athena、EMR、Kinesis 等服务。

以下是您在课程中将遵循的高级步骤。

设置开发环境
开始使用 AWS
存储 – 关于 AWS s3（简单存储服务）的所有信息
用户级别安全性 – 使用 IAM 管理用户、角色和策略
基础设施 – AWS EC2（弹性云计算）
使用 AWS Lambda 函数进行数据提取
AWS Glue 组件概述
为 AWS Glue 作业设置 Spark History Server
深入了解 AWS Glue 目录
探索 AWS Glue 作业 API
AWS Glue 作业书签
Pyspark 的开发生命周期
开始使用 AWS EMR
使用 AWS EMR 部署 Spark 应用程序
使用 AWS Kinesis 的流式传输管道
使用 boto3 从 AWS s3 消费数据，并使用 AWS Kinesis 提取数据
将 GitHub 数据填充到 AWS Dynamodb
Amazon AWS Athena 概述
使用 AWS CLI 的 Amazon AWS Athena
使用 Python boto3 的 Amazon AWS Athena
开始使用 Amazon AWS Redshift
将数据从 AWS s3 复制到 AWS Redshift 表
使用 AWS Redshift Cluster 开发应用程序
带有 Distkeys 和 Sortkeys 的 AWS Redshift 表
AWS Redshift 联合查询和 Spectrum

以下是您将在本课程中学习的内容的详细信息。我们将通过实践练习介绍 AWS Data Analytics 下提供的大多数常用服务。

开始使用 AWS

作为本节的一部分，您将了解与开始使用 AWS 相关的详细信息。

简介 – AWS 入门
创建 s3 存储桶
创建 AWS IAM 组和 AWS IAM 用户以获得对 S3 存储桶和其他服务的必要访问权限
AWS IAM 角色概述
创建自定义 AWS IAM 策略并将其附加到 AWS IAM 组和用户
配置并验证 AWS CLI 以使用 AWS CLI 命令访问 AWS 服务

存储 – 关于 AWS s3（简单存储服务）的所有信息

AWS s3 是最突出的完全托管 AWS 服务之一。所有想要在 AWS 上工作的 IT 专业人员都应该熟悉它。我们将在本节中介绍与 AWS s3 相关的许多常见功能。

开始使用 AWS S3
在本地设置数据集以上传到 AWS s3
添加 AWS S3 存储桶并管理 AWS S3 存储桶中的对象（文件和文件夹）
AWS S3 存储桶的版本控制
AWS S3 存储桶的跨区域复制
AWS S3 存储类概述
AWS S3 Glacier 概述
使用 AWS CLI 命令管理 AWS S3
使用 CLI 管理 AWS S3 中的对象 – 实验室

用户级别安全性 – 使用 IAM 管理用户、角色和策略

一旦开始使用 AWS，您就需要了解作为非管理员用户所拥有的权限。作为本节的一部分，您将了解与 AWS IAM 用户、组、角色以及策略相关的详细信息。

创建 AWS IAM 用户
使用 AWS IAM 用户登录 AWS 管理控制台
验证对 AWS IAM 用户的编程访问
AWS IAM 基于身份的策略
管理 AWS IAM 组
管理 AWS IAM 角色
自定义 AWS IAM 策略概述
使用 AWS CLI 命令管理 AWS IAM 用户、组、角色以及策略

基础设施 – AWS EC2（弹性云计算）基础知识

AWS EC2 实例不过是 AWS 上的虚拟机。作为本节的一部分，我们将介绍一些与 AWS EC2 基础知识相关的基础知识。

开始使用 AWS EC2
创建 AWS EC2 密钥对
启动 AWS EC2 实例
连接到 AWS EC2 实例
AWS EC2 安全组基础知识
AWS EC2 公有和私有 IP 地址
AWS EC2 生命周期
分配和指定 AWS 弹性 IP 地址
使用 AWS CLI 管理 AWS EC2
升级或降级 AWS EC2 实例

基础设施 – AWS EC2 高级版

在本节中，我们将继续使用 AWS EC2 来了解如何使用 AWS 命令管理 EC2 实例，以及如何利用引导脚本安装其他操作系统模块。

开始使用 AWS EC2
了解 AWS EC2 元数据
查询 AWS EC2 元数据
根据 AWS EC2 元数据进行筛选
使用引导脚本和 AWS EC2 实例在 AWS EC2 实例上安装其他软件
使用 AWS EC2 实例创建 AWS AMI
验证 AWS AMI – 实验室

使用 Lambda 函数进行数据提取

AWS Lambda 函数只不过是无服务器函数。在本节中，我们将了解如何使用 Python 作为编程语言开发和部署 Lambda 函数。我们还将了解如何使用 s3 维护书签或检查点。

使用 AWS Lambda 的 Hello World
设置用于 AWS Lambda 函数本地开发的项目
将项目部署到 AWS Lambda 控制台
使用 AWS Lambda 函数请求开发下载功能
在 AWS Lambda 函数中使用第三方库
验证 AWS s3 访问权限以进行 AWS Lambda 函数的本地开发
使用 AWS Lambda 函数开发 s3 上传功能
使用 AWS Lambda 控制台验证 AWS Lambda 函数
使用 AWS Lambda 控制台运行 AWS Lambda 函数
使用 AWS Lambda 函数验证增量下载的文件
使用 AWS Lambda 函数读取和写入书签到 s3
使用 AWS Lambda 函数维护 s3 上的书签
查看使用 AWS Lambda 函数开发的增量上传逻辑
部署 AWS Lambda 函数
使用 AWS Event Bridge 安排 AWS Lambda 函数

AWS Glue 组件概述

在本节中，我们将全面了解所有重要的 Glue 组件，例如 Glue Crawler、Glue 数据库、Glue 表等。我们还将了解如何使用 AWS Athena 验证 Glue 表。AWS Glue（尤其是 Glue Catalog）是 AWS 数据分析服务领域的关键组件之一。

简介 – AWS Glue 组件概述
创建 AWS Glue 爬虫和 AWS Glue 目录数据库以及表
使用 AWS Athena 分析数据
创建 AWS S3 存储桶和角色，以使用 S3 位置上的爬虫创建 AWS Glue 目录表
创建并运行 AWS Glue 作业以处理 AWS Glue 目录表中的数据
使用 AWS Glue 目录表并使用 AWS Athena 运行查询进行验证
创建并运行 AWS Glue 触发器
创建 AWS Glue 工作流
运行 AWS Glue 工作流并验证

为 AWS Glue 作业设置 Spark History Server

AWS Glue 在后台使用 Apache Spark 来处理数据。为 AWS Glue 作业设置 Spark History Server 以排除任何问题非常重要。

简介 – 适用于 AWS Glue 的 Spark History Server
在 AWS 上设置 Spark History Server
克隆 AWS Glue 示例存储库
构建 AWS Glue Spark UI 容器
更新 AWS IAM 策略权限
启动 AWS Glue Spark UI 容器

深入了解 AWS Glue 目录

AWS Glue 有几个组件，但最重要的是 AWS Glue 爬虫、数据库以及目录表。在本节中，我们将介绍 AWS Glue 目录中一些最重要和最常用的功能。

AWS Glue 目录表的先决条件
创建 AWS Glue 目录表的步骤
下载用于创建 AWS Glue 目录表的数据集
将数据上传到 s3，使用 AWS Glue Crawler 进行抓取，以创建所需的 AWS Glue 目录表
创建 AWS Glue 目录数据库 – itvghlandingdb
创建 AWS Glue 目录表 – ghactivity
使用 AWS Athena 运行查询 – ghactivity
使用 AWS Glue 爬虫程序爬取多个文件夹
使用 AWS CLI 管理 AWS Glue 目录
使用 Python Boto3 管理 AWS Glue 目录

探索 AWS Glue 作业 API

一旦我们部署了 AWS Glue 作业，我们就可以使用 AWS Glue 作业 API 来管理它们。在本节中，我们将概述如何使用 AWS Glue 作业 API 来运行和管理作业。

更新 AWS Glue 作业的 AWS IAM 角色
生成基线 AWS Glue 作业
运行基线 AWS Glue 作业
用于分区数据的 AWS Glue 脚本
使用 AWS Athena 进行验证

了解 AWS Glue 作业书签

可以利用 AWS Glue 作业书签来维护增量加载的书签或检查点。在本节中，我们将介绍与 AWS Glue 作业书签相关的详细信息。

AWS Glue 作业书签简介
清理数据以运行 AWS Glue 作业
AWS Glue CLI 和命令概述
使用 AWS Glue 书签运行 AWS Glue 作业
使用 AWS CLI 验证 AWS Glue 书签
将新数据添加到登陆区以使用书签运行 AWS Glue 作业
使用书签重新运行 AWS Glue 作业
验证 AWS Glue 作业书签和文件以进行增量运行
使用 AWS CLI 命令重新抓取 AWS Glue 目录表
运行 AWS Athena 查询进行数据验证

Pyspark 的开发生命周期

在本节中，我们将重点介绍使用 Pyspark 开发 Spark 应用程序。稍后我们将在详细探索 EMR 时使用此应用程序。

设置虚拟环境并安装 Pyspark
Pycharm 入门
传递运行时参数
访问操作系统环境变量
Spark 入门
为 Spark 会话创建函数
设置示例数据
从文件读取数据
使用 Spark API 处理数据
将数据写入文件
验证将数据写入文件
产品化代码

开始使用 AWS EMR (Elastic Map Reduce)

作为本节的一部分，我们将了解如何开始使用 AWS EMR 集群。我们将主要关注 AWS EMR Web 控制台。Elastic Map Reduce 是 AWS 数据分析服务中的关键服务之一，它能够利用 Spark 等分布式计算框架运行处理大规模数据的应用程序。

规划 AWS EMR 集群
为 AWS EMR 集群创建 AWS EC2 密钥对
使用 Apache Spark 设置 AWS EMR 集群
了解AWS EMR集群摘要
查看 AWS EMR 集群应用程序用户界面
查看 AWS EMR 集群监控
审查 AWS EMR 集群硬件和集群扩展策略
检查 AWS EMR 集群配置
查看 AWS EMR 集群事件
查看 AWS EMR 集群步骤
查看 AWS EMR 集群引导操作
使用 SSH 连接到 AWS EMR 主节点
禁用 AWS EMR 群集的终止保护并终止 AWS EMR 群集
克隆并创建新的 AWS EMR 集群
在 AWS EMR 集群上使用 AWS CLI 列出 AWS S3 存储桶和对象
使用 AWS EMR 集群上的 HDFS CLI 列出 AWS S3 存储桶和对象
使用 AWS EMR 集群上的 HDFS CLI 管理 AWS S3 中的文件
查看 AWS Glue 目录数据库和表
使用 AWS EMR 集群访问 AWS Glue 目录数据库和表
访问 AWS EMR 集群的 spark-sql CLI
访问 AWS EMR 集群的 pyspark CLI
访问 AWS EMR 集群的 spark-shell CLI
为 Notebooks 创建 AWS EMR 集群

使用 AWS EMR 部署 Spark 应用程序

作为本节的一部分，我们将了解如何使用 AWS EMR 部署 Spark 应用程序。我们将使用之前部署的 Spark 应用程序。

使用 AWS EMR 部署应用程序 – 简介
设置AWS EMR集群以部署应用程序
验证与 AWS EMR 集群主节点的 SSH 连接
在 AWS EMR 集群上设置 Jupyter Notebook 环境
为 AWS EMR 集群创建所需的 AWS s3 存储桶
将 GHActivity 数据上传到 s3，以便我们可以使用部署在 AWS EMR 集群上的 Spark 应用程序进行处理
使用 AWS EMR 兼容版本的 Python 和 Spark 验证应用程序
将 Spark 应用程序部署到 AWS EMR 主节点
在 AWS EMR 集群上为 ec2-user 创建用户空间
在 AWS EMR 主节点上使用 spark-submit 运行 Spark 应用程序
使用 AWS EMR 集群上的 Jupyter Notebooks 验证数据
克隆并启动自动终止的 AWS EMR 集群
使用 AWS EMR 集群删除由 GHAcitivity 应用程序填充的数据
AWS EMR 集群上 Spark 客户端与集群部署模式的区别
在 AWS EMR 集群上使用集群模式运行 Spark 应用程序
将 Pyspark 应用程序添加到 AWS EMR 集群的概述
将 Spark 应用程序部署到 AWS S3 以使用 AWS EMR 步骤运行
在客户端模式下将 Spark 应用程序作为 AWS EMR 步骤运行
在集群模式下将 Spark 应用程序作为 AWS EMR 步骤运行
验证 Spark 应用程序的 AWS EMR 步骤执行

使用 AWS Kinesis 的流数据提取管道

作为本节的一部分，我们将详细介绍使用 AWS Kinesis（AWS 数据分析服务的流式传输服务）的流式数据提取管道。我们将使用 AWS Kinesis Firehose Agent 和 AWS Kinesis Delivery Stream 从日志文件中读取数据并将其提取到 AWS s3 中。

使用 AWS Kinesis Firehose Agent 和 Delivery Stream 构建流式传输管道
轮换日志，以便频繁创建文件，这些文件最终将使用 AWS Kinesis Firehose Agent 和 AWS Kinesis Firehose Delivery Stream 进行提取
设置 AWS Kinesis Firehose Agent 以将日志中的数据导入 AWS Kinesis Delivery Stream。
创建 AWS Kinesis Firehose 传输流
规划使用 AWS Kinesis Delivery Stream 将数据导入 S3 的管道
使用 AWS Kinesis 组件为流式管道创建 AWS IAM 组和用户
使用 AWS Kinesis 组件通过流式管道策略向 AWS IAM 用户授予权限
配置 AWS Kinesis Firehose Agent 以从日志文件读取数据并将其提取到 AWS Kinesis Firehose Delivery Stream 中。
启动并验证 AWS Kinesis Firehose 代理
结论 – 使用 AWS Kinesis Firehose 构建简单的蒸汽管道