【Udemy中英字幕】Practice Exams | AWS Certified Data Engineer – Associate
最近更新 2024年10月20日
资源编号 34138

【Udemy中英字幕】Practice Exams | AWS Certified Data Engineer – Associate

2024-10-20 IT与软件 0 429
郑重承诺丨视频 中英文字幕 配套课件
增值服务:免费提供代找课服务:
¥ 49.9 金币
VIP折扣
    折扣详情
  • 体验会员

    免费

  • 包月会员

    免费

  • 包年会员

    免费

  • 永久会员

    免费

开通VIP尊享优惠特权
立即下载 升级会员
微信扫码咨询 微信扫码咨询
进入TA的商铺 联系官方客服
信息属性
详情介绍

模拟考试 | AWS 认证数据工程师 – 助理

为 DEA-C01 考试做好准备。260 道高质量练习测试题从头开始编写,并附有详细解释!

讲师:Stephane Maarek

双语IT资源独家Udemy付费课程,独家中英文字幕配套资料齐全!

不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。

本课程包括:

  • 4 次模拟测试
  • 通过移动设备访问

本课程包含的内容

  • 练习测试 #1 – AWS 认证数据工程师助理65 个问题
  • 练习测试 #2 – AWS 认证数据工程师助理65 个问题
  • 练习测试 #3 – AWS 认证数据工程师助理65 个问题
  • 练习测试 #4 – AWS 认证数据工程师助理65 个问题

描述

正在准备 AWS Certified Data Engineer Associate DEA-C01? 这是 一门让您获得制胜优势的实践考试课程

这些模拟考试由 Stephane Maarek 和 Abhishek Singh 共同编写,他们带来了通过20 项 AWS 认证的集体经验。

问题的语气和基调模仿真实考试。除了解释中提供的详细描述和“考试提醒”外,我们还广泛参考了 AWS 文档,以帮助您快速了解 DEA-C01 考试中测试的所有领域。

我们希望您将本课程视为最后的进站,这样您就可以满怀信心地越过胜利线并获得 AWS 认证!相信我们的流程,您会得到很好的照顾。

所有问题都是从头开始编写的!而且随着时间的推移,还会添加更多问题!

品质不言而喻

示例问题:

一位数据工程师在使用 AWS Glue 数据目录作为元数据存储库的情况下,对存储在 Amazon S3 存储桶中的数据集执行 Amazon Athena 查询时遇到了查询性能缓慢的问题。数据工程师已确定性能低下的根本原因是 S3 存储桶中的分区数量过多,导致 Athena 查询规划时间增加。

有哪两种可能的方法可以缓解此问题并提高查询效率(选择两种)?

  1. 将每个分区中的数据转换为 Apache ORC 格式
  2. 使用 gzip 格式压缩文件,以提高针对分区的查询性能
  3. 对每个分区中的数据进行分桶
  4. 设置 AWS Glue 分区索引并通过 GetPartitions 调用利用分区过滤
  5. 根据 S3 存储桶前缀设置 Athena 分区投影

您的猜测是什么?请向下滚动查看答案。

正确:4,5。

解释:

正确选项:

设置 AWS Glue 分区索引并通过 GetPartitions 调用利用分区过滤

创建分区索引时,您可以指定给定表上已存在的分区键列表。分区索引是表中定义的分区键的子列表。可以在表中定义的任何分区键排列上创建分区索引。对于上述 sales_data 表,可能的索引为 (country, category, creationDate)、(country, category, year)、(country, category)、(country)、(category, country, year, month) 等。

我们以 sales_data 表为例,该表按 Country、Category、Year、Month 和 creationDate 键进行分区。如果您想要获取 2020 年 8 月 15 日之后图书类别销售的所有商品的销售数据,则必须向数据目录发出 GetPartitions 请求,其中表达式为“Category = ‘Books’ and creationDate > ‘2020-08-15’”。

如果表上没有分区索引,AWS Glue 将加载表的所有分区,然后使用用户在 GetPartitions 请求中提供的查询表达式筛选已加载的分区。在没有索引的表上,随着分区数量的增加,查询需要更多时间运行。有了索引,GetPartitions 查询将尝试获取分区的子集,而不是加载表中的所有分区。

AWS Glue 分区索引和分区过滤概述:

参考图

通过-参考链接

根据 S3 存储桶前缀设置 Athena 分区投影

当您拥有大量分区且未使用 AWS Glue 分区索引时,处理分区信息可能会成为 Athena 查询的瓶颈。您可以在 Athena 中使用分区投影来加快高度分区表的查询处理并自动化分区管理。分区投影允许您通过计算分区信息而不是从元存储中检索信息来查询分区,从而帮助最大限度地减少这种开销。它消除了将分区的元数据添加到 AWS Glue 表的需要。

在分区投影中,分区值和位置是根据配置计算的,而不是从 AWS Glue 数据目录等存储库读取。由于内存操作通常比远程操作更快,因此分区投影可以减少针对高度分区表的查询的运行时间。根据查询和基础数据的具体特征,分区投影可以显著减少受分区元数据检索限制的查询的运行时间。

Athena 分区投影概述:

参考图

通过-参考链接

错误选项:

将每个分区中的数据转换为 Apache ORC 格式 Apache ORC 是一种用于分析工作负载的流行文件格式。它是一种列式文件格式,因为它不是按行存储数据,而是按列存储数据。ORC 格式还允许查询引擎以不同的方式减少需要加载的数据量。例如,通过单独存储和压缩列,您可以实现更高的压缩率,并且只需要读取查询中引用的列。但是,数据正在现有分区内转换,此选项无法解决性能不佳的根本原因(即 S3 存储桶中的分区数量过多)。

以 gzip 格式压缩文件以提高针对分区的查询性能 – 压缩数据可以显著加快查询速度。较小的数据大小减少了从 Amazon S3 扫描的数据,从而降低了运行查询的成本。它还减少了从 Amazon S3 到 Athena 的网络流量。Athena 支持多种压缩格式,包括 gzip、Snappy 和 zstd 等常见格式。但是,数据是在现有分区内压缩的,此选项无法解决性能不佳的根本原因(即 S3 存储桶中的分区数量过多)。

对每个分区中的数据执行分桶– 分桶是一种将数据集的记录组织成称为存储桶的类别的方法。存储桶和分桶的含义与 Amazon S3 存储桶不同,不应混淆。在数据分桶中,具有相同属性值的记录进入同一个存储桶。记录在存储桶之间尽可能均匀地分布,以便每个存储桶的数据量大致相同。实际上,存储桶是文件,哈希函数决定记录进入的存储桶。分桶数据集每个分区每个存储桶将有一个或多个文件。文件所属的存储桶编码在文件名中。当数据集按某个属性分桶并且您想要检索该属性具有特定值的记录时,分桶非常有用。由于数据已分桶,Athena 可以使用该值来确定要查看哪些文件。例如,假设数据集按 customer_id 分桶,并且您想要查找特定客户的所有记录。Athena 确定包含这些记录的存储桶,并仅读取该存储桶中的文件。

当您的列具有高基数(即具有许多不同的值)、均匀分布并且您经常查询特定值时,就适合进行分桶。

由于存储桶是在现有分区内进行的,因此此选项不能解决性能不佳的根本原因(即 S3 存储桶中的分区数量过多)。

包含来自 AWS 文档的多个参考链接

讲师

我叫 Stéphane Maarek,我对云计算充满热情,我将担任本课程的讲师。我教授 AWS 认证课程,重点是帮助我的学生提高他们在 AWS 方面的专业能力。

在设计和提供这些认证和课程的整个职业生涯中,我已经教过 2,500,000 多名学生,并获得了 500,000 多条评论!

我很高兴欢迎 Abhishek Singh 作为这些模拟考试的共同讲师!

欢迎参加最佳实践考试,帮助您准备AWS Certified Data Engineer Associate考试。

  • 你可以根据需要多次重考
  • 这是一个巨大的原创题库
  • 如果你有疑问,你可以得到导师的支持
  • 每个问题都有详细的解释
  • 与 Udemy 应用程序兼容移动设备
  • 如果您不满意,可享受 30 天退款保证

我们希望现在你已经信服了!课程中还有很多问题。

祝您学习愉快,并顺利通过 AWS Certified Data Engineer Associate DEA-C01 考试!

本课程适合哪些人:

  • 任何准备参加 AWS Certified Data Engineer Associate DEA-C01 考试的人
请注意:
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务