Spark 和 Hadoop 大数据简介
讲师:Aije Egwaikhide
双语IT资源独家Coursera付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
你将学到什么
- 解释大数据的影响,包括用例、工具和处理方法。
- 描述 Apache Hadoop 架构、生态系统、实践和用户相关应用程序,包括 Hive、HDFS、HBase、Spark 和 MapReduce。
- 应用 Spark 编程基础,包括 DataFrames、数据集和 Spark SQL 的并行编程基础。
- 使用 Spark 的 RDD 和数据集,使用 Catalyst 和 Tungsten 优化 Spark SQL,并使用 Spark 的开发和运行环境选项。
你将获得的技能
- 大数据
- SparkSQL
- SparkML
- Apache Hadoop
- Apache Spark
课程介绍
这门自定进度的 IBM 课程将教您有关大数据的所有知识!您将熟悉大数据的特征及其在大数据分析中的应用。
您还将获得使用 Apache Hadoop 和 Apache Spark 等大数据处理工具的实践经验。
Bernard Marr 将大数据定义为我们在这个数字时代产生的数字痕迹。
您将从了解大数据是什么开始,并探索如何将大数据洞察应用于各种用例。
您还将探索大数据如何使用并行处理、扩展和数据并行等技术。
接下来,您将了解 Hadoop,这是一个允许分布式处理大数据及其生态系统的开源框架。
您将发现与 Hadoop 密切相关的重要应用程序,如分布式文件系统 (HDFS)、MapReduce 和 HBase。
您将熟悉 Hive,这是一个数据仓库软件,它提供类似于 SQL 的界面来高效查询和操作大型数据集。
然后,您将深入了解 Apache Spark,这是一个开源处理引擎,为用户提供了存储和使用大数据的新方法。
在本课程中,您将了解如何利用 Spark 提供可靠的洞察。
本课程概述了该平台,并介绍了组成 Apache Spark 的组件。
您将了解 DataFrames 并执行基本的 DataFrame 操作并使用 SparkSQL。
探索 Spark 如何处理和监控应用程序提交的请求,以及如何使用 Spark 应用程序 UI 跟踪工作。
本课程有几个动手实验,可帮助您应用和练习所学的概念。
您将使用各种工具和技术完成 Hadoop 和 Spark 实验,包括 Docker、Kubernetes、Python 和 Jupyter Notebooks。
课程目录
- What Is Big Data?
- Introduction to the Hadoop Ecosystem
- Apache Spark
- DataFrames and Spark SQL
- Development and Runtime Environment Options
- Monitoring and Tuning
- Final Project and Assessment
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。