【Udemy中英字幕】Scrapy: Powerful Web Scraping & Crawling with Python

Scrapy：使用 Python 进行强大的 Web 抓取和爬网

Python Scrapy 教程 – 学习如何使用 Scrapy、Splash 和 Python 抓取网站并构建强大的网络爬虫

讲师：Lazar Telebak

双语IT资源独家Udemy付费课程，独家中英文字幕，配套资料齐全！

用不到1/10的价格，即可享受同样的高品质课程，且可以完全拥有，随时随地都可以任意观看和分享。

你将会学到的

在 Scrapy 中创建网络爬虫
爬取单个或多个页面并抓取数据
将蜘蛛部署和调度到 ScrapingHub
使用 Scrapy 登录网站
将 Scrapy 作为独立脚本运行
将 Splash 与 Scrapy 集成以抓取 JavaScript 呈现的网站
在特殊情况下使用 Scrapy 和 Selenium，例如抓取 JavaScript 驱动的网页
构建 Scrapy 高级蜘蛛
Spider 完成 Scraping 后 Scrapy 提供的更多功能
编辑和使用 Scrapy 参数
将 Scrapy 提取的数据导出为 CSV、Excel、XML 或 JSON 文件
将 Scrapy 提取的数据存储到 MySQL 和 MongoDB 数据库中
几个现实生活中的网络抓取项目，包括 Craigslist、LinkedIn 和许多其他项目
本 Scrapy 教程中所有练习的 Python 源代码都可以下载
问答板发送您的问题并快速得到解答

要求

Python级别：中级。本 Scrapy 教程假设您已经了解编写简单 Python 程序的基础知识，并且您通常熟悉 Python 的核心特性（数据结构、文件处理、函数、类、模块、常用库等）。
Python 2.7+ 或 Python 3.3+
任何操作系统（Linux、Mac、Windows）都很好。
在课程的问答板上学习新事物和提问（如果有的话）的积极性和意愿。
如果您不知道 Scrapy 是什么或为什么要使用它，请在加入课程之前阅读课程说明并观看预览讲座。

说明

为什么选这门课？

加入最受欢迎的关于使用Scrapy、Selenium 和 Splash进行网页抓取的课程。
向专业讲师Lazar Telebak 学习，他是全职网络抓取顾问。
应用Web Scraping 流行网站的真实示例和实际项目。
获取最新课程和唯一具有10 多个小时可播放内容的课程。
通过活跃的问答板来回答您的所有问题，增强您的知识。
30 天退款保证。

Scrapy 是一个免费的开源网络爬虫框架，用 Python 编写。Scrapy 可用于网络抓取和提取结构化数据，这些数据可用于广泛的有用应用程序，如数据挖掘、信息处理或历史存档。这个 Python Scrapy 教程涵盖了 Scrapy 的基础知识。

网页抓取是一种在网页上收集数据或信息的技术。您可以在每次更新新信息时重新访问您最喜欢的网站，或者您可以编写一个网络爬虫让它为您完成！

网络爬虫通常是数据研究的第一步。无论您是想从网站获取数据、跟踪 Internet 上的更改，还是使用网站 API，网络爬虫都是获取所需数据的好方法。

网络爬虫，也称为网络蜘蛛，是一种能够扫描万维网并以自动方式提取信息的应用程序。虽然它们有许多组件，但网络爬虫基本上使用一个简单的过程：下载原始数据，处理并提取它，如果需要，将数据存储在文件或数据库中。有很多方法可以做到这一点，并且您可以使用多种语言构建您的网络爬虫或蜘蛛。

在 Scrapy 之前，开发人员依赖于各种使用 Python 的软件包来完成这项工作，例如广泛使用的 urllib2 和 BeautifulSoup。Scrapy 是一个新的 Python 包，旨在实现简单、快速和自动化的网络爬取，最近广受欢迎。

Scrapy 现在被许多雇主广泛要求，无论是自由职业者还是内部工作，这是创建此 Python Scrapy 课程的一个重要原因，也是创建此 Python Scrapy 教程以帮助您提高技能和赚取更多收入。

在本 Scrapy 教程中，您将学习如何安装 Scrapy。您还将构建一个基本和高级的蜘蛛，最后了解更多关于 Scrapy 架构的知识。然后你将学习如何部署蜘蛛，使用 Scrapy 登录网站。我们将使用 Scrapy 构建一个通用的网络爬虫，我们还将集成 Splash 和 Selenium 以与 Scrapy 一起迭代我们的页面。我们将构建一个高级爬虫，可以选择使用 Scrapy 迭代我们的页面，我们将使用 Scrapy 的 Close 函数将其关闭，然后讨论 Scrapy 参数。最后，在本课程中，您将学习如何将输出保存到数据库、MySQL 和 MongoDB。有一个专门的部分用于各种网络抓取解决的练习……和更新。

Scrapy 的主要优点之一是它建立在 Twisted 之上，这是一个异步网络框架。“异步”意味着您不必等待一个请求完成后再发出另一个请求；您甚至可以通过高性能实现这一目标。Scrapy 使用非阻塞（又称异步）并发代码实现，非常高效。

值得注意的是，Scrapy 不仅尝试解决内容提取（称为抓取），还尝试导航到相关页面进行提取（称为爬取）。为了实现这一点，框架中的一个核心概念是蜘蛛——实际上，它是一个具有一些特殊功能的 Python 对象，您为此编写代码，框架负责触发它。

Scrapy 提供了在 Internet 上下载网站和其他内容所需的许多功能，使开发过程更快，编程密集度更低。本 Python Scrapy 教程将教你如何使用 Scrapy 构建网络爬虫和网络蜘蛛。

Scrapy 是用 Python 编写的最流行的网络抓取工具。它简单而强大，具有许多功能和可能的扩展。

Python Scrapy 教程主题：

这门 Scrapy 课程首先介绍了使用 Scrapy 的基础知识，然后专注于创建和自动化网络爬虫的 Scrapy 高级功能。本 Python Scrapy 教程的主要主题如下：

Scrapy 是什么，Scrapy 与其他基于 Python 的 Web 抓取库如 BeautifulSoup、LXML、Requests 和 Selenium 的区别，以及何时使用 Scrapy 更好。
本教程从如何创建一个 Scrapy 项目开始，然后构建一个基本的 Spider 来从网站上抓取数据。
探索 XPath 命令以及如何将它与 Scrapy 一起使用来提取数据。
构建更高级的 Scrapy 蜘蛛来迭代网站的多个页面并从每个页面中抓取数据。
Scrapy Architecture：一个Scrapy项目的整体布局；每个字段代表什么以及如何在蜘蛛代码中使用它们。
Web Scraping 最佳实践，以避免被您正在抓取的网站禁止。
在本 Scrapy 教程中，您还将学习如何轻松地将 Scrapy 网络爬虫部署到 Scrapy Cloud 平台。Scrapy Cloud 是 Scrapinghub 的一个平台，用于在云中运行、自动化和管理您的网络爬虫，而无需设置您自己的服务器。
本 Scrapy 教程还介绍了如何使用 Scrapy 抓取经过身份验证（登录）的用户会话，即在显示数据之前需要用户名和密码的网站上。
本课程主要关注如何使用 Scrapy 创建高级网络爬虫。我们将介绍如何使用 Scrapy CrawlSpider，它是爬取常规网站最常用的爬虫，因为它通过定义一组规则提供了一种方便的链接跟踪机制。我们还将使用 Link Extractor 对象，它定义了如何从每个抓取的页面中提取链接；它允许我们抓取页面上的所有链接，无论它们有多少。
此外，本 Scrapy 教程中有一个完整的部分向您展示如何将 Splash 或 Selenium 与 Scrapy 结合起来创建动态网页的网络爬虫。当您无法直接从源获取数据，但您需要加载页面、填写表单、单击某处、向下滚动等时，即如果您尝试从具有大量 AJAX 调用的网站抓取数据和 JavaScript 执行来呈现网页，最好使用 Splash 或 Selenium 以及 Scrapy。
我们还将讨论 Scrapy 在爬虫完成网页抓取后提供的更多功能，以及如何编辑和使用 Scrapy 参数。
由于网页抓取的主要目的是提取数据，您将学习如何将输出写入 CSV、JSON 和 XML 文件。
最后，您将学习如何将 Scrapy 提取的数据存储到 MySQL 和 MongoDB 数据库中。