【Udemy中英字幕】Automate Web Scraping Using Python Scripts and Spiders

使用 Python 脚本和蜘蛛自动进行网页抓取

从头开始构建脚本和蜘蛛来从互联网中提取数据。

讲师：Bluelime Learning Solutions

双语IT资源独家Udemy付费课程，独家中英文字幕，配套资料齐全！

用不到1/10的价格，即可享受同样的高品质课程，且可以完全拥有，随时随地都可以任意观看和分享。

您将学到什么

使用 Python 脚本构建并自动化网页抓取
使用 Spider 构建并自动化网页抓取
学习如何使用Beautiful Library进行数据提取
学习使用Scrapy进行数据提取
了解如何检查 HTML 元素
学习创建和激活 Python 虚拟环境
学习制作网页抓取脚本原型
学习使用 scrapy shell 爬取数据
学习从电子商务产品中抓取数据
自动脚本发送电子邮件

探索相关主题

网页抓取
工程
教学与学术

要求

具备 HTML 基础知识会有所帮助
需要电脑和互联网。

描述

网页抓取是自动下载网页数据并从中提取特定信息的过程。提取的信息可以存储在数据库中或以各种文件类型存储。

基本抓取规则：

在抓取网站之前，请务必检查网站的条款和条件，以避免法律问题。
请勿使用程序过于积极地向网站请求数据（垃圾邮件），因为这可能会破坏网站。
网站的布局可能会随时发生变化，因此请确保您的代码能够适应变化。

流行的网络抓取工具包括BeautifulSoup和Scrapy。

BeautifulSoup 是一个用于从 HTML 和 XML 文件中提取数据（解析）的 Python 库。

Scrapy 是一个免费的开源应用程序框架，用于抓取网站并提取结构化数据

其可用于数据挖掘、研究、信息处理或历史档案等多种用途。

网络抓取软件工具可以使用超文本传输协议直接访问万维网，也可以通过网络浏览器访问。虽然网络抓取可以由软件用户手动完成，但该术语通常指使用机器人或网络爬虫实现的自动化流程。它是一种复制形式，其中从网络收集和复制特定数据，通常将其复制到中央本地数据库或电子表格中，以供以后检索或分析。

抓取网页涉及获取网页和从网页中提取内容。获取是指下载网页（浏览器在您查看网页时执行的操作）。获取网页以供后续处理。获取后，即可进行提取。网页内容可能被解析、搜索、重新格式化，其数据可能被复制到电子表格中，等等。网页抓取工具通常会从网页中获取某些内容，以便在其他地方将其用于其他目的。例如，查找并将姓名和电话号码或公司及其 URL 复制到列表（联系人抓取）。

网络抓取用于联系人抓取，并作为网络索引、网络挖掘和数据挖掘、在线价格变化监控和价格比较、产品评论抓取（用于监视竞争）、收集房地产列表、天气数据监控、网站变化检测、研究、跟踪在线状态和声誉、网络混搭和网络数据集成等应用程序的组成部分。

网页是使用基于文本的标记语言（HTML 和 XHTML）构建的，并且经常以文本形式包含大量有用的数据。 . Web 抓取工具是一种应用程序编程接口 (API)，用于从网站提取数据。亚马逊 AWS 和 Google 等公司免费向最终用户提供 Web 抓取工具、服务和公共数据。