使用 spaCy v3.0 进行实用文本分析
如何在不构建自定义机器学习模型的情况下提取信息
讲师:Aravind Mohanoor
双语IT资源独家Udemy付费课程,独家中英文字幕,配套资料齐全!
用不到1/10的价格,即可享受同样的高品质课程,且可以完全拥有,随时随地都可以任意观看和分享。
您将学到什么
- 了解 spaCy 文档对象
- spaCy 管道的工作原理
- 如何使用基于规则的匹配进行信息提取
- 使用 itables 库进行实用、迭代的文本分析的系统
探索相关主题
- 自然语言处理 (NLP)
- 其他 IT 和软件
- 信息技术与软件
要求
- 具有中级 Python 编程知识
- pandas dataframe 库的基础知识
描述
什么是文本分析?
我喜欢这个定义:“文本分析是将非结构化文本文档转换为可用的结构化数据的过程。文本分析的工作原理是将句子和短语分解成它们的组成部分,然后使用复杂的软件规则和机器学习算法评估每个部分的作用和含义。”[来源:Lexalytics 网站]
在 spaCy 中,你可以用两种方式使用机器学习算法
1)spaCy 和其他组织提供的预训练模型 – 例如,我在本课程中使用的 en_core_web_md 是由 spaCy 的创建公司 Explosion 提供的预训练模型
2)基于你的数据进行训练的自定义机器学习模型——在文档中通常被称为“统计模型”
为什么不用统计模型?
spaCy 的创造者在他们的文档中这样说:
“对于复杂的任务,训练统计实体识别模型通常更好。但是,统计模型需要训练数据,因此在许多情况下,基于规则的方法更为实用。这在项目开始时尤其如此:您可以将基于规则的方法用作数据收集过程的一部分,以帮助您“引导”统计模型。
如果您有一些示例,并且希望您的系统能够基于这些示例进行概括,那么训练模型就很有用。如果本地上下文中有线索,它的效果会特别好。例如,如果您尝试检测人名或公司名称,您的应用程序可能会受益于统计命名实体识别模型。
如果您希望在数据中找到或多或少有限数量的示例,或者存在非常清晰、结构化的模式,您可以使用标记规则或正则表达式来表达,那么基于规则的系统是一个不错的选择。例如,国家名称、IP 地址或 URL 是您可能能够使用纯基于规则的方法很好地处理的内容。
需要澄清的是,我并不反对开发统计模型 – 但正如文档中明确指出的那样,从基于规则的系统开始往往更为实用。我在这门课程中的主要目标之一是让您清楚地了解仅使用基于规则的系统可以做什么和不能做什么 –事实上,我在整个课程中只使用一个数据集,因此学生更容易做出这种区分。
当您将基于规则的系统与我在本课程中描述的数据可视化技术相结合时,您还将对数据集有很好的理解。然后,如果您选择构建统计模型,则可以利用这种理解来改进统计模型。
在我看来,大多数人在使用 spaCy 规则进行文本分析时只是触及皮毛。我希望本课程能为他们提供许多关于如何完成这项任务的新见解。
本课程适合哪些人:
- 想要使用 spaCy 和自然语言处理的数据科学从业者
- 任何人只要拥有一张电子表格,其中一列是一段文本,并想知道如何从该文本中提取有用信息,以便与 Excel 和 Airtable 等电子表格工具中可在其他列上应用的过滤器(排序、小于、大于等)一起使用
如果你有能力,请务必支持课程的原创作者,这是他们应得的报酬!
本站收取的费用,仅用来维持网站正常运行的必要支出,从本站下载任何内容,说明你已经知晓并同意此条款。