【Udemy中英字幕】2025 Machine Learning & Data Science for Beginners in Python

2025 面向 Python 初学者的机器学习和数据科学

具有线性回归、逻辑回归、随机森林、SVM、KNN、KMeans、XGBoost、PCA 等的数据科学项目

讲师：Laxmi Kant | KGP Talkie

双语IT资源独家Udemy付费课程，独家中英文字幕，配套资料齐全！

用不到1/10的价格，即可享受同样的高品质课程，且可以完全拥有，随时随地都可以任意观看和分享。

您将学到什么

机器学习的基本概念和技术，包括监督学习和无监督学习
各种机器学习算法的实现，如线性回归、逻辑回归、k-最近邻、决策树等。
构建和评估机器学习模型的技术，例如特征选择、特征工程和模型评估技术。
不同类型的模型评估指标，例如准确度、精确度和召回率以及如何解释它们。
使用 scikit-learn 和 pandas 等机器学习库来构建和评估模型。
处理真实数据集和项目的实践经验将使学生有机会应用所学到的概念和技术。
分析、解释和呈现机器学习模型结果的能力。
了解不同机器学习算法之间的权衡，以及它们的优点和缺点。
了解开发、实施和解释机器学习模型的最佳实践。
解决常见机器学习问题和调试机器学习模型的技能。

探索相关主题

数据科学
发展

要求

一些编程概念
初等数学
渴望学习

描述

欢迎来到我们的机器学习项目课程！本课程专为希望获得开发和实施机器学习模型实践经验的个人而设计。在整个课程中，您将学习使用真实数据集构建和评估机器学习模型所需的概念和技术。

我们介绍机器学习的基础知识，包括监督学习和无监督学习，以及可以使用这些技术解决的问题类型。您还将了解常见的机器学习算法，例如线性回归、k-最近邻和决策树。

机器学习必备知识讲座

Python 速成课程：这是一门入门级课程，旨在帮助学习者快速学习 Python 编程语言的基础知识。
Numpy：它是Python中的一个库，提供对同类数据类型的大型多维数组的支持，以及大量对这些数组进行操作的高级数学函数集合。
Pandas：它是 Python 中的一个库，提供易于使用的数据结构和数据分析工具。它建立在 Numpy 之上，广泛用于数据清理、转换和操作。
Matplotlib：它是 Python 中的一个绘图库，提供广泛的可视化工具并支持不同类型的绘图。它广泛用于数据探索和可视化。
Seaborn：这是一个基于 Matplotlib 构建的库，提供更高级的 API，以便更轻松、更吸引人的绘图。它广泛用于统计数据可视化。
Plotly：它是 Python 中的一个开源库，提供交互式和基于 Web 的可视化。它支持各种图表，广泛用于创建交互式仪表板和 Web 数据可视化。

本课程涵盖的 ML 模型

线性回归：一种监督学习算法，用于根据一组独立变量预测连续目标变量。它假设独立变量和因变量之间存在线性关系。
逻辑回归：一种监督学习算法，用于根据一组独立变量预测二元结果。它使用逻辑函数来模拟结果的概率。
决策树：一种监督学习算法，使用树状模型来表示决策及其可能的结果。它通常用于分类和回归任务。
随机森林：一种监督学习算法，结合多个决策树来提高预测的准确性和稳定性。它是一种集成方法，可以减少过度拟合并提高模型的泛化能力。
支持向量机 (SVM)：一种用于分类和回归任务的监督学习算法。它找到区分数据中不同类别的最佳边界（或超平面）。
K-最近邻 (KNN)：一种用于分类和回归任务的监督学习算法。它找到新数据点的 k 个最近点，并根据 k 个最近点的多数类对其进行分类。
超参数调整：这是系统地搜索机器学习模型的最佳超参数组合的过程。它用于优化模型的性能，并通过找到对未知数据运行良好的最佳参数集来防止过度拟合。
AdaBoost：一种通过调整观测权重来适应数据的监督学习算法。它是一种用于分类任务的集成方法。
XGBoost：一种监督学习算法，是梯度提升算法的扩展。它在 Kaggle 竞赛和行业项目中被广泛使用。
CatBoost：一种旨在有效处理分类变量的监督学习算法。

无监督模型

聚类算法大致可分为三类：基于质心的聚类算法、基于密度的聚类算法和分层聚类算法。基于质心的聚类算法（例如 k-means）根据数据点与质心或中心点的接近程度对数据点进行分组。基于密度的聚类算法（例如 DBSCAN）根据数据点在特征空间中的密度对数据点进行分组。分层聚类算法（例如 Agglomerative 和 Divisive）通过迭代合并或划分聚类来构建聚类层次结构。

K-Means：一种基于质心的聚类算法，根据数据点与质心的接近程度对其进行分组。它广泛用于对大型数据集进行聚类。
DBSCAN：一种基于密度的聚类算法，根据数据点在特征空间中的密度对其进行分组。它对于识别任意形状的聚类很有用。
层次聚类：一种通过迭代合并或划分聚类来构建聚类层次结构的算法。其本质可以是聚集的，也可以是分裂的。
谱聚类：一种利用数据相似矩阵的特征向量来寻找聚类的聚类算法。
主成分分析（PCA）：一种降维技术，将数据投影到低维空间，同时保留最重要的信息。

高级模型

深度学习简介：深度学习是机器学习的一个子领域，它使用具有多层的人工神经网络（称为深度神经网络）来建模和解决图像识别和自然语言处理等复杂问题。它基于这样的理念：神经网络可以学习自动学习不同抽象级别的数据表示。多层感知器 (MLP) 是一种深度学习模型，它是一种前馈人工神经网络模型，可将输入数据集映射到一组适当的输出上。MLP 是一种监督学习算法，可用于分类和回归任务。MLP 基于这样的理念：具有多层的神经网络可以学习自动学习不同抽象级别的数据表示。
自然语言处理 (NLP)：自然语言处理 (NLP) 是人工智能的一个领域，它涉及人类语言与计算机之间的交互。NLP 中使用的一种常见技术是词频-逆文档频率 (tf-idf)。Tf-idf 是一种统计度量，它反映了单词在文档或文档语料库中的重要性。重要性与单词在文档中出现的次数成比例增加，但与单词在语料库中出现的频率成反比。Tf-idf 在 NLP 中用于文本分类、文本聚类和信息检索等任务。它还用于文本数据的文档摘要和特征提取。

有任何课程要求或先决条件吗？