欢迎来到《2022版目标特征识别工程机器学习视频教程》课程,这是最全面的在线特征工程课程。在本课程中,您将了解变量插补、变量编码、特征转换、离散化以及如何从数据中创建新特征。

特征工程是转换现有特征或创建新变量以用于机器学习的过程。原始数据不适合训练机器学习算法。相反,数据科学家将大量时间用于数据预处理。本课程将教您准备好训练模型所需的一切知识。

更新 03/2022
MP4 | 视频:h264, 1280×720 | 音频:AAC,44.1 KHz,2 Ch
类型:eLearning | 语言:英语 + srt | 时长:138 节课(10h 28m)| 大小:3.1 GB

你会学到什么

  • 学习多种缺失数据插补的技术。
  • 将分类变量转换为数字,同时捕获有意义的信息。
  • 了解如何处理不常见、罕见和不可见的类别。
  • 了解如何使用偏斜变量。
  • 将数值变量转换为离散变量。
  • 从变量中删除异常值。
  • 从日期和时间变量中提取有用的特征。
  • 学习全球组织和数据竞赛中使用的技术。
  • 增加您的技术库以预处理数据并构建更强大的机器学习模型。

要求

  • Python 安装。
  • Jupyter 笔记本安装。
  • Python 编码技能。
  • 一些使用 Numpy 和 Pandas 的经验。
  • 熟悉机器学习算法。
  • 熟悉 Scikit-Learn。

课程说明

欢迎来到机器学习的特征工程,这是最全面的在线特征工程课程。在本课程中,您将了解变量插补、变量编码、特征转换、离散化以及如何从数据中创建新特征。

掌握特征工程和特征提取。

在本课程中,您将学习多种特征工程方法,这些方法可以让您转换数据并准备好训练机器学习模型。具体来说,您将学习:

  • 如何估算缺失数据
  • 如何编码分类变量
  • 如何转换数值变量并改变它们的分布
  • 如何进行离散化
  • 如何去除异常值
  • 如何从日期和时间中提取特征
  • 如何从现有功能创建新功能

使用数学、统计和领域知识创建有用的特征

特征工程是转换现有特征或创建新变量以用于机器学习的过程。原始数据不适合训练机器学习算法。相反,数据科学家将大量时间用于数据预处理。本课程将教您准备好训练模型所需的一切知识。

虽然大多数在线课程会教你特征工程的基础知识,比如用平均值输入变量或使用一种热编码转换分类变量,但本课程将教你这些,以及更多。

在本课程中,您将首先学习最流行和最广泛使用的变量工程技术,例如均值和中值插补、单热编码、对数变换和离散化。然后,您将发现更高级的方法,这些方法可以在编码或转换变量时捕获信息,以提高机器学习模型的性能。

您将学习金融中使用的证据权重等方法,以及如何在变量和目标之间创建单调关系以提高线性模型的性能。您还将学习如何从日期和时间变量创建特征,以及如何处理具有大量类别的分类变量。

您将学习的方法在科学文章中进行了描述,用于数据科学竞赛,并且通常在组织中使用。更重要的是,它们可以通过使用 Python 的开源库轻松实现!

在整个讲座中,您将找到每种技术的详细解释,并讨论它们的优点、局限性和基本假设,然后是在 Python 中实现它们的最佳编程实践。

在课程结束时,您将能够根据可变特征和您希望训练的模型来决定您需要哪种特征工程技术。而且您还可以很好地测试各种转换方法,并让您的模型决定哪些方法效果最好。

提升你在数据科学领域的职业生涯

您已经迈出了进入数据科学的第一步。您了解最常用的预测模型。您甚至已经训练了一些线性回归或分类模型。在这个阶段,您可能开始发现一些挑战:您的数据很脏,很多值丢失,一些变量不是数值型的,还有一些非常倾斜。您可能还想知道您的代码是否高效和高性能,或者是否有更好的编程方式。您在线搜索,但找不到有关特征工程的综合资源。也许只是博客?所以你可能会开始想:科技公司的事情到底是怎么做的?

在本课程中,您将找到这些问题的答案。在整个课程中,您将学习变量转换不同方面的多种技术,以及如何使用 Python以优雅、高效和专业的方式实现它们。您将利用 Python 开源生态系统的强大功能,包括 NumPy、Pandas、Scikit-learn 库和用于特征工程的特殊包:特征引擎和类别编码器。

在课程结束时,您将能够将所有特征工程步骤实现到一个优雅的管道中,这将使您能够以最高效率将您的预测模型投入生产。

利用开源的力量

我们将使用 Pandas 和 Numpy 执行所有特征工程方法,并将实现与 Scikit-learn、Feature-engine 和 Category 编码器进行比较,突出每个库的优点和局限性。随着课程的进展,您将能够选择您最喜欢的库来执行您的项目。

有一个专用的 Python 笔记本,其中包含用于实现每种特征工程方法的代码,您可以在项目中重复使用这些代码来加快机器学习模型的开发。

最全面的特征工程在线课程

没有一个地方可以学习特征工程。它需要在网络上进行数小时的搜索,以了解人们正在做什么以充分利用他们的数据。

这就是为什么本课程收集了全球用于特征转换的大量技术,这些技术来自 Kaggle 和 KDD 的数据竞赛、科学文章以及讲师作为数据科学家的经验。因此,本课程提供了一个参考来源,您可以在其中学习新方法,还可以在需要重新访问修改变量所需的技术和代码。

本课程由一位在金融和保险领域使用机器学习经验的首席数据科学家教授,他也是书籍作者和用于特征工程的 Python 开源库的首席开发人员。还有更多:

  • 该课程不断更新,以包括新的特征工程方法。
  • 笔记本会定期更新,以确保所有方法都使用最新版本的 Python 库执行,因此您的代码永远不会中断。
  • 该课程结合了视频、演示文稿和 Jupyter 笔记本来解释这些方法并展示它们在 Python 中的实现。
  • 该课程的开发历时四年,在特征工程领域不断研究,为您带来最新的技术、工具和趋势。

想知道更多?继续阅读…

这个综合的特征工程课程包含 100 多场讲座,分布在大约 10 个小时的视频中,所有主题都包括动手 Python 代码示例,您可以在自己的项目中用作参考、练习和重用。

本课程适用于谁

  • 想要学习如何预处理数据集以构建机器学习模型的数据科学家。
  • 想要学习更多机器学习特征工程技术的数据科学家。
  • 希望提高特征工程编码技能和编程实践的数据科学家。
  • 软件工程师、数学家和学者将职业转向数据科学。
  • 有兴趣在数据竞赛中尝试各种特征工程技术的数据科学家
  • 想要学习如何使用 Scikit-learn 和其他开源软件包进行特征工程的软件工程师。

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源