类型:在线学习| MP4 | 视频:h264,1280×720 | 音频:aac,48000 Hz
语言:英语| VTT | 大小:7.43 GB | 片长:16小时
您将学到的知识
在分布式框架(Apache Spark)上将Python与大数据结合使用
在现实的咨询项目上使用REAL数据集可以
通过大数据实际解决实际问题,并通过MLflowTheory 集成UI来监视模型训练和开发过程数据科学算法的研究和应用,
在Python中使用Spark操纵,连接和聚合数据帧
了解如何将Spark的机器学习技术应用于分布式数据帧
交叉验证和超参数调整
频繁模式挖掘技术
分类和回归技术
用于自然语言处理的数据处理
方法在Spark中编写SQL查询
要求
熟悉Python是有帮助的,但不是必需的。
数据科学的某些背景是有帮助的,但不是必需的。
说明
本课程适用于希望使用REAL WORLD数据集在PySpark(适用于Apache Spark的Python)中进行实践培训的数据科学家(或有抱负的数据科学家)以及您每天将用作数据科学家的适用编码知识!通过注册本课程,您将获得超过100堂讲座,数百个示例问题和测验以及100,000多行代码的访问权限!
在本课程结束之前,我将根据您作为数据科学家为美国国税局(IRS)等客户提供的数据科学家的咨询经验,为您准备成为Pyspark专家所需的基本知识。劳工部和美国退伍军人事务部。
我已经为实际应用程序组织了讲座和编码练习,因此您可以了解PySpark在实际工作中是如何使用的。我们还将深入研究我编写的MYSELF自定义函数,以使您快速入门和运行MLlib API,并轻松开始构建机器学习模型!我们还将介绍MLflow,这将有助于我们在自定义用户界面中管理和跟踪模型训练和评估过程,从而使您在工作市场上更具竞争力!
每个部分都将提供概念复习讲座以及活动结构化问题集的代码,以帮助您将所学知识付诸实践,并在遇到问题时解决每个问题。此外,每个部分都提供了带有AUTHENTIC数据集的真实世界咨询项目,以帮助您思考如何应用我们涵盖的每个概念。
最后,我编写了一些浓缩的复习笔记本和所有课程内容的讲义,以使您日后参考时非常容易。一旦您在PySpark中进行了首次工作编程,这将非常有用!
我等不及要在讲座上见到你!我真的希望您喜欢这门课程!我将在第一堂课中见!
本课程的目标读者:
有兴趣学习PySpark的数据科学家PySpark开发人员希望增强其编码技能
需要与大数据合作的Python开发人员要与大数据合作的
数据科学家