欢迎学习《Python大数据处理PySpark项目实战开发完整视频教程》课程,你将通过数百个实际示例深入学习 PySpark,掌握Hadoop 集群设置,成为一名全职 PySpark 开发员。
类型:在线学习 | MP4 | 视频:h264, 1280×720 | 音频:AAC,44.1 KHz
语言:英语 | 大小:7.15 GB | 时长:29h 1m
你会学到什么
成功的 PySpark 开发人员的完整课程
Hadoop 单节点集群 设置并与 Spark 2.x 和 Spark 3.x 集成
PySpark 的完整安装流程(Windows 和 Unix)
详细的 HDFS 课程
Python速成课程
Spark 介绍
了解 SparkSession
Spark RDD 基础,操作,持久性。解决问题的实际例子。
Spark 集群架构——执行、YARN、JVM 进程、DAG 调度器、任务调度器
Spark 共享变量
Spark SQL 架构、催化剂优化器、火山迭代器模型、Tungsten 执行引擎
DataFrame 基础数据
帧行、列和数据类型。实际例子。
ETL 使用 DataFrame(提取 API、转换 API 和加载 API)。实际例子。
优化和管理——加入策略、驱动程序配置、执行程序配置等
描述
这是一个完整的 PySpark 开发人员课程,适用于数据工程师和数据科学家以及其他想要以有效方式处理大数据的人。我们将涵盖以下主题和更多
成功的 PySpark 开发人员的完整课程
设置 Hadoop 单节点集群并将其与 Spark 2.x 和 Spark 3.x 集成
独立 PySpark(Unix 和 Windows 操作系统)的完整安装流程
详细的 HDFS 命令和架构。
Python速成课程
Spark 简介(为什么开发 Spark、Spark 特性、Spark 组件)
了解 SparkSession
Spark RDD 基础
如何创建 RDD
RDD 操作(转换和操作)
Spark 集群架构——执行、YARN、JVM 进程、DAG 调度器、任务调度器
RDD 持久化
Spark 共享变量 – 广播
Spark 共享变量 – 累加器)
Spark SQL 架构、Catalyst 优化器、Volcano 迭代器模型、Tungsten 执行引擎、不同的基准测试
Catalyst Optimizer 和 Volcano Iterator 模型的区别
Spark常用函数——Version、range、createDataFrame、sql、table、SparkContext、conf、read、udf、newSession、stop、catalog等
DataFrame 内置函数——新的列函数、加密函数、字符串函数、regexp 函数、日期函数、null 函数、集合函数、na 函数、数学和统计函数、explode 函数、flatten 函数、格式化和 json 函数
什么是分区,
什么是重新分区
什么是聚结
重新分区与合并
提取 – csv 文件、文本文件、Parquet 文件、orc 文件、json 文件、avro 文件、hive、jdbc
数据帧基础
什么是数据帧
数据帧源
数据帧功能
数据框组织
数据帧行,
数据框列
数据类型。实际例子。
使用 DataFrame 执行 ETL
— 提取 API
– 转换 API
— 加载 API
— 实际例子。
优化和管理——加入策略、驱动程序配置、并行配置、执行程序配置等
本课程适用于谁
任何愿意学习 PySpark 等高级大数据技术的 IT 专业人士。
想学习 Spark 的 Python 开发者。
数据工程师和数据科学家。