在课程中,我们将使用 Xetra 数据集。Xetra 代表交易所电子交易,它是德意志交易所集团的交易平台。该数据集从德意志交易所的交易系统中逐分钟派生,并保存在 AWS S3 存储桶中,免费向公众开放。
我们将要创建的 ETL 管道将按计划从 AWS S3 源存储桶中提取 Xetra 数据集,使用转换创建报告并将转换后的数据加载到另一个 AWS S3 目标存储桶。
管道将以一种可以轻松部署到几乎任何可以处理容器化应用程序的生产环境的方式编写。我们要为其编写 ETL 管道的生产环境包括一个 GitHub 代码存储库、一个 DockerHub 图像存储库、一个执行平台(例如 Kubernetes)和一个编排工具(例如容器原生 Kubernetes 工作流引擎 Argo Workflows 或 Apache Airflow)。
那么在课程中你能期待什么?
您将主要收到实用的交互式课程,您必须在需要时编码和实施管道和理论课程。此外,您将获得课程材料中每节课的 Python 代码、GitHub 上的整个项目以及 Docker Hub 上带有应用程序代码的随时可用的 docker 镜像。
每个理论课程都有可供下载的幻灯片,以及每个主题和步骤的有用链接,您可以在其中找到更多信息,甚至可以进行更深入的研究。
本课程将展示使用 Python 3.9、Jupyter Notebook、Git 和 Github、Visual Studio Code、Docker 和 Docker Hub 以及 Python 包 Pandas、boto3、 pyyaml、awscli、jupyter、pylint、moto、coverage 和内存分析器。
您将学到什么:
如何用 Python 编写专业的 ETL管道。
编写生产级 Python 代码的步骤。
如何在数据工程中应用函数式编程。
如何进行适当的面向对象代码设计。
如何使用元文件进行作业控制。
在 ETL/数据工程中为 Python 编码最佳实践。
如何在 Python 中实现流水线从 AWS S3 源提取数据,转换数据并将其加载到另一个 AWS S3 目标。
本课程适用于
希望使用 Python 编写专业的生产就绪数据管道的数据工程师、科学家和开发人员。
每个对用 Python 编写准备用于生产的数据管道感兴趣的人。
MP4 | Video: h264, 1280×720 | Audio: AAC, 44.1 KHz, 2 Ch
Genre: eLearning | Language: English + srt | Duration: 78 lectures (7h 3m) | Size: 2.43 GBLearn how to write professional ETL pipelines using best practices in Python and Data Engineering