The Linux Foundation Projects
Delta Lake

Delta Lake 在线技术讲座

作者:Denny Lee

我们很高兴地宣布,未来几周将举办下一系列 Delta Lake 在线技术讲座。这将是一系列有趣的技术讲座,包含现场演示和问答环节。快来了解一下吧!

使用 Delta Lake 和 MLflow 为数据科学准备数据

2020 年 2 月 27 日 | 上午 9

点(太平洋时间) 立即观看!

在规划数据科学计划时,必须对整个数据分析领域采取整体视图。数据工程是数据科学的关键推动者,有助于及时提供可靠、高质量的数据。Delta Lake 是一种开源存储层,可为数据湖带来可靠性,有助于将数据可靠性提升到新的水平。在本期讲座中,您将学习到:

  • 数据科学生命周期
  • 数据工程对数据科学成功的​​重要性
  • 现代数据工程的关键原则
  • Delta Lake 如何帮助为分析准备可靠数据
  • 采用 Delta Lake 为数据湖提供支持的简易性
  • 如何将 Delta Lake 整合到您的数据基础设施中以实现数据科学

超越 Lambda:引入 Delta 架构

2020 年 3 月 5 日 | 上午 9

点(太平洋时间) 立即观看!

Lambda 架构是一种流行的技术,其中记录由批处理系统和流处理系统并行处理。然后,在查询时将结果组合起来以提供完整的答案。处理旧事件和最近生成的事件的严格延迟要求使这种架构广受欢迎。这种架构的主要缺点是管理两个不同系统的开发和运营开销。过去曾尝试将批处理和流处理统一到一个系统中。然而,组织在这些尝试中并没有那么成功。但是,随着 Delta Lake 的出现,我们看到许多客户正在采用简单的连续数据流模型来处理数据到达时的数据。我们将这种架构称为 Delta 架构。在本期讲座中,我们将介绍采用连续数据流模型的主要瓶颈以及 Delta 架构如何解决这些问题。

使用 Delta Lake 简化和扩展数据工程管道

2020 年 3 月 12 日 | 上午 10

点(太平洋时间) 立即观看!

一种常见的数据工程管道架构使用与不同质量级别相对应的表,逐步向数据添加结构:数据摄取(“青铜”表)、转换/特征工程(“白银”表)以及机器学习训练或预测(“黄金”表)。我们将这些表统称为“多跳”架构。它允许数据工程师构建一个以原始数据作为“单一事实来源”的管道,所有数据都从该管道流出。在本期讲座中,我们将展示如何使用 Delta Lake 构建可扩展的数据工程数据管道。Delta Lake 是一种开源存储层,可为数据湖带来可靠性。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并统一流处理和批处理数据。它在您现有的数据湖之上运行,并与 Apache Spark API 完全兼容。在本期讲座中,您将学习到:

  • 数据工程管道架构
  • 数据工程管道场景
  • 数据工程管道最佳实践
  • Delta Lake 如何增强数据工程管道
  • 采用 Delta Lake 构建数据工程管道的简易性

3 月 26 日开始,加入我们观看 Delta Lake 内部在线技术讲座系列