The Linux Foundation Projects
Delta Lake

深入探索 Delta Lake 在线技术讲座系列

作者:Denny Lee

在下一系列的 Delta Lake 在线技术讲座中,我们很高兴通过“深入探索 Delta Lake 系列”来深入探讨其内部原理。这将是一系列充满乐趣的技术讲座,包括现场演示和问答环节。快来了解一下吧!

深入探索 Delta Lake:剖析事务日志

2020 年 3 月 26 日 | 上午 9

点太平洋时间 立即观看!

事务日志是理解 Delta Lake 的关键,因为它是许多最重要的功能(包括 ACID 事务、可扩展的元数据处理、时间旅行等)的共同主线。在本节中,我们将探讨 Delta Lake 事务日志是什么、它在文件级别如何工作,以及它如何为多个并发读写问题提供优雅的解决方案。在此网络研讨会中,您将了解到

  • 什么是 Delta Lake 事务日志
  • 事务日志的用途是什么?
  • 事务日志如何工作?
  • 在文件级别查看 Delta Lake 事务日志
  • 处理多个并发读写
  • Delta Lake 事务日志如何解决其他用例,包括时间旅行、数据沿袭和调试

演讲者

Burak Yavuz Databricks 高级软件工程师 Burak Yavuz 是 Databricks 的软件工程师。他自 Spark 1.1 起就开始为 Spark 做贡献,并且是 Spark Packages 的维护者。Burak 在伊斯坦布尔博阿济奇大学获得机械工程学士学位,并在斯坦福大学获得管理科学与工程硕士学位。

Denny Lee Databricks 开发人员倡导者 Denny Lee 是 Databricks 的开发人员倡导者。他是一位经验丰富的分布式系统和数据科学工程师,在为本地和云环境开发互联网规模的基础设施、数据平台和预测分析系统方面拥有丰富的经验。他还拥有俄勒冈健康与科学大学的生物医学信息学硕士学位,并为企业医疗保健客户设计和实施了强大的数据解决方案。他目前的技术重点包括分布式系统、Apache Spark、深度学习、机器学习和基因组学。

深入探索 Delta Lake:Schema 强制和演进

2020 年 4 月 2 日 | 上午 9

点太平洋时间 立即观看!

数据,就像我们的经验一样,总是在不断演变和积累。为了跟上步伐,我们对世界的思维模型必须适应新数据,其中一些数据包含新的维度——我们以前从未设想过的新视角。这些思维模型与表的模式(schema)并无二致,定义了我们如何分类和处理新信息。

这引出了模式管理。随着业务问题和需求的不断演变,数据的结构也在不断变化。有了 Delta Lake,随着数据的变化,合并新的维度变得容易。用户可以使用简单的语义来控制表的模式。这些工具包括模式强制,它可以防止用户意外地用错误或垃圾数据污染他们的表,以及模式演进,它使他们能够在需要时自动添加丰富数据的新列。在本次网络研讨会中,我们将深入探讨这些工具的使用。在本次网络研讨会中,您将了解到

  • 理解表模式和模式强制
  • 模式强制如何工作?
  • 模式强制有何用处?
  • 防止数据稀释
  • 模式演进如何工作?
  • 模式演进有何用处?

演讲者

Andreas Neumann Databricks 资深软件工程师 Andreas Neumann 是 Databricks 的软件工程师,专注于结构化流和 Delta Lake。他此前曾在 Google、Cask Data、Yahoo! 和 IBM 构建过大数据系统。Andreas 拥有德国特里尔大学的计算机科学博士学位。

Denny Lee Databricks 开发人员倡导者 Denny Lee 是 Databricks 的开发人员倡导者。他是一位经验丰富的分布式系统和数据科学工程师,在为本地和云环境开发互联网规模的基础设施、数据平台和预测分析系统方面拥有丰富的经验。他还拥有俄勒冈健康与科学大学的生物医学信息学硕士学位,并为企业医疗保健客户设计和实施了强大的数据解决方案。他目前的技术重点包括分布式系统、Apache Spark、深度学习、机器学习和基因组学。

深入探索 Delta Lake:DML 内部机制

2020 年 4 月 16 日 | 上午 9

点太平洋时间 立即观看!

在之前的 Delta Lake 内部机制网络研讨会系列中,我们描述了 Delta Lake 事务日志如何工作。在本次研讨会中,我们将深入探讨在执行删除、更新、合并和结构化流时,提交、快照隔离以及分区和文件如何变化。在此网络研讨会中,您将了解到

  • Delta Lake 事务日志快速入门
  • 了解运行 DELETE、UPDATE 和 MERGE 时的基本原理
  • 了解执行这些任务时所执行的操作
  • 了解 Delta Lake 中分区修剪的基础知识
  • 流式查询如何在 Delta Lake 中工作

演讲者

Tathagata Das Databricks 资深软件工程师 Tathagata Das 是 Apache Spark 的贡献者和 PMC 成员。他是 Spark Streaming 的主要开发者,目前正在开发 Structured Streaming。此前,他曾是加州大学伯克利分校 AMPLab 的研究生,与 Scott Shenker 和 Ion Stoica 一起研究数据中心框架和网络。

Denny Lee Databricks 开发人员倡导者 Denny Lee 是 Databricks 的开发人员倡导者。他是一位经验丰富的分布式系统和数据科学工程师,在为本地和云环境开发互联网规模的基础设施、数据平台和预测分析系统方面拥有丰富的经验。他还拥有俄勒冈健康与科学大学的生物医学信息学硕士学位,并为企业医疗保健客户设计和实施了强大的数据解决方案。他目前的技术重点包括分布式系统、Apache Spark、深度学习、机器学习和基因组学。