深入探索 Delta Lake 在线技术讲座系列
作者:Denny Lee
在下一系列的 Delta Lake 在线技术讲座中,我们很高兴通过“深入探索 Delta Lake 系列”来深入探讨其内部原理。这将是一系列充满乐趣的技术讲座,包括现场演示和问答环节。快来了解一下吧!
深入探索 Delta Lake:剖析事务日志
2020 年 3 月 26 日 | 上午 9
点太平洋时间 立即观看!事务日志是理解 Delta Lake 的关键,因为它是许多最重要的功能(包括 ACID 事务、可扩展的元数据处理、时间旅行等)的共同主线。在本节中,我们将探讨 Delta Lake 事务日志是什么、它在文件级别如何工作,以及它如何为多个并发读写问题提供优雅的解决方案。在此网络研讨会中,您将了解到
- 什么是 Delta Lake 事务日志
- 事务日志的用途是什么?
- 事务日志如何工作?
- 在文件级别查看 Delta Lake 事务日志
- 处理多个并发读写
- Delta Lake 事务日志如何解决其他用例,包括时间旅行、数据沿袭和调试
演讲者
Burak Yavuz Databricks 高级软件工程师 Burak Yavuz 是 Databricks 的软件工程师。他自 Spark 1.1 起就开始为 Spark 做贡献,并且是 Spark Packages 的维护者。Burak 在伊斯坦布尔博阿济奇大学获得机械工程学士学位,并在斯坦福大学获得管理科学与工程硕士学位。
Denny Lee Databricks 开发人员倡导者 Denny Lee 是 Databricks 的开发人员倡导者。他是一位经验丰富的分布式系统和数据科学工程师,在为本地和云环境开发互联网规模的基础设施、数据平台和预测分析系统方面拥有丰富的经验。他还拥有俄勒冈健康与科学大学的生物医学信息学硕士学位,并为企业医疗保健客户设计和实施了强大的数据解决方案。他目前的技术重点包括分布式系统、Apache Spark、深度学习、机器学习和基因组学。
深入探索 Delta Lake:Schema 强制和演进
2020 年 4 月 2 日 | 上午 9
点太平洋时间 立即观看!数据,就像我们的经验一样,总是在不断演变和积累。为了跟上步伐,我们对世界的思维模型必须适应新数据,其中一些数据包含新的维度——我们以前从未设想过的新视角。这些思维模型与表的模式(schema)并无二致,定义了我们如何分类和处理新信息。
这引出了模式管理。随着业务问题和需求的不断演变,数据的结构也在不断变化。有了 Delta Lake,随着数据的变化,合并新的维度变得容易。用户可以使用简单的语义来控制表的模式。这些工具包括模式强制,它可以防止用户意外地用错误或垃圾数据污染他们的表,以及模式演进,它使他们能够在需要时自动添加丰富数据的新列。在本次网络研讨会中,我们将深入探讨这些工具的使用。在本次网络研讨会中,您将了解到
- 理解表模式和模式强制
- 模式强制如何工作?
- 模式强制有何用处?
- 防止数据稀释
- 模式演进如何工作?
- 模式演进有何用处?
演讲者
Andreas Neumann Databricks 资深软件工程师 Andreas Neumann 是 Databricks 的软件工程师,专注于结构化流和 Delta Lake。他此前曾在 Google、Cask Data、Yahoo! 和 IBM 构建过大数据系统。Andreas 拥有德国特里尔大学的计算机科学博士学位。
Denny Lee Databricks 开发人员倡导者 Denny Lee 是 Databricks 的开发人员倡导者。他是一位经验丰富的分布式系统和数据科学工程师,在为本地和云环境开发互联网规模的基础设施、数据平台和预测分析系统方面拥有丰富的经验。他还拥有俄勒冈健康与科学大学的生物医学信息学硕士学位,并为企业医疗保健客户设计和实施了强大的数据解决方案。他目前的技术重点包括分布式系统、Apache Spark、深度学习、机器学习和基因组学。
深入探索 Delta Lake:DML 内部机制
2020 年 4 月 16 日 | 上午 9
点太平洋时间 立即观看!在之前的 Delta Lake 内部机制网络研讨会系列中,我们描述了 Delta Lake 事务日志如何工作。在本次研讨会中,我们将深入探讨在执行删除、更新、合并和结构化流时,提交、快照隔离以及分区和文件如何变化。在此网络研讨会中,您将了解到
- Delta Lake 事务日志快速入门
- 了解运行 DELETE、UPDATE 和 MERGE 时的基本原理
- 了解执行这些任务时所执行的操作
- 了解 Delta Lake 中分区修剪的基础知识
- 流式查询如何在 Delta Lake 中工作
演讲者
Tathagata Das Databricks 资深软件工程师 Tathagata Das 是 Apache Spark 的贡献者和 PMC 成员。他是 Spark Streaming 的主要开发者,目前正在开发 Structured Streaming。此前,他曾是加州大学伯克利分校 AMPLab 的研究生,与 Scott Shenker 和 Ion Stoica 一起研究数据中心框架和网络。
Denny Lee Databricks 开发人员倡导者 Denny Lee 是 Databricks 的开发人员倡导者。他是一位经验丰富的分布式系统和数据科学工程师,在为本地和云环境开发互联网规模的基础设施、数据平台和预测分析系统方面拥有丰富的经验。他还拥有俄勒冈健康与科学大学的生物医学信息学硕士学位,并为企业医疗保健客户设计和实施了强大的数据解决方案。他目前的技术重点包括分布式系统、Apache Spark、深度学习、机器学习和基因组学。