The Linux Foundation Projects
Delta Lake

Salesforce 工程部:Delta Lake 技术讲座系列

作者:Denny Lee

我们很高兴宣布 Salesforce 工程部将于 2021 年 3 月和 4 月举办 Delta Lake 技术讲座系列。

第一部分:交互活动 Delta Lake

立即观看 | 2021 年 3 月 18 日上午 10 点(太平洋夏令时)

在第一部分中,我们将讨论他们如何构建交互活动 Delta Lake,以支持 Einstein Analytics 创建强大的报告和仪表板,以及支持 Sales Cloud Einstein 训练机器学习模型。在 Salesforce,他们的客户正在使用 高速销售 来智能地转化潜在客户并创造新的商机。为了支持它,我们构建了交互活动平台,使用 Delta Lake 自动捕获和存储用户交互活动,Delta Lake 是支持 Einstein Analytics 创建强大报告和仪表板以及 Sales Cloud Einstein 训练机器学习模型的关键组件之一。我们将包括:

  • 摄取数据
  • 增量读取
  • 支持跨表的精确一次写入
  • 处理具有级联更改的突变
  • 在数据湖中规范化表

为准备本次会议提供更多背景信息,请参阅 交互活动 Delta Lake

第二部分:通过数据跳过和 Z 排序提升 Delta Lake 性能

立即观看 | 2021 年 4 月 1 日上午 9 点(太平洋夏令时)

在构建数据湖时,分区策略是最关键的决策之一。优化程度较低的数据分区策略可能会生成小文件,从而损害读写性能。除了传统的基于文件的分区和分区剪枝之外,Databricks 还提供了另一种选项: 数据跳过和 Z 排序 以及 I/O 剪枝和文件压缩。在本次讲座中,我们将分享在构建 Engagement Delta Lake 时我们分区策略的演变思路。我们将使用这个真实世界的用例,详细阐述我们为何以及如何利用数据跳过和 Z 排序来提升 Delta Lake 的性能。

为准备本次会议提供更多背景信息,请参阅 通过数据跳过和 Z 排序提升 Delta Lake 性能

第三部分:Delta Lake 中的全局同步和排序

立即观看 | 2021 年 4 月 15 日上午 9 点(太平洋夏令时)

Delta Lake 提供的一项重要功能是 ACID 事务。当多个独立的写入流修改同一个 Delta 表时,此功能对于维护数据完整性至关重要。在实际运行中,我们观察到频繁的 冲突提交 错误,导致我们的管道失败。我们意识到,虽然 ACID 事务 维护数据完整性,但没有解决写入冲突的机制。在本次讲座中,我们分享了一个解决方案,以确保多个并发写入共享 Delta Lake 的进程流的全局同步和排序。通过这种机制,我们通过消除 冲突提交 错误并维护数据完整性,大大提高了管道的稳定性。

为准备本次会议提供更多背景信息,请参阅 Delta Lake 中的全局同步和排序

第四部分:Delta Lake 的持续集成和持续交付

立即观看 | 2021 年 4 月 29 日上午 9 点(太平洋夏令时)

当我们在 Databricks Workspace 上构建 Engagement Delta Lake 时,其中一个挑战是如何在 CI/CD 管道中自动化 Spark 作业的集成测试。我们提出了两种设计来解决这个挑战:命名空间部署和基于场景的测试。在本次讲座中,我们将讨论这两种设计的基本原理和实现。

演讲者

Zhidong Ke Salesforce 软件工程师 PMTS Zhidong 热衷于设计分布式系统、实时/批处理数据处理以及构建应用程序。

Heng Zhang Salesforce 软件工程师 PMTS Heng 是一位软件工程师,对微服务、分布式系统和大数据感兴趣并专长于此。

小组成员

Aaron Zhang Salesforce 软件工程 PMTS Aaron 是一位经验丰富的软件工程负责人,对基于微服务的安全、容错、高吞吐量系统的工程设计感兴趣并专注于此。

Yifeng Liu Salesforce 软件工程师 LMTS Yifeng 是一位在大数据处理和分布式系统方面拥有丰富经验的软件工程师,对高吞吐量、高复杂性、低延迟数据管道和框架构建感兴趣。

Craig Ng Databricks 解决方案架构师

Chris Hoshino-Fish Databricks 高级解决方案架构师

Denny Lee Databricks 资深开发者倡导者