Salesforce 工程部：Delta Lake 技术讲座系列

我们很高兴宣布 Salesforce 工程部将于 2021 年 3 月和 4 月举办 Delta Lake 技术讲座系列。

第一部分：交互活动 Delta Lake

立即观看 | 2021 年 3 月 18 日上午 10 点（太平洋夏令时）

在第一部分中，我们将讨论他们如何构建交互活动 Delta Lake，以支持 Einstein Analytics 创建强大的报告和仪表板，以及支持 Sales Cloud Einstein 训练机器学习模型。在 Salesforce，他们的客户正在使用高速销售来智能地转化潜在客户并创造新的商机。为了支持它，我们构建了交互活动平台，使用 Delta Lake 自动捕获和存储用户交互活动，Delta Lake 是支持 Einstein Analytics 创建强大报告和仪表板以及 Sales Cloud Einstein 训练机器学习模型的关键组件之一。我们将包括：

摄取数据
增量读取
支持跨表的精确一次写入
处理具有级联更改的突变
在数据湖中规范化表

为准备本次会议提供更多背景信息，请参阅交互活动 Delta Lake。

第二部分：通过数据跳过和 Z 排序提升 Delta Lake 性能

立即观看 | 2021 年 4 月 1 日上午 9 点（太平洋夏令时）

在构建数据湖时，分区策略是最关键的决策之一。优化程度较低的数据分区策略可能会生成小文件，从而损害读写性能。除了传统的基于文件的分区和分区剪枝之外，Databricks 还提供了另一种选项：数据跳过和 Z 排序以及 I/O 剪枝和文件压缩。在本次讲座中，我们将分享在构建 Engagement Delta Lake 时我们分区策略的演变思路。我们将使用这个真实世界的用例，详细阐述我们为何以及如何利用数据跳过和 Z 排序来提升 Delta Lake 的性能。

为准备本次会议提供更多背景信息，请参阅通过数据跳过和 Z 排序提升 Delta Lake 性能。

第三部分：Delta Lake 中的全局同步和排序

立即观看 | 2021 年 4 月 15 日上午 9 点（太平洋夏令时）

Delta Lake 提供的一项重要功能是 ACID 事务。当多个独立的写入流修改同一个 Delta 表时，此功能对于维护数据完整性至关重要。在实际运行中，我们观察到频繁的冲突提交错误，导致我们的管道失败。我们意识到，虽然 ACID 事务维护数据完整性，但没有解决写入冲突的机制。在本次讲座中，我们分享了一个解决方案，以确保多个并发写入共享 Delta Lake 的进程流的全局同步和排序。通过这种机制，我们通过消除冲突提交错误并维护数据完整性，大大提高了管道的稳定性。

为准备本次会议提供更多背景信息，请参阅 Delta Lake 中的全局同步和排序。

第四部分：Delta Lake 的持续集成和持续交付

立即观看 | 2021 年 4 月 29 日上午 9 点（太平洋夏令时）

当我们在 Databricks Workspace 上构建 Engagement Delta Lake 时，其中一个挑战是如何在 CI/CD 管道中自动化 Spark 作业的集成测试。我们提出了两种设计来解决这个挑战：命名空间部署和基于场景的测试。在本次讲座中，我们将讨论这两种设计的基本原理和实现。

演讲者

Zhidong Ke Salesforce 软件工程师 PMTS Zhidong 热衷于设计分布式系统、实时/批处理数据处理以及构建应用程序。

Heng Zhang Salesforce 软件工程师 PMTS Heng 是一位软件工程师，对微服务、分布式系统和大数据感兴趣并专长于此。

小组成员

Aaron Zhang Salesforce 软件工程 PMTS Aaron 是一位经验丰富的软件工程负责人，对基于微服务的安全、容错、高吞吐量系统的工程设计感兴趣并专注于此。

Yifeng Liu Salesforce 软件工程师 LMTS Yifeng 是一位在大数据处理和分布式系统方面拥有丰富经验的软件工程师，对高吞吐量、高复杂性、低延迟数据管道和框架构建感兴趣。

Craig Ng Databricks 解决方案架构师

Chris Hoshino-Fish Databricks 高级解决方案架构师

Denny Lee Databricks 资深开发者倡导者