Salesforce 工程部:Delta Lake 技术讲座系列
作者:Denny Lee
我们很高兴宣布 Salesforce 工程部将于 2021 年 3 月和 4 月举办 Delta Lake 技术讲座系列。
第一部分:交互活动 Delta Lake
立即观看 | 2021 年 3 月 18 日上午 10 点(太平洋夏令时)
在第一部分中,我们将讨论他们如何构建交互活动 Delta Lake,以支持 Einstein Analytics 创建强大的报告和仪表板,以及支持 Sales Cloud Einstein 训练机器学习模型。在 Salesforce,他们的客户正在使用 高速销售 来智能地转化潜在客户并创造新的商机。为了支持它,我们构建了交互活动平台,使用 Delta Lake 自动捕获和存储用户交互活动,Delta Lake 是支持 Einstein Analytics 创建强大报告和仪表板以及 Sales Cloud Einstein 训练机器学习模型的关键组件之一。我们将包括:
- 摄取数据
- 增量读取
- 支持跨表的精确一次写入
- 处理具有级联更改的突变
- 在数据湖中规范化表
为准备本次会议提供更多背景信息,请参阅 交互活动 Delta Lake。
第二部分:通过数据跳过和 Z 排序提升 Delta Lake 性能
立即观看 | 2021 年 4 月 1 日上午 9 点(太平洋夏令时)
在构建数据湖时,分区策略是最关键的决策之一。优化程度较低的数据分区策略可能会生成小文件,从而损害读写性能。除了传统的基于文件的分区和分区剪枝之外,Databricks 还提供了另一种选项: 数据跳过和 Z 排序 以及 I/O 剪枝和文件压缩。在本次讲座中,我们将分享在构建 Engagement Delta Lake 时我们分区策略的演变思路。我们将使用这个真实世界的用例,详细阐述我们为何以及如何利用数据跳过和 Z 排序来提升 Delta Lake 的性能。
为准备本次会议提供更多背景信息,请参阅 通过数据跳过和 Z 排序提升 Delta Lake 性能。
第三部分:Delta Lake 中的全局同步和排序
立即观看 | 2021 年 4 月 15 日上午 9 点(太平洋夏令时)
Delta Lake 提供的一项重要功能是 ACID 事务。当多个独立的写入流修改同一个 Delta 表时,此功能对于维护数据完整性至关重要。在实际运行中,我们观察到频繁的 冲突提交 错误,导致我们的管道失败。我们意识到,虽然 ACID 事务 维护数据完整性,但没有解决写入冲突的机制。在本次讲座中,我们分享了一个解决方案,以确保多个并发写入共享 Delta Lake 的进程流的全局同步和排序。通过这种机制,我们通过消除 冲突提交 错误并维护数据完整性,大大提高了管道的稳定性。
为准备本次会议提供更多背景信息,请参阅 Delta Lake 中的全局同步和排序。
第四部分:Delta Lake 的持续集成和持续交付
立即观看 | 2021 年 4 月 29 日上午 9 点(太平洋夏令时)
当我们在 Databricks Workspace 上构建 Engagement Delta Lake 时,其中一个挑战是如何在 CI/CD 管道中自动化 Spark 作业的集成测试。我们提出了两种设计来解决这个挑战:命名空间部署和基于场景的测试。在本次讲座中,我们将讨论这两种设计的基本原理和实现。
演讲者
Zhidong Ke Salesforce 软件工程师 PMTS Zhidong 热衷于设计分布式系统、实时/批处理数据处理以及构建应用程序。
Heng Zhang Salesforce 软件工程师 PMTS Heng 是一位软件工程师,对微服务、分布式系统和大数据感兴趣并专长于此。
小组成员
Aaron Zhang Salesforce 软件工程 PMTS Aaron 是一位经验丰富的软件工程负责人,对基于微服务的安全、容错、高吞吐量系统的工程设计感兴趣并专注于此。
Yifeng Liu Salesforce 软件工程师 LMTS Yifeng 是一位在大数据处理和分布式系统方面拥有丰富经验的软件工程师,对高吞吐量、高复杂性、低延迟数据管道和框架构建感兴趣。
Craig Ng Databricks 解决方案架构师
Chris Hoshino-Fish Databricks 高级解决方案架构师
Denny Lee Databricks 资深开发者倡导者