使用Delta Live Tables和Unity Catalog构建受控管道
用Delta Live Tables和Unity Catalog构建受管理的流水线。
我很高兴能够宣布Delta Live Tables(DLT)在Unity Catalog中的公共预览。通过这个预览,所有数据团队都可以定义和执行与Delta Live Tables生成的数据资产相关的详细数据治理策略。我们将为数据工程流程引入Unity Catalog的功能:您可以与其他Unity Catalog资产一起管理和控制流程和Delta Live Tables。
通过Delta Live Tables和Unity Catalog的革新,实现了数据工程的变革。
Unity Catalog是一种针对Lakehouse架构设计的综合数据治理解决方案。像S3、ADLS、GCS这样的数据湖由于其可扩展性和成本效益而在存储和处理海量数据方面非常受欢迎。然而,在数据湖中进行治理管理是一项困难的任务。Unity Catalog通过使用标准的ANSI SQL和用户友好的用户界面,提供精细的数据权限控制,以解决这个问题。通过这种方式,企业可以管理行、列和视图级别的权限,提供对数据访问的控制,并确保遵守数据治理政策。Unity Catalog不仅支持表管理,还扩展到其他类型的数据资产,包括ML模型和文件。通过这样做,企业可以从集中管理的平台上控制其所有数据和AI资产。
Delta Live Tables是在Databricks上提供的強大的ETL(Extract,Transform,Load)框架。通过它,数据工程师和分析师可以构建高效可靠的数据管道,处理流式和批处理工作负载。DLT使用户能够使用SQL和Python以声明性的方式表示数据管道,从而简化ETL开发。通过这种声明性的方法,消除了手动连接代码的需求,使得数据管道的开发、测试、部署和运营更加顺利。此外,DLT还通过处理集群大小、协调、错误处理和性能优化等繁琐的任务来自动化基础设施管理。通过自动化这些操作任务,数据工程师可以专注于数据转换处理,并从他们的数据中获取有价值的见解。
使用经过数据整流化的工程过程,将端对端数据治理整合起来。
通过结合Unity Catalog和Delta Live Tables的优势,企业可以实现端到端的数据治理,并使其数据工程流程更加顺畅。通过这种集成,数据团队可以遵守在Unity Catalog中定义的治理策略,并使用Delta Live Tables来开发和执行数据管道。通过这种无缝的互操作性,可以实现数据工程师、分析师和治理团队之间的高效协作,并确保数据资产在整个数据生命周期中得到适当的控制、保护和合规性。Unity Catalog和Delta Live Tables的联合使用,企业既能保持数据治理和安全性的最高标准,又能发挥其数据湖架构的全部潜力。

Block(以前的Square)是此集成初期预览项目的客户之一。作为他们企业数据平台上的Delta实时表格的早期采纳者,Block对他们可以通过利用自己的DLT管道和Unity目录获得的巨大潜力感到兴奋。
「我们对Delta Live Tables和Unity Catalog的整合感到非常兴奋。通过这种整合,我们能够对自己的DLT管道数据进行治理和自动化,同时满足敏感数据和安全需求。由于我们正在实时处理数百万事件,这对我们在风险建模和欺诈检测等业务应用方面开启了潜力和增强的大门。」— 张跃,高级软件工程师,Block
在Delta Live Tables中,如何启用UC?
在创建Delta Live Table管道时,通过UI选择Destination选项中的Unity Catalog。

如何运用DLT和UC?
从任意来源加载:Hive元存储和Unity目录的表、流媒体源。
Unity Catalog + Delta Live Tables 将扩展 DLT 管道的能力,以从各种来源读取数据。DLT + Unity Catalog 管道可以从以下位置进行读取。
-
- Unity Catalogのマネージドテーブルと外部テーブル
-
- Hiveメタストアのテーブルとビュー
-
- ストリーミングソース(Apache KafkaやAmazon Kinesis)
- Databricks Auto Loaderやcloud_files()を用いてクラウドオブジェクトストレージから読み込み
例如,某家企业希望分析跨多个渠道的客户互动。他们可以利用DLT来捕获并处理来自各种源的数据,例如存储在Hive元数据存储表中的客户互动日志,来自Kafka的实时流数据,以及来自UC管理表的数据。通过这些数据源的组合,他们能够提供客户互动的全面视图,并产生有价值的洞察和分析。
对DLT发布的表格进行精细的访问控制
Unity Catalog通过细致的访问控制,帮助管道创建者轻松管理对实时表的访问。作为DLT管道开发人员,您将完全控制谁可以访问目录中特定的实时表。
可以通过简单的ANSI SQL命令来允许或取消元数据存储库中组的访问权限。
GRANT SELECT ON TABLE
my_catalog.my_schema.live_table
TO
finance_users;
例如,您可以在UC中创建一个用于存储敏感客户数据的活动表,并且可以选择性地授予数据分析师或数据科学家在特定表上进行操作的访问权限。通过使用像GRANT SELECT ON TABLE这样的SQL命令,您可以指定精确的访问级别,以便为数据探索和分析提供安全和受控的环境。
您的公司需要强制进行物理数据分离。
对于许多企业来说,数据分离对于确保合规性和安全性非常重要。通过使用DLT和Unity Catalog,可以将数据集写入适当目录级别的存储位置,以实现物理数据分离的纠正。
通过这种功能,您可以根据企业需求将数据集单独存储在与每个目录相关联的单独存储位置中,并进行管理。这个功能可以确保敏感数据继续分离,并与其他数据集隔离,为数据治理和合规提供坚实的基础。
请继续等待相关消息!
为了提供比以往更牢固、更安全、更无缝的数据工程体验,我们将不断增强Delta Live Tables(DLT)和Unity Catalog(UC)的功能。我们将持续加强DLT和UC之间的整合,并在保持一流的治理和安全性的同时,最大化您的数据湖仓库架构的潜力。
我们立即试试吧。
建议您立即尝试 Delta Live Tables 和 Unity Catalog,亲身体验它们的强大功能。
请尝试使用Unity Catalog中的Delta Live Tables,或者查看文档(AWS | Azure)。
Databricks快速启动指南
Databricks快速入门指南
数据脑免费试用
發展信芯免費試用