在 Databricks 平台上的 Apache Spark
Apache Spark 在 Databricks 上 | Databricks 在 AWS 上 [截至 2022/10/25] 的译文。
在本书中,将介绍Apache Spark、Databricks和Databricks Lakehouse平台之间的关系。
Apache Spark是Databricks Lakehouse平台的核心,它是增強平台計算集群和SQL數據倉儲的技術。Databricks是一個專為Apache Spark優化的平台,提供高效且簡單的平台來執行Apache Spark的工作負載。
Apache Spark和Databricks之间有什么样的关系?
Databricks是由Apache Spark的原始创作者创立的公司。Apache Spark作为一个开源软件项目,吸引了包括Databricks在内的众多顶级公司的贡献者。
在Databricks中,我们持续开发和发布Apache Spark的功能。Databricks运行时包含专门的功能和基于Apache Spark的优化版本(名为Photon),这是一个使用C++重新构建的优化版本的Apache Spark的扩展版。
在Databricks上,Apache Spark是如何运行的?
在使用Databricks部署计算集群或SQL数据仓库时,始终会将Apache Spark配置和部署到虚拟机上。由于由Databricks进行管理,因此无需担心Spark上下文或Spark会话的配置和初始化。
不使用Apache Spark能否使用Databricks?
在Databricks中,我们支持多种工作负载,并且Databricks运行时包含大量的开源库。Databricks SQL在内部使用Apache Spark,但最终用户可以使用标准的SQL语法来查询数据库对象。
在 Databricks 上,Databricks 机器学习运行时经过优化,许多数据科学家在使用 Databricks 进行工作时会使用主要的开源库,如 TensorFlow 和 SciKit Learn。通过使用工作流程,可以利用 Databricks 提供的计算资源进行部署和管理,并安排任何工作负载的调度。
为什么Databricks会使用Apache Spark?
Databricks Lakehouse平台提供了一个安全且协作的环境,用于开发和部署能够扩展您业务的企业级解决方案。Databricks的员工大部分是Apache Spark的最有知识的维护者和全球用户。我们持续开发和发布新的优化方案,以确保用户能够在最快速的环境中使用Apache Spark。
Databricks 免费试用
Databricks 免费试用