| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Databricks文档01----Azure Databricks初探 -> 正文阅读 |
|
[大数据]Databricks文档01----Azure Databricks初探 |
Azure Databricks 是一个已针对 Microsoft Azure 云服务平台进行优化的数据分析平台。Azure Databricks 提供了三种用于开发数据密集型应用程序的环境:
Databricks SQL 为想要针对数据湖运行 SQL 查询、创建多种可视化类型以从不同角度探索查询结果,以及生成和共享仪表板的分析员提供了一个易于使用的平台。 Databricks 数据科学 工程 提供了一个交互式工作区,可在数据工程师、数据科学家和机器学习工程师之间实现协作。 使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在分析工作流中,使用 Azure Databricks 从多个数据源读取数据,并使用 Spark 将数据转换为突破性见解。 Databricks 机器学习是一个集成式端到端机器学习环境,其中整合了用于试验跟踪、模型训练、特征开发和管理以及特征与模型传送的托管服务。 若要选择环境,启动一个 Azure Databricks 工作区并使用边栏中的角色切换器: 什么是Databricks Data Science & EngineeringDatabricks Data Science & Engineering (有时只称为"工作区",) 是基于工作区的分析Apache Spark。 它与 Azure 集成,以提供一键式安装程序、简化的工作流程以及交互式工作区,从而使数据工程师、数据科学家和机器学习工程师之间可以进行协作。 使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在运行分析工作流的过程中,可以使用 Azure Databricks 从 Azure Blob 存储、Azure Data Lake Storage、Azure Cosmos DB 或 Azure SQL 数据仓库等多个数据源读取数据,并使用 Spark 将数据转化为前所未有的见解。 Apache Spark 分析平台Databricks Data Science & Engineering 包含完整的开源Apache Spark群集技术和功能。 Databricks Data Science Engineering 中的 & Spark 包括以下组件:
Azure Databricks 中的 Apache SparkAzure Databricks 构建在 Spark 功能的基础之上,提供一个无管理云平台,其中包括:
在云中完全托管的 Apache Spark 群集Azure Databricks 在云中拥有安全可靠的生产环境,由 Spark 专家进行管理和提供支持。 可以:
Databricks RuntimeDatabricks 运行时构建在 Apache Spark 的基础之上,是针对 Azure 云以原生方式构建的。 Azure Databricks 通过高度抽象化彻底消除了基础结构复杂性,无需专业知识就能设置和配置数据基础结构。 对于关注生产作业性能的数据工程师而言,Azure Databricks 通过 I/O 层和处理层 (Databricks I/O) 的各种优化提供了一个更快速、更高效的 Spark 引擎。 实现协作的工作区Databricks Data Science & Engineering 通过协作和集成环境简化了在 Spark 中浏览数据、原型制作和运行数据驱动应用程序的过程。
企业安全性Azure Databricks 提供企业级的 Azure 安全性,包括 Azure Active Directory 集成、基于角色的控制,以及可保护数据和业务的 SLA。
与 Azure 服务集成Databricks Data Science & Engineering 与 Azure 数据库和存储深度集成:Synapse Analytics、Cosmos DB、Data Lake Store和 Blob 存储。 与 Power BI 集成通过与 Power BI 的丰富集成,Databricks 数据&科学工程可让你快速轻松地发现和共享具有影响力的见解。 还可以使用其他 BI 工具,例如 Tableau 软件。 什么是 Databricks 机器学习Databricks 机器学习(预览版)是一个集成式端到端机器学习平台,其中整合了用于试验跟踪、模型训练、特征开发和管理、特征与模型传送的托管服务。 此图显示了 Databricks 的功能如何与模型开发和部署过程的各个步骤相契合。 利用 Databricks 机器学习,可以: 对于机器学习应用程序,Databricks 提供了用于机器学习的 Databricks Runtime,这是 Databricks Runtime 的一种变型,包含许多常见的机器学习库。 Databricks 机器学习特征特征存储借助特征存储,可对 ML 特征进行分类,并使其可用于训练和传送,从而提高重用性。 通过基于数据世系的特征搜索来利用自动记录的数据源,可使用无需对客户端应用程序进行更改的简化模型部署来提供特征用于训练和传送。 试验通过 MLflow 试验,可直观呈现、搜索和比较运行,还可下载运行项目和元数据,便于在其他工具中进行分析。 通过试验页面可快速访问组织中的 MLflow 试验。 可通过从 Azure Databricks 笔记本和作业中记录到这些试验来跟踪机器学习模型开发。 模型Azure Databricks 提供一种托管版本的 MLflow 模型注册表来帮助你管理 MLflow 模型的完整生命周期。 模型注册表提供按时间顺序记录的模型世系(MLflow 试验和运行在给定时间生成模型)、模型版本控制、阶段转换(例如从“暂存”到“生产”或“已存档”),以及模型事件的电子邮件通知。 你还可创建和查看模型说明,并留下注释。 自动化 ML通过 AutoML 可根据数据自动生成机器学习模型,并更快投入生产环境。 它为模型训练准备数据集,然后执行并记录一组试验,从而创建、优化和评估多个模型。 它会显示结果,并提供一个 Python 笔记本,里面有每个试验运行的源代码,使你可查看、重现和修改代码。 AutoML 还会计算数据集的汇总统计信息,并将此信息保存在稍后可查看的笔记本中。 用于机器学习的 Databricks Runtime用于机器学习的 Databricks Runtime (Databricks Runtime ML) 自动创建针对机器学习优化的群集。 Databricks Runtime ML 群集包括最常见的机器学习库,例如 TensorFlow、PyTorch、Keras 和 XGBoost,还包括分布式训练所需的库,如 Horovod。 使用 Databricks Runtime ML 可以加快群集创建速度,并确保已安装的库版本兼容。 什么是 Databricks SQL?Databricks SQL 用于对数据湖运行快速临时 SQL 查询。 查询支持多种可视化类型,有助于从不同角度探索查询结果。 云中完全托管的 SQL 终结点SQL 查询在完全托管的 SQL 终结点上运行,这些终结点的大小根据查询延迟需求和并发用户数进行了调整。 为了帮助你快速入门,每个工作区都预配置了一个小型初学者 SQL 终结点。 用于共享见解的仪表板仪表板支持合并可视化效果和文本,用于共享通过查询获取的见解。 警报可助力监视和集成查询返回的字段达到阈值时,你会收到警报。 使用警报来监视业务或将其与工具集成,以启动用户加入或支持工单等工作流。 企业安全性Databricks SQL 提供企业级的 Azure 安全性,包括 Azure Active Directory 集成、基于角色的控制,以及可保护数据和业务的 SLA。
与 Azure 服务集成Databricks SQL 与以下 Azure 数据库和存储集成:Synapse Analytics、Cosmos DB、Data Lake Store 和 Blob 存储。 与 Power BI 集成通过与 Power BI 的多样化集成,Databricks SQL 让你可以快速轻松地发现和共享有影响力的见解。 还可以使用其他 BI 工具,例如 Tableau 软件。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 7:07:40- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |