IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据开源框架集锦 -> 正文阅读

[大数据]大数据开源框架集锦

1 大数据平台

Hadoop

离线数据的分布式存储和计算基础框架

  • 分布式存储HDFS
  • 离线计算引擎MapReduce
  • 资源调度Apache YARN
CDH

基于稳定版Hadoop及相关项目最成型的发行版本, 成为企业部署最广泛的大数据系统

  • 可视化的UI界面中方便地管理
  • 配置和监控Hadoop以及其它所有相关组件
  • 简单来说将十几个hadoop开源项目集成在一起
HDP

基于hadoop生态系统开源组件构建的大数据分析平台

2 集群管理与监控

Cloudera Manager

用于部署和管理CDH集群的软件

Ambari

Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维

3 文件系统

HDFS

分布式文件系统

4 资源调度

YARN

hadoop的资源管理和作业调度系统

5 协调框架

Zookeeper

  • 分布式协调服务,解决分布式数据一致性方案 实现诸如数据发布
  • 订阅、负载均衡、命名、集群管理 master节点管理
  • 分布式锁和分布式队列

6 数据存储

Hbase

分布式面向列的NoSQL开源数据库

Cassandra

分布式的混合NoSQL数据库 ,还有C++版本ScyllaDB

MongDB

面向文档的开源分布式数据库

Redis

开源的支持网络,基于内存可持久化日志,key-value数据库,可用于

  • 数据库
  • 缓存
  • 消息中间件
Neo4j

开源高性能的NoSQL图形数据库

7 数据处理

MapReduce
  • 分布式离线的计算框架
  • 批处理
  • 日渐被spark和flink取代
Spark

通用的一站式计算框架

  • SparkCore批处理
  • SparkSQL交互式处理
  • SparkStreaming流处理
  • Spark Graphx图计算
  • Spark MLlib机器学习
Flink

流处理和批处理分布式数据处理框架
核心是一个流式的数据流执行引擎 类似于Spark

  • 批处理
  • 数据流处理
  • 交互处理
  • 图形处理和机器学习
Storm
  • 分布式实时大数据处理系统
  • 毫秒级别的实时数据处理能力
  • 实时分析的领导者

8 数据查询分析

Hive

基于hadoop的数据仓库,结构化

SparkSQL
  • 处理结构化数据的spark组件
  • 分布式的SQL查询引擎
Impala

实时交互SQL大数据查询引擎

Druid

实时大数据分析引擎

Elastic Search

分布式可扩展的实时搜索和分析引擎,基于Apache Lucene搜索引擎

9 数据收集

Flume

分布式海量日志采集、聚合和传输系统

Logstash

具有实时管道功能的开源数据收集引擎

10 数据交换

sqoop

数据迁移工具,用来在不同数据存储软件之间进行数据传输的开源软件

DataX

阿里巴巴开源的离线数据同步工具,用于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步

11 消息系统

Pulsar

企业级分布式消息系统,有替代Kafka的趋势

Kafka

发布/订阅的消息系统,由Scala写成

RocketMQ

阿里巴巴分布式、队列模型的消息中间件

12 任务调度

Azkaban

批量工作流任务调度器,将所有正在运行的工作流的状态保存在其内存

Oozie
  • 基于Hadoop的企业级工作流调度框架
  • 将所有正在运行的工作流的状态保存SQL数据库
  • Cloudeara贡献给Apache的顶级项目

13 数据治理

Ranger
  • Hadoop 平台上并提供操作、监控、管理综合数据安全的框架
  • 提供一个集中的管理机制,所有数据权限
Sentry

Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项目

14 数据可视化

Kibana

用于和 Elasticsearch 一起使用的开源的分析与可视化平台

15 数据挖掘

Mahout

基于hadoop的机器学习和数据挖掘的一个分布式框架

Spark MLlib

Spark的机器学习库

MADlib

基于SQL的数据库内置的可扩展的机器学习库

16 云平台技术

AWS S3

一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能
存储和保护各种用例数据

GCP

Google提供的一套云计算服务
注册一个帐号,在分布在全球各地数十个google机房使用所有的基础架构服务

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-13 12:07:06  更:2021-08-13 12:07:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 9:30:41-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码