IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据技术概述__大数据最全面的技术栈总结及分类 -> 正文阅读

[大数据]大数据技术概述__大数据最全面的技术栈总结及分类

大数据不是一门专门的技术,而是很多技术的综合应用。可以通过一些列大数据技术对海量数据进行分析,挖掘出数据背后的价值。
虽然大数据与Hadoop密切相关,但Hadoop并不等同于大数据,大数据也不是指Hadoop,大数据代表的是一种理念、一种解决问题的思维、一些列技术的集合,Hadoop只是其中一种具体的处理数据的技术框架,目前比较流行的Spark、Flink等实时计算框架也属于大数据技术。

1、数据获取

低侵入的浏览器探针技术采集用户浏览数据,使用爬虫技术获取网页技术,使用Canal采集MySQL数据库的binlog日志,使用组件Flume采集WEB服务器的日志。
一般采用Flume、Logstash、Filebeat等工具采集日志文件数据。采用Sqoop、Canal等工具采集数据库中的数据。

2、数据存储

大数据平台的调优很多情况下主要集中在对磁盘I/O的调优。
多数据并行读写,首要解决的是硬盘故障问题,最常用的方法是复制(replication),系统保存多个副本(replaca),一种方式是使用冗余磁盘阵列(RAID),另一种方式是Hadoop分布式文件系统(HDFS),另外还有构建在HDFS之上的分布列式数据库(HBase),其可以提供实时的多维分析。
实时计算项目中,经常需要使用Kafka消息队列作为实时的数据中转服务。

3、资源管理

资源管理的本质是集群、数据中心级别资源的统一管理和分配。其中多租户、弹性伸缩、动态分配是资源管理系统要解决的和信问题。
为了提高集群资源利用率、解决资源共享问题,YARN应用而生。实际应用中,一般会将各种大数据处理框架部署到YARN集群中(Mapreduce on YARN、Spark on YARN、Flink on YARN)。

4、大数据处理核心

4.1、数据处理

离线处理即批处理:MapReduce、Spark Core、Flink DateSet。
实时处理即流处理:Spark Streaming、Flink DataStream。

4.2、交互式分析

实际引用中,经常需要对离线或实时处理后的历史数据,根据不同的条件进行多维分析查询并及时返回结果,这是旧需要交互式分析。
在大数据领域,交互式查询通常用于实时报表分析、实时大屏、在线话单查询等。
主要是基于SQL on Hadoop,SQL on Hadoop是一个泛化的概念,是指Hadoop生态圈中一系列支撑SQL接口和技术,譬如Hive SQL、Spark SQL。

4.3、机器学习与数据挖掘

复杂的数据分析需要利用数据挖掘和机器学习的方法。
机器学习时数据挖局中的一种重要工具数据挖掘不仅要研究、拓展、应用一些机器学习的方法,还要通过许多非机器学习技术解决数据存储、数据噪声等实际问题。
机器学习库:Spark ML、Flink ML(发展过程中)。

另外在搭建Hadoop集群过程中,还需要搭建Zookeeper分布式协调服务,用来实现HDFS集群和YARN集群的高可用。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-06-21 21:28:50  更:2022-06-21 21:29:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 21:36:31-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码