IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 大数据技术 学习笔记 -> 正文阅读

[大数据]大数据技术 学习笔记

内容来自:大数据技术
视频

课程目标

在这里插入图片描述

课程模块

在这里插入图片描述

第一讲 大数据概念及计算简介

要求:对本课程教学目标、内容、方式做一个全面概要介绍

内容:了解数据科学的发展背景和要解决的问题,介绍大数据概念和再现代服务行业的应用情况。重点是大数据的概念和数据科学的发展史

第二讲 大数据计算体系与模式

要求:介绍大数据存储系统和数据处理平台

内容:让学生了解主要的大数据存储系统,包括数据的清洗、建模、分布式文件存储、NoSQL数据库、数据访问接口。向学生介绍目前数据工程界采用的主要数据处理平台,通过实例介绍各类数据分析算法的特点和功能,使学生初步了解计算处理模型和计算平台引擎。本章重点为大数据存储系统和数据处理平台。

大数据计算系统可归纳为3个基本层次:数据存储系统、数据处理系统、数据应用系统

大数据计算系统

数据存储系统

在这里插入图片描述

数据处理系统

在这里插入图片描述
在这里插入图片描述

数据应用系统

在这里插入图片描述

计算总体架构

数据建模

在这里插入图片描述

数据存储架构

在这里插入图片描述

逻辑存储结构

在这里插入图片描述

物理存储结构

在这里插入图片描述

在这里插入图片描述

大数据存储系统

分布式文件系统

提供大数据物理存储架构
主要技术:HDFS,GFS,…

  • HDFS架构:Master/slave
  • 组织:
    一个主节点
    一群从节点
    数据文件倍分成固定大小的数据块
    每份数据快可以存储再不同节点做备份(数据容错、恢复性)
  • 优点:开源、使用廉价设备、易用性好
  • 缺点:数据读取慢、不擅长存储小文件、不擅长单个数据读取和更新

分布式数据库 NOSQL Database(not only SQL Database)

优点

  • 不需要预先定义数据结构
  • 扩展性好
  • 数据划分
  • 不需要做数据同步

NoSQL数据的四种类型

在这里插入图片描述

统一数据访问结构

在这里插入图片描述
传统数据块接口软件

ODBC
在这里插入图片描述

JDBC
在这里插入图片描述
数据读写接口
在这里插入图片描述
统一数据接口
在这里插入图片描述
在这里插入图片描述

大数据处理系统

各类算法实现、各类计算模型支撑、提供平台架构
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
理解计算模式
在这里插入图片描述

大数据计算架构

在这里插入图片描述
在这里插入图片描述

计算模型与计算架构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

MapReduce计算模型

在这里插入图片描述在这里插入图片描述

例子 计算词频

在这里插入图片描述
计算原理
在这里插入图片描述

  • 按行拆分
  • map、reduce程序不一定一一对应
  • suffle结果存放在磁盘空间中(磁盘读写)

图并行计算模型

在这里插入图片描述

流计算模型

在这里插入图片描述

计算平台与计算引擎

在这里插入图片描述

数据应用系统

在这里插入图片描述

在这里插入图片描述

IBM
在这里插入图片描述
ORACLE
在这里插入图片描述

Mcrosoft
在这里插入图片描述

大数据应用系统

第三讲 数据采集方法

要求:讲授数据的采集方法和数据接口

内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。

系统日志数据采集

在这里插入图片描述

日志数据采集目的

在这里插入图片描述

系统日志数据采集

在这里插入图片描述

网络数据采集

搜索引擎局限性

在这里插入图片描述

网络爬虫工作原理

根据既定目标抓取数据,选择性抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源

技术框架:控制器、解析器、资源库。
控制器:为各个现成分配工作任务,并调度爬虫的线性资源。
解析器:批量下载网页,并对页面的格式和内容进行处理
资源库:存储下载到的网页资源,通常采用大型的数据库存储模型

爬虫体系结构
在这里插入图片描述
在这里插入图片描述

第四讲 数据清洗与规约方法

要求:介绍数据预处理技术、数据清洗技术、数据规约技术的基本原理和方法

内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。

第五讲数据分析算法

要求:讲授常用的数据分析算法的原理

教学内容:讲授内容包括常用的数据分析算法的原理,并比较不同数据分析算法之间的区别,让学生掌握各种数据分析方法的原理,并能够选择适当的方法解决数据科学中的问题。本章重点为常用的数据分析算法的原理。

第六讲 文本读写技术

要求:讲授文本读写技术的工作原理及方法

教学内容:让学生掌握文本读写技术的组成特点,了解常见的文本读写技术的特点,掌握读取文件、写入文件、连接数据库的方法等。本章重点为文本读写技术的工作原理。

第七讲 数据处理技术

教学要求:介绍数据处理技术的基本原理及主要方法

内容:让学生了解数据处理技术的概念和特点,了解其基本原理、主要功能特点等,让学生对数据处理技术有一个初步理解。本章重点为数据处理技术的基本原理。

第八讲 数据分析计算

要求:介绍数据分析技术的概念.算法及应用场景

内容:让学生了解数据分析技术的概念和特点,了解其原理、算法、应用场景等,让学生对数据分析算法体系有一个初步理解。本章重点为数据分析算法的基本原理。

第九讲 数据可视化技术

要求:讲解数据可视化技术的基本原理和主要功能

内容:讲授数据可视化技术的基本原理和主要功能,介绍数据可视化技术的应用场景。本章重点为数据可视化技术的基本原理。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-29 09:09:56  更:2021-08-29 09:27:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 16:34:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码