| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 大数据启蒙-初步认识HDFS -> 正文阅读 |
|
[大数据]大数据启蒙-初步认识HDFS |
1.大数据要了解的概念: 分而治之 并行计算:分布式存储、分布式算法 计算向数据移动 算法效率:空间复杂度和时间复杂度, 时间效率和空间效率 数据本地化读取 2.大数据发展简史: hadoop.apache.org Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入 2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。 Cloudera公司在2008年开始提供基于Hadoop的软件和服务。 2016年10月hadoop-2.6.5 2017年12月hadoop-3.0.0 ?The project includes these modules: Hadoop Common Hadoop Distributed File System (HDFS?)? 一致性 分布式文件系统,1个主 Hadoop YARN Hadoop MapReduce Other Hadoop-related projects at Apache include: Ambari? Avro? Cassandra? Chukwa? HBase? Hive? Mahout? Pig? Spark? Tez? ZooKeeper? 3.理论知识点 存储模型 架构设计 角色功能 元数据持久化 安全模式 副本放置策略 读写流程 安全策略 存储模型: 文件线性按字节切割成块(block),具有offset,id 文件与文件的block大小可以不一样 一个文件除最后一个block,其他block大小一致 block的大小依据硬件的I/O特性调整 block被分散存放在集群的节点中,具有location Block具有副本(replication),没有主从概念, 副本不能出现在同一个节点 副本是满足可靠性和性能的关键 文件上传可以指定block大小和副本数, 上传后只能修改副本数 一次写入多次读取,不支持修改 支持追加数据 角色及是进程 dataNode: nameNode: 客户端: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 11:07:22- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |