参考链接
hadoop的基本组件详细介绍一下


Hadoop是实现了分布式并行处理任务的系统框架,其核心组成是HDFS和MapReduce两个子系统,能够自动完成大任务计算和大数据储存的分割工作。Hadoop有众多子集。例如:Hive、Hbase、Zookeeper等。这些生态工具对Hadoop起到了良好的补充作用。
HDFS系统是Hadoop的储存系统,能够实现创建文件、删除文件、移动文件等功能,操作的数据主要是要处理的原始数据以及计算过程中的中间数据,实现高吞吐量的数据读写。MapReduce系统是一个分布式计算框架,主要任务就是利用廉价的计算机对海量的数据进行分解处理。
hadoop怎么从本地上传到hdfs文件,写出命令行。
https://blog.csdn.net/zhangvalue/article/details/80671217
给一个网页的url,抓取指定的title标签里的文本内容
用python 正则 提取HTml标签文本内容的 https://blog.csdn.net/weixin_42785547/article/details/86604762?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0.pc_relevant_baidujshouduan&spm=1001.2101.3001.4242
zookeeper的实现原理
https://zhuanlan.zhihu.com/p/64702090
并发编程如何实现
https://dannashen.github.io/2019/05/22/%E5%B9%B6%E5%8F%91%E6%9C%BA%E5%88%B6%E5%8F%8A%E5%85%B6%E5%BA%95%E5%B1%82%E5%AE%9E%E7%8E%B0%E5%8E%9F%E7%90%86/
生产者、消费者模式的具体实现是什么 https://segmentfault.com/a/1190000016260650 红黑树
mysql的事务隔离级别
如何获取Mysql中的数据
HDFS上传文件和读取文件的流程
见参考链接
Spark是什么,编程的一般步骤
MapReduce
 HDFS和MapReduce是hadoop中的核心组成系统,能够自动完成大任务的计算和大数据储存的分割工作。
HDFS系统是hadoop系统的储存系统,MapReduce系统是一个分布式计算框架,主任务是能够利用廉价的计算机对海量的数据进行分解处理,很大的一个优点是计算向数据靠近,这样就降低了数据传输的成本。
HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了了任务的分发、跟踪、执行等操作,收集结果,二者相互作用,完成了Hadoop的分布式集群任务。
|