一位资深的大数据工程师推荐的,适合想要自学大数据的同学们
大数据入门书籍推荐: 1.《大数据日知录:架构与算法》 ?作者: 张俊林,出版社:电子工业出版社 ? ?基本涵盖大数据相关技术架构和算法,只是出版时间略久,新书不好买。不介意的同学可以去淘淘二手书 2.《大数据技术原理与应用:概念、存储、处理、分析与应用》(第2版) ? ?作者: 林子雨 ? 出版社:人民邮电出版社 ? ?定位是作为学校相应课程的指导教材,并有配套PPT可下载? http://dblab.xmu.edu.cn/post/5633/ ?
Hive学习资料: 1. 书籍类,推荐 《Hive性能调优实战》 作者:林志煌,出版社: 机械工业出版社 2. 官方网站提供比较详细使用操作介绍 3. 与Hive类似的新产品很多,不建议在Hive的使用上花费太多时间,可以从几个点切入进去,并和其他同类产品做一些对比: 1)文件格式:如Parquet、Orc,不同格式的优缺点,以及与传统关系型数据库存储结构的对比 2)表的组织格式:Hive MetaStore,特别是Hive 分区表的创建、管理,以及基于分区表的查询 3)作为对比,可以看看Iceberg、Hudi、Open Delta等新兴技术是怎么在表这一层组织元数据的,以及怎么支撑查询,和Hive相比有什么优缺点 4)Hive与Trino/Presto,Impala的对比 5)Hadoop相关的基础知识:HDFS、Yarn、Mapreduce 6)对数据库原理、编译原理感兴趣的话,可了解下SQL解析、执行计划这块的原理 7)数据倾斜问题:大数据领域的必考话题之一 ?
|