IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 常见面试题① -> 正文阅读

[大数据]常见面试题①

常见面试题①

  • 1、kafka中zookeeper中只存储Broker id和消费者offsets偏移量,但不存在生产者信息

  • 2、kafka压力测试一般都是IO先出现瓶颈

  • 3、kafka消息堆压,消费者无法处理怎么办

    • ① 通过增加Topic和消费者数量来解决
    • ② 通过增大每次的拉去数据量,生成速度远远大于拉取速度也会导致数据的堆压
  • 4、kafka过期数据的清理方式:

    • ① 策略一:delete删除策略
    • ② 策略二:compact压缩策略(配置)
  • 5、kafka中的数据是有序的吗?

    • 单分区内有序
    • 多分区,分区与分区之间无序
  • 6、kafka多种选举机制:

    • 1、broker选举:kafka可以是多个或一个broker,故从选取一个broker控制器,选举是通过zookeeper内创建一个临时节点,之后便有次Broker管理分区和副本等状态,包括副本leader的选举,更新ISR集合的元数据信息
    • 2、分区leader选举:选举是由控制器来实行,(创建分区/分区上线)先查找第一个存活的副本,并且这个副本再ISR队列中。
    • 3、GruopCoordinator选举:小组协调员的选举是为了使得消费组均匀分配,通过找到分区leader副本所在的节点,此节点则作为小组协调员节点,消费组分区分配方案或消费组唯一信息都将汇报到此节点
    • 4、消费组Leader的选举:通过消费者组协调员进行选举,在小组内进行选组,很简单直接谁现进组那么谁就是leader

  • 7、HBase与Hive

    • 首先在应用场景方面:Hive与HBase是一个协作的角色,比如海量数据的随机查询,先由Hive对数据进行ETL后交给HBase进行数据查询
    • 功能方面:Hive是一个基于MapReduce的将非结构化数据转换成二维表的提供简单的HQL计算的架构是Hadoop的数据仓库。HBase则是一个列式存储的数据库主要适用于海量数据的随机查询

  • 8、Spark的groupByKey 和reduceByKey之间的区别?

(1)ReducByKey再Map端时会对数据进行combine,再Map端先进行一次聚合会使得reduce端压力大大降低,如图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DOshVOaP-1644974808434)(kafka基础面试题.assets/image-20220216090752433.png)]

(2)当采用groupByKey时,由于它不接收函数,spark只能先将所有的键值对(key-value pair)都移动,这样的后果是集群节点之间的开销很大,导致传输延时。整个过程如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F8L6dOLO-1644974808435)(kafka基础面试题.assets/image-20220216091751071.png)]

因此,在对大数据进行复杂计算时,reduceByKey优于groupByKey。比如实际应用中,比如用groupByKey对用数据进行计算(数据量30亿条数据),可能需要1个小时,甚至内存溢出,运行失败,但是换成reduceByKey只需要十几分钟。

另外,如果仅仅是group处理,那么以下函数应该优先于 groupByKey :
  (1)、combineByKey 组合数据,但是组合之后的数据类型与输入时值的类型不一样。
  (2)、foldByKey合并每一个 key 的所有值,在级联函数和“零值”中使用。

wordCountsWithReduce和wordCountsWithGroup与上一样


  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-02-16 13:11:15  更:2022-02-16 13:12:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/17 0:05:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码