[大数据] countByKey、countByValue原理-源码(spark3.0)

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> countByKey、countByValue原理-源码(spark3.0) -> 正文阅读

[大数据]countByKey、countByValue原理-源码(spark3.0)

CountByKey

因为代码中调用了collect，所以是action算子

将(key,value)转换成了（key，1）然后调用了reduceByKey ->collect->toMap

PairRDDFunctions类\

 /**
   * TODO：统计每个不同的key的个数
   * Count the number of elements for each key, collecting the results to a local Map.
   *
   * @note This method should only be used if the resulting map is expected to be small, as
   * the whole thing is loaded into the driver's memory.
   * To handle very large results, consider using rdd.mapValues(_ => 1L).reduceByKey(_ + _), which
   * returns an RDD[T, Long] instead of a map.
   */
  def countByKey(): Map[K, Long] = self.withScope {
    // TODO：将(key,value)=>(key,1) 然后调用reduceByKey，这里调用了collect 触发了job操作，所以这个是action算子

开通VIP 解锁文章