IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Spark2.4.8 求员工工资总额 -> 正文阅读

[大数据]Spark2.4.8 求员工工资总额

一、测试数据


二、任务要求


  • 任务1:求每个部门的员工工资总额
  • 任务2:求每个部门员工工资与奖金总额
  • 任务3:将任务2中的结果按照部门号进行升序排
  • 任务4:将任务2中的结果按照工资总额进行降序排

三、编码实现


  • 创建maven工程

  • 添加spark相关依赖,在pom.xml中添加如下依赖

    <packaging>jar</packaging>
    
    <properties>
        <scala.version>2.11.8</scala.version>
        <spark.version>2.4.8</spark.version>
        <spark.artifact.version>2.12</spark.artifact.version>
        <hadoop.version>2.7.3</hadoop.version>
    </properties>
    
    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${spark.artifact.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <!-- 使用scala2.11.8进行编译和打包 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>
    </dependencies>
    
    <build>
        <!-- 指定scala源代码所在的目录 -->
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
    
        <plugins>
            <!--对src/main/java下的后缀名为.java的文件进行编译 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.8.1</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
            </plugin>
            <!-- scala的打包插件 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>4.5.4</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
                <configuration>
                    <scalaVersion>${scala.version}</scalaVersion>
                </configuration>
            </plugin>
        </plugins>
    </build>
    
  • 【任务一】代码实现如下:

    • 实现代码:
      import org.apache.spark.{SparkConf, SparkContext}
      
      object CountSalary {
        def main(args: Array[String]): Unit = {
          val sparkConf = new SparkConf().setAppName(CountSalary.getClass.getName).setMaster("local[2]")
          val sc = new SparkContext(sparkConf)
          sc.textFile("d:/Tools/emp.csv")
            .map(line => {
              val strings = line.split(",")
              val salary = strings(5).toInt
              val deptNo = strings(7).toInt
              (deptNo,salary)
            })
            .reduceByKey(_+_)
            .collect()
            .foreach(println)
          // 关闭sc
          sc.stop()
        }
      }
      
    • 结果:
      在这里插入图片描述
  • 【任务二】代码实现如下:

    • 实现代码:
      import org.apache.spark.{SparkConf, SparkContext}
      
      object CountBonusAndSalary {
        def main(args: Array[String]): Unit = {
          val sparkConf = new SparkConf().setAppName(CountBonusAndSalary.getClass.getName).setMaster("local[2]")
          val sc = new SparkContext(sparkConf)
          sc.textFile("d:/Tools/emp.csv")
            .map(line => {
              val strings = line.split(",")
              val salary = strings(5).toInt
              val deptNo = strings(7).toInt
              var bonus = 0
              if (!"".equals(strings(6)) && null != strings(6)){
                bonus = strings(6).toInt
              }
              (deptNo,salary+bonus)
            })
            .reduceByKey(_+_)
            .collect()
            .foreach(println)
          // 关闭sc
          sc.stop()
        }
      }
      
    • 结果如下:
      在这里插入图片描述
  • 【任务三】代码实现如下:

    • 代码实现
      import org.apache.spark.{SparkConf, SparkContext}
      
      object CountBonusAndSalaryByAsc {
        def main(args: Array[String]): Unit = {
          val sparkConf = new SparkConf().setAppName(CountBonusAndSalaryByAsc.getClass.getName).setMaster("local[2]")
          val sc = new SparkContext(sparkConf)
          sc.textFile("d:/Tools/emp.csv")
            .map(line => {
              val strings = line.split(",")
              val salary = strings(5).toInt
              val deptNo = strings(7).toInt
              var bonus = 0
              if (!"".equals(strings(6)) && null != strings(6)){
                bonus = strings(6).toInt
              }
              (deptNo,salary+bonus)
            })
            .reduceByKey(_+_)
            .sortByKey(true)
            .collect()
            .foreach(println)
          // 关闭sc
          sc.stop()
        }
      }
      
      
    • 结果如下
      在这里插入图片描述
  • 【任务四】代码实现如下:

    • 代码实现:
      import org.apache.spark.{SparkConf, SparkContext}
      
      object CountTotalByAsc {
        def main(args: Array[String]): Unit = {
          val sparkConf = new SparkConf().setAppName(CountTotalByAsc.getClass.getName).setMaster("local[2]")
          val sc = new SparkContext(sparkConf)
          sc.textFile("d:/Tools/emp.csv")
            .map(line => {
              val strings = line.split(",")
              val salary = strings(5).toInt
              val deptNo = strings(7).toInt
              var bonus = 0
              if (!"".equals(strings(6)) && null != strings(6)){
                bonus = strings(6).toInt
              }
              (deptNo,salary+bonus)
            })
            .reduceByKey(_+_)
            .sortBy(tuple2 => {
              tuple2._2
            },false)
            .collect()
            .foreach(println)
          // 关闭sc
          sc.stop()
        }
      }
      
      
    • 结果如下:
      在这里插入图片描述

四、实验要求


  • 请使用不同的算子来完成如上的任务
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-09-26 10:14:50  更:2021-09-26 10:15:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 23:04:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码