[大数据] Spark读取kafka复杂嵌套json的最佳实践，与其在大数据分析平台中的应用

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Spark读取kafka复杂嵌套json的最佳实践，与其在大数据分析平台中的应用 -> 正文阅读

[大数据]Spark读取kafka复杂嵌套json的最佳实践，与其在大数据分析平台中的应用

随着互联网的更进一步发展，信息浏览、搜索以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化，对于实时性的要求进一步提升，而信息的交互和沟通正在从点对点往信息链甚至信息网的方向发展，这样必然带来数据各个维度的交叉关联，数据爆炸也不可避免，因此流式处理应运而生，解决实时框架问题，助力大数据分析。

kafka是一个高性能的流式消息队列，适用于大数据场景下的消息传输、消息处理和消息存储，kafka可靠的传递能力让它成为流式处理系统完美的数据来源，很多基于kafka构建的流式处理系统都将kafka作为唯一可靠的数据来源。如Apache Storm、 Apache Spark Streaming 、Apache Flink 、Apache Samza 等。

json是kafka消息中比较常见的格式，对于单层json数据的读取和解析相对简单，但是在真实kafka流程处理的业务中，很多情况下都是json嵌套复杂格式消息。Spark1.1以后的版本存在一些实用的 SparkSQL函数，帮助解决复杂的json数据格式，实用函数包括get_json_object、from_json和explode等。

01、Spark框架中的基本概念和内置函数

? RDD：Spark的基本计算单元，它是一个弹性可复原的分布式数据集。

? Dataframe：定义为指定到列的数据集（Dataset）。DFS类似于关系型数据库中的表或者像R/Python 中的Dataframe ，可以说是一个具有良好优化技术的关系表。

? Spark SQL：它是Spark的其中一个模块，用于结构化数据处理，Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息，Spark SQL会使用这些额外的信息来执行额外的优化。

? from_json：Spark SQL内置的函数，从一个json 字符串中按照指定的schema格式抽取出来作为DataFrame的列，第一个参数为列名，以$"column_name"表示，第二个参数为定义的数据结构

在这里插入图片描述

? get_json_object：Spark SQL内置的函数，从一个json字符串中根据指定的json路径抽取一个json对象，第一个参数为column名，用 $column_name"表示，第二个参数为要取的json字段名，"$ .字段名"表示。

在这里插入图片描述

? explode：Spark SQL内置的函数，可以从规定的Array或者Map中使用每一个元素创建一列，主要用于数组数据的展开，参数为column名，用$"column_name"表示。

在这里插入图片描述

02、Kafka复杂嵌套json解析

1）什么是复杂json?

json是一种轻量级的数据交换标准，具体以逗号分隔的key:value键值对的串形式，主要表现形式包括两种：{对象},[数组]，其中key以字符串表达，value包括字符串、数值、boolean值、对象和数组（可嵌套）。在复杂的json数据格式中，通常json数据会有嵌套，每个层级的结构不完全相同，value中不同类型进行混合使用。

下图为一份简单json格式数据：

在这里插入图片描述

期望处理的结果为下图的二维表，json串中的key(id，sepallength，sepalwidth，

petallength，petalwidth，label)作为二维表的列，value作为表的一行数据。

在这里插入图片描述

下图为一份复杂json格式数据：

在这里插入图片描述

期望处理的结果为下图的二维表，json串中单层key（id，createTime，deviceCode）和需要展开的数组trajectory中单个元素key（x，y）作为二维表的列，value是将数组trajectory中所有的元素展开成多行后，与其他列的数据进行对齐。

在这里插入图片描述

2）整体思路

Kafka消费者收到复杂嵌套json消息后，一共有两步。

第一步：首先把这批json字符消息转换成分布式数据集RDD[String]中，再将RDD[String]转换成列名为json的DataFrame，然后通过Spark SQL内置函数get_json_object将json对象中的id、createTime、deviceCode、data.trajectory分别生成新列，并构建一个包含这些列的新DataFrame；

第二步：获取需要展开的列data.trajectory的schema（元数据信息），然后由SparkSQL内置函数from_json将列data.trajectory的字符内容转换成数组对象，最后通过SparkSQL内置函数explode将data.trajectory中的数组中每个元素展开成多行。

基于spark解析复杂json流程设计图：

在这里插入图片描述