IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 220713,PySpark应用程序开发, -> 正文阅读

[大数据]220713,PySpark应用程序开发,

Presto和Spark访问Hive中的数据表,进行数据处理

Hive中有哪些表、表对应的HDFS地址

Presto和Spark会解析Hive元数据吗

HiveServer2:Hive服务端,负责接收SQL、解析SQL转换成Hadoop任务

元数据是存储在数据库中

Metastore:元数据管理服务,负责管理元数据,实现元数据共享,接收所有读写元数据请求

1-共享元数据

2-解耦合保证元数据安全

HiveServer2:端口:10000

Metastore:端口:9083

?RDD像HDFS中文件

一个RDD对应多个物理上的分区

?一个文件对应多个物理上的Block

5个rdd,

spark-submit

Active,Standby

ZK的主节点故障,允许从其他从节点中选举一个新的主节点

zk中,Leader故障,Follower选举成为新的Leader?

?

MapTask进程、ReduceTask进程

软连接==快捷方式

?

vim中,i or o

vim命令行60直接跳到

?markdown:用于复制内容

PDF:用于看笔记

?8088

MapReduce:JobHistoryServer? 19888端口

用于记录运行过所有MR的程序的日志

????????Spark:HistoryServer

sbin集群管理,

所有日志文件名中:一定会包含进程名字

哪个进程有问题,就看哪个进程日志文件

Spark:Master:8080? 集群监控,

JobhistoryServer:19888

HistoryServer:18080

执行完了,端口4040释放,

1个Driver:驱动进程

任何一个Spark程序都由两种进程组成:Driver-驱动进程和Executor-计算进程

Driver负责解析生成、调度分配Task

Driver高度类似于YARN中的APPMaster

APPMaster + MapTask/ReduceTask

Driver + Executor

MapTask/ReduceTask==container==Executor

集群模式:HDFS

曲线==shuffle?

改端口,一定修改配置文件,配置文件中一定会有

Task会优先分配到数据所在机器运行

?

?后面不用高可用ha,

先到先得

程序运行需要用到JVM、Python解释器、Hadoop命令

?注意解压是否嵌套???

?

?

任何一个Spark程序都由:Driver+Executor

Executor:执行Task

怎么看源码

ctrl+鼠标左点击,

多敲两三天,再用模板,

括号(可注释)==加反斜杠,

spark-submit

localost:4040? Windows下

?18080? linux下,

如果存在会报错:Output Directory already exists

?注意:输出目录不能提前存在

参数可以提供代码的灵活性

阶段是全局编号,

本地模式:只启动1个进程来运行所有Task

Spark程序:Application

每个Application有一个监控端口4040开始

每个Application中可以包含多个job

?

Spark是基于内存计算,为了避免资源浪费

同一个阶段中所有操作直接在内存中完成

熟练编写Wordcount

review

?preview

?

?

?

?

?

?

?

已看完::::::::::

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-07-17 16:30:00  更:2022-07-17 16:34:13 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 21:21:10-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码