| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 220713,PySpark应用程序开发, -> 正文阅读 |
|
[大数据]220713,PySpark应用程序开发, |
Presto和Spark访问Hive中的数据表,进行数据处理 Hive中有哪些表、表对应的HDFS地址 Presto和Spark会解析Hive元数据吗 HiveServer2:Hive服务端,负责接收SQL、解析SQL转换成Hadoop任务 元数据是存储在数据库中 Metastore:元数据管理服务,负责管理元数据,实现元数据共享,接收所有读写元数据请求 1-共享元数据 2-解耦合保证元数据安全 HiveServer2:端口:10000 Metastore:端口:9083 ?RDD像HDFS中文件 一个RDD对应多个物理上的分区 ?一个文件对应多个物理上的Block 5个rdd, spark-submit Active,Standby ZK的主节点故障,允许从其他从节点中选举一个新的主节点 zk中,Leader故障,Follower选举成为新的Leader? ? MapTask进程、ReduceTask进程 软连接==快捷方式 ? vim中,i or o vim命令行60直接跳到 ?markdown:用于复制内容 PDF:用于看笔记 ?8088 MapReduce:JobHistoryServer? 19888端口 用于记录运行过所有MR的程序的日志 ????????Spark:HistoryServer sbin集群管理, 所有日志文件名中:一定会包含进程名字 哪个进程有问题,就看哪个进程日志文件 Spark:Master:8080? 集群监控, JobhistoryServer:19888 HistoryServer:18080 执行完了,端口4040释放, 1个Driver:驱动进程 任何一个Spark程序都由两种进程组成:Driver-驱动进程和Executor-计算进程 Driver负责解析生成、调度分配Task Driver高度类似于YARN中的APPMaster APPMaster + MapTask/ReduceTask Driver + Executor MapTask/ReduceTask==container==Executor 集群模式:HDFS 曲线==shuffle? 改端口,一定修改配置文件,配置文件中一定会有 Task会优先分配到数据所在机器运行 ? ?后面不用高可用ha, 先到先得 程序运行需要用到JVM、Python解释器、Hadoop命令 ?注意解压是否嵌套??? ? ? 任何一个Spark程序都由:Driver+Executor Executor:执行Task 怎么看源码 ctrl+鼠标左点击, 多敲两三天,再用模板, 括号(可注释)==加反斜杠, spark-submit localost:4040? Windows下 ?18080? linux下, 如果存在会报错:Output Directory already exists ?注意:输出目录不能提前存在 参数可以提供代码的灵活性 阶段是全局编号, 本地模式:只启动1个进程来运行所有Task Spark程序:Application 每个Application有一个监控端口4040开始 每个Application中可以包含多个job ? Spark是基于内存计算,为了避免资源浪费 同一个阶段中所有操作直接在内存中完成 熟练编写Wordcount review ?preview ? ? ? ? ? ? ? 已看完:::::::::: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 1:46:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |