| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 【大数据处理技术】实验6 -> 正文阅读 |
|
[大数据]【大数据处理技术】实验6 |
目录 1. 安装pig大数据分析工具1.1 pig介绍1.1.1 Pig简介Pig是一种数据流语言和运行环境,常用于检索和分析数据量较大的数据集。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。 1.1.2 Apache Pig 与 MapReduce
1.1.3 Apache Pig 与 SQL
除了上述差异外,Apache Pig Latin- ·允许在管道中拆分。 ·允许开发人员将数据存储在管道中的任何位置。 ·宣布执行计划。 ·提供操作员执行ETL(提取,转换和加载)功能。 1.1.4 Apache Pig 与 HiveApache Pig和Hive均用于创建MapReduce作业。在某些情况下,Hive以与Apache Pig相似的方式在HDFS上运行。在下表中,我们列出了一些使Apache Pig与Hive脱颖而出的重要方面。
1.1.5 Apache Pig的应用数据科学家通常使用Apache Pig来执行涉及即时处理和快速原型制作的任务。使用Apache Pig- 处理大量数据源,例如Web日志。 对搜索平台执行数据处理。 处理时间敏感的数据加载。 1.2 pig下载及安装官网下载:Index of /apache/pig/pig-0.16.0
1.3 配置环境变量vi ~/.bashrc 添加pig环境配置(根据实际安装位置) export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin Export PATH=$PATH:/usr/local/mongodb/bin Export PIG_HOME=/media/liuhao/sda4/pig Export PATH=$PIG_HOME/bin:$PATH ? 1.4 pig启动启动Hadoop集群(略) 启动pig:./bin/pig ? 退出quit 2. pig工具使用方法2.1 pig工具简单解析Apache Pig具有以下功能: ·丰富的运算符集?- 它提供许多运算符来执行诸如 join, sort, filer等操作。 ·易于编程?- Pig Latin与SQL相似,如果您擅长SQL,则很容易编写Pig脚本。 ·自动优化?- Apache Pig中的任务会自动优化其执行,因此程序员只需要专注于语言的语义。 ·可扩展性?– 使用现有的运算符,用户可以开发自己的函数来读取,处理和写入数据。 ·UDF的?– Pig提供了使用其他编程语言(例如Java)创建用户定义函数并将其调用或嵌入Pig脚本的功能。 ·处理各种数据?- Apache Pig分析所有结构化和非结构化数据。它将结果存储在HDFS中。 2.2 pig基本操作介绍(后续补充) 3.? 实验63.1 启动启动Hadoop 创建文件file6.txt,并上传到Hadoop集群 ?启动pig 3.2 编辑?Pig使用ls命令查看文件 --load文本的txt数据,并把每行作为一个文本; --将每行数据,按指定的分隔符(这里使用的是空格)进行分割,并转为扁平结构 ? --对单词分组 --统计每个单词出现的次数 --存储结果数据 ?(存储结果直接到目录里,即res.txt是一个目录) 进入到存储的路径下,使用cat命令查看词频统计结果 ? 【参考资料】 大数据分析工具Pig详细介绍_yz930618的博客-CSDN博客_大数据pig |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年4日历 | -2025/4/23 18:04:09- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |