| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 大数据离线处理数据项目(一) 网站日志文件数据采集 日志拆分 数据采集到HDFS并进行预处理 -> 正文阅读 |
|
[大数据]大数据离线处理数据项目(一) 网站日志文件数据采集 日志拆分 数据采集到HDFS并进行预处理 |
简介:这篇写的是大数据离线处理数据项目的第一个流程:数据采集 主要内容: 1)利用flume采集网站日志文件数据到access.log 2)编写shell脚本:把采集到的日志数据文件拆分(否则access.log文件太大)、重命名为access_年月日时分.log。? 此脚本执行周期为一分钟 3)把采集到并且拆分、重命名的日志数据文件采集到HDFS上 4)将HDFS上的日志数据文件转移到HDFS上的预处理工作目录 1、采集日志数据文件并拆分日志文件安装crontab(文章最后有crontab操作指令),需要切换到root用户操作:
编写拆解日志文件脚本
其中: logs_path是拆分后的日志文件存放的路径 pid_path是指向nginx运行的进程文件(存放了nginx的进程id) ?filepath表示想要进行拆分的日志文件的路径 注意:重命名中这里的-1是因为:这里是离线处理,即今天处理的是昨天的数据,所以名称就需要日期-1 输入crontab配置指令(1表示每分钟)
重新启动crontab服务:
?重新载入配置使定时任务生效:
启动nginx,并访问nginx下的网页a.html和b.html 此时日志数据不断产生,并且存放在access.log文件中,然后进行拆分 成功采集到日志数据并成功拆分、重命名:?? 注意被拆分后的access.log是空的: 2、 把拆分成功的日志文件采集到HDFS在flume/job目录下新建配置文件
编写flume配置文件:
在flume目录下启动程序:
然后再疯狂访问a.html、b.html就完事啦? 查看最终结果如下: ? ? 3、将日志数据文件转移到预处理工作文件目录中在/home/hadoop/bigdatasoftware/project1目录下新建脚本文件:movetopreworkdir.sh ? 编写脚本:
执行前: ? 执行脚本: 运行成功并查看结果: ? 自此完成!~ crontab服务操作启动服务:service crond start 关闭服务:service crond stop 重启服务:service crond restart 重新载入配置:service crond reload 查看crontab服务状态:service crond status 手动启动crontab服务:service crond start 查看crondtab服务是否已设置为开机启动,执行命令:chkconfig --list 加入开机自启动:chkconfig --level 35 crond on 进入编辑命令:crontabs -e 进入查看运行指令:crontabs -l 删除指令:crontabs -r 配置说明基本格式: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 9:08:27- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |