flume的概述: ? ? Apache Flume是一个分布式,可靠且可用的系统,用于有效地从许多不同的source收集,聚合和移动大量日志数据到集中式数据存储。 ? ? Apache Flume的使用不仅限于日志数据聚合。由于数据source是可定制的,因此Flume可用于传输大量event 数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据source。 ? ? Apache Flume是Apache Software Foundation的顶级项目。
安装步骤:
1·将flume的压缩文件上传到linux中
?
2·进入到flume/conf将flume-env.sh.templ复制为flume-env.sh
3.将export JAVA_OPTS那行的注释去掉
4·进入flume目录下vi dir-hdfs.conf不用担心没有文件怎么办,vi命令会自己创建一个文件
?#定义三大组件的名称 ag1.sources = source1 ag1.sinks = sink1 ag1.channels = channel1
配置source组件: ag1.sources.source1.type = spooldir ag1.sources.source1.spoolDir = /root/data/log ag1.sources.source1.fileSuffix=.FINISHED ag1.sources.source1.inputCharset=utf-8 ag1.sources.source1.deserializer.maxLineLength=5120
配置sink组件: ag1.sinks.sink1.type = hdfs ag1.sinks.sink1.hdfs.path =hdfs://192.168.56.2/access_log/%y-%m-%d/%H-%M ag1.sinks.sink1.hdfs.filePrefix = app_log ag1.sinks.sink1.hdfs.fileSuffix = .log ag1.sinks.sink1.hdfs.batchSize= 100 ag1.sinks.sink1.hdfs.fileType = DataStream ag1.sinks.sink1.hdfs.writeFormat =Text
|