IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> 大数据（4b）Flume经验 -> 正文阅读

[大数据]大数据（4b）Flume经验

文章目录

source
channel
sink
拦截器
内存优化

Flume版本：1.9

source

常用的source：Taildir Source
Taildir Source功能：监控目录下的多个追加文件
实现断点续传的原理：读取完数据后将offset保存到磁盘的文件中
如果Taildir Source挂了，可能会出现重复数据，下面有两种处理方式：
1、Flume不处理，去重任务交给下游，这样可以确保Flume的效率（推荐）
2、Flume加事务，但会变慢（不推荐）

channel

名称	说明	默认容量	应用场景
memory channel	基于内存，效率高，可靠性低	100个event	普通日志，要求快，丢一点无所谓
file channel	基于磁盘，效率低，可靠性高	100万个event	和钱相关的，要求准
kafka channel	基于Kafka，效率高、可靠性高		直接对接Kafka

如果memory channel挂了，最坏可能丢100个event

sink

常用的sink：HDFS Sink
对于HDFS Sink的HDFS小文件问题，要配置文件滚动：
1、按大小滚动：128M（HDFS块大小）
2、按时间滚动：1小时（注意：时间不能太长，如果设2小时，23:59滚动一次后01:59才滚下一次，而ods脚本在01:00执行的话，就会漏数据）
3、按event数量滚动：通常设为0，禁用

拦截器

ETL拦截器：用于轻度清洗，例如：过滤json格式不完整的数据
时间拦截器：提取日志的时间，用于日期分区，避免零点漂移的问题

内存优化

修改flume-env.sh把内存调到4~6G（假设日志服务器16G）
促销节日来之前，增加机器（内存）

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

上一篇文章下一篇文章查看所有文章

加:2021-08-13 12:07:06 更:2021-08-13 12:07:19

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/15 6:59:27-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码