数据流组

设计一个拓扑时，你要做的最重要的事情之一就是定义如何在各组件之间交换数据（数据流是如何被bolts消费的）。一个数据流组指定了每个bolt会消费哪些数据流，以及如何消费它们。

数据流组在定义拓扑时设置，就如

builder.setBolt("当前groupID",  处理该流的Bolt实例, [int 并行数])
           .shuffleGrouping("指定接收的groupID");

TopologyBuilder对象通过<font color="red’>setBolt方法来规定每个Bolt所属于的group，通过规定group，实现bolt直接数据接收来源以及先后顺序。

**NOTE:**一个节点能够发布一个以上的数据流，一个数据流组允许我们选择接收哪个。

随机数据流组

shuffleGrouping(指定接收的groupID)

随机流组是最常用的数据流组。它只有一个参数（数据源组件），并且数据源会向随机选择的bolt发送元组，保证每个消费者收到近似数量的元组。
随机数据流组用于数学计算这样的原子操作。然而，如果操作不能被随机分配，就要考虑其它分组方式了。

域数据流组

域数据流组允许你基于元组的一个或多个域控制如何把元组发送给bolts。它保证拥有相同域组合的值集发送给同一个bolt。

 builder.setBolt("word-counter", new WordCounter(),2)
           .fieldsGrouping("word-normalizer", new Fields("word"));

如果你用word域为数据流分组，word-normalizer bolt将只会把相同单词的元组发送给同一个word-counter bolt实例。

全部数据流组

全部数据流组，为每个接收数据的实例复制一份元组副本。这种分组方式用于向bolts发送信号。比如，你要刷新缓存，你可以向所有的bolts发送一个刷新缓存信号。

// 拓扑定义一个全部数据流组，该流组的ID定义为signals
 builder.setBolt("word-counter", new WordCounter(),2)
           .fieldsGroupint("word-normalizer",new Fields("word"))
           .allGrouping("signals-spout","signals");



// 在WordCounter()类的execute(Tuple input)方法中，我们可以通过input.getSourceStreamId().equals("signals")来判断这个数据量是否是全部数据流组
public void execute(Tuple input) {
	if(input.getSourceStreamId().equals("signals")){
    	//刷新操作定义于此
	}
}

** Storm允许我们声明具名数据流（如果你不把元组发送到一个具名数据流，默认发送到名为”default“的数据流）。 **

提交拓扑到集群

用一个叫做LocalCluster的工具在你的本地机器上运行了一个拓扑。Storm的基础工具，使你能够在自己的计算机上方便的运行和调试不同的拓扑。
要实现提交到真实的集群，你需要把LocalCluster换成StormSubmitter并实现submitTopology方法，它负责把拓扑发送给集群。

//LocalCluster cluster = new LocalCluster();
    //cluster.submitTopology("Count-Word-Topology-With-Refresh-Cache", conf, 
    //builder.createTopology());
    StormSubmitter.submitTopology("Count-Word-Topology-With_Refresh-Cache", conf,
            builder.createTopology());
    //Thread.sleep(1000);
    //cluster.shutdown();
    ```

接下来，把源码压缩成一个jar包


现在你生成了一个jar包，使用storm jar命令提交拓扑。

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-07-24 11:33:51 更:2021-07-24 11:35:17

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/4 23:11:08-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码