IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> go-zero 2—并发处理数据包 mr(mapReduce) 的原理讲解 -> 正文阅读

[大数据]go-zero 2—并发处理数据包 mr(mapReduce) 的原理讲解

自己实现的代码地址

https://github.com/wanmei002/goutil/blob/master/mr/mapreduce.go

如果觉的自己golang 功底不强的话,可以先看我的实现代码:汉字注释,省略了一些go-zero的相互依赖,没有像go-zero兼容那么多的需求,相对简单

原理

这里用到了一个概念mapReduce, 那什么是 mapReduce 呢?这里简单的说下我的理解:

mapReduce 是一种分布式处理数据并合并数据的概念,如果你想并发处理大量数据,你需要把很多数据分成很多份,让不同的机器或线程执行这些数据,并合并处理的结果;而mapReduce 的理念就是你把数据给它, 它自己切分数据分给不同的机器执行,并自动合并结果(自己的理解,如果是片面的不正确的请留言,再此不胜感激)。

当然了在这里实现的比较简单,简单介绍下这里的实现逻辑:

  1. 要处理的数据放到一个无缓冲的管道里,再来一个协程从这个无缓冲的管道里读取要处理的数据,然后把读取出来的数据开一个协程用 传入的方法处理;
  2. 创建一个无缓冲的管道, 用来保存执行的结果, 让合并结果的协程从这个管道里读取数据, 然后合并数据, 写入合并数据的管道里
  3. 创建一个用来停止其它协程的管道, 如果执行中有什么错误就关闭这个管道里,同时停止执行其它协程,返回失败
  4. 最后要把没有关闭的管道关闭了

需要传入的参数

这里需要传入三个参数(方法) :

  1. 发送要处理的数据
  2. 每条数据要怎么处理,并把处理结果写入到指定的channel里,如果遇到执行错误是否停止执行
  3. 把处理数据的结果按需求合并到一起

逻辑图如下

执行流程

贴上 go-zero mr包的主要实现代码

下面贴的代码是 go-zero mr包的代码;这里说的比较简单,实际实现上还是比较复杂的;有时间的话可以看看源码;

传递要处理的数据

创建一个无缓冲的channel,执行用户传递数据的逻辑

func buildSource(generate GenerateFunc) chan interface{} {
	source := make(chan interface{})
	threading.GoSafe(func() {
		defer close(source)
		generate(source)// generate 是用户传入的方法
	})
	return source
}

创建中断channel和数据传递channel

output 是传递合并结果的channel,collector 用于传递 并发处理数据得到的结果,done 用于执行异样的时候通知其它goroutine退出执行

output := make(chan interface{})
collector := make(chan interface{}, options.workers)
done := syncx.NewDoneChan()

并发执行处理数据的逻辑

for {
		select {
		case <-done:// 如果异常 这里通知停止执行
			return
		case pool <- lang.Placeholder:
			// 从channel中取出要处理的数据
			item, ok := <-input
			if !ok {
				<-pool
				return
			}

			wg.Add(1)
			// 开启协程 并发的执行处理数据的逻辑
			threading.GoSafe(func() {
				defer func() {
					wg.Done()
					<-pool
				}()
				// 这个里面实际是调用用户传入的处理逻辑
				mapper(item, writer)
			})
		}
	}

调用示例

这里用的是我自己实现的方法来运行的,实际上跟 go-zero 调用的方式是一样的

	//要处理的数据
    uid := []int{1,2,3,4,5,6}
    //传递数据的逻辑
    a := func(source chan<- interface{}){
        for _,v := range uid {
            source <- v
        }
    }
    
    // 处理数据的逻辑
    b := func(item interface{}, writer mr.Writer, cancel func(err error)){
        tmp := item.(int) + 1
        writer.Writer(tmp)
    }
    
    // 合并的数据逻辑
    c := func(pipe <-chan interface{}, writer mr.Writer, cancel func(err error)){
        var uid []int
        for v := range pipe {
            uid = append(uid, v.(int))
        }
        fmt.Println(uid)
        writer.Writer(uid)
    }
    
    // 开始并发处理数据
    res, err := mr.MapReduce(a, b, c)

并发的执行多个方法

实际上 Finish 方法底层调用的也是 mapReduce 这个方法

    a1 := func() error {
        log.Println("aaaa")
        return nil
    }
    
    b1 := func() error {
        log.Println("bbbb")
        return errors.New("err about bbbb")
    }
    
    c1 := func() error {
        log.Println("cccc")
        return nil
    }
    
    err := mr.Finish(a1, b1, c1)
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-31 16:42:40  更:2021-07-31 16:42:46 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/5 2:02:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码