位图
给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。 解决方案:
遍历,时间复杂度O(N)
排序(O(NlogN)),利用二分查找: logN
这两种方案所需的内存空间都很大,如何利用更小的空间解决这件事情呢?
位图概念 所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在的。 在该问题中,我们可以取40亿个比特位,每个比特位表示一个数,如果该数出现则标记为1,未出现则标记为0。
布隆过滤器
给10亿个不重复的字符串。给一个字符串,如何快速判断该字符串是否在这10亿个字符串中。
我们采取类似位图的思想,将一个字符串通过相同的方式映射成一个整数,再将对应的下表,标位1。
但是这样会遇到一个问题,两个不同的字符串通过映射后得到相同的整数。为了降低这样的概率,就有人提出了布隆过滤器。
概念 布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。
查找
分别计算每个哈希值对应的比特位置存储的是否为零,只要有一个为零,代表该元素一定不在哈希表中,否则可能在哈希表中。
哈希切割
给一个超过100G大小的log ?le, log中存着IP地址, 设计算法找到出现次数最多的IP地址?
概念
哈希切割就是将一个大文件,利用哈希的原理,将其分为若干个小文件。相同的数据都被分到同一个文件里。
将每一个log中的IP通过哈希函数映射成一个整数%100,分到100不同的小文件,在进行计数
|