位图
位图的概念
所谓的位图,就是用每一位来存放一种状态,适用于海量数据,数据无重复的场景。通常是用来判断该数据是否存在。 例题: 给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。 解决方案:
- 遍历,时间复杂度O(N)
- 排序(O(NlogN)),利用二分查找: logN
- 位图解决:直接定址法哈希,每一个整数映射一个比特位。
数据是否在给定的整形数据中,结果是在或者不在,刚好是两种状态,那么可以使用一个二进制比特位来代表数据是否存在的信息,如果二进制比特位为1,代表存在,为0代表不存在。比如:
位图的应用
- 快速查找某个数据是否在一个集合中
- 排序
- 求两个集合的交集,并集等
- 操作系统中磁盘块标记
- 内核中信号标志位(信号屏蔽和未决信号集)
位图中成员函数及使用
#include <iostream>
#include <bitset>
using namespace std;
int main()
{
bitset<8> bs;
bs.set(2);
bs.set(4);
cout << bs << endl;
bs.flip();
cout << bs << endl;
cout << bs.count() << endl;
cout << bs.test(3) << endl;
bs.reset(0);
cout << bs << endl;
bs.flip(7);
cout << bs << endl;
cout << bs.size() << endl;
cout << bs.any() << endl;
bs.reset();
cout << bs.none() << endl;
bs.set();
cout << bs.all() << endl;
return 0;
}
位图的实现
class bitset
{
public:
bitset(size_t bitCount)
: _bit((bitCount>>5)+1), _bitCount(bitCount)
{}
void set(size_t which)
{
if(which > _bitCount)
return;
size_t index = (which >> 5);
size_t pos = which % 32;
_bit[index] |= (1 << pos);
}
void reset(size_t which)
{
if(which > _bitCount)
return;
size_t index = (which >> 5);
size_t pos = which % 32;
_bit[index] &= ~(1<<pos);
}
bool test(size_t which)
{
if(which > _bitCount)
return false;
size_t index = (which >> 5);
size_t pos = which % 32;
return _bit[index] & (1<<pos);
}
size_t size()const{ return _bitCount;}
size_t Count()const
{
int bitCnttable[256] = {
0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4, 1, 2, 2, 3, 2, 3, 3, 4, 2,
3, 3, 4, 3, 4, 4, 5, 1, 2, 2, 3, 2, 3, 3, 4, 2, 3, 3, 4, 3, 4, 4, 5, 2, 3,
3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6, 1, 2, 2, 3, 2, 3, 3, 4, 2, 3, 3,
4, 3, 4, 4, 5, 2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6, 2, 3, 3, 4,
3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5, 6, 3, 4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5,
6, 6, 7, 1, 2, 2, 3, 2, 3, 3, 4, 2, 3, 3, 4, 3, 4, 4, 5, 2, 3, 3, 4, 3, 4,
4, 5, 3, 4, 4, 5, 4, 5, 5, 6, 2, 3, 3, 4, 3, 4, 4, 5, 3, 4, 4, 5, 4, 5, 5,
6, 3, 4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5, 6, 6, 7, 2, 3, 3, 4, 3, 4, 4, 5,
3, 4, 4, 5, 4, 5, 5, 6, 3, 4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5, 6, 6, 7, 3,
4, 4, 5, 4, 5, 5, 6, 4, 5, 5, 6, 5, 6, 6, 7, 4, 5, 5, 6, 5, 6, 6, 7, 5, 6,
6, 7, 6, 7, 7, 8};
size_t size = _bit.size();
size_t count = 0;
for(size_t i = 0; i < size; ++i)
{
int value = _bit[i];
int j = 0;
while(j < sizeof(_bit[0]))
{
unsigned char c = value;
count += bitCntTable[c];
++j;
value >>= 8;
}
}
return count;
}
private:
vector<int> _bit;
size_t _bitCount;
};
布隆过滤器
实际是位图的变形和延申。将哈希和位图进行结合。
布隆过滤器的概念
布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。 布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中,因此被映射到的位置的比特位一定为1。 在查找时,分别计算每个哈希值对应的比特位置存储的是否为零,只要有一个为零, 代表该元素一定不在哈希表中,否则可能在哈希表中。但是判断是否该数据存在会存在误判,因为,有可能会有某些是一样的,我们只是判断该位置是否为1,没有其他的判断方式,容易出现误判。
布隆过滤器删除
布隆过滤器不能直接支持删除工作,因为在删除一个元素时,可能会影响其他元素,因为有可能两个元素之间存在交集。 一种支持删除的方法:将布隆过滤器中的每个比特位扩展成一个小的计数器,插入元素时给k个计数器(k个哈希函数计算出来的哈希地址)加一,删除元素时,给k个计数器减一,通过多占用几倍存储空间的代价来增加删除操作。 缺陷:无法确认元素是否真正的在布隆过滤器中、存在计数回绕。
布隆过滤器的优点
- 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关
- 哈希函数相互之间没有关系,方便硬件并行运算
- 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势
- 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势
- 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能
- 使用同一组散列函数的布隆过滤器可以进行交、并、差运算
布隆过滤器的缺陷
- 有误判率,即存在假阳性(False Position),即不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据)
- 不能获取元素本身
- 一般情况下不能从布隆过滤器中删除元素
- 如果采用计数方式删除,可能会存在计数回绕问题
海量数据面试题
海量数据——布隆过滤器
例题一:给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法 先计算一个文件是多少,然后假设每个query是20byte,那么100亿个query就是100亿*20字节,所以一个文件大概是200G。
例题二:如何扩展BloomFilter使得它支持删除元素的操作 使用多个比特位标识一个位置,多尔值映射时++计数,删除时,–计数
海量数据——哈希切割
例题一:给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 解题思路:先统计次数,然后再找到次数最多的地址
例题二:与上题条件相同,如何找到top K的IP? 可以建立一个k个数的小堆,这样依次进入后,这个堆中就会有次数最多的k个小堆。因为进入堆的原因必须是比堆顶的数据要大。
|