哈希表
?
前言 : 上文我们已经将 set 和 map 学习完了下面我们来了解一下哈希表
?
1. 引出 哈希表
? 假设我们再百度查找某件事情,等一个10分钟那么此时的效率是非常慢的,我查找要一个东西都需要等待10分钟, 得到的结果可能还只是一个广告,你想想这个效率 。
假设我们有一组的数据, 此时我们先要查找某个key
按照我们现在的知识储备是不是 将数组存放到一个数组当中 然后直接一个for循环去找 时间复杂度O(N),此时我们的效率就会非常的慢 。
假设这种数据是有序的,那么我们是不是可以使用二分 时间复杂度O(log 2 ^ N) 。
无序也可以使用我们之前学的搜索树(二叉搜索树可能出现单分支情况,这里假设为AVL树和红黑树) 那么时间复杂度也能达到O(log 2 ^ N)
虽然 O(lon2^N) 已经很快了,但我要说有一种数据结构能将查找变成 O(1) 你学不学 ?
? 这里我们就来学习一下我们的哈希表 ?
2.概念
顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为 ? O(N),平衡树中为树的高度(log2 N),搜索的效率取决于搜索过程中元素比较的次数。 ? 理想的搜索方法:可以不经过任何比较,一次直接从表中得到搜索的元素。如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关 ? 键码之间能够建立 一一映射的关系【怎么放的,怎么取出来】,那么在查找时通过该函数可以很快找到该元素【O(1)】。
? 当向该结构中: ? 插入元素 ? 根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放 ? 搜索元素 ? 对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功. ?? 该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(HashTable)(或者称散列表)
? 下面就来看一下是如何存放和搜索的 , 这里我们给一个数组
?
3.哈希冲突
?
3.1 概念
对于两个数据元素的关键字 Ki和 Kj(i != j),有Ki != Kj,但有:Hash(Ki ) == Hash(kj),即:不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。
把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。”。
?
3.2 避免
?
3.3 降低哈希冲突的概率
? 引起哈希冲突的一个原因可能是:哈希函数设计不够合理。 哈希函数设计原则:
- 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间
-
哈希函数计算出来的地址能均匀分布在整个空间中 -
哈希函数应该比较简单
? 还是那句话,这里哈希函数的设计并不会让我们来设计 , 一般都是使用大佬设计好了的, 下面就来看看常见的哈希函数
?
3.4 常见的哈希函数
?
3.4.1 直接定制法–(常用)
? 取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B 优点:简单、均匀 缺点:需要事先知道关键字的分布情况 使用场景:适合查找比较小且连续的情况
?
3.4.2 除留余数法–(常用)
? 设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址
?
3.4.3 平方取中法–(了解)
? 假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况
?
3.4.4 折叠法–(了解)
? 折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和, 并按散列表表长,取后几位作为散列地址。 折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
?
3.4.5 随机数法–(了解)
? 选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数 函数。 通常应用于关键字长度不等时采用此法 ?
3.4.6 数学分析法–(了解)
?
设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某 些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据 散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。 ?
例如 :
假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是 相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法。 ? 数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均 匀的情况 ? 注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突
下面我们就来使用哈希函数来做一道简单的题
?
387. 字符串中的第一个唯一字符 - 力扣(LeetCode)
? 下面继续, 除了我们使用更好的哈希函数来降低我们的哈希冲突,其实我们还有一种方法就是调节负载因子啥意思呢 ? ? 下面来看看
?
3.4 冲突-避免-负载因子调节
? 引用 :
哈希(散列)表的 载荷/负载 因子定义为:α = 填入表中的元素个数 / 散列表的长度 ?
α 是 哈希(散列)表装满程度的标志因子。由于表长是定值,α 与 “填入表中的元素个数” 成 正比,所以,α 越大,表明的填入表中的元素越多,产生冲突的可能性就越大;反之,α越小,标明填入表中的元素越少,产生冲突的可能性就越小。实际上,哈希(散列)表的平均查找长度是载荷因子α的函数,只是处理冲突的方法是不同的【不同的函数】。 ? 对于开放定址法,负载因子是特别重要因素,应严格限制在 0.7 ~ 0.8 以下。超过0.8 ,查表时的CPU缓存不命中(cache missing) 按照指数曲线上升。因此,一些采用开放定址法的hash库,如java的系统库限制了荷载因子为0.75 ,超过此值将重新 resize 哈希(散列)表。【resize - 扩容,重新哈希】
? 这里调节负载因子简单来说就是对数组进行扩容, 将原本小的空间变大, 如 :原本 30平米住 10个人, 改成 300平米住10个人, 这样哈希冲突的概率就会减少。
?
这里有一张图 :
? 所以当冲突率达到一个无法忍受的程度时,我们需要通过降低负载因子来变相的降低冲突率。
? 已知哈希表中已有的关键字个数是不可变的,那我们能调整的就只有哈希表中的数组的大小
?
4 哈希冲突-解决
?
这里我们解决哈希冲突有两种方法 , 方法一 :闭散列, 方法二 开散列
? 这里我们先来了解一下闭散列 ?
4.1 冲突-解决-闭散列
? 概念 :
闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以 ? 把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置呢?
? 这里有两种方式 :
? 1.线性探测
? 二次探测
引用 :
线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为:H(i) = (H0 + i^2 ) % m, 或者:H(i)= (H0 - i^2) % m。其中:i = 1,2,3…, 是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置,m是表的大小。
? 可以看到通过我们的二次探测就减少了将冲突的元素堆在了一起, 上面举的例子因为数组太小了所以有3个冲突的元素再一起了。
? 引用 :
研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容 。 ? 因此:比散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。
?
注意 : 我们java中的HashMap都不是采用 上面这两种方式处理的,而是采用开散列的方式 ,下面就来学习一下。
?
4.2 冲突-解决-开散列/哈希桶
? 概念 : ? 开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
? 补充 : 在我们jdk 1.7之前我们哈希桶使用的头插法,而jdk1.8后采用的尾插法。 ? 另外 : 如果输入的数据越多[全是冲突元素],链表的越长。在寻找元素的时候,时间复杂度不还是有可能达到O(N) 吗? ? 这里是不会达到O(N)的,因为有负载因子的存在(存储的元素达到一定的数目,就会进行扩容),链表的长度不会很长,控制在常数范围内。
另外,当链表越来越长,下面不会是一个链表了!从jdk1.8开始:当链表的长度超过8,且数组长度大于等于64,这个链表才会变成红黑树。 而 红黑树又是一种对于查找来说:特别高效的一种树。再加上还有负载因子的介入[链表没机会达到O(n),就会去扩容了],所以请放心,它的时间复杂度是不会达到O(N)的。 ? 开散列,可以认为是把一个在大集合中的搜索问题转化为在小集合中做搜索了。 将数据根据函数,分别存入不同的“桶”里,要什么数据,再去根据函数,找到对应的“桶”进行相应的操作。 这也是我们 HashMap 底层的处理方式。 ? 总结 :
哈希桶其实可以看作将大集合的搜索问题转化为小集合的搜索问题了,那如果冲突严重,就意味着小集合的搜索性能其实也时不佳的,这个时候我们就可以将这个所谓的小集合搜索问题继续进行转化, ? 例如: 1、 每个桶的背后是另一个哈希表 2、每个桶的背后是一棵搜索树【红黑树】
? 另外我们来分析一下哈希表的性能
虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的,也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是O(1)
? 最后我们 来实现一下我们自己的 HashMap 和 HashSet 就结束我们的 Map 和 Set 的学习 ?
5. 模拟实现HashMap
这里我们只实现两个 重要功能 put 和 get 方法
?
5.1 准备工作
?
5.2 put方法实现
? 我们之前说过,在jdk1.7之前链表插入元素使用的头插法,在jdk1.8使用的尾插法,这里我们就使用尾插法来模拟实现 。
? 图一
? 图二 :
? 图三:
? 图四 : put 方法测试
?
5.2 get方法
? get 方法非常简单,这里直接写代码
? 这里就完成了 HashMap的两个重要的方法 存 put 和 取 get 方法,下面我们升级一下 , 上面我们可以通过 key % array.length 求出存放的位置,那么换成引用类型呢? 这样就不行了,下面我们就来看看使用引用类型改这么存储。
?
6. 使用泛型实现HashMap
? 这里使用泛型来实现我们的HashMap 中的 put 和 get 方法, 与上面的主要区别就是传入的参数是引用类型,我们不能直接通过 取膜(%) 操作 来求出我们的元素放的下标,这里重点就在这个地方,下面就来看看 如果操作 。
?
6.1 准备工作
?
6.2 put 方法
? 图一:
图二:
这里我们知道了 hashCode , 和重写 hashCode 那么将 int 改为泛型 不就非常简单了吗 ? 这里直接给代码
代码实现
public void put(K key, V val) {
int hash = key.hashCode();
int index = hash % array.length;
Node cur = array[index];
if (array[index] == null) {
array[index] = new Node<>(key, val);
usedSize++;
return;
}
while (cur.next != null) {
if (cur.key.equals(key)) {
cur.val = val;
return;
}
cur = cur.next;
}
if (cur.key.equals(key)) {
cur.val = val;
return;
}
cur.next = new Node<>(key, val);
usedSize++;
if (loadFactor() > 0.75) {
resize();
}
}
private void resize() {
Node[] newArray = new Node[array.length * 2];
for(int i = 0;i<array.length; i++){
Node cur = array[i];
while(cur != null){
int index = cur.key.hashCode() % array.length;
if(newArray[index] == null){
newArray[index] = cur;
}else {
Node cur2 = newArray[index];
while(cur2.next != null){
cur2 = cur2.next;
}
cur2.next = cur;
}
cur = cur.next;
}
}
array = newArray;
}
private double loadFactor() {
return 1.0 * this.usedSize / array.length;
}
? 方法演示 :
? 这里关于 hashCode 和 equles 有一个面试题 :
最后我们 完成我们的get方法 ?
6.3 get方法
比较简单直接写代码
本文完
|