| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 数据结构与算法 -> 【建议收藏】由浅入深,说说HashMap的底层原理,你学废了吗? -> 正文阅读 |
|
[数据结构与算法]【建议收藏】由浅入深,说说HashMap的底层原理,你学废了吗? |
HashMap定义说的专业一点,HashMap是常用的用于存储key-value键值对数据的一个集合,底层是基于对Map的接口实现。每一个键值对又叫Entry,这些Entry分散的存储在一个由数组和链表组成的集合中。当然在Java8中,Entry变成了Node。
HashMap底层结构table数组首先我们要知道,我们存在HashMap中的数据最终是存了什么地方,就是如下的结构。
可能有人看到transient有些陌生,被这个关键字修饰的变量将不会被序列化。简单来说,就是序列化之后这个字段的值就会被干掉,用于一些不需要传递给第三方的字段。
Node节点【白嫖资料】
上面的代码省略了一些Getter和Setter,结构还是非常清晰和简单。可以看到这个节点存储了下一个节点的对象的引用,形成了一个链表的结构。 为什么要用链表?用数组不行吗?刚刚上面提到过,这个集合是由链表和数组组成的。因为再完美的hash算法都有可能产生哈希冲突,所以两个不同key的元素可以被放在同一个地方。 而单用数组明显不能满足这个需求,而在数组的槽位上存一个链表就可以解决这个问题。 HashMap的使用上面简单了解了HashMap的定义和基本的底层数据结构,接下来通过HashMap在平常开发中的使用来具体看看怎么实现的。
赋值put函数上面的Put方法,我们传入了两个参数,Key和Value,函数的定义如下。
应该跟大多数人YY的put方法差不多,put方法再调用了putVal?方法。 首先经过了hash之后的key,是一个整型的hashcode,其次是我们传入的key和value。最后两个布尔值,后面会提到。 首先一进入putVal就会声明存放数据的table,如果这个HashMap是首次设置值,就会被初始化一个默认size的table,且所有元素的初始值都是NULL,下面是初始化这块的核心代码,我省略掉了一些无关的变量声明。
默认值为啥是16上面初始化table的默认size给的是16,当然我们也可以自己定义,但是建议是最好是2的幂。有的朋(杠)友(精)就要问了,为什么是16呢?我13,14不他不香吗?我们接下来就要分析为什么不香。 当我们放元素进入map的时候,它是如何确定元素在table数组中的位置的呢?我们拿搜索关注公众号这个key举例。
可以看到,是将hash之后key和数组的length-1做与运算得到了一个数组下标。而且,hash值的二进制的位数,大多数情况下都会比table的长度的二进制位数多。换句话说,与运算之后得到的数组下标index完全取决于hash值的后几位。
从13、14的二进制值可以看出来,存在0和1在二进制位数上分布不均匀的情况,这样一来就会造成一个问题,那就是会存在某些不同的hash值经过与运算得到的值是一样的。这样就会导致hash到的index不均匀,换句话说有些index可能永远都不会被hash到,而有些index也被频繁的hash到。 本来hash算法是要求计算的结果要均匀分布的,但是上述的结果明显不符合均匀分布的要求。用n-1而不用n也是因为同样的道理。如果这个值是2的幂,那么2的幂的值-1的所有二进制位数都是1,这样有利于hash计算的均匀分布。 综上所述,不一定是16,2的幂都可以,16只是一个经验值。 自动扩容除了size,初始化的时候还会设定一个阈值,值为12,newThr = 12,这里需要提到一个概念负载因子,HashMap的实现里默认给的是0.75。
负载因子是用来干嘛的呢?最开始我们提到了,最开始存储的数据结构是数组,这种基础结构是有size设定的。当我们不停的往map里存数据的时候,总会存满,当元素快存满的时候,我们就需要扩大map的容量,来容纳更多的元素,这就需要一个自动扩容的机制了。
在当数据量大于超过设定的阈值的时候(容量*负载因子),自动对map进行扩容,以存放更多的数据。 自动扩容做了什么事情呢?总结来说就是两件事。
为什么要rehash呢?上面我们提到过了,当元素被放进map时,确认下标的方法是table的长度-1和hash值做与运算,现在table的长度发生了变化,那么自然而然,元素获取下标的运算结果也就跟之前的不一样了, 所以需要将老的map中的元素再按照新的table长度rehash到扩容后的table中。
put的过程中到底发生了什么了解了底层数据结构和自动扩容机制,接下来我们来看一下put过程中究竟发生了什么。我们上面说过了,会通过数组的长度-1和hash值与运算得到一个数组下标。 如果该位置没有元素,那么就很简单,直接新建一个节点即可然后放置在数据的具体位置即可。
但是如果该下标已经有元素了,这种情况HashMap是怎么处理的呢?这也要看情况。
当该位置的链表中的元素超过了TREEIFY_THRESHOLD所设置的数量时,就会触发树化,将其转化为红黑树。Java8里给的默认值是8,而当元素的数量低于6时又会 为啥要转化成红黑树首先我们要知道为什么要树化。当大量的数据放入Map中,Hash冲突会越来越多,某些位置就会出现一个很长的链表的情况。这种情况下,查询时间复杂度是O(n) ,删除的时间复杂度也是O(n),查询、删除的效率会大大降低。而同样的数据情况下,平衡二叉树的时间复杂度都是O(logn)。
不了解二叉查找树的,我把它的特点列在了下面。
再精简一下就是,左小右大 但是,如果数据大量的趋近于有序,例如所有的节点都比根节点大,那这个时候二叉查找树就退化成了链表,查询效率就会急剧下降。看到这是不是觉得有点不对,我才从链表树化,你这又给我退化成了链表?
的确是这样,AVL也可以叫平衡二叉搜索树。AVL树会在其有退化成链表的趋势的时候(左右子树的高度差超过某个阈值)调整树的结构,也就是通过左旋和右旋来使其左右子树的高度尽量平衡。
具体的细节也就不在这里赘述,不知不觉已经写了这么多了,直接说结论吧。AVL树的查找速度更快,但是相应的插入和修改的速度较慢。而红黑树则在插入和修改操作较为密集的时候表现更好。 而总结我们日常的HashMap使用,大多数情况下插入和修改应该是比查找更频繁一些的。而在这种情况下,红黑树的综合表现会更好一些。 至于红黑树的相关细节,涉及的东西还是挺多,我之后会单独拿一个篇幅来讲。 为什么要用尾插法我们目前用的最多的是Java8,在Java8中采用的是尾插法,Java8之前采用的是头插法。 那为什么后面又变成了尾插法呢?放心,肯定不是设计者闲的蛋疼,没事来改个设计。这样做一定是有一定的道理的。在解释这个问题之前,我们先来看看,如果采取头插法在多线程下的情况下会出现什么问题。 我们讲过,假设数组中index=1的位置已经有了元素A,之后又有元素B被分配到了index=1的位置。那么在下标为1的槽位上的链表就变成了B -> A。 此时再分配了一个新元素C,链表又被更新成了C -> B -> A。这也是为什么叫头插法,新的元素会被放在链表的头节点,因为当时设计的时候考虑到后被放入map的元素被访问的可能性更大。 上面讲到了在当不停的往map中放置元素后,超过了设定的阈值,就会触发自动扩容。此时会触发两个操作,一是创建一个容量为之前两倍的底层数组,并且将老的数组中的元素rehash到新的数组中。 而由于数组的长度发生了变化,这就导致了元素的rehash结果跟之前在老数组中的位置不一样。 首先我们来模拟一下rehash的过程,假设新的数组中下标为2的槽位是空的。
我看到很多的对JDK1.7版的HashMap在多线程的情况下扩容会出现死锁的解释都只到了环形链表。但是其实就算是环形链表,只要找到了对应的元素,就会直接退出循环的逻辑,也不会造成死循环。 实际情况是,当自动扩容形成了环形链表后,当你去Get了一个在entry链上不存在的元素时,就会出现死循环的情况。 取值【白嫖资料】上面聊了给HashMap赋值的大概过程,接下来聊一下从HashMap获取值会发生什么。get方法的开始,跟put一样很简单。
可以看到,取值的核心操作是getNode来负责完成的。 首先第一件事就是去check的第一个元素是不是当前查找的元素。 如果不是,而且当前槽位已经被树化成了红黑树,就走红黑树的getTreeNode方法。 如果还没有被树化,只是普通的链表,则顺着next一路找下去。 由于get方法逻辑和实现都比较容易理解,就不贴太多源码了。 最后,祝大家早日学有所成,拿到满意offer,快速升职加薪,走上人生巅峰。可以的话 请给我一个三连支持一下哟???【白嫖资料】 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/28 11:47:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |