1、继承体系
HashMap 实现了Map接口,以KEY-VALUE的形式存储键值。JDK8中,HashMap 采用的是数组+链表+红黑树的数据结构
2、底层结构
1、基本变量
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
static final int MAXIMUM_CAPACITY = 1 << 30;
static final float DEFAULT_LOAD_FACTOR = 0.75f;
static final int TREEIFY_THRESHOLD = 8;
static final int UNTREEIFY_THRESHOLD = 6;
static final int MIN_TREEIFY_CAPACITY = 64;
transient Node<K,V>[] table;
transient int size;
transient int modCount;
int threshold;
final float loadFactor;
}
HashMap 中的成员变量比较多,需要重点关注的是当前数组的大小以及负载因子loadFactor,这两个因素左右着是否进行扩容
在HashMap中,如果 当前数组的大小 * loadFactor < size 时,或者第一次添加元素时,都会进行扩容操作
2、Node
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
}
该结构由链表组成,HashMap 底层有一个Node数组,当发生hash冲突时,会将元素通过尾插法插入链表中。从上面成员变量可以看出Node 是一个单向链表
3、TreeNode
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
TreeNode<K,V> parent;
TreeNode<K,V> left;
TreeNode<K,V> right;
TreeNode<K,V> prev;
boolean red;
]
TreeNode 是红黑树节点,它直接继承了LinkedHashMap.Entry ,而LinkedHashMap.Entry 继承自HashMap.Node , LinkedHashMap.Entry 扩充了before 、after 节点,是一个双向链表
3、构造函数
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR;
}
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
HashMap 构造方法中,容量和负载因子是很重要的两个参数,这两个值与HashMap 是否扩容息息相关。在这里总结一下面试常问的几个问题
1、默认的负载因子为什么是0.75?
- 首先threshold = 数组大小 * 负载因子,而当前集合中元素个数大于threshold时,HashMap就会进行扩容
- 因此,负载因子太大,HashMap扩容的频率就会降低,产生Hash碰撞的频率就会增大,查询效率就会降低;负载因子太小,HashMap就会频繁扩容,插入的效率就会降低。
- 所以,需要合适的负载因子,来对查询和插入进行平衡,而0.75则是在时间和空间上的进行平衡取得的结果
2、HashMap中为什么数组大小总是2的幂次方?
- 简单来说,就是为了提升效率
- 通常,计算元素在数组中的下标时,采用取模的方式,即hash(key)%数组大小计算数组下标,而当数组大小始终保持在2的幂次方时,可以采用位运算的方式,提高效率
- HashMap中使用的方式是
(n - 1) & hash 方式计算下标,即数组大小 - 1再与key的hash值取模,n-1 可以使值的二进制都为1,比如n为16的话,n-1后的二进制则为1111 ,再进行& 运算的话,由于每一位都是1,那么结果只和key的hash值有关。这样,只要hash函数设计的好的话,产生碰撞的概率就会大大降低,同时位运算比取模运算要快
4、添加元素
平常使用HashMap 添加元素时,大都以put方法以起点
public V put(K key, V value)
return putVal(hash(key), key, value, false, true);
}
put 方法实际调用了内部的putVal 方法,这里会先对key进行hash运算
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
- 当key为null时,直接返回0
- 当key不为null时,计算key的hashcode值,并同时与h的高16位进行
^ 操作
为什么是key的高16位进行^ 操作呢?
- 高16位进行异或操作,可以同时让高16位和低16位参与运算,计算出的hash值更加可靠,发生碰撞的概率更小
putVal方法
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1)
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) {
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
putVal 方法是真正核心方法,大致的过程如下
- 第一次添加元素,首先进行初始化,即扩容
- 计算数组下标,获取数组值,如果为null,说明第一次在该位置添加元素,直接创建新的
Node 节点。 不为null,说明发生了哈希碰撞,需要根据节点类型进行不同操作 - 头结点的k与传入的key相同,直接用新值覆盖旧值,并返回旧值
- 如果当前节点是链表节点,并且没有链表中没有相同的key,使用尾插法添加新元素,并且链表元素个数大于等于8个后,会转换为红黑树节点;如果链表中有相同的key,直接用新值覆盖旧值,并返回旧值
- 如果当前节点是红黑树节点,使用红黑树的方法新增节点
- 判断是否需要扩容,元素总个数超过阈值,进行扩容
红黑树添加节点值
final TreeNode<K,V> putTreeVal(HashMap<K,V> map, Node<K,V>[] tab,
int h, K k, V v) {
Class<?> kc = null;
boolean searched = false;
TreeNode<K,V> root = (parent != null) ? root() : this;
for (TreeNode<K,V> p = root;;) {
int dir, ph; K pk;
if ((ph = p.hash) > h)
dir = -1;
else if (ph < h)
dir = 1;
else if ((pk = p.key) == k || (k != null && k.equals(pk)))
return p;
else if ((kc == null &&
(kc = comparableClassFor(k)) == null) ||
(dir = compareComparables(kc, k, pk)) == 0) {
if (!searched) {
TreeNode<K,V> q, ch;
searched = true;
if (((ch = p.left) != null &&
(q = ch.find(h, k, kc)) != null) ||
((ch = p.right) != null &&
(q = ch.find(h, k, kc)) != null))
return q;
}
dir = tieBreakOrder(k, pk);
}
TreeNode<K,V> xp = p;
if ((p = (dir <= 0) ? p.left : p.right) == null) {
Node<K,V> xpn = xp.next;
TreeNode<K,V> x = map.newTreeNode(h, k, v, xpn);
if (dir <= 0)
xp.left = x;
else
xp.right = x;
xp.next = x;
x.parent = x.prev = xp;
if (xpn != null)
((TreeNode<K,V>)xpn).prev = x;
moveRootToFront(tab, balanceInsertion(root, x));
return null;
}
}
}
只要理解二叉搜索树的查找,红黑树的查找也就很容易理解。要了解的是,TreeNode 节点不仅维护红黑树,还维护着双向链表,所以才会有最后next 节点和prev 节点的操作。总结一下整个流程的话
- 不断在红黑树中查找,若节点已经存在于红黑树中,直接返回当前节点的引用。否则,找到需要插入的具体位置
- 创建新节点,并建立父子关系。同时维护双向链表的关系
- 旋转、变色,并将新的根节点转移到最前面
旋转变色就不分析了,具体可以去谷歌搜索具体的分析文章。
再看下moveRootToFront方法
static <K,V> void moveRootToFront(Node<K,V>[] tab, TreeNode<K,V> root) {
int n;
if (root != null && tab != null && (n = tab.length) > 0) {
int index = (n - 1) & root.hash;
TreeNode<K,V> first = (TreeNode<K,V>)tab[index];
if (root != first) {
Node<K,V> rn;
tab[index] = root;
TreeNode<K,V> rp = root.prev;
if ((rn = root.next) != null)
((TreeNode<K,V>)rn).prev = rp;
if (rp != null)
rp.next = rn;
if (first != null)
first.prev = root;
root.next = first;
root.prev = null;
}
assert checkInvariants(root);
}
}
这个方法做了两件事情
- 将新的root节点放在数组上
- 重新构建链表的关系
链表树化
final void treeifyBin(Node<K,V>[] tab, int hash) {
int n, index; Node<K,V> e;
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
else if ((e = tab[index = (n - 1) & hash]) != null) {
TreeNode<K,V> hd = null, tl = null;
do {
TreeNode<K,V> p = replacementTreeNode(e, null);
if (tl == null)
hd = p;
else {
p.prev = tl;
tl.next = p;
}
tl = p;
} while ((e = e.next) != null);
if ((tab[index] = hd) != null)
hd.treeify(tab);
}
}
final void treeify(Node<K,V>[] tab) {
TreeNode<K,V> root = null;
for (TreeNode<K,V> x = this, next; x != null; x = next) {
next = (TreeNode<K,V>)x.next;
x.left = x.right = null;
if (root == null) {
x.parent = null;
x.red = false;
root = x;
}
else {
K k = x.key;
int h = x.hash;
Class<?> kc = null;
for (TreeNode<K,V> p = root;;) {
int dir, ph;
K pk = p.key;
if ((ph = p.hash) > h)
dir = -1;
else if (ph < h)
dir = 1;
else if ((kc == null &&
(kc = comparableClassFor(k)) == null) ||
(dir = compareComparables(kc, k, pk)) == 0)
dir = tieBreakOrder(k, pk);
TreeNode<K,V> xp = p;
if ((p = (dir <= 0) ? p.left : p.right) == null) {
x.parent = xp;
if (dir <= 0)
xp.left = x;
else
xp.right = x;
root = balanceInsertion(root, x);
break;
}
}
}
}
moveRootToFront(tab, root);
}
链表转换成红黑树的过程中,有一点需要注意,只有当链表个数大于8且数组大小大于64时,才会有红黑树的转换。
为什么链表转红黑树的阈值是8呢?
- 链表的查询时间复杂度是O(n),红黑树的查询时间复杂度为O(log n),当链表个数很小时,红黑树和链表实际相差无几。红黑树的空间占用是链表的2倍,只有数据较多时,使用红黑树才合理。而8这个值,参照了泊松分布,链表各长度实际命中率
- 0: 0.60653066
- 1: 0.30326533
- 2: 0.07581633
- 3: 0.01263606
- 4: 0.00157952
- 5: 0.00015795
- 6: 0.00001316
- 7: 0.00000094
- 8: 0.00000006
- 当链表长度达到8时,出现的概率为千万分之一。目的就是尽量不出现红黑树结构,若是出现了,也能保持较低的查询时间复杂度。正常来说,几乎不太可能看到hashmap中红黑树的结构。若是出现了,说明hash函数设计的有点糟糕。
5、扩容
HashMap 的扩容分为2种,一种是初始化数组,另一种是扩容
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1;
}
else if (oldThr > 0)
newCap = oldThr;
else {
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else {
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
整体分为两大步骤
- 计算新的数组容量和扩容阈值
- 初始化
- 指定容量,newCap=指定容量
- 未指定容量,newCap=16
- 扩容
- 扩容,遍历数组上的每个节点,分情况扩容
- 当前槽只有一个节点,直接根据新容量计算新下标
e.hash & (newCap - 1) ,将节点赋值到新数组上 - 当前节点是红黑树节点,使用红黑树的方式扩容
- 当前节点是链表,将链表分割成两个新链表,分别赋值到新数组上
为什么链表扩容会分割成两个链表?
因为HashMap 的容量始终是2的幂次方倍。举个例子
- 假设数组原大小为16,那么
oldCap=tab.length-1=15 ,转换为二进制为1111 ,那么扩容后新数组的容量大小的二进制为0001 1111 - 假设某个节点的计算hash后的值的二进制为
0101 0101 ,与1111 进行& 后值为0000 0101 ,与0001 1111 进行& 后值为0001 0101 ,正好差一个数组原大小即16 - 假设某个节点的计算hash后的值的二进制为
0100 0101 ,与1111 进行& 后值为0000 0101 ,与0001 1111 进行& 后值为0000 0101 ,新位置和旧位置相同 - 这里计算的结果的不同只与
tab.length-1 的结果的二进制中的第5位(从右往左,从一开始计数)是否为1相关,而 0001 0000 为16,正好是数组的原大小。所以,无论怎么计算,最终只会有两个不同的下标
6、查询
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
首先根据key计算hash,然后从getNode方法中查找数据。存在的话返回e的value值,不存在返回null
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
if (first.hash == hash &&
((k = first.key) == key || (key != null && key.equals(k))))
return first;
if ((e = first.next) != null) {
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
do {
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
查询较容易理解
- 当前槽的第一个节点就是要查询的节点,直接返回节点引用
- 当前节点是红黑树,使用红黑树的方法查找
- 当前节点是链表,从头到尾遍历,查询到就返回
- 没有查询到节点,返回null
红黑树查找
final TreeNode<K,V> find(int h, Object k, Class<?> kc) {
TreeNode<K,V> p = this;
do {
int ph, dir; K pk;
TreeNode<K,V> pl = p.left, pr = p.right, q;
if ((ph = p.hash) > h)
p = pl;
else if (ph < h)
p = pr;
else if ((pk = p.key) == k || (k != null && k.equals(pk)))
return p;
else if (pl == null)
p = pr;
else if (pr == null)
p = pl;
else if ((kc != null ||
(kc = comparableClassFor(k)) != null) &&
(dir = compareComparables(kc, k, pk)) != 0)
p = (dir < 0) ? pl : pr;
else if ((q = pr.find(h, k, kc)) != null)
return q;
else
p = pl;
} while (p != null);
return null;
}
红黑树查询就是比较要查询的key与当前节点key的hash以及key是否相同,不相同的话根据情况来决定向左还是向右,其中遇到hash相同但key不同的情况,会直接指定方向查询
|