HashMap
在数据结构中我门学习过很多种查找的方式 比如顺序查找,折半查找(二分查找),分块查找以及此topic中提到的散列查找。
散列查找也为哈希查找,哈希查找的时间复杂度为O(1),插入的时间复杂度也为O(1),有着比较好的性能,但是始终存在一个难以解决的问题就是哈希冲突。
- 为了解决这个冲突,衍生出很多的解决办法
- 拉链法(将有哈希冲突的字符串成一个链表)
- 开放地址法
- 线性探测法
- 平方探测法
- 为随机序列法
- 以上方法的本质思想都相同,就是如果遇到了冲突就查找currentPostion+di 每种方法的di都不同 此文章就不多加赘述,如有兴趣可以参考数据接口散列查找部分、
- 再散列法(准备多个散列函数)
在Java中的HashMap就采用了拉链法来解决hash冲突
HashMap的大致结构
从这个图中我我们就可以大致了解hashmap是如何解决hash冲突的。当有hash冲突的时候(hash函数映射到了一个被占用的数组的位置)就加入到这个链表中。
HashMap的结构
这里hashmap使用了一个Entry数组来作为他的主干,当没有hash冲突的时候,键值对就存放在Entry数组中
这个entry 实现了Map.Entry这个接口
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
transient int size;
// 初始为16
int threshold;
// 负载因子 用来尽可能的减少hash冲突,如果等到容量满了才扩容那么每一个Entry数组下面挂着的链可能就很长了,我们要在Entry数组满之前就扩容
final float loadFactor;
// HashMap改变的次数,
// HashMap是非线程安全的,如果在迭代的过程中,hashmap的modCount改变了,那么就会抛出一个ConcurrentModificationException异常
transient int modCount;
HashMap初始化
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
threshold = initialCapacity;
init();
}
可以看出在刚初始化其实HashMap是空的仅有两个int占用8字节的内存,并没有给Entry数组,真正的分配空间。
HashMap插入:
public V put(K key, V value) {
if (table == EMPTY_TABLE) {
inflateTable(threshold);
}
if (key == null)
return putForNullKey(value);
int hash = hash(key);
int i = indexFor(hash, table.length);
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(hash, key, value, i);
return null;
}
真正的初始化table
private void inflateTable(int toSize) {
int capacity = roundUpToPowerOf2(toSize);
threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
table = new Entry[capacity];
initHashSeedAsNeeded(capacity);
}
介绍一下addEntry的具体实现
void addEntry(int hash, K key, V value, int bucketIndex) {
if ((size >= threshold) && (null != table[bucketIndex])) {
resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
bucketIndex = indexFor(hash, table.length);
}
createEntry(hash, key, value, bucketIndex);
}
从上面的代码我们可以知道 当size大于等于阈值且发生了hash冲突,就对table扩容,新建一个两倍原来数组大小的新数组,并将现在的元素全部转移过去,这是一个非常time-consuming的操作因为要全部重新计算hash并得到新的数组下标因为数组的长度已经改变了。
Resize方法
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
Entry[] newTable = new Entry[newCapacity];
transfer(newTable, initHashSeedAsNeeded(newCapacity));
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {
while(null != e) {
Entry<K,V> next = e.next;
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
}
}
}
保持数组长度一直是二次幂的原因是可以保证元素在老数组中和新数组中的index变化不会太大,举一个例子 比如本来的length是16 二进制为10000,length-1为01111,同理扩容后的数组长度是32,二进制表示为100000,length-1为011111。我们可以上下对比一下仅有一位的差异,所以大多数的key的映射到的数组下表都是相同的。
这是我的理解:其实length-1 肯定是低位全一,直接取hash的低位 可以保证在数组大小内。只有二次幂的数-1才有这个性质。
从HashMap中取数据
public V get(Object key) {
if (key == null)
return getForNullKey();
Entry<K,V> entry = getEntry(key);
return null == entry ? null : entry.getValue();
}
final Entry<K,V> getEntry(Object key) {
if (size == 0) {
return null;
}
int hash = (key == null) ? 0 : hash(key);
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
return null;
}
在HashMap的get方法可以看出相对比较简单并且效率比较高因为大部分都是可以O(1)时间范围内取到我们要的元素。
为什么要重写对象的hashcode和equals方法呢
我们可以在源码中看到在判断HashMap中key和我们查询或插入的key是否相等时,有两个条件:一个是两个的hash相同(hash的内部就是对对象的hashcode做一些位运算得到的),另一个就是两个的equals需要返回true
如果不重写这两个方法将会调用Object类中的hashcode和equals方法,Object类中的hashcode方法是native(代表操作系统向上提供的方法)通过对象的地址生成一个整数值,equals是通过两个对象引用指向的地址是否是同一个而判断是否相同
当我们存入了一个对象,需要通过key获取的时候,两个对象一定是不同的因为是新new出来的,只要用了new关键字就会在堆内存中申请空间,并创建新的对象,因此两个key的hashcode和equals一定是不同的。
学过Java的我们都知道判断两个字符串是否相等需要使用equals方法,而不能直接使用==。因为==判断的直接是两个对象的地址,equals是String类中重写的方法判断两个字符串的值是否相同。
|