Map - HashSet & HashMap 源码解析 Java7 HashMap 概述 HashSet
、HashMap
二者在Java里有着相同的实现,前者仅仅是对后者做了一层包装,也就是说 HashSet
里面有一个 HashMap
(适配器模式)。
HashMap
实现了 Map
接口,即允许放入 key
为 null
的元素,也允许插入 value
为 null
的元素;除该类未实现同步外,其余跟 Hashtable
大致相同;跟 TreeMap
不同,该容器不保证元素顺序,根据需要该容器可能会对元素重新哈希,元素的顺序也会被重新打散,因此不同时间迭代同一个 HashMap
的顺序可能会不同。 根据对冲突的处理方式不同,哈希表有两种实现方式,一种 开放地址
方式 ,另一种是 冲突链表
方式。Java7 HashMap采用的是冲突链表方式。
从上图容易看出,如果选择合适的 哈希函数, put()
和 get()
方法可以在常数时间内完成。但在对 HashMap
进行迭代时,需要遍历整个 table 以及后面跟的冲突链表。因此对于迭代比较频繁的场景,不宜将HashMap
的初始大小设的过大。
有两个参数可以影响 HashMap
的性能: 初始容量 和 负载系数 。初始容量指定了初始 table
的大小,负载系数用来指定 自动扩容 的临界值。当 entry
的数量超过 capacity*load_factor
时,容器将自动扩容 并 重新哈希。对于插入元素较多的场景,将 初始容量设大 可以 减少 重新哈希的次数。
将对象放入到 HashMap
或 HashSet
中时,有两个方法需要特别关心: hashCode()
和 equals()
。hashCode()方法决定了对象会被放到哪个 bucket 里,当多个对象的哈希值冲突时,equals()方法决定了这些对象是否是“同一个对象” 。所以,如果要将自定义的对象放入到 HashMap
或 HashSet
中,需要重写 hashCode()
和 equals()
方法。
get() get(Object key)
方法根据指定的 key
值返回对应的 value
,该方法调用了 getEntry(Object key)
得到相应的 entry
,然后返回 entry.getValue()
。因此 getEntry()
是算法的核心。 算法思想是首先通过hash()
函数得到对应 bucket
的下标,然后依次遍历冲突链表,通过 key.equals(k)
方法来判断是否是要找的那个 entry
。
上图中 hash(k)&(table.length-1)
等价于 hash(k)%table.length
,原因是 HashMap
要求table.length
必须是2的指数,因此 table.length-1
就是二进制低位全是1,跟 hash(k)
相与会将哈希值的高位全抹掉,剩下的就是余数了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 final Entry<K,V> getEntry (Object key) { ...... int hash = (key == null ) ? 0 : hash(key); for (Entry<K,V> e = table[hash&(table.length-1 )]; e != null ; e = e.next) { Object k; if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } return null ; }
put() put(K key, V value)
方法是将指定的 key, value
对添加到 map
里。该方法首先会对 map
做一次查找,看是否包含该元组,如果已经包含则直接返回,查找过程类似于 getEntry()
方法;如果没有找到,则会通过 addEntry(int hash, K key, V value, int bucketIndex)
方法插入新的 entry
,插入方式为头插法 。
1 2 3 4 5 6 7 8 9 10 11 12 13 void addEntry (int hash, K key, V value, int bucketIndex) { if ((size >= threshold) && (null != table[bucketIndex])) { resize(2 * table.length); hash = (null != key) ? hash(key) : 0 ; bucketIndex = hash & (table.length-1 ); } Entry<K,V> e = table[bucketIndex]; table[bucketIndex] = new Entry <>(hash, key, value, e); size++; }
remove() remove(Object key)
的作用是删除 key
值对应的 entry
,该方法的具体逻辑是在 removeEntryForKey(Object key)
里实现的。 removeEntryForKey()
方法会首先找到key
值对应的entry
,然后删除该 entry
(修改链表的相应引用)。查找过程跟 getEntry()
过程类似.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 final Entry<K,V> removeEntryForKey (Object key) { ...... int hash = (key == null ) ? 0 : hash(key); int i = indexFor(hash, table.length); Entry<K,V> prev = table[i]; Entry<K,V> e = prev; while (e != null ) { Entry<K,V> next = e.next; Object k; if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) { modCount++; size--; if (prev == e) table[i] = next; else prev.next = next; return e; } prev = e; e = next; } return e; }
Java8 HashMap Java8 对 HashMap 进行了一些修改,最大的不同就是利用了红黑树,所以其由 数组+链表+红黑树 组成。
根据 Java7 HashMap 的介绍,我们知道,查找的时候,根据 hash 值我们能够快速定位到数组的具体下标,但是之后的话,需要顺着链表一个个比较下去才能找到我们需要的,时间复杂度取决于链表的长度,为 O(n)。
为了降低这部分的开销,在 Java8 中,当链表中的元素达到了 8 个时,会将链表转换为红黑树,在这些位置进行查找的时候可以降低时间复杂度为 O(logN)。
注意,上图是示意图,主要是描述结构,不会达到这个状态的,因为这么多数据的时候早就扩容了。
下面,我们还是用代码来介绍吧,个人感觉,Java8 的源码可读性要差一些,不过精简一些。
Java7 中使用 Entry 来代表每个 HashMap 中的数据节点,Java8 中使用 Node,基本没有区别,都是 key,value,hash 和 next 这四个属性,不过,Node 只能用于链表的情况,红黑树的情况需要使用 TreeNode。
我们根据数组元素中,第一个节点数据类型是 Node 还是 TreeNode 来判断该位置下是链表还是红黑树的。
put 过程分析 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 public V put (K key, V value) { return putVal(hash(key), key, value, false , true ); } final V putVal (int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node<K,V>[] tab; Node<K,V> p; int n, i; if ((tab = table) == null || (n = tab.length) == 0 ) n = (tab = resize()).length; if ((p = tab[i = (n - 1 ) & hash]) == null ) tab[i] = newNode(hash, key, value, null ); else { Node<K,V> e; K k; if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; else if (p instanceof TreeNode) e = ((TreeNode<K,V>)p).putTreeVal(this , tab, hash, key, value); else { for (int binCount = 0 ; ; ++binCount) { if ((e = p.next) == null ) { p.next = newNode(hash, key, value, null ); if (binCount >= TREEIFY_THRESHOLD - 1 ) treeifyBin(tab, hash); break ; } if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break ; p = e; } } if (e != null ) { V oldValue = e.value; if (!onlyIfAbsent || oldValue == null ) e.value = value; afterNodeAccess(e); return oldValue; } } ++modCount; if (++size > threshold) resize(); afterNodeInsertion(evict); return null ; }
和 Java7 稍微有点不一样的地方就是,Java7 是先扩容后插入新值的,Java8 先插值再扩容,不过这个不重要。
数组扩容 resize() 方法用于初始化数组或数组扩容,每次扩容后,容量为原来的 2 倍,并进行数据迁移。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 final Node<K,V>[] resize() { Node<K,V>[] oldTab = table; int oldCap = (oldTab == null ) ? 0 : oldTab.length; int oldThr = threshold; int newCap, newThr = 0 ; if (oldCap > 0 ) { if (oldCap >= MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return oldTab; } else if ((newCap = oldCap << 1 ) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) newThr = oldThr << 1 ; } else if (oldThr > 0 ) newCap = oldThr; else { newCap = DEFAULT_INITIAL_CAPACITY; newThr = (int )(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); } if (newThr == 0 ) { float ft = (float )newCap * loadFactor; newThr = (newCap < MAXIMUM_CAPACITY && ft < (float )MAXIMUM_CAPACITY ? (int )ft : Integer.MAX_VALUE); } threshold = newThr; Node<K,V>[] newTab = (Node<K,V>[])new Node [newCap]; table = newTab; if (oldTab != null ) { for (int j = 0 ; j < oldCap; ++j) { Node<K,V> e; if ((e = oldTab[j]) != null ) { oldTab[j] = null ; if (e.next == null ) newTab[e.hash & (newCap - 1 )] = e; else if (e instanceof TreeNode) ((TreeNode<K,V>)e).split(this , newTab, j, oldCap); else { Node<K,V> loHead = null , loTail = null ; Node<K,V> hiHead = null , hiTail = null ; Node<K,V> next; do { next = e.next; if ((e.hash & oldCap) == 0 ) { if (loTail == null ) loHead = e; else loTail.next = e; loTail = e; } else { if (hiTail == null ) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null ); if (loTail != null ) { loTail.next = null ; newTab[j] = loHead; } if (hiTail != null ) { hiTail.next = null ; newTab[j + oldCap] = hiHead; } } } } } return newTab; }
get 过程分析 相对于 put 来说,get 真的太简单了。
计算 key 的 hash 值,根据 hash 值找到对应数组下标: hash & (length-1)
判断数组该位置处的元素是否刚好就是我们要找的,如果不是,走第三步
判断该元素类型是否是 TreeNode,如果是,用红黑树的方法取数据,如果不是,走第四步
遍历链表,直到找到相等 (==或equals) 的 key
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 public V get (Object key) { Node<K,V> e; return (e = getNode(hash(key), key)) == null ? null : e.value; } final Node<K,V> getNode (int hash, Object key) { Node<K,V>[] tab; Node<K,V> first, e; int n; K k; if ((tab = table) != null && (n = tab.length) > 0 && (first = tab[(n - 1 ) & hash]) != null ) { if (first.hash == hash && ((k = first.key) == key || (key != null && key.equals(k)))) return first; if ((e = first.next) != null ) { if (first instanceof TreeNode) return ((TreeNode<K,V>)first).getTreeNode(hash, key); do { if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } while ((e = e.next) != null ); } } return null ; }
HashSet 前面已经说过 HashSet
是对 HashMap
的简单包装,对 HashSet
的函数调用都会转换成合适的 HashMap
方法,因此 HashSet
的实现非常简单,只有不到300行代码。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 public class HashSet <E>{ ...... private transient HashMap<E,Object> map; private static final Object PRESENT = new Object (); public HashSet () { map = new HashMap <>(); } ...... public boolean add (E e) { return map.put(e, PRESENT)==null ; } ...... }