1、哈希表
Hash表也稱為散列表,也有直接譯作哈希表,Hash表是一種根據(jù)關(guān)鍵字值(key - value)而直接進(jìn)行訪問的數(shù)據(jù)結(jié)構(gòu)。也就是說它通過把關(guān)鍵碼值映射到表中的一個位置來訪問記錄,以此來加快查找的速度。在鏈表、數(shù)組等數(shù)據(jù)結(jié)構(gòu)中,查找某個關(guān)鍵字,通常要遍歷整個數(shù)據(jù)結(jié)構(gòu),也就是O(N)的時間級,但是對于哈希表來說,只是O(1)的時間級。
比如對于前面我們講解的 ArrayList 集合和 LinkedList ,如果我們要查找這兩個集合中的某個元素,通常是通過遍歷整個集合,需要O(N)的時間級。
如果是哈希表,它是通過把關(guān)鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數(shù)叫做散列函數(shù),存放記錄的數(shù)組叫做散列表,只需要O(1)的時間級。
①、存放在哈希表中的數(shù)據(jù)是key-value 鍵值對,比如存放哈希表的數(shù)據(jù)為:
{Key1-Value1,Key2-Value2,Key3-Value3,Key4-Value4,Key5-Value5,Key6-Value6}
如果我們想查找是否存在鍵值對 Key3-Value3,首先通過 Key3 經(jīng)過散列函數(shù),得到值 k3,然后通過 k3 和散列表對應(yīng)的值找到是 Value3。
②、當(dāng)然也有可能存放哈希表的值只是 Value1,Value2,Value3這種類型:
{Value1,Value2,Value3,Value4,Value5,Value6}
這時候我們可以假設(shè) Value1 是等于 Key1的,也就是{Value1-Value1,Value2-Value2,Value3-Value3,Value4-Value4,Value5-Value5,Value6-Value6}可以將 Value1經(jīng)過散列函數(shù)轉(zhuǎn)換成與散列表對應(yīng)的值。
大家都用過漢語字典吧,漢語字典的優(yōu)點是我們可以通過前面的拼音目錄快速定位到所要查找的漢字。當(dāng)給定我們某個漢字時,大腦會自動將漢字轉(zhuǎn)換成拼音(如果我們認(rèn)識,不認(rèn)識可以通過偏旁部首),這個轉(zhuǎn)換的過程我們可以看成是一個散列函數(shù),之后在根據(jù)轉(zhuǎn)換得到的拼音找到該字所在的頁碼,從而找到該漢字。
漢語字典是哈希表的典型實現(xiàn),但是我們仔細(xì)思考,會發(fā)現(xiàn)這樣幾個問題?
①、為什么要有散列函數(shù)?
②、多個 key 通過散列函數(shù)會得到相同的值,這時候怎么辦?
對于第一個問題,散列函數(shù)的存在能夠幫助我們更快的確定key和value的映射關(guān)系,試想一下,如果沒有漢字和拼音的轉(zhuǎn)換規(guī)則(或者漢字和偏旁部首的),給你一個漢字,你該如何從字典中找到該漢字?我想除了遍歷整部字典,你沒有什么更好的辦法。
對于第二個問題,多個 key 通過散列函數(shù)得到相同的值,這其實也是哈希表最大的問題——沖突。比如同音字漢字,我們得到的拼音就會是相同的,那么我們該如何在字典中存放同音字漢字呢?有兩種做法:
第一種是開放地址法,當(dāng)我們遇到?jīng)_突了,這時候通過另一種函數(shù)再計算一遍,得到相應(yīng)的映射關(guān)系。比如對于漢語字典,一個字 “余”,拼音是“yu”,我們將其放在頁碼為567(假設(shè)在該位置),這時候又來了一個漢字“于”,拼音也是“yu”,那么這時候我們要是按照轉(zhuǎn)換規(guī)則,也得將其放在頁碼為567的位置,但是我們發(fā)現(xiàn)這個頁碼已經(jīng)被占用了,這時候怎么辦?我們可以在通過另一種函數(shù),得到的值加1。那么漢字"于"就會被放在576+1=577的位置。
第二種是鏈地址法,我們可以將字典的每一頁都看成是一個子數(shù)組或者子鏈表,當(dāng)遇到?jīng)_突了,直接往當(dāng)前頁碼的子數(shù)組或者子鏈表里面填充即可。那么我們進(jìn)行同音字查找的時候,可能需要遍歷其子數(shù)組或者子鏈表。如下圖所示:
對于開放地址法,可能會遇到二次沖突,三次沖突,所以需要良好的散列函數(shù),分布的越均勻越好。對于鏈地址法,雖然不會造成二次沖突,但是如果一次沖突很多,那么會造成子數(shù)組或者子鏈表很長,那么我們查找所需遍歷的時間也會很長。
2、什么是 HashMap?
聽名字就知道,HashMap 是一個利用哈希表原理來存儲元素的集合。遇到?jīng)_突時,HashMap 是采用的鏈地址法來解決,在 JDK1.7 中,HashMap 是由 數(shù)組+鏈表構(gòu)成的。但是在 JDK1.8 中,HashMap 是由 數(shù)組+鏈表+紅黑樹構(gòu)成,新增了紅黑樹作為底層數(shù)據(jù)結(jié)構(gòu),結(jié)構(gòu)變得復(fù)雜了,但是效率也變的更高效。下面我們來具體介紹在 JDK1.8 中 HashMap 是如何實現(xiàn)的。
3、HashMap定義
HashMap 是一個散列表,它存儲的內(nèi)容是鍵值對(key-value)映射,而且 key 和 value 都可以為 null。
public class HashMap< K,V > extends AbstractMap< K,V >
implements Map< K,V >, Cloneable, Serializable {
首先該類實現(xiàn)了一個 Map 接口,該接口定義了一組鍵值對映射通用的操作。儲存一組成對的鍵-值對象,提供key(鍵)到value(值)的映射,Map中的key不要求有序,不允許重復(fù)。value同樣不要求有序,但可以重復(fù)。但是我們發(fā)現(xiàn)該接口方法有很多,我們設(shè)計某個鍵值對的集合有時候并不像實現(xiàn)那么多方法,那該怎么辦?
JDK 還為我們提供了一個抽象類 AbstractMap ,該抽象類繼承 Map 接口,所以如果我們不想實現(xiàn)所有的 Map 接口方法,就可以選擇繼承抽象類 AbstractMap 。
但是我們發(fā)現(xiàn) HashMap 類即繼承了 AbstractMap 接口,也實現(xiàn)了 Map 接口,這樣做難道不是多此一舉?后面我們會講的 LinkedHashSet 集合也有這樣的寫法。
畢竟 JDK 經(jīng)過這么多年的發(fā)展維護(hù),博主起初也是認(rèn)為這樣是有具體的作用的,后來找了很多資料,發(fā)現(xiàn)這其實完全沒有任何作用
據(jù) java 集合框架的創(chuàng)始人Josh Bloch描述,這樣的寫法是一個失誤。在java集合框架中,類似這樣的寫法很多,最開始寫java集合框架的時候,他認(rèn)為這樣寫,在某些地方可能是有價值的,直到他意識到錯了。顯然的,JDK的維護(hù)者,后來不認(rèn)為這個小小的失誤值得去修改,所以就這樣存在下來了。
HashMap 集合還實現(xiàn)了 Cloneable 接口以及 Serializable 接口,分別用來進(jìn)行對象克隆以及將對象進(jìn)行序列化。
4、字段屬性
//序列化和反序列化時,通過該字段進(jìn)行版本一致性驗證
private static final long serialVersionUID = 362498820763181265L;
//默認(rèn) HashMap 集合初始容量為16(必須是 2 的倍數(shù))
static final int DEFAULT_INITIAL_CAPACITY = 1 < < 4; // aka 16
//集合的最大容量,如果通過帶參構(gòu)造指定的最大容量超過此數(shù),默認(rèn)還是使用此數(shù)
static final int MAXIMUM_CAPACITY = 1 < < 30;
//默認(rèn)的填充因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//當(dāng)桶(bucket)上的結(jié)點數(shù)大于這個值時會轉(zhuǎn)成紅黑樹(JDK1.8新增)
static final int TREEIFY_THRESHOLD = 8;
//當(dāng)桶(bucket)上的節(jié)點數(shù)小于這個值時會轉(zhuǎn)成鏈表(JDK1.8新增)
static final int UNTREEIFY_THRESHOLD = 6;
/**(JDK1.8新增)
* 當(dāng)集合中的容量大于這個值時,表中的桶才能進(jìn)行樹形化 ,否則桶內(nèi)元素太多時會擴(kuò)容,
* 而不是樹形化 為了避免進(jìn)行擴(kuò)容、樹形化選擇的沖突,這個值不能小于 4 * TREEIFY_THRESHOLD
*/
static final int MIN_TREEIFY_CAPACITY = 64;
注意 :后面三個字段是 JDK1.8 新增的,主要是用來進(jìn)行紅黑樹和鏈表的互相轉(zhuǎn)換。
/**
* 初始化使用,長度總是 2的冪
*/
transient Node< K,V >[] table;
/**
* 保存緩存的entrySet()
*/
transient Set< Map.Entry< K,V >> entrySet;
/**
* 此映射中包含的鍵值映射的數(shù)量。(集合存儲鍵值對的數(shù)量)
*/
transient int size;
/**
* 跟前面ArrayList和LinkedList集合中的字段modCount一樣,記錄集合被修改的次數(shù)
* 主要用于迭代器中的快速失敗
*/
transient int modCount;
/**
* 調(diào)整大小的下一個大小值(容量*加載因子)。capacity * load factor
*/
int threshold;
/**
* 散列表的加載因子。
*/
final float loadFactor;
下面我們重點介紹上面幾個字段:
①、Node[] table
我們說 HashMap 是由數(shù)組+鏈表+紅黑樹組成,這里的數(shù)組就是 table 字段。后面對其進(jìn)行初始化長度默認(rèn)是 DEFAULT_INITIAL_CAPACITY= 16。而且 JDK 聲明數(shù)組的長度總是 2的n次方(一定是合數(shù)),為什么這里要求是合數(shù),一般我們知道哈希算法為了避免沖突都要求長度是質(zhì)數(shù),這里要求是合數(shù),下面在介紹 HashMap 的hashCode() 方法(散列函數(shù)),我們再進(jìn)行講解。
②、size
集合中存放key-value 的實時對數(shù)。
③、loadFactor
裝載因子,是用來衡量 HashMap 滿的程度,計算HashMap的實時裝載因子的方法為:size/capacity,而不是占用桶的數(shù)量去除以capacity。capacity 是桶的數(shù)量,也就是 table 的長度length。
默認(rèn)的負(fù)載因子0.75 是對空間和時間效率的一個平衡選擇,建議大家不要修改,除非在時間和空間比較特殊的情況下,如果內(nèi)存空間很多而又對時間效率要求很高,可以降低負(fù)載因子loadFactor 的值;相反,如果內(nèi)存空間緊張而對時間效率要求不高,可以增加負(fù)載因子 loadFactor 的值,這個值可以大于1。
④、threshold
計算公式:capacity * loadFactor。這個值是當(dāng)前已占用數(shù)組長度的最大值。過這個數(shù)目就重新resize(擴(kuò)容),擴(kuò)容后的 HashMap 容量是之前容量的兩倍
5、構(gòu)造函數(shù)
①、默認(rèn)無參構(gòu)造函數(shù)
/**
* 默認(rèn)構(gòu)造函數(shù),初始化加載因子loadFactor = 0.75
*/
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR;
}
無參構(gòu)造器,初始化散列表的加載因子為0.75
②、指定初始容量的構(gòu)造函數(shù)
/**
*
* @param initialCapacity 指定初始化容量
* @param loadFactor 加載因子 0.75
*/
public HashMap(int initialCapacity, float loadFactor) {
//初始化容量不能小于 0 ,否則拋出異常
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
//如果初始化容量大于2的30次方,則初始化容量都為2的30次方
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
//如果加載因子小于0,或者加載因子是一個非數(shù)值,拋出異常
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
// 返回大于等于initialCapacity的最小的二次冪數(shù)值。
// > >> 操作符表示無符號右移,高位取0。
// | 按位或運算
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n > >> 1;
n |= n > >> 2;
n |= n > >> 4;
n |= n > >> 8;
n |= n > >> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
6、確定哈希桶數(shù)組索引位置
前面我們講解哈希表的時候,我們知道是用散列函數(shù)來確定索引的位置。散列函數(shù)設(shè)計的越好,使得元素分布的越均勻。HashMap 是數(shù)組+鏈表+紅黑樹的組合,我們希望在有限個數(shù)組位置時,盡量每個位置的元素只有一個,那么當(dāng)我們用散列函數(shù)求得索引位置的時候,我們能馬上知道對應(yīng)位置的元素是不是我們想要的,而不是要進(jìn)行鏈表的遍歷或者紅黑樹的遍歷,這會大大優(yōu)化我們的查詢效率。我們看 HashMap 中的哈希算法:
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h > >> 16);
}
i = (table.length - 1) & hash;//這一步是在后面添加元素putVal()方法中進(jìn)行位置的確定
主要分為三步:
①、取 hashCode 值:key.hashCode()
②、高位參與運算:h>>>16
③、取模運算:(n-1) & hash
這里獲取 hashCode() 方法的值是變量,但是我們知道,對于任意給定的對象,只要它的 hashCode() 返回值相同,那么程序調(diào)用 hash(Object key) 所計算得到的 hash碼 值總是相同的。
為了讓數(shù)組元素分布均勻,我們首先想到的是把獲得的 hash碼對數(shù)組長度取模運算( hash%length),但是計算機(jī)都是二進(jìn)制進(jìn)行操作,取模運算相對開銷還是很大的,那該如何優(yōu)化呢?
HashMap 使用的方法很巧妙,它通過 hash & (table.length -1)來得到該對象的保存位,前面說過 HashMap 底層數(shù)組的長度總是2的n次方,這是HashMap在速度上的優(yōu)化。當(dāng) length 總是2的n次方時,hash & (length-1)運算等價于對 length 取模,也就是 hash%length,但是&比%具有更高的效率。比如 n % 32 = n & (32 -1)
這也解釋了為什么要保證數(shù)組的長度總是2的n次方。
再就是在 JDK1.8 中還有個高位參與運算,hashCode() 得到的是一個32位 int 類型的值,通過hashCode()的高16位 異或 低16位實現(xiàn)的:(h = k.hashCode()) ^ (h >>> 16),主要是從速度、功效、質(zhì)量來考慮的,這么做可以在數(shù)組table的length比較小的時候,也能保證考慮到高低Bit都參與到Hash的計算中,同時不會有太大的開銷。
下面舉例說明下,n為table的長度:
7、添加元素
//hash(key)就是上面講的hash方法,對其進(jìn)行了第一步和第二步處理
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
/**
*
* @param hash 索引的位置
* @param key 鍵
* @param value 值
* @param onlyIfAbsent true 表示不要更改現(xiàn)有值
* @param evict false表示table處于創(chuàng)建模式
* @return
*/
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node< K,V >[] tab; Node< K,V > p; int n, i;
//如果table為null或者長度為0,則進(jìn)行初始化
//resize()方法本來是用于擴(kuò)容,由于初始化沒有實際分配空間,這里用該方法進(jìn)行空間分配,后面會詳細(xì)講解該方法
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//注意:這里用到了前面講解獲得key的hash碼的第三步,取模運算,下面的if-else分別是 tab[i] 為null和不為null
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);//tab[i] 為null,直接將新的key-value插入到計算的索引i位置
else {//tab[i] 不為null,表示該位置已經(jīng)有值了
Node< K,V > e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;//節(jié)點key已經(jīng)有值了,直接用新值覆蓋
//該鏈?zhǔn)羌t黑樹
else if (p instanceof TreeNode)
e = ((TreeNode< K,V >)p).putTreeVal(this, tab, hash, key, value);
//該鏈?zhǔn)擎湵?/span>
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//鏈表長度大于8,轉(zhuǎn)換成紅黑樹
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
//key已經(jīng)存在直接覆蓋value
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;//用作修改和新增快速失敗
if (++size > threshold)//超過最大容量,進(jìn)行擴(kuò)容
resize();
afterNodeInsertion(evict);
return null;
}
①、判斷鍵值對數(shù)組 table 是否為空或為null,否則執(zhí)行resize()進(jìn)行擴(kuò)容;
②、根據(jù)鍵值key計算hash值得到插入的數(shù)組索引i,如果table[i]==null,直接新建節(jié)點添加,轉(zhuǎn)向⑥,如果table[i]不為空,轉(zhuǎn)向③;
③、判斷table[i]的首個元素是否和key一樣,如果相同直接覆蓋value,否則轉(zhuǎn)向④,這里的相同指的是hashCode以及equals;
④、判斷table[i] 是否為treeNode,即table[i] 是否是紅黑樹,如果是紅黑樹,則直接在樹中插入鍵值對,否則轉(zhuǎn)向⑤;
⑤、遍歷table[i],判斷鏈表長度是否大于8,大于8的話把鏈表轉(zhuǎn)換為紅黑樹,在紅黑樹中執(zhí)行插入操作,否則進(jìn)行鏈表的插入操作;遍歷過程中若發(fā)現(xiàn)key已經(jīng)存在直接覆蓋value即可;
⑥、插入成功后,判斷實際存在的鍵值對數(shù)量size是否超過了最大容量threshold,如果超過,進(jìn)行擴(kuò)容。
⑦、如果新插入的key不存在,則返回null,如果新插入的key存在,則返回原key對應(yīng)的value值(注意新插入的value會覆蓋原value值)
注意1:看第 58,59 行代碼:
if (++size > threshold)//超過最大容量,進(jìn)行擴(kuò)容
resize();
這里有個考點,我們知道 HashMap 是由數(shù)組+鏈表+紅黑樹(JDK1.8)組成,如果在添加元素時,發(fā)生沖突,會將沖突的數(shù)放在鏈表上,當(dāng)鏈表長度超過8時,會自動轉(zhuǎn)換成紅黑樹。
那么有如下問題:數(shù)組上有5個元素,而某個鏈表上有3個元素,問此HashMap的 size 是多大?
我們分析第58,59 行代碼,很容易知道,只要是調(diào)用put() 方法添加元素,那么就會調(diào)用 ++size(這里有個例外是插入重復(fù)key的鍵值對,不會調(diào)用,但是重復(fù)key元素不會影響size),所以,上面的答案是 7。
注意2:看第 53 、 60 行代碼:
afterNodeAccess(e);
afterNodeInsertion(evict);
這里調(diào)用的該方法,其實是調(diào)用了如下實現(xiàn)方法:
void afterNodeAccess(Node< K,V > p) { }
void afterNodeInsertion(boolean evict) { }
這都是一個空的方法實現(xiàn),我們在這里可以不用管,但是在后面介紹 LinkedHashMap 會用到,LinkedHashMap 是繼承的 HashMap,并且重寫了該方法,后面我們會詳細(xì)介紹。
8、擴(kuò)容機(jī)制
擴(kuò)容(resize),我們知道集合是由數(shù)組+鏈表+紅黑樹構(gòu)成,向 HashMap 中插入元素時,如果HashMap 集合的元素已經(jīng)大于了最大承載容量threshold(capacity * loadFactor),這里的threshold不是數(shù)組的最大長度。那么必須擴(kuò)大數(shù)組的長度,Java中數(shù)組是無法自動擴(kuò)容的,我們采用的方法是用一個更大的數(shù)組代替這個小的數(shù)組,就好比以前是用小桶裝水,現(xiàn)在小桶裝不下了,我們使用一個更大的桶。
JDK1.8融入了紅黑樹的機(jī)制,比較復(fù)雜,這里我們先介紹 JDK1.7的擴(kuò)容源碼,便于理解,然后在介紹JDK1.8的源碼。
//參數(shù) newCapacity 為新數(shù)組的大小
void resize(int newCapacity) {
Entry[] oldTable = table;//引用擴(kuò)容前的 Entry 數(shù)組
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {//擴(kuò)容前的數(shù)組大小如果已經(jīng)達(dá)到最大(2^30)了
threshold = Integer.MAX_VALUE;///修改閾值為int的最大值(2^31-1),這樣以后就不會擴(kuò)容了
return;
}
Entry[] newTable = new Entry[newCapacity];//初始化一個新的Entry數(shù)組
transfer(newTable, initHashSeedAsNeeded(newCapacity));//將數(shù)組元素轉(zhuǎn)移到新數(shù)組里面
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);//修改閾值
}
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry< K,V > e : table) {//遍歷數(shù)組
while(null != e) {
Entry< K,V > next = e.next;
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
int i = indexFor(e.hash, newCapacity);//重新計算每個元素在數(shù)組中的索引位置
e.next = newTable[i];//標(biāo)記下一個元素,添加是鏈表頭添加
newTable[i] = e;//將元素放在鏈上
e = next;//訪問下一個 Entry 鏈上的元素
}
}
}
通過方法我們可以看到,JDK1.7中首先是創(chuàng)建一個新的大容量數(shù)組,然后依次重新計算原集合所有元素的索引,然后重新賦值。如果數(shù)組某個位置發(fā)生了hash沖突,使用的是單鏈表的頭插入方法,同一位置的新元素總是放在鏈表的頭部,這樣與原集合鏈表對比,擴(kuò)容之后的可能就是倒序的鏈表了。
下面我們在看看JDK1.8的。
final Node< K,V >[] resize() {
Node< K,V >[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;//原數(shù)組如果為null,則長度賦值0
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {//如果原數(shù)組長度大于0
if (oldCap >= MAXIMUM_CAPACITY) {//數(shù)組大小如果已經(jīng)大于等于最大值(2^30)
threshold = Integer.MAX_VALUE;//修改閾值為int的最大值(2^31-1),這樣以后就不會擴(kuò)容了
return oldTab;
}
//原數(shù)組長度大于等于初始化長度16,并且原數(shù)組長度擴(kuò)大1倍也小于2^30次方
else if ((newCap = oldCap < < 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr < < 1; // 閥值擴(kuò)大1倍
}
else if (oldThr > 0) //舊閥值大于0,則將新容量直接等于就閥值
newCap = oldThr;
else {//閥值等于0,oldCap也等于0(集合未進(jìn)行初始化)
newCap = DEFAULT_INITIAL_CAPACITY;//數(shù)組長度初始化為16
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);//閥值等于16*0.75=12
}
//計算新的閥值上限
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node< K,V >[] newTab = (Node< K,V >[])new Node[newCap];
table = newTab;
if (oldTab != null) {
//把每個bucket都移動到新的buckets中
for (int j = 0; j < oldCap; ++j) {
Node< K,V > e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;//元數(shù)據(jù)j位置置為null,便于垃圾回收
if (e.next == null)//數(shù)組沒有下一個引用(不是鏈表)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)//紅黑樹
((TreeNode< K,V >)e).split(this, newTab, j, oldCap);
else { // preserve order
Node< K,V > loHead = null, loTail = null;
Node< K,V > hiHead = null, hiTail = null;
Node< K,V > next;
do {
next = e.next;
//原索引
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
//原索引+oldCap
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//原索引放到bucket里
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//原索引+oldCap放到bucket里
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
該方法分為兩部分,首先是計算新桶數(shù)組的容量 newCap 和新閾值 newThr,然后將原集合的元素重新映射到新集合中。
相比于JDK1.7,1.8使用的是2次冪的擴(kuò)展(指長度擴(kuò)為原來2倍),所以,元素的位置要么是在原位置,要么是在原位置再移動2次冪的位置。我們在擴(kuò)充HashMap的時候,不需要像JDK1.7的實現(xiàn)那樣重新計算hash,只需要看看原來的hash值新增的那個bit是1還是0就好了,是0的話索引沒變,是1的話索引變成“原索引+oldCap”。
9、刪除元素
HashMap 刪除元素首先是要找到 桶的位置,然后如果是鏈表,則進(jìn)行鏈表遍歷,找到需要刪除的元素后,進(jìn)行刪除;如果是紅黑樹,也是進(jìn)行樹的遍歷,找到元素刪除后,進(jìn)行平衡調(diào)節(jié),注意,當(dāng)紅黑樹的節(jié)點數(shù)小于 6 時,會轉(zhuǎn)化成鏈表。
public V remove(Object key) {
Node< K,V > e;
return (e = removeNode(hash(key), key, null, false, true)) == null ?
null : e.value;
}
final Node< K,V > removeNode(int hash, Object key, Object value,
boolean matchValue, boolean movable) {
Node< K,V >[] tab; Node< K,V > p; int n, index;
//(n - 1) & hash找到桶的位置
if ((tab = table) != null && (n = tab.length) > 0 &&
(p = tab[index = (n - 1) & hash]) != null) {
Node< K,V > node = null, e; K k; V v;
//如果鍵的值與鏈表第一個節(jié)點相等,則將 node 指向該節(jié)點
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
node = p;
//如果桶節(jié)點存在下一個節(jié)點
else if ((e = p.next) != null) {
//節(jié)點為紅黑樹
if (p instanceof TreeNode)
node = ((TreeNode< K,V >)p).getTreeNode(hash, key);//找到需要刪除的紅黑樹節(jié)點
else {
do {//遍歷鏈表,找到待刪除的節(jié)點
if (e.hash == hash &&
((k = e.key) == key ||
(key != null && key.equals(k)))) {
node = e;
break;
}
p = e;
} while ((e = e.next) != null);
}
}
//刪除節(jié)點,并進(jìn)行調(diào)節(jié)紅黑樹平衡
if (node != null && (!matchValue || (v = node.value) == value ||
(value != null && value.equals(v)))) {
if (node instanceof TreeNode)
((TreeNode< K,V >)node).removeTreeNode(this, tab, movable);
else if (node == p)
tab[index] = node.next;
else
p.next = node.next;
++modCount;
--size;
afterNodeRemoval(node);
return node;
}
}
return null;
}
注意第 46 行代碼
afterNodeRemoval(node);
這也是為實現(xiàn) LinkedHashMap 做準(zhǔn)備的,在這里和上面一樣,是一個空方法實現(xiàn),可以不用管。而在 LinkedHashMap 中進(jìn)行了重寫,用來維護(hù)刪除節(jié)點后,鏈表的前后關(guān)系。
10、查找元素
①、通過 key 查找 value
首先通過 key 找到計算索引,找到桶位置,先檢查第一個節(jié)點,如果是則返回,如果不是,則遍歷其后面的鏈表或者紅黑樹。其余情況全部返回 null。
public V get(Object key) {
Node< K,V > e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node< K,V > getNode(int hash, Object key) {
Node< K,V >[] tab; Node< K,V > first, e; int n; K k;
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//根據(jù)key計算的索引檢查第一個索引
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
//不是第一個節(jié)點
if ((e = first.next) != null) {
if (first instanceof TreeNode)//遍歷樹查找元素
return ((TreeNode< K,V >)first).getTreeNode(hash, key);
do {
//遍歷鏈表查找元素
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}
②、判斷是否存在給定的 key 或者 value
public boolean containsKey(Object key) {
return getNode(hash(key), key) != null;
}
public boolean containsValue(Object value) {
Node< K,V >[] tab; V v;
if ((tab = table) != null && size > 0) {
//遍歷桶
for (int i = 0; i < tab.length; ++i) {
//遍歷桶中的每個節(jié)點元素
for (Node< K,V > e = tab[i]; e != null; e = e.next) {
if ((v = e.value) == value ||
(value != null && value.equals(v)))
return true;
}
}
}
return false;
}
11、遍歷元素
首先構(gòu)造一個 HashMap 集合:
HashMap< String,Object > map = new HashMap< >();
map.put("A","1");
map.put("B","2");
map.put("C","3");
①、分別獲取 key 集合和 value 集合。
//1、分別獲取key和value的集合
for(String key : map.keySet()){
System.out.println(key);
}
for(Object value : map.values()){
System.out.println(value);
}
②、獲取 key 集合,然后遍歷key集合,根據(jù)key分別得到相應(yīng)value
//2、獲取key集合,然后遍歷key,根據(jù)key得到 value
Set< String > keySet = map.keySet();
for(String str : keySet){
System.out.println(str+"-"+map.get(str));
}
③、得到 Entry 集合,然后遍歷 Entry
//3、得到 Entry 集合,然后遍歷 Entry
Set< Map.Entry< String,Object >> entrySet = map.entrySet();
for(Map.Entry< String,Object > entry : entrySet){
System.out.println(entry.getKey()+"-"+entry.getValue());
}
④、迭代
//4、迭代
Iterator< Map.Entry< String,Object >> iterator = map.entrySet().iterator();
while(iterator.hasNext()){
Map.Entry< String,Object > mapEntry = iterator.next();
System.out.println(mapEntry.getKey()+"-"+mapEntry.getValue());
}
基本上使用第三種方法是性能最好的,
第一種遍歷方法在我們只需要 key 集合或者只需要 value 集合時使用;
第二種方法效率很低,不推薦使用;
第四種方法效率也挺好,關(guān)鍵是在遍歷的過程中我們可以對集合中的元素進(jìn)行刪除。
12、總結(jié)
①、基于JDK1.8的HashMap是由數(shù)組+鏈表+紅黑樹組成,當(dāng)鏈表長度超過 8 時會自動轉(zhuǎn)換成紅黑樹,當(dāng)紅黑樹節(jié)點個數(shù)小于 6 時,又會轉(zhuǎn)化成鏈表。相對于早期版本的 JDK HashMap 實現(xiàn),新增了紅黑樹作為底層數(shù)據(jù)結(jié)構(gòu),在數(shù)據(jù)量較大且哈希碰撞較多時,能夠極大的增加檢索的效率。
②、允許 key 和 value 都為 null。key 重復(fù)會被覆蓋,value 允許重復(fù)。
③、非線程安全
④、無序(遍歷HashMap得到元素的順序不是按照插入的順序)
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4329瀏覽量
62576 -
頁碼
+關(guān)注
關(guān)注
0文章
2瀏覽量
1983 -
哈希表
+關(guān)注
關(guān)注
0文章
9瀏覽量
4841 -
hashmap
+關(guān)注
關(guān)注
0文章
14瀏覽量
2285
發(fā)布評論請先 登錄
相關(guān)推薦
評論