日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hashmap containsvalue时间复杂度_不看看HashMap源码,怎么和面试官谈薪资

發布時間:2025/3/12 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hashmap containsvalue时间复杂度_不看看HashMap源码,怎么和面试官谈薪资 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

HashMap 是日常開發中,用的最多的集合類之一,也是面試中經常被問到的 Java 類之一。同時,HashMap 在實現方式上面又有十分典型的范例。不管是從哪一方面來看,學習 HashMap 都可以說是有利無害的。

分析 HashMap 的源碼的文章在網上面已經數不勝數了,本文另辟蹊徑來分析 HashMap 的設計思想。

底層數據結構

說到 HashMap 的數據庫,我們需要從兩個 JDK 版本來分析:JDK7 和 JDK8。

JDK7 版本的 HashMap 的數據結構為:數組 + 鏈表。而 JDK8 ?版本的 HashMap 的數據結構為:數組 + 鏈表 + 紅黑樹。可以看到 7 和 8 中 HashMap 的底層數據結構最主要的區別就是 Java8 多了紅黑樹。

為何是數組加鏈表

上文中說到了 不管是 7 或者8 ,底層數據結構都是 數組 + 鏈表,但這又是為什么呢?

數組是一個鏈式數據結構。put時,通過特定的哈希算法將key映射成數組下標,這樣子就可以將數據保存在對應的槽中,這個槽在 HashMap 中被稱為 Entry。在 get 時候,通過相同的哈希函數,將 key 進行哈希運算,可以得到對應的下標,就可以快速找到該 key 對應的 value。這時候, get 的時間復雜度還是 O(1)。

但,哈希算法就避免不了有哈希沖突,不同的值通過哈希運算之后可能得到同一個值。在散列表的相關概念中,介紹了幾種解決哈希沖突的方案,而HashMap就是使用的鏈表法。

在發生了哈希沖突之后,我們在Entry中形成一個單鏈表。但是這里還存在了一個問題,如果鏈表過長,檢索起來的效率同樣也會很低。于是,在 Java8 中,通過鏈表轉紅黑樹來解決這個問題。

為何要加上紅黑樹

為什么要鏈表轉紅黑樹,我們需要從數據結構來解析。

如果從一個無序單鏈表中檢索數據,我們只能從頭到尾一個一個檢索,一旦數據量很大的情況下,檢索的效率就很低(O(n))。這時,我們想到了紅黑樹,從目前的情況來看,紅黑樹能很好地解決這個問題(時間復雜度度為O(logn))。

我們先來看看紅黑樹的定義:

紅黑樹是每個節點都帶有顏色屬性的二叉查找樹,顏色為紅色或黑色。在二叉查找樹強制一般要求以外,對于任何有效的紅黑樹我們增加了如下的額外要求:

  • 節點是紅色或黑色。
  • 根是黑色。
  • 所有葉子都是黑色(葉子是NIL節點)。
  • 每個紅色節點必須有兩個黑色的子節點。(從每個葉子到根的所有路徑上不能有兩個連續的紅色節點。)
  • 從任一節點到其每個葉子的所有簡單路徑都包含相同數目的黑色節點。
  • 紅黑樹

    要是紅黑樹,首先得是二叉查找樹:

    二叉查找樹(英語:Binary Search Tree),也稱為二叉搜索樹有序二叉樹(ordered binary tree)或排序二叉樹(sorted binary tree),是指一棵空樹或者具有下列性質的二叉樹:

  • 若任意節點的左子樹不空,則左子樹上所有節點的值均小于它的根節點的值;
  • 若任意節點的右子樹不空,則右子樹上所有節點的值均大于或等于它的根節點的值;
  • 任意節點的左、右子樹也分別為二叉查找樹;
  • 簡單總結一下,紅黑樹的左節點要比父節點小,右節點要比父節點大。如果要檢索一個數字,可以將時間復雜度從 O(n) 降低到 O(logn)。

    當然了,添加了紅黑樹的數據結構之后,代碼實現要比 只用數組 + 鏈表要復雜了好幾倍。看代碼的時候簡直是不能再痛苦了。

    什么時候轉成紅黑樹,有什么轉成鏈表

    在源碼中有這么一個字段,static final int TREEIFY_THRESHOLD = 8;,見字知義,這個字段的意思鏈表轉紅黑樹的閾值,也就是 8。同樣的,還有這么一個字段,static final int UNTREEIFY_THRESHOLD = 6;,它意思是紅黑樹轉鏈表的閾值。

    這里還需要再注意一個字段static final int MIN_TREEIFY_CAPACITY = 64。這個字段意思是鏈表轉紅黑樹的最小數組大小,也就是說只有在 **鏈表長度大于8且數組長度大于64的時候,鏈表才會轉成紅黑樹。**但在本節這不是重點,也就不多做闡述,大家只需要知道這肯定是為了性能就是了。

    為什么是 8 呢?在源碼的注釋中也有解釋,英文翻譯過來就是下面的意思。

    鏈表查詢的時間復雜度是 O (n),紅黑樹的查詢復雜度是 O (log n)。在鏈表數據不多的時候,使用鏈表進行遍歷也比較快,只有當鏈表數據比較多的時候,才會轉化成紅黑樹,但紅黑樹需要的占用空間是鏈表的 2 倍,考慮到轉化時間和空間損耗,所以我們需要定義出轉化的邊界值。

    在考慮設計 8 這個值的時候,我們參考了泊松分布概率函數,由泊松分布中得出結論,鏈表各個長度的命中概率為:

    * 0: 0.60653066* 1: 0.30326533* 2: 0.07581633* 3: 0.01263606* 4: 0.00157952* 5: 0.00015795* 6: 0.00001316* 7: 0.00000094* 8: 0.00000006

    意思是,當鏈表的長度是 8 的時候,出現的概率是 0.00000006,不到千萬分之一,所以說正常情況下,鏈表的長度不可能到達 8 ,而一旦到達 8 時,肯定是 hash 算法出了問題,所以在這種情況下,為了讓 HashMap 仍然有較高的查詢性能,所以讓鏈表轉化成紅黑樹,我們正常寫代碼,使用 HashMap 時,幾乎不會碰到鏈表轉化成紅黑樹的情況,畢竟概念只有千萬分之一。

    為什么兩個閾值不一樣的,大家想想,如果一樣的,在鏈表達到8 的時候,會轉成紅黑樹,但紅黑樹轉鏈表的閾值也是8,這時候就會出現循環轉換。

    擴容的條件

    對比 HashMap 在 7 和 8 中初始化,我發現兩個版本的初始化做的事情并不一樣。

    在 Java 7 中,HashMap 初始化的時候,會有個默認容量 (16)。但在 Java8 中,HashMap 初始化的時候,默認容量為0,只有在第一次 put 的時候,才會擴容到 16。

    在 HashMap 源碼中,有一個字段定義 static final float DEFAULT_LOAD_FACTOR = 0.75f;。這個字段的意思是,當HashMap 的長度 = HashMap 當前容量 * 0.75的時候,就會發生擴容。

    關于為什么負載因子是0.75,我們可以在源碼注釋找到一定的答案。

    load factor

    大致意思就是說負載因子是0.75的時候,空間利用率比較高,而且避免了相當多的Hash沖突,使得底層的鏈表或者是紅黑樹的高度比較低,提升了空間效率。

    最后,我們要知道HashMap的擴容是變成原先容量的 2 倍。

    Hash函數

    我們來看看 Java 8 的 hash 函數。

    static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }

    這里的大概意思就是,先計算出 key 的 hashCode h。然后計算計算 h ^ (h >>> 16)。無符號右移16位。這么做的好處是使大多數場景下,算出來的 hash 值比較分散。

    一般來說,hash 值算出來之后,要計算當前 key 在數組中的索引下標位置時,可以采用取模的方式,就是索引下標位置 = hash 值 % 數組大小,這樣做的好處,就是可以保證計算出來的索引下標值可以均勻的分布在數組的各個索引位置上,但取模操作對于處理器的計算是比較慢的,數學上有個公式,當 b 是 2 的冪次方時,a % b = a &(b-1),所以此處索引位置的計算公式我們可以更換為:(n-1) & hash。

    此問題可以延伸出三個小問題:

  • 為什么不用 key % 數組大小,而是需要用 key 的 hash 值 % 數組大小。

    如果 key 是數字,直接用 key % 數組大小是完全沒有問題的,但我們的 key 還有可能是字符串,是復雜對象,這時候用 字符串或復雜對象 % 數組大小是不行的,所以需要先計算出 key 的 hash 值。

  • 計算 hash 值時,為什么需要右移 16 位?

    hash 算法是 h ^ (h >>> 16),為了使計算出的 hash 值更分散,所以選擇先將 h 無符號右移 16 位,然后再于 h 異或時,就能達到 h 的高 16 位和低 16 位都能參與計算,減少了碰撞的可能性。

  • 為什么把取模操作換成了 & 操作?

    key.hashCode() 算出來的 hash 值還不是數組的索引下標,為了隨機的計算出索引的下表位置,我們還會用 hash 值和數組大小進行取模,這樣子計算出來的索引下標比較均勻分布。

    取模操作處理器計算比較慢,處理器對 & 操作就比較擅長,換成了 & 操作,是有數學上證明的支撐,為了提高了處理器處理的速度。

  • hash 沖突時怎么辦?

    hash 沖突指的是 key 值的 hashcode 計算相同,但 key 值不同的情況。

    如果桶中元素原本只有一個或已經是鏈表了,新增元素直接追加到鏈表尾部;

    如果桶中元素已經是鏈表,并且鏈表個數大于等于 8 時,此時有兩種情況:

  • 如果此時數組大小小于 64,數組再次擴容,鏈表不會轉化成紅黑樹;
  • 如果數組大小大于 64 時,鏈表就會轉化成紅黑樹。
  • 這里不僅僅判斷鏈表個數大于等于 8,還判斷了數組大小,數組容量小于 64 沒有立即轉化的原因,猜測主要是因為紅黑樹占用的空間比鏈表大很多,轉化也比較耗時,所以數組容量小的情況下沖突嚴重,我們可以先嘗試擴容,看看能否通過擴容來解決沖突的問題。

    總結

    以上是生活随笔為你收集整理的hashmap containsvalue时间复杂度_不看看HashMap源码,怎么和面试官谈薪资的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。