[数据结构][Python]python实现散列表
散列表的實(shí)現(xiàn)常常叫做散列(hashing)。散列僅支持INSERT,SEARCH和DELETE操作,都是在常數(shù)平均時(shí)間執(zhí)行的。需要元素間任何排序信息的操作將不會(huì)得到有效的支持。
散列表是普通數(shù)組概念的推廣。如果空間允許,可以提供一個(gè)數(shù)組,為每個(gè)可能的關(guān)鍵字保留一個(gè)位置,就可以運(yùn)用直接尋址技術(shù)。
當(dāng)實(shí)際存儲(chǔ)的關(guān)鍵字比可能的關(guān)鍵字總數(shù)較小時(shí),采用散列表就比較直接尋址更為有效。在散列表中,不是直接把關(guān)鍵字用作數(shù)組下標(biāo),而是根據(jù)關(guān)鍵字計(jì)算出下標(biāo),這種
關(guān)鍵字與下標(biāo)之間的映射就叫做散列函數(shù)。
1.散列函數(shù)
一個(gè)好的散列函數(shù)應(yīng)滿足簡(jiǎn)單移植散列的假設(shè):每個(gè)關(guān)鍵字都等可能的散列到m個(gè)槽位的任何一個(gè)中去,并與其它的關(guān)鍵字已被散列到哪個(gè)槽位無(wú)關(guān)。
1.1 通常散列表的關(guān)鍵字都是自然數(shù)。
1.11 除法散列法
通過(guò)關(guān)鍵字k除以槽位m的余數(shù)來(lái)映射到某個(gè)槽位中。
hash(k)=k mod m應(yīng)用除法散列時(shí),應(yīng)注意m的選擇,m不應(yīng)該是2的冪,通常選擇與2的冪不太接近的質(zhì)數(shù)。
1.12 乘法散列法
乘法方法包含兩個(gè)步驟,第一步用關(guān)鍵字k乘上常數(shù)A(0<A<1),并取出小數(shù)部分,然后用m乘以這個(gè)值,再取結(jié)果的底(floor)。
hash(k)=floor(m(kA mod 1))乘法的一個(gè)優(yōu)點(diǎn)是對(duì)m的選擇沒(méi)有什么特別的要求,一般選擇它為2的某個(gè)冪。
一般取A=(√5-1)/2=0.618比較理想。
1.13 全域散列
隨機(jī)的選擇散列函數(shù),使之獨(dú)立于要存儲(chǔ)的關(guān)鍵字。在執(zhí)行開(kāi)始時(shí),就從一族仔細(xì)設(shè)計(jì)的函數(shù)中,隨機(jī)的選擇一個(gè)作為散列函數(shù),隨機(jī)化保證了
沒(méi)有哪一種輸入會(huì)始終導(dǎo)致最壞情況發(fā)生。
1.2 如果關(guān)鍵字是字符串,散列函數(shù)需要仔細(xì)的選擇
1.2.1 將字符串中字符的ASCII碼值相加
def _hash(key,m):hashVal=0for _ in key:hashVal+=ord(_)return hashVal%m由于ascii碼最大127,當(dāng)表很大時(shí),函數(shù)不會(huì)很好的分配關(guān)鍵字。
1.2.2 取關(guān)鍵字的前三個(gè)字符。
值27表示英文字母表的字母?jìng)€(gè)數(shù)加上一個(gè)空格。
hash(k)=k[0]+27*k[1]+729*k[2]1.2.3 用霍納法則把所有字符擴(kuò)展到n次多項(xiàng)式。
用32代替27,可以用于位運(yùn)算。
def _hash(key,m):hashval=0for _ in key:hashval=(hashval<<5)+ord(_)return hashval%m2. 分離鏈接法
散列表會(huì)面臨一個(gè)問(wèn)題,當(dāng)兩個(gè)關(guān)鍵字散列到同一個(gè)值的時(shí)候,稱之為沖突或者碰撞(collision)。解決沖突的第一種方法通常叫做分離鏈接法(separate chaining)。
其做法是將散列到同一個(gè)值的所有元素保留到一個(gè)鏈表中,槽中保留一個(gè)指向鏈表頭的指針。
為執(zhí)行FIND,使用散列函數(shù)來(lái)確定要考察哪個(gè)表,遍歷該表并返回關(guān)鍵字所在的位置。
為執(zhí)行INSERT,首先確定該元素是否在表中。如果是新元素,插入表的前端或末尾。
為執(zhí)行DELETE,找到該元素執(zhí)行鏈表刪除即可。
散列表中元素個(gè)數(shù)與散列表大小的比值稱之為裝填因子(load factor)λ。
執(zhí)行一次不成功的查找,遍歷的鏈接數(shù)平均為λ,成功的查找則花費(fèi)1+(λ/2)。
分離鏈接散列的一般做法是使得λ盡量接近于1。
代碼:
class _ListNode(object):def __init__(self,key):self.key=keyself.next=None class HashMap(object):def __init__(self,tableSize):self._table=[None]*tableSizeself._n=0 #number of nodes in the mapdef __len__(self):return self._ndef _hash(self,key):return abs(hash(key))%len(self._table)def __getitem__(self,key):j=self._hash(key)node=self._table[j]while node is not None and node.key!=key :node=node.nextif node is None:raise KeyError,'KeyError'+repr(key)return node def insert(self,key):try:self[key]except KeyError:j=self._hash(key)node=self._table[j]self._table[j]=_ListNode(key)self._table[j].next=nodeself._n+=1def __delitem__(self,key):j=self._hash(key)node=self._table[j]if node is not None:if node.key==key:self._table[j]=node.nextself._-=1else:while node.next!=None:pre=nodenode=node.nextif node.key==key:pre.next=node.nextself._n-=1break3.開(kāi)放定址法
在開(kāi)放定址散列算法中,如果有沖突發(fā)生,那么就要嘗試選擇另外的單元,直到找出空的單元為止。
h(k,i)=(h’(k)+f(i)) mod m,i=0,1,…,m-1 ,其中f(0)=0
3.1 線性探測(cè)法
函數(shù)f(i)是i的線性函數(shù)
h(k,i)=(h’(k)+i) mod m
相當(dāng)于逐個(gè)探測(cè)每個(gè)單元
線性探測(cè)會(huì)存在一個(gè)問(wèn)題,稱之為一次群集。隨著被占用槽的增加,平均查找時(shí)間也會(huì)不斷增加。當(dāng)一個(gè)空槽前有i個(gè)滿的槽時(shí),該空槽為下一個(gè)將被占用
槽的概率是(i+1)/m。連續(xù)被占用槽的序列會(huì)越來(lái)越長(zhǎng),平均查找時(shí)間也會(huì)隨之增加。
如果表有一半多被填滿的話,線性探測(cè)不是個(gè)好辦法。
3.2 平法探測(cè)
平方探測(cè)可以取消線性探測(cè)中的一次群集問(wèn)題。
h(k,i)=(h’(k)+c1i+c2i2) mod m
平方探測(cè)中,如果表的一半為空,并且表的大小是質(zhì)數(shù),保證能夠插入一個(gè)新的元素。
平方探測(cè)會(huì)引起二次群集的問(wèn)題。
3.3 雙散列
雙散列是用于開(kāi)放定址法的最好方法之一。
h(k,i)=(h1(k)+ih2(k)) mod m
為能查找整個(gè)散列表,值h2(k)要與m互質(zhì)。確保這個(gè)條件成立的一種方法是取m為2的冪,并設(shè)計(jì)一個(gè)總產(chǎn)生奇數(shù)的h2。另一種方法是取m為質(zhì)數(shù),并設(shè)計(jì)一個(gè)總是產(chǎn)生
較m小的正整數(shù)的h2。
例如取:
h1(k)=k mod m,h2(k)=1+(k mod m’),m’為略小于m的整數(shù)。
給定一個(gè)裝填因子λ的開(kāi)放定址散列表,插入一個(gè)元素至多需要1/(1-λ)次探查。
給定一個(gè)裝填因子λ<1的開(kāi)放定址散列表,一次成功查找中的期望探查數(shù)至多為(1/λ)ln(1/1-λ)。
4. 再散列
如果表的元素填得太滿,那么操作的運(yùn)行時(shí)間將開(kāi)始消耗過(guò)長(zhǎng)。一種解決方法是當(dāng)表到達(dá)某個(gè)裝填因子時(shí),建立一個(gè)大約兩倍大的表,而且使用一個(gè)相關(guān)的新散列函數(shù),
掃描整個(gè)原始散列表,計(jì)算每個(gè)元素的新散列值并將其插入到新表中。
為避免開(kāi)放定址散列查找錯(cuò)誤,刪除操作要采用懶惰刪除。
總結(jié)
以上是生活随笔為你收集整理的[数据结构][Python]python实现散列表的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java中怎么编写围棋对弈,TPWEIQ
- 下一篇: Python爬虫实战四 | 盘搜搜1.2