當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

[数据结构][Python]python实现散列表

發(fā)布時(shí)間：2023/12/8 python 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 [数据结构][Python]python实现散列表小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

散列表的實(shí)現(xiàn)常常叫做散列(hashing)。散列僅支持INSERT,SEARCH和DELETE操作，都是在常數(shù)平均時(shí)間執(zhí)行的。需要元素間任何排序信息的操作將不會(huì)得到有效的支持。

散列表是普通數(shù)組概念的推廣。如果空間允許，可以提供一個(gè)數(shù)組，為每個(gè)可能的關(guān)鍵字保留一個(gè)位置，就可以運(yùn)用直接尋址技術(shù)。

當(dāng)實(shí)際存儲(chǔ)的關(guān)鍵字比可能的關(guān)鍵字總數(shù)較小時(shí)，采用散列表就比較直接尋址更為有效。在散列表中，不是直接把關(guān)鍵字用作數(shù)組下標(biāo)，而是根據(jù)關(guān)鍵字計(jì)算出下標(biāo)，這種

關(guān)鍵字與下標(biāo)之間的映射就叫做散列函數(shù)。

1.散列函數(shù)

一個(gè)好的散列函數(shù)應(yīng)滿足簡(jiǎn)單移植散列的假設(shè)：每個(gè)關(guān)鍵字都等可能的散列到m個(gè)槽位的任何一個(gè)中去，并與其它的關(guān)鍵字已被散列到哪個(gè)槽位無(wú)關(guān)。

1.1 通常散列表的關(guān)鍵字都是自然數(shù)。

1.11 除法散列法

通過(guò)關(guān)鍵字k除以槽位m的余數(shù)來(lái)映射到某個(gè)槽位中。

hash(k)=k mod m

應(yīng)用除法散列時(shí)，應(yīng)注意m的選擇，m不應(yīng)該是2的冪，通常選擇與2的冪不太接近的質(zhì)數(shù)。

1.12 乘法散列法

乘法方法包含兩個(gè)步驟，第一步用關(guān)鍵字k乘上常數(shù)A(0<A<1),并取出小數(shù)部分，然后用m乘以這個(gè)值，再取結(jié)果的底(floor)。

hash(k)=floor(m(kA mod 1))

乘法的一個(gè)優(yōu)點(diǎn)是對(duì)m的選擇沒(méi)有什么特別的要求，一般選擇它為2的某個(gè)冪。

一般取A=(√5-1)/2=0.618比較理想。

1.13 全域散列

隨機(jī)的選擇散列函數(shù)，使之獨(dú)立于要存儲(chǔ)的關(guān)鍵字。在執(zhí)行開(kāi)始時(shí)，就從一族仔細(xì)設(shè)計(jì)的函數(shù)中，隨機(jī)的選擇一個(gè)作為散列函數(shù)，隨機(jī)化保證了

沒(méi)有哪一種輸入會(huì)始終導(dǎo)致最壞情況發(fā)生。

1.2 如果關(guān)鍵字是字符串，散列函數(shù)需要仔細(xì)的選擇

1.2.1 將字符串中字符的ASCII碼值相加

def _hash(key,m):hashVal=0for _ in key:hashVal+=ord(_)return hashVal%m

由于ascii碼最大127，當(dāng)表很大時(shí)，函數(shù)不會(huì)很好的分配關(guān)鍵字。

1.2.2 取關(guān)鍵字的前三個(gè)字符。

值27表示英文字母表的字母?jìng)€(gè)數(shù)加上一個(gè)空格。

hash(k)=k[0]+27*k[1]+729*k[2]

1.2.3 用霍納法則把所有字符擴(kuò)展到n次多項(xiàng)式。

用32代替27，可以用于位運(yùn)算。

def _hash(key,m):hashval=0for _ in key:hashval=(hashval<<5)+ord(_)return hashval%m

2. 分離鏈接法

散列表會(huì)面臨一個(gè)問(wèn)題，當(dāng)兩個(gè)關(guān)鍵字散列到同一個(gè)值的時(shí)候，稱之為沖突或者碰撞(collision)。解決沖突的第一種方法通常叫做分離鏈接法(separate chaining)。

其做法是將散列到同一個(gè)值的所有元素保留到一個(gè)鏈表中，槽中保留一個(gè)指向鏈表頭的指針。
為執(zhí)行FIND，使用散列函數(shù)來(lái)確定要考察哪個(gè)表，遍歷該表并返回關(guān)鍵字所在的位置。

為執(zhí)行INSERT，首先確定該元素是否在表中。如果是新元素，插入表的前端或末尾。

為執(zhí)行DELETE，找到該元素執(zhí)行鏈表刪除即可。

散列表中元素個(gè)數(shù)與散列表大小的比值稱之為裝填因子(load factor)λ。

執(zhí)行一次不成功的查找，遍歷的鏈接數(shù)平均為λ，成功的查找則花費(fèi)1+(λ/2)。

分離鏈接散列的一般做法是使得λ盡量接近于1。

代碼：

class _ListNode(object):def __init__(self,key):self.key=keyself.next=None class HashMap(object):def __init__(self,tableSize):self._table=[None]*tableSizeself._n=0 #number of nodes in the mapdef __len__(self):return self._ndef _hash(self,key):return abs(hash(key))%len(self._table)def __getitem__(self,key):j=self._hash(key)node=self._table[j]while node is not None and node.key!=key :node=node.nextif node is None:raise KeyError,'KeyError'+repr(key)return node def insert(self,key):try:self[key]except KeyError:j=self._hash(key)node=self._table[j]self._table[j]=_ListNode(key)self._table[j].next=nodeself._n+=1def __delitem__(self,key):j=self._hash(key)node=self._table[j]if node is not None:if node.key==key:self._table[j]=node.nextself._-=1else:while node.next!=None:pre=nodenode=node.nextif node.key==key:pre.next=node.nextself._n-=1break

3.開(kāi)放定址法

在開(kāi)放定址散列算法中，如果有沖突發(fā)生，那么就要嘗試選擇另外的單元，直到找出空的單元為止。

h(k，i)=(h’(k)+f(i)) mod m，i=0,1,…,m-1 ,其中f(0)=0

3.1 線性探測(cè)法

函數(shù)f(i)是i的線性函數(shù)

h(k，i)=(h’(k)+i) mod m

相當(dāng)于逐個(gè)探測(cè)每個(gè)單元
線性探測(cè)會(huì)存在一個(gè)問(wèn)題，稱之為一次群集。隨著被占用槽的增加，平均查找時(shí)間也會(huì)不斷增加。當(dāng)一個(gè)空槽前有i個(gè)滿的槽時(shí)，該空槽為下一個(gè)將被占用

槽的概率是(i+1)/m。連續(xù)被占用槽的序列會(huì)越來(lái)越長(zhǎng)，平均查找時(shí)間也會(huì)隨之增加。

如果表有一半多被填滿的話，線性探測(cè)不是個(gè)好辦法。

3.2 平法探測(cè)

平方探測(cè)可以取消線性探測(cè)中的一次群集問(wèn)題。

h(k，i)=(h’(k)+c1i+c2i2) mod m

平方探測(cè)中，如果表的一半為空，并且表的大小是質(zhì)數(shù)，保證能夠插入一個(gè)新的元素。

平方探測(cè)會(huì)引起二次群集的問(wèn)題。

3.3 雙散列

雙散列是用于開(kāi)放定址法的最好方法之一。

h(k，i)=(h1(k)+ih2(k)) mod m

為能查找整個(gè)散列表，值h2(k)要與m互質(zhì)。確保這個(gè)條件成立的一種方法是取m為2的冪，并設(shè)計(jì)一個(gè)總產(chǎn)生奇數(shù)的h2。另一種方法是取m為質(zhì)數(shù)，并設(shè)計(jì)一個(gè)總是產(chǎn)生

較m小的正整數(shù)的h2。

例如取：

h1(k)=k mod m，h2(k)=1+(k mod m’),m’為略小于m的整數(shù)。

給定一個(gè)裝填因子λ的開(kāi)放定址散列表，插入一個(gè)元素至多需要1/(1-λ)次探查。

給定一個(gè)裝填因子λ<1的開(kāi)放定址散列表，一次成功查找中的期望探查數(shù)至多為(1/λ)ln(1/1-λ)。

4. 再散列

如果表的元素填得太滿，那么操作的運(yùn)行時(shí)間將開(kāi)始消耗過(guò)長(zhǎng)。一種解決方法是當(dāng)表到達(dá)某個(gè)裝填因子時(shí)，建立一個(gè)大約兩倍大的表，而且使用一個(gè)相關(guān)的新散列函數(shù)，

掃描整個(gè)原始散列表，計(jì)算每個(gè)元素的新散列值并將其插入到新表中。
為避免開(kāi)放定址散列查找錯(cuò)誤，刪除操作要采用懶惰刪除。

class HashEntry(object):def __init__(self,key,value):self.key=keyself.value=value class HashTable(object):_DELETED=HashEntry(None,None) #用于刪除def __init__(self,tablesize):self._table=tablesize*[None]self._n=0def __len__(self):return self._ndef __getitem__(self,key):found,j=self._findSlot(key)if not found:raise KeyErrorreturn self._table[j].valuedef __setitem__(self,key,value):found,j=self._findSlot(key)if not found:self._table[j]=HashEntry(key,value)self._n+=1if self._n>len(self._table)//2:self._rehash()else:self._table[j].value=valuedef __delitem__(self,key):found,j=self._findSlot(key)if found:self._table[j]=HashTable._DELETED # 懶惰刪除def _rehash(self):oldList=self._tablenewsize=2*len(self._table)+1self._table=newsize*[None]self._n=0for entry in oldList:if entry is not None and entry is not HashTable._DELETED:self[entry.key]=entry.valueself._n+=1def _findSlot(self,key):slot=self._hash1(key)step=self._hash2(key)firstSlot=Nonewhile True:if self._table[slot] is None:if firstSlot is None:firstSlot=slotreturn (False,firstSlot)elif self._table[slot] is HashTable._DELETED:firstSlot=slotelif self._table[slot].key==key:return (True,slot)slot=(slot+step)%len(self._table)def _hash1(self,key):return abs(hash(key))%len(self._table)def _hash2(self,key):return 1+abs(hash(key))%(len(self._table)-2)

總結(jié)

以上是生活随笔為你收集整理的[数据结构][Python]python实现散列表的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： java中怎么编写围棋对弈,TPWEIQ
下一篇： Python爬虫实战四 | 盘搜搜1.2