Py之distance:distance的简介、安装、使用方法之详细攻略
生活随笔
收集整理的這篇文章主要介紹了
Py之distance:distance的简介、安装、使用方法之详细攻略
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Py之distance:distance的簡介、安裝、使用方法之詳細攻略
目錄
distance的簡介
distance的安裝
distance的使用方法
1、編輯距離、漢明距離、sorensen相似系數、jaccard系數、ifast_comp
distance的簡介
? ? ? ? 這個包為計算任意序列之間的相似性提供了幫助。包括Levenshtein、Hamming、Jaccard和Sorensen distance,以及一些bonuses。所有的距離計算都是用純Python實現的,而且大多數都是用C語言實現的。
distance的安裝
pip install distancedistance的使用方法
1、編輯距離、漢明距離、sorensen相似系數、jaccard系數、ifast_comp
import distance#T1、編輯距離 levenshtein_res01=distance.levenshtein("lenvestein", "levenshtein")#如果您的語言中的聲音和字形之間沒有一對一的映射,或者如果您想比較的不是字形,而是音節或音素,則可以傳入字符元組: #比較字符串列表對于計算句子、段落等之間的相似性也很有用: sent1 = ['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog'] sent2 = ['the', 'lazy', 'fox', 'jumps', 'over', 'the', 'crazy', 'dog'] levenshtein_res02=distance.levenshtein(sent1, sent2)levenshtein_res03=distance.nlevenshtein("abc", "acd", method=1) # shortest alignment levenshtein_res04=distance.nlevenshtein("abc", "acd", method=2) # longest alignmentprint(levenshtein_res01,levenshtein_res02,levenshtein_res03,levenshtein_res04)#T2、漢明距離 ''' Hamming距離和Levenshtein距離可以被標準化,這樣就可以有意義地比較幾種距離測量的結果。 Levenshtein有兩種策略:要么以序列間最短比對的長度作為因子,要么以較長比對的長度作為因子。 ''' hamming_res01=distance.hamming("hamming", "hamning") hamming_res02=distance.hamming("fat", "cat", normalized=True)print(hamming_res01,hamming_res02)#T3、sorensen相似系數 sorensen_res=distance.sorensen("decide", "resize") print(sorensen_res)#T4、jaccard系數 jaccard_res=distance.jaccard("decide", "resize") print(jaccard_res)#T5、ifast_comp ''' ifast_comp的效率特別高,可以處理100萬個tokens而沒有問題 兩個方便的迭代器ilevenshtein和ifast_comp,用于從一長串序列中篩選接近參考序列的序列。它們都返回一系列元組(距離、序列)。 ''' tokens = ["fo", "bar", "foob", "foo", "fooba", "foobar"] sorted(distance.ifast_comp("foo", tokens))總結
以上是生活随笔為你收集整理的Py之distance:distance的简介、安装、使用方法之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ML之相似度计算:图像数据、字符串数据等
- 下一篇: CV之Hog+HamMingDistan