日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

文档词频矩阵_论文理解:从词嵌入到文档距离

發(fā)布時(shí)間:2023/12/1 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文档词频矩阵_论文理解:从词嵌入到文档距离 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
  • 論文作者簡(jiǎn)介

本論文第一作者M(jìn)att J. Kusner是牛津大學(xué)的副教授,致力于設(shè)計(jì)適應(yīng)現(xiàn)實(shí)世界問題需求的新機(jī)器學(xué)習(xí)模型(例如,fair algorithms, discrete generative models, document distances, privacy, dataset compression, budgeted learning, and Bayesian optimization)。

  • 論文摘要

論文中作者提出了一個(gè)度量文本文檔之間距離的新指標(biāo),即詞移距離WMD(Word Mover's Distance)。該成果基于Mikolov等人提出的詞嵌入(word embeddings),一種語(yǔ)義上有意義的詞匯表征。具體來說,將每個(gè)單詞標(biāo)記編碼為某個(gè)向量,該向量表示為某種“單詞”空間中的一個(gè)點(diǎn)(該空間的維數(shù)遠(yuǎn)遠(yuǎn)小于詞匯表的大小|V|),每個(gè)維度都會(huì)編碼某個(gè)含義。WMD距離衡量的是兩個(gè)文本文檔之間的差異性,即一篇文檔的詞匯需要對(duì)應(yīng)到另一篇文檔的某一個(gè)相近詞匯,取該過程中所生成距離的最小值作為文檔距離。該距離度量可以視為Earth Mover's Distance的一個(gè)特例。作者在8個(gè)現(xiàn)實(shí)世界的文檔分類數(shù)據(jù)集上,與當(dāng)時(shí)7個(gè)state-of-the-art的基準(zhǔn)算法相比較,WMD度量取得了前所未有的較低的K最近鄰文檔分類錯(cuò)誤率。

  • 論文內(nèi)容介紹

準(zhǔn)確地表示兩個(gè)文檔之間的距離在文檔檢索、新聞分類和聚類、歌曲識(shí)別和多語(yǔ)言文檔匹配中具有廣泛的應(yīng)用。早先通過詞袋模型BOW(bag of words)或詞頻-逆向文件頻率TF-IDF(term frequency-inverse document frequency)表示文檔的方式,由于它們頻繁的接近正交的特性,故不適用于文檔距離。這些表示方式的另一個(gè)顯著缺點(diǎn)是他們沒有捕獲到單詞之間的距離。作者利用Mikolov等人提出的word2vec模型構(gòu)建了新的文檔距離度量指標(biāo)Word Mover's Distance (WMD),將文本文檔表示為詞嵌入向量的加權(quán)點(diǎn)云,每個(gè)詞嵌入向量對(duì)應(yīng)高維空間中的一個(gè)點(diǎn)。兩篇文本文檔A和B之間的距離是一個(gè)最小累積距離,該距離是來自文檔A的單詞需要travel來精確匹配文檔B的點(diǎn)云。見下方新度量指標(biāo)的略圖。

作者還比較了幾個(gè)下限方法,這些下限方法可以用作近似計(jì)算或者修剪掉被證明不在一個(gè)查詢的k個(gè)最近鄰中的文檔。WMD距離具有幾個(gè)有趣的特性:(1) 沒有超參數(shù),易于理解和使用; (2)高度可解釋的,兩個(gè)文檔之間的距離可以分解并解釋為少數(shù)幾個(gè)單詞之間的稀疏距離;(3)它自然地融入了word2vec空間中的編碼知識(shí)并獲得高檢索準(zhǔn)確率。作者是首次將高質(zhì)量的詞嵌入和EMD檢索算法關(guān)聯(lián)起來進(jìn)行文檔距離研究的。

  • 詞嵌入向量(word embedding vector)

比如,針對(duì)300維的詞嵌入向量,每個(gè)維度表示某個(gè)特定的含義。詞匯表中所有詞匯構(gòu)成的詞嵌入矩陣(word embedding matrix)如下圖所示(圖中的每一列表示該詞匯對(duì)應(yīng)的詞嵌入向量,例如單詞man表示的詞嵌入向量為

  • Word Mover's Distance

nBOW:假設(shè)有n個(gè)單詞的詞匯表的word2vec嵌入矩陣

,第i列表示d維空間中第i個(gè)單詞的詞嵌入向量。假設(shè)文本文檔表示成歸一化的詞袋向量nBOW(normalized bag-of-words vectors), ,確切地說,如果單詞i在文檔中出現(xiàn)了 次,則以nBOW形式表示的文檔向量的第i個(gè)分量 。顯而易見,一個(gè)nBOW向量d是非常稀疏的,因?yàn)榇蠖鄶?shù)單詞不會(huì)在給定的文檔中出現(xiàn)。

Word travel cost:我們的目標(biāo)是將每個(gè)單詞對(duì)(例如,President and Obama)之間的語(yǔ)義相似度包含進(jìn)文檔距離度量中。單詞

和單詞 之間的歐氏距離 。為了避免混淆單詞距離和文檔距離,使用 指代為從一個(gè)詞到另一個(gè)詞的“旅行”成本。

Document distance:兩個(gè)詞之間的“travel cost”是一個(gè)自然的構(gòu)建塊用以創(chuàng)建兩個(gè)文檔之間的距離。令

和 是 維單純形中兩個(gè)文本文檔的nBOW表示形式。首先,我們?cè)试S文檔 中的每個(gè)單詞 轉(zhuǎn)換成文檔 中的任何單詞。令 表示一個(gè)稀疏的flow matrix, 表示文檔 中單詞 的多少權(quán)重流向了文檔 中的單詞 。為了將 完全轉(zhuǎn)換為 ,我們要確保來自單詞 的整個(gè)流出權(quán)重之和等于 ,即 類似的,流向文檔 中單詞 的流入權(quán)重之和等于 ,即 。最后,將兩個(gè)文檔之間的距離定義為將文檔 中的所有單詞移動(dòng)到文檔 中的最小(加權(quán))累積成本。即,

Transportation problem:在給定約束條件下,將文檔

移動(dòng)到文檔 的最小累積成本就是以下線性規(guī)劃的解決方案。

上述優(yōu)化問題可以看做是earth mover's distance metric(EMD)的一個(gè)特例。

Visualization:考慮WMD度量文檔距離的一個(gè)例子,

和 是兩個(gè)句子,我們想要將他們與查詢語(yǔ)句 進(jìn)行比較。首先,去停用詞(停用詞主要由助詞、冠詞、感嘆詞等不具有實(shí)際含義的詞匯以及數(shù)字和標(biāo)點(diǎn)符號(hào)構(gòu)成)。這樣 中就只保留了President, greets, press, Chicago四個(gè)單詞,每個(gè)單詞的權(quán)重 (可以理解為詞頻(term frequency,TF),指的是某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的頻率,該單詞在該文檔中的出現(xiàn)次數(shù)/該文檔中的總詞數(shù))。從句子 和 中的單詞 到 中的單詞 的箭頭標(biāo)注為它們對(duì)距離 的貢獻(xiàn)值。WMD跟我們的直覺一致,將單詞移動(dòng)到語(yǔ)義上相似的單詞,比如將Illinois轉(zhuǎn)換成Chicago比將Japan轉(zhuǎn)換成Chicago要廉價(jià)的多。這是因?yàn)樵趙ord2vec詞嵌入空間中向量vec(Illinois)更接近于vec(Chicago)而不是vec(Japan)。因此,文檔 到 的距離(1.07)要明顯小于 到 的距離(1.63)。

  • Fast Distance Computation

由于解決WMD優(yōu)化問題的最佳平均時(shí)間復(fù)雜度為

,其中p表示文檔中唯一單詞的數(shù)量。對(duì)于具有許多唯一單詞的數(shù)據(jù)集(即,高維)或大量文檔,解決WMD最優(yōu)運(yùn)輸問題就變得成本高昂令人難以承受。我們可以引入WMD運(yùn)輸問題幾個(gè)廉價(jià)的下限計(jì)算方法來修剪掉大多數(shù)的候選文檔從而不必計(jì)算精確的WMD距離。

下限方法1(Word centroid distance):質(zhì)心距離

確定文檔 和 之間WMD的下限。根據(jù)三角不等式有

note:矩陣向量乘法的第二種形式

將該距離稱為Word Centroid Distance(WCD),每個(gè)文檔由其加權(quán)平均詞向量表示。該下限計(jì)算方法只需要通過幾個(gè)矩陣運(yùn)算便可得出,時(shí)間復(fù)雜度也只有O(dp)

下限方法2(Relaxed word moving distance):由于WCD計(jì)算出的下限比較寬松,通過松弛WMD優(yōu)化問題并分別移除兩個(gè)約束條件中的一個(gè),我們可以得到更嚴(yán)格的界限。如果只移除第二個(gè)約束條件,優(yōu)化問題就變成了,

這個(gè)松弛問題一定會(huì)產(chǎn)生WMD距離的一個(gè)下限(lower-bound),一個(gè)明顯的事實(shí)是每個(gè)WMD的解決方案(滿足兩個(gè)約束條件),一定仍然是移除一個(gè)約束條件的松弛問題的一個(gè)可行解決方案。令兩個(gè)松弛解決方案分別是

和 ,通過取兩個(gè)松弛條件的最大值,我們可以得到一個(gè)更嚴(yán)格的邊界, ,我們稱該條件為Relaxed WMD (RWMD)。這個(gè)界限明顯比WCD更嚴(yán)格。

Prefetch and prune:我們使用兩個(gè)下限來大幅減少我們需要進(jìn)行的WMD距離計(jì)算量,以便找到一個(gè)查詢文檔的k個(gè)最近鄰。首先將所有文檔按照它們到查詢文檔的WCD距離(該距離計(jì)算成本廉價(jià))進(jìn)行升序排列,然后計(jì)算查詢文檔到這些文檔中前k個(gè)文檔的精確WMD距離。接下來遍歷剩余的其它文檔。對(duì)于余下的每篇文檔我們首先檢查RWMD下限是否超過當(dāng)前第k個(gè)最近文檔的距離,如果是這樣我們就將其修剪掉。否則的話就計(jì)算WMD距離并在必要時(shí)更新第k個(gè)最近鄰。由于RWMD近似非常嚴(yán)格,它允許我們?cè)谝恍?shù)據(jù)集上修剪掉高達(dá)95%的文檔數(shù)。

  • 結(jié)果

作者在八個(gè)基準(zhǔn)文檔分類任務(wù)上以kNN分類的形式評(píng)估了WMD距離(word mover’s distance)。

1、8個(gè)監(jiān)督學(xué)習(xí)范疇的公開文檔數(shù)據(jù)集

2、用于與WMD距離相比較的表示文檔的7個(gè)基準(zhǔn)方法

對(duì)于每個(gè)基準(zhǔn)方法,我們使用歐氏距離進(jìn)行kNN分類。

bag-of-words (BOW), TFIDF(term frequency-inverse document frequency), BM25 Okapi, LSI(Latent Semantic Indexing), LDA(Latent Dirichlet Allocation), mSDA(Marginalized Stacked Denoising Autoencoder), CCG(Componential Counting Grid)

3、文檔分類結(jié)果

在除了兩個(gè)(BBCSPORT,OHSUMED)之外的所有數(shù)據(jù)集上,WMD取得了最低的測(cè)試誤差。

4、Lower Bounds and Pruning

最后,作者評(píng)估了在m的不同取值下prefetch和prune算法的精確和近似版本的加速性能和準(zhǔn)確性。所有加速都是相對(duì)于詳盡的WMD度量所需時(shí)間(圖的最上方)而報(bào)告的,并且在4個(gè)核心上并行運(yùn)行。(8 cores for 20NEWS) of an Intel L5520 CPU with 2.27Ghz clock frequency.首先,我們注意到在所有情況下,通過prefetching增加的錯(cuò)誤相對(duì)較小,而可以獲得可觀的速度提升。

從圖中可以觀察到,誤差在m = k和m = 2k之間下降最多,對(duì)于時(shí)間敏感的應(yīng)用來說,這可能會(huì)產(chǎn)生一個(gè)介于準(zhǔn)確率和檢索時(shí)間之間的最佳點(diǎn)(sweet spot)。如前所述,使用RWMD直接導(dǎo)致令人印象深刻的低錯(cuò)誤率,并且在所有數(shù)據(jù)集上的平均檢索時(shí)間低于1秒。

  • 結(jié)論

WMD度量在所有數(shù)據(jù)集上的錯(cuò)誤率如此之低,我們將其歸因于其利用了word2vec詞嵌入向量高效表征詞匯的能力。

  • 參考文獻(xiàn):

【1】Matt J. Kusner, From Word Embeddings To Document Distances

【2】Mikolov, T., Chen, K., Corrado, G., and Dean, J. Efficient estimation of word representations in vector space. In Proceedsings of Workshop at ICLR, 2013a.

【3】Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J. Distributed representations of words and phrases and their compositionality. In NIPS, pp. 3111– 3119, 2013b.

Word2Vec Tutorial - The Skip-Gram Model

吳恩達(dá)、深度學(xué)習(xí)第五門課程-序列模型(sequence models)、網(wǎng)易云課堂

總結(jié)

以上是生活随笔為你收集整理的文档词频矩阵_论文理解:从词嵌入到文档距离的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。