日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

理解word2vec的训练过程

發布時間:2025/7/25 编程问答 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 理解word2vec的训练过程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

from:http://blog.csdn.net/dn_mug/article/details/69852740


生成詞向量是自然語言處理中的基本過程,此前對此只知道使用但是一直不知道其原理。

最近補課,仔細學習了word2vec,上網查資料的時候發現很多博客資料上講到的主要是理論,不好全面理解;而對于介紹應用的文章又偏重于某個工具的使用而不是訓練的細節,所以特別參考了Tensorflow上的實現寫下本篇文章,以防忘記。其中Tensorflow實現word2vec請點擊這里


正文:

對于word2vec的原理這里不做過多解釋,如果不熟悉可以看?[NLP] 秒懂詞向量Word2vec的本質,下文中有些圖片借用了文章中的圖片,下面主要介紹訓練過程。


詞向量其實是將詞映射到一個語義空間,得到的向量。而word2vec是借用神經網絡的方式實現的,考慮文本的上下文關系,有兩種模型CBOW 和Skip-gram,這兩種模型在訓練的過程中類似。Skip-gram 模型是用一個詞語作為輸入,來預測它周圍的上下文,CBOW模型是拿一個詞語的上下文作為輸入,來預測這個詞語本身。


詞向量訓練的預處理步驟:
? 1. 對輸入的文本生成一個詞匯表,每個詞統計詞頻,按照詞頻從高到低排序,取最頻繁的V個詞,構成一個詞匯表。每個詞存在一個one-hot向量,向量的維度是V,如果該詞在詞匯表中出現過,則向量中詞匯表中對應的位置為1,其他位置全為0。如果詞匯表中不出現,則向量為全0
? 2. 將輸入文本的每個詞都生成一個one-hot向量,此處注意保留每個詞的原始位置,因為是上下文相關的
? 3. 確定詞向量的維數N


Skip-gram處理步驟:
? 1. 確定窗口大小window,對每個詞生成2*window個訓練樣本,(i, i-window),(i, i-window+1),...,(i, i+window-1),(i, i+window)
? 2. 確定batch_size,注意batch_size的大小必須是2*window的整數倍,這確保每個batch包含了一個詞匯對應的所有樣本
? 3. 訓練算法有兩種:層次 Softmax 和 Negative Sampling
? 4. 神經網絡迭代訓練一定次數,得到輸入層到隱藏層的參數矩陣,矩陣中每一行的轉置即是對應詞的詞向量


CBOW的處理步驟:
? 1. 確定窗口大小window,對每個詞生成2*window個訓練樣本,(i-window, i),(i-window+1, i),...,(i+window-1, i),(i+window, i)
? 2. 確定batch_size,注意batch_size的大小必須是2*window的整數倍,這確保每個batch包含了一個詞匯對應的所有樣本
? 3. 訓練算法有兩種:層次 Softmax 和 Negative Sampling
? 4. 神經網絡迭代訓練一定次數,得到輸入層到隱藏層的參數矩陣,矩陣中每一行的轉置即是對應詞的詞向量


參數矩陣解釋:
對輸入層到隱藏層的參數包含W和b,我們需要的是W,這里的W是一個矩陣,shape=(N,V)。其中V是上文所述的詞表的大小,N是需要生成的詞向量的維數。N同樣也是隱藏層(第一層)中的隱藏節點個數。
每次一個batch_size輸入其實一個矩陣(batch_size, V),記為X,隱藏層輸出為Y,公式為。所有的輸入共享一個W,每次迭代的時候都在修改W,由于one-hot的性質,每次修改W只修改1對應的那一行。而這一行也就是詞向量(轉置后)


神經網絡像是一個黑盒子,這其中的概念很難理解,這里給出我對詞向量訓練的個人理解:

對于每個詞s,訓練數據對應的標記是另一個詞t,訓練其實是想找到一種映射關系,讓s映射到t。但很顯然我們不是希望找到一個線性函數,使得給定s一定能得到t,我們希望的是能夠通過s得到一類詞T,包含t。對于T中的每個t,由于在s上下文中出現的頻次不同,自然能得到一個概率,頻次越高說明s與t相關性越高。

對于詞向量,或者說參數矩陣W,可以認為是一個將詞映射到語義空間的橋梁,s與t相關性越高,則認為其在語義空間中越近,那么對應的橋梁也越靠近。如果用向量來理解的話就是向量之前的夾角越小,我們使用向量來表示這個詞的信息,重要的是得到了語義信息。在實際應用中,生成一段文本,我們可以判斷詞與詞的向量之間相似度,如果過低則就需要懷疑是否正確了。


總結

以上是生活随笔為你收集整理的理解word2vec的训练过程的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: av福利网站| 精品免费 | 91免费视频免费版 | 亚洲一区二区精品在线 | 一级成人黄色片 | 国产成人精品视频一区二区 | 中文字幕丰满人伦在线 | 国产成人一区二区三区视频 | 亚洲精品国产精品国自产观看浪潮 | 韩国中文字幕hd久久精品 | 尤物精品在线观看 | 天堂男人网 | 少妇特殊按摩高潮惨叫无码 | 91精品国产乱码久久久久久久久 | 日本乱子伦xxxx | 噼里啪啦动漫高清在线观看 | 在线播放不卡av | 日日干日日草 | 国产综合图片 | 一道本视频在线 | 97天天操| 亚洲欧美综合视频 | 五月天综合激情网 | 国产农村老头老太视频 | 免费黄色片网站 | 国产欧美精品久久 | 麻豆传媒在线视频 | 国产 日韩 欧美 综合 | 在线免费观看黄色av | 欧产日产国产精品 | 欧美一级视频免费观看 | 国产传媒第一页 | 日韩精品一区二区三区四区五区 | 在线观看色视频 | 国产二区视频 | 国产黄a三级三级看三级 | 色热热| 熟女人妻aⅴ一区二区三区60路 | 青青青国产视频 | 国产精品19乱码一区二区三区 | 天堂俺去俺来也www久久婷婷 | 一区二区 中文字幕 | 亚洲欧美一区二区精品久久久 | 国产在线你懂得 | 日韩中文网 | 欧美一级二级三级视频 | 国产综合福利 | 久久少妇av | www夜片内射视频日韩精品成人 | 黄色特级大片 | 欧美性生交大片免费看app麻豆 | 朱竹清到爽高潮痉挛 | 手机天堂av| 四虎久久久 | 中文字幕一区二区三区免费视频 | 中文人妻av久久人妻18 | 日韩精品一区二区三区视频在线观看 | 善良的女朋友在线观看 | 欧美理论片在线观看 | 国产精品v欧美精品v日韩 | 国产口爆吞精一区二区 | 无码国产精品一区二区色情男同 | 李华月全部毛片 | 中文精品无码中文字幕无码专区 | 天堂在线视频tv | 欧美a级黄色片 | 国产一级在线观看视频 | 婷婷五月综合久久中文字幕 | 一级黄色在线观看 | 国产精品高潮呻吟av | 美女主播福利视频 | 日日干夜夜爽 | 精品久久久一区 | 国产中文久久 | 天堂在线精品 | 日韩一区中文 | 欧美在线一区二区视频 | 成av人片一区二区三区久久 | 欧美在线一区视频 | 黄色av一级 | 亚洲热在线 | 色老头免费视频 | 99精品久久99久久久久 | 黄色xxx| 三上悠亚亚洲一区 | 麻豆蜜桃在线观看 | 亚洲一页 | 亚洲精品一区二区三 | 波多野结衣电影免费观看 | 欧美色图另类 | 草比网站 | 视频一区二区三区在线 | 日本免费网站视频 | 免费一级片在线观看 | 日本三级黄色录像 | 国产亚洲精品成人无码精品网站 | 午夜天堂影院 | 性xxxx视频播放免费 | 香蕉视频污在线观看 |