日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python vec函数_Python Word2Vec参数内容

發布時間:2023/12/14 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python vec函数_Python Word2Vec参数内容 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

用gensim函數庫訓練Word2Vec模型有很多配置參數。這里對gensim文檔的Word2Vec函數的參數說明進行翻譯。

class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

參數:

· sentences:可以是一個list,對于大語料集,建議使用BrownCorpus,Text8Corpus或LineSentence構建。

· sg: 用于設置訓練算法,默認為0,對應CBOW算法;sg=1則采用skip-gram算法。

· size:是指特征向量的維度,默認為100。大的size需要更多的訓練數據,但是效果會更好. 推薦值為幾十到幾百。

· window:表示當前詞與預測詞在一個句子中的最大距離是多少

· alpha: 是學習速率

· seed:用于隨機數發生器。與初始化詞向量有關。

· min_count: 可以對字典做截斷. 詞頻少于min_count次數的單詞會被丟棄掉, 默認值為5

· max_vocab_size: 設置詞向量構建期間的RAM限制。如果所有獨立單詞個數超過這個,則就消除掉其中最不頻繁的一個。每一千萬個單詞需要大約1GB的RAM。設置成None則沒有限制。

· sample: 高頻詞匯的隨機降采樣的配置閾值,默認為1e-3,范圍是(0,1e-5)

· workers參數控制訓練的并行數。

· hs: 如果為1則會采用hierarchical softmax技巧。如果設置為0(defaut),則negative sampling會被使用。

· negative: 如果>0,則會采用negativesamping,用于設置多少個noise words

· cbow_mean: 如果為0,則采用上下文詞向量的和,如果為1(defaut)則采用均值。只有使用CBOW的時候才起作用。

· hashfxn: hash函數來初始化權重。默認使用python的hash函數

· iter: 迭代次數,默認為5

· trim_rule: 用于設置詞匯表的整理規則,指定那些單詞要留下,哪些要被刪除。可以設置為None(min_count會被使用)或者一個接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函數。

· sorted_vocab: 如果為1(defaut),則在分配word index 的時候會先對單詞基于頻率降序排序。

· batch_words:每一批的傳遞給線程的單詞的數量,默認為10000

總結

以上是生活随笔為你收集整理的python vec函数_Python Word2Vec参数内容的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。