日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word2Vec中文语料实战

發布時間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Word2Vec中文语料实战 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄(?)[-]

  • Word2Vec中文語料實戰

  • Word2Vec中文語料實戰

    ? ? ? ??

    ? ? ? ? 雖然Word2Vec在NLP領域很火,但網上關于Word2Vec中文語料訓練的入門級資料比較少,所以本人整理了一份,希望對感興趣的朋友有所幫助!本文使用的語料由作者親自收集,代碼由作者親自編寫,親測有效!

    ? ? ? ? 如有問題可聯系作者:QQ:771966081 ? ? ??微信:Bryce_cvprml

    1、環境配置

    ? ? ? ? 本人使用的是MacBook + Python2.7.11

    ? ? ? ??首先,安裝NLP工具包gensim,這里包含了今天的主角:Word2Vec

    ? ? ? ??? ? ? ??pip install --upgrade gensim

    ? ? ? ??其次,安裝中文分詞工具包jieba

    ? ? ? ??? ? ? ??pip install jieba

    2、語料庫說明

    ? ? ? ??從網上下載TXT版的《倚天屠龍記》,作為基本語料,還需要作進一步處理

    3、詳細實驗步驟

    3.1 文件編解碼(非必需)

    ? ? ? ??滿心歡喜地打開“倚天屠龍記.txt”,竟然是這樣的,難道是火星文?瞬間滿臉黑線,一臉懵逼。弱弱地問一句,有人能看懂嗎,膜拜一下。


    ? ? ? ??很顯然,這是由編解碼不一致引起的問題,即寫文件時的編碼類型和讀文件時的解碼類型不同。但本人沒有安裝可以自定義解碼方式的文本編輯器,所以只好小米加步槍,直接上代碼:

    [python] view plaincopy
  • #coding:utf8??
  • #讀取倚天屠龍記文本,轉碼后存在新的文件里??
  • fin?=?open('倚天屠龍記.txt',?'r')??
  • fou?=?open('倚天屠龍記_uft8.txt',?'w')??
  • line?=?fin.readline()??
  • while?line:??
  • ????newline?=?line.decode('GB18030').encode('utf-8')??#用GBK、GB2312都會出錯??
  • ????print?newline,??
  • ????print?>>?fou,?newline,??
  • ????line?=?fin.readline()??
  • fin.close()??
  • fou.close()??
  • ? ? ? ??其實很簡單,從原始文件“倚天屠龍記.txt”里逐行讀取文本內容,先解碼再編碼,然后輸出到新的文件“倚天屠龍記_uft8.txt”里。新的文件長這個樣子,是不是一下子能看懂了,很開心有木有^_^?

    3.2 中文分詞

    ? ? ? ??接下來,還要分詞、去掉標點符號。廢話不多說,直接上代碼。其實也很簡單,從“倚天屠龍記_uft8.txt”里逐行讀取文本,先分詞,再去掉標點符號,最后保存到文件“倚天屠龍記_segmented.txt”。分詞用到了jieba,本文刪除標點符號的方式有點粗暴,不許笑出聲來!(細心的讀者可能會問,為什么這里不直接給出代碼而只是代碼截圖呢,哈哈。。。因為這里直接貼上代碼格式會很亂,為了使代碼看起來清晰,只好這樣了)

    ? ? ? ??分詞后的結果如下,內心里一陣狂喜對不對?!


    3.3 模型訓練

    [python] view plaincopy
  • #coding:utf8??
  • import?gensim.models.word2vec?as?w2v??
  • model_file_name?=?'倚天屠龍記_model.txt'??
  • #模型訓練,生成詞向量??
  • sentences?=?w2v.LineSentence('倚天屠龍記_segmented.txt')??
  • model?=?w2v.Word2Vec(sentences,?size=20,?window=5,?min_count=5,?workers=4)???
  • model.save(model_file_name)??
  • 3.4 模型測試

    ? ? ? ??到了最激動人心的時刻,這里打印出了測試代碼和結果,看起來還真有點意思啊!趙敏和自己的相似度為1;趙敏和周芷若的相似度0.98277,比較接近;趙敏和韋一笑的相似度為0.80652,遠不如趙敏和周芷若相似;最后,查找與張三豐最相似的詞,直覺上來看,排前6的都有一定道理,滅絕師太和他都是一代掌門,也是宗師,最相似;排到2到6的都是他的徒弟和徒孫。


    4、參考文獻

    1)中文分詞工具包jieba:http://www.oschina.net/p/jieba/?fromerr=s7MN6pKB

    2)NLP工具包gensim:https://radimrehurek.com/gensim/models/word2vec.html


    總結

    以上是生活随笔為你收集整理的Word2Vec中文语料实战的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。