日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word2Vec训练同义词模型

發布時間:2025/3/15 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Word2Vec训练同义词模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、需求描述

???? 業務需求的目標是識別出目標詞匯的同義詞和相關詞匯,如下為部分目標詞匯(主要用于醫療問診):

尿
痘痘
發冷
呼吸困難
惡心

數據源是若干im數據,那么這里我們選擇google 的word2vec模型來訓練同義詞和相關詞。

二、數據處理

????數據處理考慮以下幾個方面:
1. 從hive中導出不同數據量的數據
2. 過濾無用的訓練樣本(例如字數少于5)
3. 準備自定義的詞匯表
4. 準備停用詞表

三、工具選擇

????選擇python 的gensim庫,由于先做預研,數據量不是很大,選擇單機就好,暫時不考慮spark訓練。后續生產環境計劃上spark。

詳細的gensim中word2vec文檔

上述文檔有關工具的用法已經很詳細了,就不多說。

分詞采用jieba。

四、模型訓練步驟簡述

1.先做分詞、去停用詞處理

seg_word_line = jieba.cut(line, cut_all = True)

2.將分詞的結果作為模型的輸入

model = gensim.models.Word2Vec(LineSentence(source_separated_words_file), size=200, window=5, min_count=5, alpha=0.02, workers=4)

3.保存模型,方便以后調用,獲得目標詞的同義詞

similary_words = model.most_similar(w, topn=10)

五、重要調參目標

???? 比較重要的參數:
1. 訓練數據的大小,當初只用了10萬數據,訓練出來的模型很不好,后邊不斷地將訓練語料增加到800萬,效果得到了明顯的提升
2. 向量的維度,這是詞匯向量的維數,這個會影響到計算,理論上來說維數大一點會好。
3. 學習速率
4. 窗口大小

在調參上,并沒有花太多精力,因為目測結果還好,到時上線使用前再仔細調整。

六、模型的實際效果

目標詞同義詞相關詞
尿尿液,撒尿,尿急,尿尿有,尿到,內褲,尿意,小解,前列腺炎,小便
痘痘逗逗,豆豆,痘子,小痘,青春痘,紅痘,長痘痘,粉刺,諷刺,白頭
發冷發燙,沒力,忽冷忽熱,時冷時熱,小柴胡,頭昏,嗜睡,38.9,頭暈,發寒
呼吸困難氣來,氣緊,窒息,大氣,透不過氣,出不上,瀕死,粗氣,壓氣,心律不齊
惡心悶,力氣,嘔心,脹氣,漲,不好受,不進,暈車,悶悶,精神

七、可以跑的CODE

import codecs import jieba import gensim from gensim.models.word2vec import LineSentencedef read_source_file(source_file_name):try:file_reader = codecs.open(source_file_name, 'r', 'utf-8',errors="ignore")lines = file_reader.readlines()print("Read complete!")file_reader.close()return linesexcept:print("There are some errors while reading.")def write_file(target_file_name, content):file_write = codecs.open(target_file_name, 'w+', 'utf-8')file_write.writelines(content)print("Write sussfully!")file_write.close()def separate_word(filename,user_dic_file, separated_file):print("separate_word")lines = read_source_file(filename)#jieba.load_userdict(user_dic_file)stopkey=[line.strip() for line in codecs.open('stopword_zh.txt','r','utf-8').readlines()]output = codecs.open(separated_file, 'w', 'utf-8')num = 0for line in lines:num = num + 1if num% 10000 == 0:print("Processing line number: " + str(num))seg_word_line = jieba.cut(line, cut_all = True)wordls = list(set(seg_word_line)-set(stopkey))if len(wordls)>0:word_line = ' '.join(wordls) + '\n'output.write(word_line)output.close()return separated_filedef build_model(source_separated_words_file,model_path):print("start building...",source_separated_words_file)model = gensim.models.Word2Vec(LineSentence(source_separated_words_file), size=200, window=5, min_count=5, alpha=0.02, workers=4) model.save(model_path)print("build successful!", model_path)return modeldef get_similar_words_str(w, model, topn = 10):result_words = get_similar_words_list(w, model) return str(result_words)def get_similar_words_list(w, model, topn = 10):result_words = []try:similary_words = model.most_similar(w, topn=10)print(similary_words)for (word, similarity) in similary_words:result_words.append(word)print(result_words)except:print("There are some errors!" + w)return result_wordsdef load_models(model_path):return gensim.models.Word2Vec.load(model_path)if "__name__ == __main__()":filename = "d:\\data\\dk_mainsuit_800w.txt" #source fileuser_dic_file = "new_dict.txt" # user dic fileseparated_file = "d:\\data\\dk_spe_file_20170216.txt" # separeted words filemodel_path = "information_model0830" # model file#source_separated_words_file = separate_word(filename, user_dic_file, separated_file)source_separated_words_file = separated_file # if separated word file exist, don't separate_word againbuild_model(source_separated_words_file, model_path)# if model file is exist, don't buile modl model = load_models(model_path)words = get_similar_words_str('頭痛', model)print(words)

總結

以上是生活随笔為你收集整理的Word2Vec训练同义词模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 色黄视频| 欧美日韩网站 | 97在线观看免费视频 | jizz俄罗斯 | 国产理论一区 | 日韩欧美亚洲 | 三级av网站 | 亚洲AV无码成人精品区明星换面 | 亚洲一级伦理 | 久青草视频在线 | 日韩一区二区三区精品 | 国产精品亚洲二区在线观看 | 天天天天天天干 | 神马久久午夜 | 色婷婷综合久久久久中文一区二区 | 一区二区在线视频 | 亚洲第八页 | 大肉大捧一进一出好爽 | 国产黄站 | 麻豆视频在线免费看 | 亚洲av无码一区二区三区性色 | 中文字幕五区 | 国产一级自拍视频 | 国产福利电影在线 | 日韩av一区在线 | 精品国产乱码久久久久久免费 | 91av在线免费视频 | 久久婷五月天 | 鲁啊鲁在线视频 | 天天看天天射 | 毛片成人网 | 主播av在线 | 视频一区亚洲 | av在线免费网站 | 久久久精品久久久久 | 久久久情| 99视频| 超碰人人人人人 | 亚洲成人h | 久久另类ts人妖一区二区 | 欧美黄色网络 | 五月天激情社区 | 午夜资源| 丁香婷婷在线 | 野花av | 亚洲免费黄色网址 | 国产人妖在线视频 | 农村村妇真实偷人视频 | 伊人网综合在线 | 老男人av| 国产鲁鲁视频在线观看特色 | 色在线免费 | 成人欧美一区二区三区小说 | 蜜桃视频一区二区三区在线观看 | 爱臀av| 怡红院男人的天堂 | 在线播放国产视频 | 动漫艳母在线观看 | 亚洲午夜天堂 | a级一片| 亚洲av成人一区二区 | 极品少妇在线 | 天堂中文视频 | 欧美一区二区三区影视 | 特级丰满少妇一级aaa爱毛片 | 91私密视频 | 国产成人久久精品77777综合 | 美女又黄又免费 | 日韩午夜在线播放 | 少妇人妻一区二区三区 | 91.xxx.高清在线 | 久久一区二区三区四区 | 国产精品一区不卡 | 国产精品啪啪啪视频 | 欧美福利网址 | 福利影院在线观看 | 亚洲精品大片 | 午夜寂寞少妇 | 懂色aⅴ国产一区二区三区 亚洲欧美国产另类 | 亚洲国产一区二区三区四区 | 一进一出好爽视频 | 不卡一区二区在线视频 | 亚洲最大av网 | 国产精品成人电影在线观看 | 成人激情小视频 | 久久精品视频1 | 亚洲经典视频在线观看 | 能免费看18视频网站 | 亚洲成人福利在线 | 在线观看国产一区二区三区 | 成人在线国产 | 日韩在线视频在线观看 | 欧美日韩精品一区二区三区蜜桃 | 华人永久免费视频 | 中文精品在线 | 日韩欧美啪啪 | 色婷婷一区二区 | 国产chinese男男网站大全 | 欧美与黑人午夜性猛交久久久 |