Doc2Bow简介与实践Demo
生活随笔
收集整理的這篇文章主要介紹了
Doc2Bow简介与实践Demo
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Doc2Bow是Gensim中封裝的一個方法,主要用于實現Bow模型,下面主要介紹下Bow模型。
1、BoW模型原理
Bag-of-words model (BoW model) 最早出現在自然語言處理(Natural Language Processing)和信息檢索(Information Retrieval)領域.。該模型忽略掉文本的語法和語序等要素,將其僅僅看作是若干個詞匯的集合,文檔中每個單詞的出現都是獨立的。BoW使用一組無序的單詞(words)來表達一段文字或一個文檔.。近年來,BoW模型被廣泛應用于計算機視覺中。
基于文本的BoW模型的一個簡單例子如下:
首先給出兩個簡單的文本文檔如下:
基于上述兩個文檔中出現的單詞,構建如下一個詞典 (dictionary):
{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}上面的詞典中包含10個單詞, 每個單詞有唯一的索引, 那么每個文本我們可以使用一個10維的向量來表示。如下:
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1][1, 1,1, 1, 0, 1, 1, 1, 0, 0]該向量與原來文本中單詞出現的順序沒有關系,而是詞典中每個單詞在文本中出現的頻率。
也是通過余弦定理計算兩個句子的相似度。
2、實踐Demo
import gensim import jieba # 訓練樣本 from gensim import corpora from gensim.similarities import Similarity# fin = open("questions.txt",encoding='utf8').read().strip(' ') #strip()取出首位空格 jieba.load_userdict("userdict.txt") stopwords = set(open('stopwords.txt',encoding='utf8').read().strip('\n').split('\n')) #讀入停用詞 raw_documents = ['0無償居間介紹買賣毒品的行為應如何定性','1吸毒男動態持有大量毒品的行為該如何認定','2如何區分是非法種植毒品原植物罪還是非法制造毒品罪','3為毒販販賣毒品提供幫助構成販賣毒品罪','4將自己吸食的毒品原價轉讓給朋友吸食的行為該如何認定','5為獲報酬幫人購買毒品的行為該如何認定','6毒販出獄后再次夠買毒品途中被抓的行為認定','7虛夸毒品功效勸人吸食毒品的行為該如何認定','8妻子下落不明丈夫又與他人登記結婚是否為無效婚姻','9一方未簽字辦理的結婚登記是否有效','10夫妻雙方1990年按農村習俗舉辦婚禮沒有結婚證 一方可否起訴離婚','11結婚前對方父母出資購買的住房寫我們二人的名字有效嗎','12身份證被別人冒用無法登記結婚怎么辦?','13同居后又與他人登記結婚是否構成重婚罪','14未辦登記只舉辦結婚儀式可起訴離婚嗎','15同居多年未辦理結婚登記,是否可以向法院起訴要求離婚' ] corpora_documents = [] for item_text in raw_documents:item_str = jieba.lcut(item_text)print(item_str)corpora_documents.append(item_str) print(corpora_documents) # 生成字典和向量語料 dictionary = corpora.Dictionary(corpora_documents) corpus = [dictionary.doc2bow(text) for text in corpora_documents] #num_features代表生成的向量的維數(根據詞袋的大小來定) similarity = Similarity('-Similarity-index', corpus, num_features=400)test_data_1 = '你好,我想問一下我想離婚他不想離,孩子他說不要,是六個月就自動生效離婚' test_cut_raw_1 = jieba.lcut(test_data_1)print(test_cut_raw_1) test_corpus_1 = dictionary.doc2bow(test_cut_raw_1) similarity.num_best = 5 print(similarity[test_corpus_1]) # 返回最相似的樣本材料,(index_of_document, similarity) tuplesprint('################################')test_data_2 = '家人因涉嫌運輸毒品被抓,她只是去朋友家探望朋友的,結果就被抓了,還在朋友家收出毒品,可家人的身上和行李中都沒有。現在已經拘留10多天了,請問會被判刑嗎' test_cut_raw_2 = jieba.lcut(test_data_2) print(test_cut_raw_2) test_corpus_2 = dictionary.doc2bow(test_cut_raw_2) similarity.num_best = 5 print(similarity[test_corpus_2]) # 返回最相似的樣本材料,(index_of_document, similarity) tuples運行結果:
針對以上程序,你可以自定義詞庫和停用詞來使最終的結果更好。
參考:https://blog.csdn.net/vs412237401/article/details/52238248
總結
以上是生活随笔為你收集整理的Doc2Bow简介与实践Demo的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iOS 蓝牙开发中数据收发的坑
- 下一篇: models.ForeignKey( ,