當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Doc2Bow简介与实践Demo

發布時間：2023/12/20 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Doc2Bow简介与实践Demo 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Doc2Bow是Gensim中封裝的一個方法，主要用于實現Bow模型，下面主要介紹下Bow模型。

1、BoW模型原理

Bag-of-words model (BoW model) 最早出現在自然語言處理（Natural Language Processing）和信息檢索（Information Retrieval）領域.。該模型忽略掉文本的語法和語序等要素，將其僅僅看作是若干個詞匯的集合，文檔中每個單詞的出現都是獨立的。BoW使用一組無序的單詞(words)來表達一段文字或一個文檔.。近年來，BoW模型被廣泛應用于計算機視覺中。
基于文本的BoW模型的一個簡單例子如下：
首先給出兩個簡單的文本文檔如下：

John likes to watch movies. Mary likes too.John also likes to watch football games.

基于上述兩個文檔中出現的單詞，構建如下一個詞典 (dictionary)：

{"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}

上面的詞典中包含10個單詞, 每個單詞有唯一的索引, 那么每個文本我們可以使用一個10維的向量來表示。如下：

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1][1, 1,1, 1, 0, 1, 1, 1, 0, 0]

該向量與原來文本中單詞出現的順序沒有關系，而是詞典中每個單詞在文本中出現的頻率。
也是通過余弦定理計算兩個句子的相似度。

2、實踐Demo

import gensim import jieba # 訓練樣本 from gensim import corpora from gensim.similarities import Similarity# fin = open("questions.txt",encoding='utf8').read().strip(' ') #strip()取出首位空格 jieba.load_userdict("userdict.txt") stopwords = set(open('stopwords.txt',encoding='utf8').read().strip('\n').split('\n')) #讀入停用詞 raw_documents = ['0無償居間介紹買賣毒品的行為應如何定性','1吸毒男動態持有大量毒品的行為該如何認定','2如何區分是非法種植毒品原植物罪還是非法制造毒品罪','3為毒販販賣毒品提供幫助構成販賣毒品罪','4將自己吸食的毒品原價轉讓給朋友吸食的行為該如何認定','5為獲報酬幫人購買毒品的行為該如何認定','6毒販出獄后再次夠買毒品途中被抓的行為認定','7虛夸毒品功效勸人吸食毒品的行為該如何認定','8妻子下落不明丈夫又與他人登記結婚是否為無效婚姻','9一方未簽字辦理的結婚登記是否有效','10夫妻雙方1990年按農村習俗舉辦婚禮沒有結婚證一方可否起訴離婚','11結婚前對方父母出資購買的住房寫我們二人的名字有效嗎','12身份證被別人冒用無法登記結婚怎么辦？','13同居后又與他人登記結婚是否構成重婚罪','14未辦登記只舉辦結婚儀式可起訴離婚嗎','15同居多年未辦理結婚登記，是否可以向法院起訴要求離婚' ] corpora_documents = [] for item_text in raw_documents:item_str = jieba.lcut(item_text)print(item_str)corpora_documents.append(item_str) print(corpora_documents) # 生成字典和向量語料 dictionary = corpora.Dictionary(corpora_documents) corpus = [dictionary.doc2bow(text) for text in corpora_documents] #num_features代表生成的向量的維數（根據詞袋的大小來定） similarity = Similarity('-Similarity-index', corpus, num_features=400)test_data_1 = '你好，我想問一下我想離婚他不想離，孩子他說不要，是六個月就自動生效離婚' test_cut_raw_1 = jieba.lcut(test_data_1)print(test_cut_raw_1) test_corpus_1 = dictionary.doc2bow(test_cut_raw_1) similarity.num_best = 5 print(similarity[test_corpus_1]) # 返回最相似的樣本材料,(index_of_document, similarity) tuplesprint('################################')test_data_2 = '家人因涉嫌運輸毒品被抓，她只是去朋友家探望朋友的，結果就被抓了，還在朋友家收出毒品，可家人的身上和行李中都沒有。現在已經拘留10多天了，請問會被判刑嗎' test_cut_raw_2 = jieba.lcut(test_data_2) print(test_cut_raw_2) test_corpus_2 = dictionary.doc2bow(test_cut_raw_2) similarity.num_best = 5 print(similarity[test_corpus_2]) # 返回最相似的樣本材料,(index_of_document, similarity) tuples

運行結果：

針對以上程序，你可以自定義詞庫和停用詞來使最終的結果更好。

參考：https://blog.csdn.net/vs412237401/article/details/52238248

總結

以上是生活随笔為你收集整理的Doc2Bow简介与实践Demo的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： iOS 蓝牙开发中数据收发的坑
下一篇： models.ForeignKey( ,