當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

主题模型LDA的实现

發布時間：2024/10/8 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了主题模型LDA的实现小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據集位于lda安裝目錄的tests文件夾中，包含三個文件：reuters.ldac, reuters.titles, reuters.tokens。
reuters.titles包含了395個文檔的標題
reuters.tokens包含了這395個文檔中出現的所有單詞，總共是4258個
reuters.ldac有395行，第i行代表第i個文檔中各個詞匯出現的頻率。以第0行為例，第0行代表的是第0個文檔，從reuters.titles中可查到該文檔的標題為“UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20”。

# !/usr/bin/python # -*- coding:utf-8 -*-import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl import lda import lda.datasets from pprint import pprintif __name__ == "__main__":# document-term matrixX = lda.datasets.load_reuters()print(("type(X): {}".format(type(X))))print(("shape: {}\n".format(X.shape)))print((X[:10, :10]))# the vocabvocab = lda.datasets.load_reuters_vocab()print(("type(vocab): {}".format(type(vocab))))print(("len(vocab): {}\n".format(len(vocab))))print((voca

總結

以上是生活随笔為你收集整理的主题模型LDA的实现的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安装docx模块出现Import Err
下一篇：我国歼20战机到底多少钱呢？