日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

lda进行图片分类_LDA主题模型

發布時間:2023/12/2 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 lda进行图片分类_LDA主题模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天來啃硬骨頭了,說說LDA主題模型。本文言簡意賅,沒有太多的數學公式。

學習也不要太多的陷入算法的細枝末節之中,學習復雜的事物,需要從整體去把握。

先列出本文的講解順序。

  • 什么是LDA模型
  • 2.

    函數與 Beta函數

    3.共軛先驗分布

    4.二項分布與多項分布

    5.Beta分布與Dirichlet分布

    6. LDA的解釋

    ...

    相關參考文章:

    我是這樣一步步理解--主題模型(Topic Model)、LDA(案例代碼)

    如何通俗理解 beta 分布?

    把LDA主題模型作為自己的碩士課題,有什么可以做的?

    NLP系列(三)LDA主題模型

    通俗理解LDA主題模型

    1.什么是LDA模型

    將文檔集中的每篇文檔的主題以概率分布的形式給出,即將文檔轉化為基于主題的數值向量,每個維度上的主題概率取值就是對特定主題的聚類中心的隸屬度。

    然后我們看百度百科中關于LDA主題模型的解釋:

    LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。所謂生成模型,就是說,我們認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。

    論文給出了文檔生成模型的例子:

    比如事先確定了Arts, Budget, Children, Education這幾個主題,每個主題下對應了多個詞。

    然后文檔中每個詞的生成:以一定的概率選取上述某個主題,再以一定的概率選取那個主題下的某個單詞,不斷的重復這兩步,最終生成如下圖所示的一篇文章。不同顏色表示不同主題。

    2.

    函數與 Beta函數

    函數:

    首先來看

    函數(讀作gamma)的定義:

    函數可以當成是階乘在實數集上的延拓。在(0-4]區間內圖像如下:

    Beta函數:

    關于Beta分布的理解可以參考這篇:如何通俗理解 beta 分布? - 小杰的回答 - 知乎

    總而言之,beta分布可以看作一個概率的概率分布,當你不知道一個東西的具體概率是多少時,它可以給出了所有概率出現的可能性大小。

    Beta分布的概率密度:

    其中系數B為:

    Beta函數就是先驗分布,加上實驗結果得到后驗分布。

    Beta分布的期望是

    .

    3.共軛先驗分布

    樸素貝葉斯分類的公式:

    : 后驗分布

    : 先驗分布

    : 似然函數

    如果后驗分布

    與先驗分布 滿足同樣的分布律,那么先驗分布和后驗分布叫做共軛分布。同時,先驗分布叫做似然函數的共軛先驗分布。

    二項分布的共軛先驗分布是Beta分布.

    多項分布的共軛先驗分布是Dirichlet分布.

    4.二項分布與多項分布

    伯努利分布:又稱為兩點分布,或者0-1分布,伯努利實驗室單次隨機實驗,只有0和1兩種實驗結果,記為1的概率為p,為0的概率為1-p. 比如拋硬幣1次.

    二項分布:二項分布是進行n次伯努利實驗,為1的概率為p,為0的概率為1-p.

    比如拋硬幣n次.

    多項式分布:多項式分布是二項式分布的推廣。進行n次實驗,每次實驗的可能結果有m個。比如擲骰子多次。

    5.Beta分布與Dirichlet分布

    Beta分布推廣到多項,即Dirichlet分布。

    Beta分布:

    其中:

    Beta分布的期望為:

    Dirichlet分布:

    其中:

    Dirichlet分布的期望為:

    是參數向量,共K個.

    Dirichlet分布的特殊情況為對稱Dirichlet分布,即組成

    向量的元素相同。

    6.LDA的解釋

    • 共有m篇文章,一共涉及了K個主題
    • 每篇文章(長度為 )都有各自的主題分布,主題分布是多項式分布,該多項式分布的參數服從Dirichlet分布,該Dirichlet分布的參數為
    • 每個主題都有各自的詞分布,詞分布為多項分布,該多項分布的參數服從Dirichlet分布,該Dirichlet分布的參數為
    • 對于某篇文章中的第n個詞,首先從該文章的主題分布中采樣一個主題,然后在這個主題對應的詞分布中采樣一個詞。不但重復這個隨機生成過程,知道m篇文章全部完成上述過程。

    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的lda进行图片分类_LDA主题模型的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。