日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

无监督学习概论

發(fā)布時間:2024/7/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 无监督学习概论 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

    • 1. 無監(jiān)督學習基本原理
    • 2. 基本問題
      • 2.1 聚類 Clustering
      • 2.2 降維 Dimensionality Reduction
      • 2.3 概率模型估計
    • 3. 機器學習三要素
    • 4. 無監(jiān)督學習方法
      • 4.1 聚類
      • 4.2 降維
      • 4.3 話題分析
      • 4.4 圖分析

1. 無監(jiān)督學習基本原理

機器學習或統(tǒng)計學習一般包括監(jiān)督學習、無監(jiān)督學習、強化學習

無監(jiān)督學習:從無標注數(shù)據(jù)中學習模型的機器學習問題

  • 無標注數(shù)據(jù)是自然得到的數(shù)據(jù)
  • 模型表示數(shù)據(jù)的類別、轉換或概率
  • 本質:學習數(shù)據(jù)中的統(tǒng)計規(guī)律或潛在結構,主要包括 聚類、降維、概率估計
  • 基本想法:對給定數(shù)據(jù)(矩陣數(shù)據(jù))進行某種“壓縮”,找到數(shù)據(jù)的潛在結構,假定損失最小的壓縮得到的結果就是最本質的結構
  • 考慮發(fā)掘數(shù)據(jù)的縱向結構,對應聚類
  • 考慮發(fā)掘數(shù)據(jù)的橫向結構,對應降維
  • 考慮發(fā)掘數(shù)據(jù)的縱向與橫向結構,對應概率模型估計

2. 基本問題

2.1 聚類 Clustering

聚類 是將樣本集合中相似的樣本(實例)分配到相同的類,不相似的樣本分配到不同的類。

  • 聚類分 硬聚類(一個樣本只屬于一個類)和 軟聚類(一個樣本可屬于多個類)
  • 聚類方法有 層次聚類 和 kkk均值聚類

2.2 降維 Dimensionality Reduction

降維 是將樣本集合中的樣本(實例)從高維空間轉換到低維空間。降維可以幫助發(fā)現(xiàn)數(shù)據(jù)中隱藏的橫向結構

假設樣本 原本存在于低維空間,或近似地存在于低維空間,通過降維可以更好地表示樣本數(shù)據(jù)的結構,更好地表示樣本之間的關系

  • 降維有線性降維和非線性降維,降維方法有主成分分析

2.3 概率模型估計

假設訓練數(shù)據(jù)由一個概率模型生成,同時利用訓練數(shù)據(jù)學習概率模型的結構和參數(shù)

  • 概率模型包括混合模型、概率圖模型等
  • 概率圖模型又包括有向圖模型和無向圖模型
  • 概率模型估計可以幫助發(fā)現(xiàn)數(shù)據(jù)中隱藏的橫向縱向結構

3. 機器學習三要素

同監(jiān)督學習一樣,無監(jiān)督學習也有三要素:模型、策略、算法

模型 就是函數(shù) z=gθ(x)z=g_\theta(x)z=gθ?(x),條件概率分布 Pθ(z∣x)P_\theta(z |x)Pθ?(zx),或 Pθ(x∣z)P_\theta(x|z)Pθ?(xz),在聚類、降維、概率模型估計中擁有不同的形式

  • 聚類 中模型的輸出是 類別
  • 降維 中模型的輸出是 低維向量
  • 概率模型估計 中的模型可以是混合概率模型,也可以是有向概率圖模型和無向概率圖模型

策略 在不同的問題中有不同的形式,但都可以表示為目標函數(shù)的優(yōu)化

  • 聚類 中樣本與所屬類別中心距離的最小化
  • 降維 中樣本從高維空間轉換到低維空間過程中信息損失的最小化
  • 概率模型估計 中模型生成數(shù)據(jù)概率的最大化

算法 通常是迭代算法,通過迭代達到目標函數(shù)的最優(yōu)化,比如,梯度下降法。

  • 層次聚類法、k均值聚類 是硬聚類方法
  • 高斯混合模型 EM算法是軟聚類方法
  • 主成分分析、潛在語義分析 是降維方法
  • 概率潛在語義分析、潛在狄利克雷分配 是概率模型估計方法

4. 無監(jiān)督學習方法

4.1 聚類

聚類主要用于數(shù)據(jù)分析,也可以用于監(jiān)督學習的前處理

  • 可以幫助發(fā)現(xiàn)數(shù)據(jù)中的統(tǒng)計規(guī)律
  • 數(shù)據(jù)通常是連續(xù)變量表示的,也可以是離散變量表示的

4.2 降維

降維主要用于數(shù)據(jù)分析,也可以用于監(jiān)督學習的前處理

  • 可以幫助發(fā)現(xiàn)高維數(shù)據(jù)中的統(tǒng)計規(guī)律
  • 數(shù)據(jù)是連續(xù)變量表示的

4.3 話題分析

話題分析是文本分析的一種技術

  • 給定一個文本集合,話題分析旨在發(fā)現(xiàn)文本集合中每個文本的話題,而話題由單詞的集合表示。
  • 話題分析方法有 潛在語義分析、概率潛在語義分析、潛在狄利克雷分配

4.4 圖分析

圖分析 的目的發(fā)掘隱藏在圖中的統(tǒng)計規(guī)律或潛在結構

  • 鏈接分析 是圖分析的一種,主要是發(fā)現(xiàn) 有向圖中的重要結點,包括 PageRank 算法
  • PageRank 算法最初是為互聯(lián)網(wǎng)搜索而提出。將互聯(lián)網(wǎng)看作是一個巨大的有向圖,網(wǎng)頁是結點,網(wǎng)頁的超鏈接是有向邊。PageRank 算法可以算出網(wǎng)頁的 PageRank 值,表示其重要度,在搜索引擎的排序中網(wǎng)頁的重要度起著重要作用

總結

以上是生活随笔為你收集整理的无监督学习概论的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。