机器学习问题方法总结
機器學習問題方法總結
轉自?http://www.cnblogs.com/zhangchaoyang/archive/2012/08/28/2660929.html
Data Mining
機器學習問題方法總結
| 大類 | 名稱 | 關鍵詞 |
| 有監督分類 | 決策樹 | 信息增益 |
| 分類回歸樹 | Gini指數,Χ2統計量,剪枝 | |
| 樸素貝葉斯 | 非參數估計,貝葉斯估計 | |
| 線性判別分析 | Fishre判別,特征向量求解 | |
| K最鄰近 | 相似度度量:歐氏距離、街區距離、編輯距離、向量夾角、Pearson相關系數 | |
| 邏輯斯諦回歸(二值分類) | 參數估計(極大似然估計)、S型函數 | |
| 徑向基函數網絡 | 非參數估計、正則化理論、S型函數 | |
| 對偶傳播網絡 | 無導師的競爭學習、有導師的Widrow-Hoff學習 | |
| 學習向量量化網絡 | 一個輸出層細胞跟幾個競爭層細胞相連 | |
| 誤差反向傳播網絡 | S型函數、梯度下降法 | |
| 支持向量機(二值分類) | 二次規化,Lagrange乘數法,對偶問題,最優化,序列最小優化,核技巧 | |
| 單層感知器 | 只具有線性可分的能力 | |
| 雙隱藏層感知器 | 足以解決任何復雜的分類問題 | |
| 無監督分類 | KMeans | 質心 |
| CHAMELONE | 圖劃分,相對互連度,相對緊密度 | |
| BIRCH | B樹,CF三元組 | |
| DBScan | 核心點,密度可達 | |
| EM算法(高斯混合模型) | 參數估計(極大似然估計) | |
| 譜聚類 | 圖劃分,奇異值求解?。全局收斂 | |
| 自組織映射網絡 | 無導師的競爭學習 | |
| 回歸分析 | 一般線性回歸 | 參數估計,最小二乘法,一般不用于分類而用于預測 |
| 邏輯斯諦回歸(二值分類) | 參數估計(極大似然估計),S型函數 | |
| 關聯規則挖掘 | FP-Tree | 頻繁1項集,FP-Tree,條件模式基,后綴模式 |
| 降維 | 主成分分析 | 協方差矩陣,奇異值分解 |
| 推薦 | 協同過濾 | 稀疏向量的相似度度量 |
?
?
| 方法細分 | 應用場所 | ||||
| 參數估計 | 極大似然估計 | 線性回歸。假設誤差滿足均值為0的正態分布,從而轉化為最小二乘法 | |||
| Logistic回歸。梯度下降迭代法求似然函數的極值 | |||||
| 高斯混合模型。 | |||||
| 非參數估計 | ? | 徑向基函數網絡 | |||
| 獨立性檢驗 | 無參數假設檢驗 | χ2檢驗 | 特征詞選取,分類回歸樹的終止條件 | ||
| 秩和檢驗 | ? | ||||
| 相關性檢驗 | Pearson相關系數(假設x,y成對地從正態分布中取得) | 基于向量空間模型的文本分類,用戶喜好推薦系統 | |||
| Spearman秩相關系數(無參數假設檢驗) | ? | ||||
| 最優化方法 | 無約束最優化方法 | 梯度下降法 | 極大似然估計(回歸分析、GMM) 支持向量機 線性判別分析 | ||
| 牛頓迭代法及其變種 | |||||
| 有約束時通過Lagrange乘數法轉換成無約束問題 | |||||
| 求特征值/特征向量 | 冪法 | 線性判別分析 | 降維 | ||
| 奇異值分解(僅針對對稱矩陣) | 主成分分析 | ||||
| 譜聚類 | |||||
| 信息論 | 信息增益 | 特征詞選擇 | |||
| 決策樹 | |||||
| 互信息 | 特征詞選擇 | ||||
| 交叉熵 | 特征詞選擇,稀有事件建模仿真,多峰最優化問題 | ||||
| 核函數 | 多項式核函數 | SVM RBF網絡 | |||
| 高斯核函數(徑向基函數) | |||||
| 雙極性核函數 | |||||
| 單極性Sigmoid函數 | Logistic回歸 | ||||
| BP神經網絡 | |||||
| 協方差 | Pearson相關系數 | ||||
| PCA | |||||
| EM算法 | 高斯混合模型 | ||||
| 向前向后算法 | |||||
| 基函數 | 高斯混合模型 | ||||
| 徑向基函數網絡 | |||||
| 平滑算法 | 拉普拉斯平滑 | 貝葉斯分類 隱馬爾可夫模型 | |||
| Good-Turing平滑 | |||||
| 隱馬爾可夫模型 | 評估問題—向前算法 | ? | |||
| 解碼問題—Viterbi算法 | 中文分詞,詞性標注 | ||||
| 學習問題—BaumWelch算法 | ? | ||||
Cover定理指出:將復雜的模式分類問題非線性地映射到高維空間將比投影到低維空間更可能線性可分。 ?所以SVM和RBF網絡都試圖把樣本從低維空間映射到高維空間再進行分類。?
好笑的是,另一些方法則是把輸入樣本從高維降到低維后再進行分類或回歸分析,如PCA、SOFM網絡、LDA、譜聚類,它們認為樣本在低維特征空間有更清晰的表達,更容易發現規律。
總結
以上是生活随笔為你收集整理的机器学习问题方法总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 线性代数导论4——A的LU分解
- 下一篇: 核PCA——从理论到实现