當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习简单介绍LWS

發布時間：2023/12/20 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习简单介绍LWS 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習：機器學習是一類算法的總稱，其目標是為了從大量歷史數據中挖掘出其中隱含的規律，并用于預測或者分類。具體的來說，機器學習可以看作是尋找一個函數，輸入是樣本數據，輸出是期望的結果。機器學習的目標是使學到的函數很好地適用于“新樣本”，而不僅僅是在訓練樣本上表現很好。學到的函數適用于新樣本的能力，稱為泛化能力。

機器學習的一些基本概念：屬性/特征：事件在某方面的表現或性質。

訓練：從數據中學的模型的過程。(訓練數據、訓練樣本、訓練集)

測試：使用學的模型進行預測的過程。(測試樣本)

標記/標簽：關于示例結果的信息。

分類和回歸：預測的是離散值的學習任務稱為分類，預測連續值為回歸。

泛化能力：學得模型適用于新樣本的能力。一般訓練樣本越多，越有可能通過學習獲得具有強泛化能力的模型。

參數估計：根據從總體中抽取的樣本估計總體分布中包含的未知參數的方法。

機器學習分類：

任務類型分類：回歸模型、分類模型、結構化學習模型

方法角度：線性模型、非線性模型

學習理論分類：有監督學習、半監督學習、無監督學習、遷移學習和強化學習　有監督學習：訓練樣本有標簽；半監督學習：部分有標簽，部分無標簽；遷移學習是把已經訓練好的模型參數遷移到新的模型上以幫助新模型訓練。強化學習是一個學習最優策略，可以讓本體在特定環境中，根據當前狀態，做出行動，從而獲得最大回報。強化學習和有監督學習最大的不同是，每次的決定沒有對與錯，而是希望獲得最多的累計獎勵。

機器學習步驟：

1.收集數據：數據中蘊含模型所要“學習”的知識，因此數據至關重要，搜集數據的質量和數量都將決定最終模型的性能好壞。實際處理中，數據大都存在著問題，不能直接使用，需要對數據進行清洗，數據的清洗主要要空值處理、異常值處理、數據標準化（ｍｉｎ－ｍａｘ標準化，Ｚ－ｓｃｏｒｅ標準化）

2.模型選擇：算法的效果不能脫離實際問題，在某些問題上表現好的算法，在另一個問題上的表現可能不是很好。每個算法有其固定的特點，有相匹配的應用場景。模型選擇包含兩層含義，一層含義是指機器學習算法眾多，對于同一個問題，從多種算法中進行選擇；另外一層含義是對于同一種算法來說，設置不同的參數后，算法效果可能發生很大變化，甚至會變成不同的模型。

3.模型訓練與測試：模型在運用之前，需要測定模型的準確程度。因此建立模型需要兩個數據集———訓練用數據集（測試集）和測試用數據集（訓練集）。驗證集：是模型訓練單獨留出的樣本集，可以用于調整模型的參數和用于對模型的能力進行初步評估。一般在訓練集中單獨劃分出一塊作為驗證集，使用驗證集能減少過擬和。

4.模型性能評估：對于模型評價有很多方法，常用的指標如準確率、錯誤率、精準率、召回率、roc曲線、ks曲線等

用e代表錯誤率，計算方式：e=分類錯誤的樣本數/樣本總數

精確率(p)=正確識別的個體總數/識別的個體總數

召回率(r)=正確識別的個體總數/測試集存在的個體總數

?ks曲線：量化評估模型區分度? ? KS=max(TPR-FPR) 通常KS大于0.3。

ks值含義：ks小于0.2,一般認為模型的區分能力較弱；

ks值在0.2到0.3之間，模型有一定的區分能力；

ks值在0.3到0.5內，模型具有較高的區分能力。

如果ks過大，往往表示模型有異常。

過擬合和欠擬合：

欠擬合和過擬合產生原因及解決辦法：

欠擬合

定義：模型在訓練集上的誤差較高。

產生原因：模型過于簡單，沒有很好的捕捉到數據特征，不能很好的擬合數據。

解決辦法：模型復雜化、增加更多的特征，使輸入數據具有更強的表達能力等。

過擬合

定義：在訓練集上誤差低，測試集上誤差高。

產生原因：模型把數據學習的太徹底，以至于把噪聲數據的特征也學習到，這樣就會導致在后期測試的時候不能夠很好地識別數據，模型泛化能力太差。

解決辦法：降維、增加訓練數據、正則約束等。

特征工程：到手的數據不太可能直接拿來使用，這便需要對數據進行處理。

非數值類型處理： 1.Get_dummies啞變量處理? 2.Label Encoding編號處理? ?（replace()函數）轉化為數值型數據。

特征值篩選：woe值與iv值

?iv值：iv值越高，說明該特征變量越具有區分度，也并不是iv值越大越好。

XGBoost算法：XGBoost核心算法原理詳解_野犬1998的博客-CSDN博客_xgboost算法

LightGBM算法原理：采用損失函數負梯度作為當前決策樹的殘差近似值，去擬合新的決策樹。該算法與傳統的機器學習算法具有的優勢是：訓練效率更高，低內存使用，可以處理大規模數據。

孤立森林算法：簡書?（該算法論文）?

孤立森林_Andy_shenzl的博客-CSDN博客

總結

以上是生活随笔為你收集整理的机器学习简单介绍LWS的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【淘宝开店经验分享】产品标题优化技巧
下一篇：最全ListView扩展的实例和补充