當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据科学家需要掌握的10项统计技术，快来测一测吧

發布時間：2024/8/23 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了数据科学家需要掌握的10项统计技术，快来测一测吧小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要：?本文給出了數據科學應用中的十項統計學習知識點，相信會對數據科學家有一定的幫助。

無論你是不是一名數據科學家，都不能忽視數據的重要性。數據科學家的職責就是分析、組織并利用這些數據。隨著機器學習技術的廣泛應用，深度學習吸引著大量的研究人員和工程師，數據科學家也將繼續站在技術革命的浪潮之巔。

雖然編程能力對于數據科學家而言非常重要，但是數據科學家不完全是軟件工程師，他應該是編程、統計和批判性思維三者的結合體。而許多軟件工程師通過機器學習框架轉型為數據科學家時，沒有深刻地思考并理解這些框架背后的統計理論，所以統計學習理論成為了機器學習的理論框架。

為什么學習統計學習？理解不同技術背后的想法是非常重要的，只有真正理解了這些才能知道何時何地使用這些技術。首先必須理解簡單的方法，以便掌握更復雜的方法。精確評估一個方法的性能，并且知道它工作情況的好壞顯得非常重要。此外，這是一個令人興奮的研究領域，在科學、工業和金融等方面具有重要的應用。最后，統計學習是培養現代數據科學家的一個基本素材。統計學習問題的例子包括以下幾個部分：

確定前列腺癌的風險因素；
根據對數周期圖分類記錄的音素；
根據人口統計學、飲食和臨床測量預測其是否有心臟病；
自定義垃圾電子郵件檢測系統；
識別手寫郵政編碼中的數字；
將組織樣本分類為對應的癌癥；
建立人口調查數據中的工資與人口變量的關系；

此外，作者對數據挖掘進行了一定的研究，推薦 Intro to Statistical Learning (Hastie, Tibshirani, Witten, James)、Doing?Bayesian Data Analysis (Kruschke)和 Time Series Analysis and?Applications (Shumway, Stoffer)三本書，這里面有許多有價值的內容。在進入正題之前，想區分一下機器學習和統計學習，主要有以下幾點區別：

機器學習是人工智能的一個分支；
統計學習是統計領域的一個分支；
機器學習更側重于大規模應用和精度預測；
統計學習強調模型及其解釋性、精度和不確定性；
但是這種區別變得越來越模糊，而且有大量相互交流；
機器學習在市場營銷中占優勢；

下面分享10項統計技術，任何數據科學家都應該學習，使得能夠更高效地處理大數據集。

1.線性回歸

在統計學中，線性回歸是一種通過擬合因變量和自變量之間的最佳線性關系來預測目標變量的方法。線性回歸主要分為簡單線性回歸和多元線性回歸。簡單線性回歸使用一個自變量，通過擬合一個最佳線性關系來預測因變量；而多元線性回歸使用一個以上的自變量來預測因變量。

2.分類

分類是一種數據挖掘技術，被用來將一個整體數據集分成幾個類別，以為了更準確的預測和分析。分類技術中典型的代表是邏輯回歸分析和判別分析。邏輯回歸是一種預測分析，在用于描述數據時，解釋一個二進制因變量與一個或多個序數、區間等變量之間的關系。邏輯回歸可以檢驗的問題類型有：

每增加一磅體重或一天抽一包香煙對肺癌的概率有變化嗎？（是/不是）
體重、卡路里與脂肪攝入量、參與者年齡對心臟病發作有影響？（是/不是）

在判別分析中，在每個響應類中分別對預測因子X的分布進行建模，然后利用貝葉斯定理將這些變量翻轉到給定X值的響應類別的概率估計中。這樣的模型可以是線性的也可以是二次型的。

線性判別分析計算每個觀察的判別分數來分類它所處的響應變量類別，這些分數是通過尋找獨立變量的線性組合得到，預測變量的協方差在響應變量Y的所有k級上都是相同的。
二次判別分析提供了另一種方法，預測變量不假設Y的k級上有共同的方差。

3.重采樣方法

重采樣是從原始數據樣本中反復抽樣的方法，是一種非參數統計推斷方法。重采樣在實際數據的基礎上生成唯一的抽樣分布，下面介紹兩種最常用的重采樣方法拔靴法（bootstrap）和交叉驗證（cross-validation）：

拔靴法在許多情況下是一種有用的技術，如驗證預測模型的性能、集成方法等。它的工作原理是通過從原始數據中重置采樣，并將“未選擇”的數據點作為測試用例，反復操作幾次后，計算平均得分并作為模型性能的估計；
交叉驗證將訓練數據分割成k個部分，將k-1個部分作為訓練集，使用剩余部分作為測試集，重復試驗k次后，計算平均分并作為模型的性能估計；

4.子集選擇

這種方法確定了我們認為與反應有關的P預測因子的一個子集，然后使用子集特征的最小二乘擬合模型。

最佳子集選擇：對P個預測變量的所有可能組合分別使用最小二乘法進行擬合，最后在所有可能模型(2P)選擇一個最優模型；
向前逐步選擇：以一個不包含任何預測變量的零模型開始，依次向模型中添加一個變量，妹子只將能夠最大限度地提升模型效果的變量加入模型中，直到所有的預測變量都包含在模型中；
向后逐步選擇：以半酣所有P個預測變量的模型開始，每次移除一個最有用的預測變量；
混合方法：該方法遵循向前逐步選擇步驟，但是在加入新變量的同時，也移除了不能提升模型擬合效果的變量；

5.特征縮減技術

通過對損失函數加入正則項，使得訓練求解參數過程中將影響較小的特征的系數衰減到0，只保留重要的特征。最常用的兩種方法分別是嶺回歸（ridge regression）和lasso：

Ridge regression與最小二乘法相似，只是在平方誤差的基礎上增加了正則項，它損失了無偏性，來換取高的數值穩定性，從而得到較高的計算精度；
Ridge regression的一個缺點是無法使得預測因子完全為零，只是逼近零，這使得模型無法很好地解釋結果；而Lasso克服了這一缺點，能夠迫使某些系數為零；

6.降維

降維是將估計P+1個系數減少為M+1個系數，其中M<P。這是通過計算M個不同的線性組合或變量的投影來實現的，然后利用M個投影作為預測因子，使用最小二乘法擬合線性回歸模型。常用的兩種降維方法是主成分回歸和偏最小二乘法：

可以將主成分回歸描述為從一組大的變量中導出低緯度特征集的方法。其思想是從中選擇排在前面的幾個主成分，然后利用從數據中抽出的主成分進行回歸，達到降維的目的。
主成分回歸面臨的一個問題是不能保證提取的主成分完全很好地代表原始特征，偏最小二乘法是主成分回歸的有監督替代方法，也是一種降維方法。它首先識別出一組小的特征集合，然后通過對新的M個特征最小二乘擬合成線性模型。與主成分回歸不同的是偏最小二乘法利用響應變量識別新特性。

7.非線性模型

在統計學中，非線性回歸是回歸分析的一種形式，在這種分析中，觀測數據是通過模型參數和因變量的非線性組合函數建模，數據用逐次逼近法進行擬合。下面是幾個處理非線性模型的重要技術：

階躍函數：如果實數域上的某個函數可以用半開區間上的指示函數的有限次線性組合來表示，那么這個函數就是階躍函數，即階躍函數是有限段分段常數函數的組合。
分段函數：在定義域內不同部分上，有不同的解析表達式。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
樣條函數：樣條是一種特殊的函數，是由多項式分段定義。在計算機圖形學中，樣條通常是指分段定義的多項式參數曲線，并且其結構簡單、擬合準確，并能近似曲線擬合和交互式曲線設計中復雜的形狀，受到廣泛應用。
廣義加性模型：是一種廣義線性模型，其中線性預測器依賴于預測變量的未知光滑函數，專注于這些光滑函數的推理。

8.樹形方法

樹形方法可以用于回歸和分類問題，這些涉及將預測空間分層或分段為一些簡單的區域。由于分割預測空間的分裂規則可以用樹形總結，所以這類方法也被稱為決策樹方法。以下方法是將多個樹合并，然后得到一個單一的一致性預測：

Bagging是通過原始數據訓練額外的數據來減少預測的方差的方法。通過增加訓練集的大小，雖然不能改善模型的預測能力，但是能減少方差，將預測調整到預期結果；
Boosting是一種用幾種不同的模型計算輸出的方法，然后使用加權平均算法計算出結果的平均值，通過調節權重可以模型能為更廣泛的輸入數據提供良好的預測力；
Random forest算法類似于Bagging，區別在于還需要繪制用于訓練單個樹的隨機子集的特征。由于隨機特征選擇，這使得樹更加獨立，從而導致更好的預測性能；

9.支持向量機

支持向量機（SVM）是一種分類技術，簡單地說，就是尋找一個超平面能最好地將兩類點與最大邊界區分開。本質上來說，它是一個有約束的優化問題，其中邊界最大化受到數據點分布的約束。圖中的數據點“支持”著超平面，超平面的兩端上的訓練樣本就是支持向量。如果兩類數據線性不可分時，可以將其投影到高維特征空間，使其線性可分。

10.無監督學習

上述內容只討論了有監督學習技術，而這類技術運用的前提是需要有類別信息。而無監督學習就是在無類別信息情況下，尋找到好的特征。

常用的無監督學習算法有：

主成分分析（Principal Component Analysis）是通過識別一組具有最大方差切互不相關的特征的線性組合并作為研究的特征空間，從而產生低維表示的數據集；
K-均值聚類(k-Mean clustering)是根據聚類中心的距離將數據劃分為k個不同的簇；
層次聚類(Hierarchical clustering)是通過計算不同類別數據點間的相似度來創建一顆有層次的嵌套聚類樹；

洞察背后的理論知識，能夠便于今后的實際操作，希望這份基礎數據科學統計指南能幫助到你。

原文鏈接

干貨好文，請關注掃描以下二維碼：

總結

以上是生活随笔為你收集整理的数据科学家需要掌握的10项统计技术，快来测一测吧的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：数据科学家实操之路
下一篇： [Phoenix] 十、全局索引设计实践