日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一份数据挖掘入门指南!!!

發(fā)布時(shí)間:2025/3/8 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一份数据挖掘入门指南!!! 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?Datawhale?

作者:王瑞楠、吳忠強(qiáng)、徐韜、田楊軍

摘要:入門數(shù)據(jù)挖掘,必須理論結(jié)合實(shí)踐。本文梳理了數(shù)據(jù)挖掘知識(shí)體系,幫助大家了解和提升在實(shí)際場(chǎng)景中的數(shù)據(jù)分析、特征工程、建模調(diào)參和模型融合等技能。

數(shù)據(jù)分析

探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)是指對(duì)已有數(shù)據(jù)在盡量少的先驗(yàn)假設(shè)下通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。

常用的第三方庫

數(shù)據(jù)科學(xué)庫

  • pandas:用于分組、過濾和組合數(shù)據(jù),還提供了時(shí)間序列功能。

  • numpy:處理大型的多維數(shù)組和矩陣

  • scipy:用于解決線性代數(shù)、概率論、積分計(jì)算等任務(wù)

數(shù)據(jù)可視化庫

  • matplotlib:構(gòu)建各種圖表,從直方圖和散點(diǎn)圖到非笛卡爾坐標(biāo)圖等

  • seaborn:提供了豐富的可視化圖庫,包括時(shí)間序列、聯(lián)合圖和小提琴圖等復(fù)雜的類型。

常用函數(shù)

數(shù)據(jù)簡(jiǎn)略觀測(cè)

  • head():觀察數(shù)據(jù)讀取是否準(zhǔn)確,常讀取前5行數(shù)據(jù)。

  • shape:讀取數(shù)據(jù)集的維度。

數(shù)據(jù)總覽

  • describe():包含每列的統(tǒng)計(jì)量,個(gè)數(shù)、平均值、方差、最小值、中位數(shù)、最大值等。

  • 數(shù)據(jù)類型info():了解數(shù)據(jù)每列的type,了解是否存在除了nan以外的特殊符號(hào)異常。

數(shù)據(jù)檢測(cè)

缺失值檢測(cè)

  • 查看每列的存在nan情況

  • 排序函數(shù)sort_values():將數(shù)據(jù)集依照某個(gè)字段中的數(shù)據(jù)進(jìn)行排序,該函數(shù)即可根據(jù)指定列數(shù)據(jù)也可根據(jù)指定行的

  • 可視化nan值與缺失值

異常值檢測(cè)

  • 3σ原則:拉依達(dá)準(zhǔn)則,該準(zhǔn)則具體來說,就是先假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差,對(duì)原始數(shù)據(jù)進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)差,然后按一定的概率確定一個(gè)區(qū)間,認(rèn)為誤差超過這個(gè)區(qū)間的就屬于異常值。

  • 箱線圖:依據(jù)實(shí)際數(shù)據(jù)繪制,真實(shí)、直觀地表現(xiàn)出了數(shù)據(jù)分布的本來面貌,且沒有對(duì)數(shù)據(jù)作任何限制性要求(3σ原則要求數(shù)據(jù)服從正態(tài)分布或近似服從正態(tài)分布),其判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ)。

預(yù)測(cè)分布

總體分布概況:

  • 無接觸約翰遜分布:

  • 正態(tài)分布

很多模型假設(shè)數(shù)據(jù)服從正態(tài)分布,數(shù)據(jù)整體服從正態(tài)分布,樣本均值和方差則相互獨(dú)立。當(dāng)樣本不服從正態(tài)分布時(shí),可以做如下轉(zhuǎn)換:

  • 線性變化z-scores:基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x’

  • Boxcox變換:一種廣義冪變換方法,是統(tǒng)計(jì)建模中常用的一種數(shù)據(jù)變換,用于連續(xù)的響應(yīng)變量不滿足正態(tài)分布的情況。

  • yeo-johnson變換:是冪變換(power transformation)的方法之一,通過構(gòu)建一組單調(diào)函數(shù)對(duì)隨機(jī)變量進(jìn)行數(shù)據(jù)變換。

查看skeness 和kurtosis

  • skeness:衡量隨機(jī)變量概率分布的不對(duì)稱性,是相對(duì)于平均值不對(duì)稱程度的度量,通過對(duì)偏度系數(shù)的測(cè)量,我們能夠判定數(shù)據(jù)分布的不對(duì)稱程度以及方向。

  • kurtosis:研究數(shù)據(jù)分布陡峭或平滑的統(tǒng)計(jì)量,通過對(duì)峰度系數(shù)的測(cè)量,我們能夠判定數(shù)據(jù)相對(duì)于正態(tài)分布而言是更陡峭/平緩。

預(yù)測(cè)值的具體頻數(shù)

當(dāng)某范圍預(yù)測(cè)值很少時(shí),可將其當(dāng)作異常值處理填充或刪除。若頻數(shù)很失常,需對(duì)數(shù)據(jù)進(jìn)行處理,例如進(jìn)行l(wèi)og變換,使數(shù)據(jù)分布較均勻,可據(jù)處理后的數(shù)據(jù)進(jìn)行預(yù)測(cè),這也是預(yù)測(cè)問題常用的技巧。

特征分析

數(shù)字特征

  • 相關(guān)性分析:對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jī)蓚€(gè)變量因素之間的相關(guān)密切程度。

  • 特征的偏度和峰度

  • 數(shù)字特征分布可視化

    • pd.melt():處理數(shù)據(jù),透視表格,可將寬數(shù)據(jù)轉(zhuǎn)化為長(zhǎng)數(shù)據(jù),以便于后續(xù)分析。形成的數(shù)據(jù)即為,鍵:各特征名稱,值:特征對(duì)應(yīng)的值

    • sns.FacetGrid() :先sns.FacetGrid()畫出輪廓,再map()填充內(nèi)容

    • sns.pairplot():展示變量?jī)蓛芍g的關(guān)系(線性或非線性,有無較為明顯的相關(guān)關(guān)系)。

類別特征

  • unique分布:對(duì)于一維數(shù)組或者列表,unique函數(shù)去除其中重復(fù)的元素,并按元素由大到小返回一個(gè)新的無元素重復(fù)的元組或者列表。

  • 可視化:

    • 箱型圖可視化:直觀識(shí)別數(shù)據(jù)中的離群點(diǎn),判斷數(shù)據(jù)離散分布情況,了解數(shù)據(jù)分布狀態(tài)。

    • 小提琴圖可視化:用于顯示數(shù)據(jù)分布及概率密度,這種圖表結(jié)合了箱形圖和密度圖的特征,主要用來顯示數(shù)據(jù)的分布形狀

    • 柱形圖可視化類別

    • 每個(gè)類別頻數(shù)可視化

數(shù)據(jù)清洗

數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。俗話說:garbage in, garbage out。分析完數(shù)據(jù)后,特征工程前,必不可少的步驟是對(duì)數(shù)據(jù)進(jìn)行清洗。

數(shù)據(jù)清洗作用是利用有關(guān)技術(shù)如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。主要包括缺失值處理、異常值處理、數(shù)據(jù)分桶、特征歸一化/標(biāo)準(zhǔn)化等流程。

缺失值處理

關(guān)于缺失值處理的方式, 有幾種情況:

  • 不處理:針對(duì)xgboost等樹模型,有些模型有處理缺失的機(jī)制,所以可以不處理;

  • 如果缺失的太多,可以考慮刪除該列;

  • 插值補(bǔ)全(均值,中位數(shù),眾數(shù),建模預(yù)測(cè),多重插補(bǔ)等);

  • 分箱處理,缺失值一個(gè)箱。

異常值處理

常用的異常值處理操作包括BOX-COX轉(zhuǎn)換(處理有偏分布),箱線圖分析刪除異常值, 長(zhǎng)尾截?cái)嗟确绞?#xff0c; 當(dāng)然這些操作一般都是處理數(shù)值型的數(shù)據(jù)。

  • BOX-COX轉(zhuǎn)換:用于連續(xù)的變量不滿足正態(tài)的時(shí)候,在做線性回歸的過程中,一般需要做線性模型假定。

  • 箱線圖分析:依據(jù)實(shí)際數(shù)據(jù)繪制,真實(shí)、直觀地表現(xiàn)出了數(shù)據(jù)分布的本來面貌,其判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ)。

數(shù)據(jù)分桶

連續(xù)值經(jīng)常離散化或者分離成“箱子”進(jìn)行分析, 為什么要做數(shù)據(jù)分桶呢?

  • 離散后稀疏向量?jī)?nèi)積乘法運(yùn)算速度更快,計(jì)算結(jié)果也方便存儲(chǔ),容易擴(kuò)展;

  • 離散后的特征對(duì)異常值更具魯棒性,如 age>30 為 1 否則為 0,對(duì)于年齡為 200 的也不會(huì)對(duì)模型造成很大的干擾;

  • LR 屬于廣義線性模型,表達(dá)能力有限,經(jīng)過離散化后,每個(gè)變量有單獨(dú)的權(quán)重,這相當(dāng)于引入了非線性,能夠提升模型的表達(dá)能力,加大擬合;

  • 離散后特征可以進(jìn)行特征交叉,提升表達(dá)能力,由 M+N 個(gè)變量編程 M*N 個(gè)變量,進(jìn)一步引入非線形,提升了表達(dá)能力;

  • 特征離散后模型更穩(wěn)定,如用戶年齡區(qū)間,不會(huì)因?yàn)橛脩裟挲g長(zhǎng)了一歲就變化

當(dāng)然還有很多原因,LightGBM 在改進(jìn) XGBoost 時(shí)就增加了數(shù)據(jù)分桶,增強(qiáng)了模型的泛化性。現(xiàn)在介紹數(shù)據(jù)分桶的方式有:

  • 等頻分桶:區(qū)間的邊界值要經(jīng)過選擇,使得每個(gè)區(qū)間包含大致相等的實(shí)例數(shù)量。比如說 N=10 ,每個(gè)區(qū)間應(yīng)該包含大約10%的實(shí)例。

  • 等距分桶:從最小值到最大值之間,均分為 N 等份;

  • Best-KS分桶:類似利用基尼指數(shù)進(jìn)行二分類;

  • 卡方分桶:自底向上的(即基于合并的)數(shù)據(jù)離散化方法。它依賴于卡方檢驗(yàn):具有最小卡方值的相鄰區(qū)間合并在一起,直到滿足確定的停止準(zhǔn)則。

數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換的方式有:

  • 數(shù)據(jù)歸一化(MinMaxScaler);

  • 標(biāo)準(zhǔn)化(StandardScaler);

  • 對(duì)數(shù)變換(log1p);

  • 轉(zhuǎn)換數(shù)據(jù)類型(astype);

  • 獨(dú)熱編碼(OneHotEncoder);

  • 標(biāo)簽編碼(LabelEncoder);

  • 修復(fù)偏斜特征(boxcox1p)等。

特征工程

特征工程指的是把原始數(shù)據(jù)轉(zhuǎn)變?yōu)槟P陀?xùn)練數(shù)據(jù)的過程,目的是獲取更好的訓(xùn)練數(shù)據(jù)特征。特征工程能使得模型的性能得到提升,有時(shí)甚至在簡(jiǎn)單的模型上也能取得不錯(cuò)的效果。

特征構(gòu)造

特征構(gòu)造的時(shí)候需要考慮數(shù)值特征,類別特征,時(shí)間特征。

  • 數(shù)值特征,一般會(huì)嘗試一些它們之間的加減組合(當(dāng)然不要亂來,根據(jù)特征表達(dá)的含義)或者提取一些統(tǒng)計(jì)特征

  • 類別特征,我們一般會(huì)嘗試之間的交叉組合,embedding也是一種思路

  • 時(shí)間特征,這一塊又可以作為一個(gè)大專題來學(xué)習(xí),在時(shí)間序列的預(yù)測(cè)中這一塊非常重要,也會(huì)非常復(fù)雜,需要就盡可能多的挖掘時(shí)間信息,會(huì)有不同的方式技巧。

特征選擇

特征選擇主要有兩個(gè)功能:

  • 減少特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過擬合

  • 增強(qiáng)對(duì)特征和特征值之間的理解

通常來說,從兩個(gè)方面考慮來選擇特征:

  • 特征是否發(fā)散:如果一個(gè)特征不發(fā)散,例如方差接近于0,也就是說樣本在這個(gè)特征上基本上沒有差異,這個(gè)特征對(duì)于樣本的區(qū)分并沒有什么用。

  • 特征與目標(biāo)的相關(guān)性:這點(diǎn)比較顯見,與目標(biāo)相關(guān)性高的特征,應(yīng)當(dāng)優(yōu)選選擇。

根據(jù)特征選擇的形式又可以將特征選擇方法分為3種:

  • 過濾法(Filter):按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,設(shè)定閾值或者待選擇閾值的個(gè)數(shù),選擇特征。

  • 包裝法(Wrapper):根據(jù)目標(biāo)函數(shù)(通常是預(yù)測(cè)效果評(píng)分),每次選擇若干特征,或者排除若干特征。

  • 嵌入法(Embedded):先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)系數(shù)從大到小選擇特征。

降維

數(shù)據(jù)特征維度太高,首先會(huì)導(dǎo)致計(jì)算很麻煩,其次增加了問題的復(fù)雜程度,分析起來也不方便。但盲目減少數(shù)據(jù)的特征會(huì)損失掉數(shù)據(jù)包含的關(guān)鍵信息,容易產(chǎn)生錯(cuò)誤的結(jié)論,對(duì)分析不利。

PCA降維方法,既可以減少需要分析的指標(biāo),而且盡可能多的保持了原來數(shù)據(jù)的信息。

但要注意一點(diǎn), 特征選擇是從已存在的特征中選取攜帶信息最多的,選完之后的特征依然具有可解釋性,而PCA,將已存在的特征壓縮,降維完畢后不是原來特征的任何一個(gè),也就是PCA降維之后的特征我們根本不知道什么含義了。

建模調(diào)參

特征工程也好,數(shù)據(jù)清洗也罷,都是為最終的模型來服務(wù)的,模型的建立和調(diào)參決定了最終的結(jié)果。模型的選擇決定結(jié)果的上限, 如何更好的去達(dá)到模型上限取決于模型的調(diào)參。

建模的過程需要我們對(duì)常見的線性模型、非線性模型有基礎(chǔ)的了解。模型構(gòu)建完成后,需要掌握一定的模型性能驗(yàn)證的方法和技巧。同時(shí),還需要掌握貪心調(diào)參、網(wǎng)格調(diào)參、貝葉斯調(diào)參等調(diào)參方法。

回歸分析

回歸分析是一種統(tǒng)計(jì)學(xué)上分析數(shù)據(jù)的方法,目的在于了解兩個(gè)或多個(gè)變量間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型。以便通過觀察特定變量(自變量),來預(yù)測(cè)研究者感興趣的變量(因變量)

長(zhǎng)尾分布

這種分布會(huì)使得采樣不準(zhǔn),估值不準(zhǔn),因?yàn)槲膊空剂撕艽蟛糠帧A硪环矫?#xff0c;尾部的數(shù)據(jù)少,人們對(duì)它的了解就少,那么如果它是有害的,那么它的破壞力就非常大,因?yàn)槿藗儗?duì)它的預(yù)防措施和經(jīng)驗(yàn)比較少。

欠擬合與過擬合

欠擬合:訓(xùn)練的模型在訓(xùn)練集上面的表現(xiàn)很差,在驗(yàn)證集上面的表現(xiàn)也很差。即訓(xùn)練誤差和泛化誤差都很大。原因

  • 模型沒有很好或足夠數(shù)量的訓(xùn)練訓(xùn)練集

  • 模型的訓(xùn)練特征過于簡(jiǎn)單

過擬合:模型的訓(xùn)練誤差遠(yuǎn)小于它在測(cè)試數(shù)據(jù)集上的誤差。即訓(xùn)練誤差不錯(cuò),但是泛化誤差比訓(xùn)練誤差相差太多。原因

  • 模型沒有很好或足夠數(shù)量的訓(xùn)練訓(xùn)練集

  • 訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)有偏差

  • 模型的訓(xùn)練過度,過于復(fù)雜,沒有學(xué)到主要的特征

由此引出模型復(fù)雜度概念模型中的參數(shù),一個(gè)簡(jiǎn)單的二元線性的函數(shù)只有兩個(gè)權(quán)重,而多元的復(fù)雜的函數(shù)的權(quán)重可能會(huì)什么上百上千個(gè)。

模型復(fù)雜度太低(參數(shù)過少),模型學(xué)習(xí)得太少,就難以訓(xùn)練出有效的模型,便會(huì)出現(xiàn)欠擬合。模型復(fù)雜度太高(參數(shù)很多),即模型可訓(xùn)練空間很大,容易學(xué)習(xí)過度,甚至于也將噪聲數(shù)據(jù)學(xué)習(xí)了,便會(huì)出現(xiàn)過擬合。

正則化

損失函數(shù)后面會(huì)添加一個(gè)額外項(xiàng),稱作 L1正則化 和 L2正則化,或者 L1范數(shù)和 L2范數(shù)。

L1正則化和L2正則化可以看做是損失函數(shù)的懲罰項(xiàng)。所謂『懲罰』是指對(duì)損失函數(shù)中的某些參數(shù)做一些限制。對(duì)于線性回歸模型,使用L1正則化的模型建叫做Lasso回歸,使用L2正則化的模型叫做Ridge回歸(嶺回歸)。

正則化說明

  • L1正則化是指權(quán)值向量中各個(gè)元素的絕對(duì)值之和,通常表示為

  • L2正則化是指權(quán)值向量中各個(gè)元素的平方和然后再求平方根(可以看到Ridge回歸的L2正則化項(xiàng)有平方符號(hào))

正則化作用

  • L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇

  • L2正則化可以防止模型過擬合(overfitting)

調(diào)參方法

貪心調(diào)參 (坐標(biāo)下降)

坐標(biāo)下降法是一類優(yōu)化算法,其最大的優(yōu)勢(shì)在于不用計(jì)算待優(yōu)化的目標(biāo)函數(shù)的梯度。與坐標(biāo)下降法不同的是,不循環(huán)使用各個(gè)參數(shù)進(jìn)行調(diào)整,而是貪心地選取了對(duì)整體模型性能影響最大的參數(shù)。參數(shù)對(duì)整體模型性能的影響力是動(dòng)態(tài)變化的,故每一輪坐標(biāo)選取的過程中,這種方法在對(duì)每個(gè)坐標(biāo)的下降方向進(jìn)行一次直線搜索(line search)

網(wǎng)格調(diào)參GridSearchCV

作用是在指定的范圍內(nèi)可以自動(dòng)調(diào)參,只需將參數(shù)輸入即可得到最優(yōu)化的結(jié)果和參數(shù)。相對(duì)于人工調(diào)參更省時(shí)省力,相對(duì)于for循環(huán)方法更簡(jiǎn)潔靈活,不易出錯(cuò)。

貝葉斯調(diào)參

貝葉斯優(yōu)化通過基于目標(biāo)函數(shù)的過去評(píng)估結(jié)果建立替代函數(shù)(概率模型),來找到最小化目標(biāo)函數(shù)的值。貝葉斯方法與隨機(jī)或網(wǎng)格搜索的不同之處在于,它在嘗試下一組超參數(shù)時(shí),會(huì)參考之前的評(píng)估結(jié)果,因此可以省去很多無用功。

超參數(shù)的評(píng)估代價(jià)很大,因?yàn)樗笫褂么u(píng)估的超參數(shù)訓(xùn)練一遍模型,而許多深度學(xué)習(xí)模型動(dòng)則幾個(gè)小時(shí)幾天才能完成訓(xùn)練,并評(píng)估模型,因此耗費(fèi)巨大。貝葉斯調(diào)參發(fā)使用不斷更新的概率模型,通過推斷過去的結(jié)果來“集中”有希望的超參數(shù)。

這里給出一個(gè)模型可調(diào)參數(shù)及范圍選取的參考:

模型融合

通過融合多個(gè)不同的模型,可能提升機(jī)器學(xué)習(xí)的性能。這一方法在各種機(jī)器學(xué)習(xí)比賽中廣泛應(yīng)用, 也是在比賽的攻堅(jiān)時(shí)刻沖刺Top的關(guān)鍵。而融合模型往往又可以從模型結(jié)果,模型自身,樣本集等不同的角度進(jìn)行融合。

模型融合是比賽后期一個(gè)重要的環(huán)節(jié),大體來說有如下的類型方式

1. 簡(jiǎn)單加權(quán)融合:

  • 回歸(分類概率):算術(shù)平均融合(Arithmetic mean),幾何平均融合(Geometric mean);

  • 分類:投票(Voting);

  • 綜合:排序融合(Rank averaging),log融合。

2. stacking/blending:

  • 構(gòu)建多層模型,并利用預(yù)測(cè)結(jié)果再擬合預(yù)測(cè)。

3. boosting/bagging:

  • 多樹的提升方法,在xgboost,Adaboost,GBDT中已經(jīng)用到。

簡(jiǎn)單算術(shù)平均法

Averaging方法就多個(gè)模型預(yù)測(cè)的結(jié)果進(jìn)行平均。這種方法既可以用于回歸問題,也可以用于對(duì)分類問題的概率進(jìn)行平均。

加權(quán)算術(shù)平均法

這種方法是平均法的擴(kuò)展。考慮不同模型的能力不同,對(duì)最終結(jié)果的貢獻(xiàn)也有差異,需要用權(quán)重來表征不同模型的重要性importance。

投票法

假設(shè)對(duì)于一個(gè)二分類問題,有3個(gè)基礎(chǔ)模型,現(xiàn)在我們可以在這些基學(xué)習(xí)器的基礎(chǔ)上得到一個(gè)投票的分類器,把票數(shù)最多的類作為我們要預(yù)測(cè)的類別。

  • 硬投票:對(duì)多個(gè)模型直接進(jìn)行投票,不區(qū)分模型結(jié)果的相對(duì)重要度,最終投票數(shù)最多的類為最終被預(yù)測(cè)的類。

    • 絕對(duì)多數(shù)投票法:最終結(jié)果必須在投票中占一半以上。

    • 相對(duì)多數(shù)投票法:最終結(jié)果在投票中票數(shù)最多。


  • 軟投票:增加了設(shè)置權(quán)重的功能,可以為不同模型設(shè)置不同權(quán)重,進(jìn)而區(qū)別模型不同的重要度。

堆疊法(Stacking)

stacking 就是當(dāng)用初始訓(xùn)練數(shù)據(jù)學(xué)習(xí)出若干個(gè)基學(xué)習(xí)器后,將這幾個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果作為新的訓(xùn)練集,來學(xué)習(xí)一個(gè)新的學(xué)習(xí)器。對(duì)不同模型預(yù)測(cè)的結(jié)果再進(jìn)行建模。

混合法(Blending)

Blending采用了和stacking同樣的方法,不過只從訓(xùn)練集中選擇一個(gè)fold的結(jié)果,再和原始特征進(jìn)行concat作為元學(xué)習(xí)器meta learner的特征,測(cè)試集上進(jìn)行同樣的操作。

把原始的訓(xùn)練集先分成兩部分,比如70%的數(shù)據(jù)作為新的訓(xùn)練集,剩下30%的數(shù)據(jù)作為測(cè)試集。

  • 第一層,我們?cè)谶@70%的數(shù)據(jù)上訓(xùn)練多個(gè)模型,然后去預(yù)測(cè)那30%數(shù)據(jù)的label,同時(shí)也預(yù)測(cè)test集的label。

  • 在第二層,我們就直接用這30%數(shù)據(jù)在第一層預(yù)測(cè)的結(jié)果做為新特征繼續(xù)訓(xùn)練,然后用test集第一層預(yù)測(cè)的label做特征,用第二層訓(xùn)練的模型做進(jìn)一步預(yù)測(cè)。


Bagging

Bagging基于bootstrap(自采樣),也就是有放回的采樣。訓(xùn)練子集的大小和原始數(shù)據(jù)集的大小相同。Bagging的技術(shù)使用子集來了解整個(gè)樣本集的分布,通過bagging采樣的子集的大小要小于原始集合。

  • 采用bootstrap的方法基于原始數(shù)據(jù)集產(chǎn)生大量的子集

  • 基于這些子集訓(xùn)練弱模型base model

  • 模型是并行訓(xùn)練并且相互獨(dú)立的

  • 最終的預(yù)測(cè)結(jié)果取決于多個(gè)模型的預(yù)測(cè)結(jié)果

Boosting

Boosting是一種串行的工作機(jī)制,即個(gè)體學(xué)習(xí)器的訓(xùn)練存在依賴關(guān)系,必須一步一步序列化進(jìn)行。Boosting是一個(gè)序列化的過程,后續(xù)模型會(huì)矯正之前模型的預(yù)測(cè)結(jié)果。也就是說,之后的模型依賴于之前的模型。

其基本思想是:增加前一個(gè)基學(xué)習(xí)器在訓(xùn)練訓(xùn)練過程中預(yù)測(cè)錯(cuò)誤樣本的權(quán)重,使得后續(xù)基學(xué)習(xí)器更加關(guān)注這些打標(biāo)錯(cuò)誤的訓(xùn)練樣本,盡可能糾正這些錯(cuò)誤,一直向下串行直至產(chǎn)生需要的T個(gè)基學(xué)習(xí)器,Boosting最終對(duì)這T個(gè)學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合,產(chǎn)生學(xué)習(xí)器委員會(huì)。

下面給出加州大學(xué)歐文分校Alex Ihler教授的兩頁P(yáng)PT:

延伸閱讀

【1】數(shù)據(jù)分析: https://mp.weixin.qq.com/s/IOlHIEIQhuIaubTeP4o39w 【2】特征工程: https://mp.weixin.qq.com/s/A2vChdNXRqlddyIY0iJ3zQ 【3】建模調(diào)參: https://mp.weixin.qq.com/s/cXSRcMk_0t8RxSaKb0sHww 【4】模型融合: https://mp.weixin.qq.com/s/fsT6rzpL5cuzh2usNjzzbA 【5】完整視頻: https://www.bilibili.com/video/BV1ye411x7oU 【6】理論實(shí)踐: https://tianchi.aliyun.com/competition/entrance/231784/information(阿里天池-零基礎(chǔ)入門數(shù)據(jù)挖掘)

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)在線手冊(cè)AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請(qǐng)回復(fù)“加群”獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點(diǎn)個(gè)在看

總結(jié)

以上是生活随笔為你收集整理的一份数据挖掘入门指南!!!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。