机器学习中数据预处理的几种方法
? ? ? 由于實際收集到的機器學(xué)習(xí)數(shù)據(jù)集不可避免的會存在數(shù)據(jù)缺、數(shù)據(jù)集不平衡和數(shù)據(jù)集中各類數(shù)據(jù)非同一量級等情況,對缺失數(shù)據(jù)進行補全和對異常數(shù)據(jù)進行清洗、均衡化處理防止類別不平衡和數(shù)據(jù)標準化處理對于機器學(xué)習(xí)模型至關(guān)重要。
1?數(shù)據(jù)補全方法
? ? ? 有效地恢復(fù)缺失的數(shù)據(jù)是進行機器學(xué)習(xí)建模的重要前期準備工作。一方面可使得數(shù)據(jù)更完整,便于后續(xù)進一步的分析研究,另一方面,數(shù)據(jù)補全本身就是對信息進行挖掘的一種方式。
? ? ? 常見的數(shù)據(jù)補全方法包括均值補全、回歸填補法、期望最大化填補法、高斯混合模型(Gaussian Mixture Model , GMM)補全、 C均值(C-Means)補全、 K近鄰(K Nearest Neighbors , KNN)補全、決策樹填補法等。
2?數(shù)據(jù)均衡方法
? ? ? 由于實際情況,例如在信用卡欺詐檢測數(shù)據(jù)集中,大多數(shù)信用卡交易類型都不是欺詐,僅有很少一部分類型是欺詐交易,如此以來,非欺詐交易和欺詐交易之間的比率達到50:1,導(dǎo)致數(shù)據(jù)集不平衡問題,因此需要對數(shù)據(jù)進行均衡化處理以平衡各類,從而避免種類欠均衡而造成的負面效應(yīng)。常見的均衡化方法有“欠采樣”和“過采樣”兩類,“欠采樣”就是從數(shù)量多的.類別中隨機丟棄一些數(shù)據(jù),從而保證類別均衡,而“過采樣”則是增加數(shù)量較少樣本的采樣頻率或?qū)τ?xùn)練集數(shù)據(jù)進行插值來保證類別均衡?!扒凡蓸印睍?dǎo)致訓(xùn)練數(shù)據(jù)規(guī)模減小,可能丟失數(shù)據(jù),而“過采樣”若直接對初始數(shù)據(jù)進行多次采樣會導(dǎo)致嚴重的過擬合。
? ? ? SMOTE是解決數(shù)據(jù)集不平衡問題的一種過采樣方法。與一般的抽樣方法不同,SMOTE并非簡單地拷貝樣本,而是按照一定規(guī)則合成少數(shù)類樣本,以達到平衡類別的目的。
3 數(shù)據(jù)歸一化
? ? ? 數(shù)據(jù)歸一化處理是機器學(xué)習(xí)中的一項挖掘數(shù)據(jù)的基礎(chǔ)工作,其目的是將取值范圍相差較大的不同類型的測井曲線通過一種無量綱的處理手段,將原始數(shù)據(jù)值通過函數(shù)轉(zhuǎn)換變成具有某種相對關(guān)系的相對值,數(shù)據(jù)量縮小到特定范圍之內(nèi)。
? ? ? 數(shù)據(jù)經(jīng)過歸一化處理后,各指標處于同一數(shù)量級,適合進行綜合對比評價。以下是三種常用的歸一化方法:
(1)最值歸一化(min-max normalization, MMN)
? ? ? 也稱為線性歸一化,是對原始數(shù)據(jù)進行線性變換,將原始數(shù)據(jù)點映射到[ 0,1 ],也可以映射到自己定義的某個區(qū)間內(nèi)。假設(shè)樣本數(shù)據(jù)有 個,其轉(zhuǎn)換函數(shù)如下:
? ? ? 其中Ximax為樣本數(shù)據(jù)的最大值,Ximin為樣本數(shù)據(jù)的最小值。
? ? ? 最值歸一化的優(yōu)點是,使用簡單、快速、靈活,缺點是當數(shù)據(jù)存在極端點(如只有一兩個數(shù)值極大或極小),將會影響整個數(shù)據(jù)處理過程,造成映射后數(shù)據(jù)質(zhì)量很差。
(2)標準分數(shù)歸一化方法(z-score normalization,ZSN)
原始數(shù)據(jù)經(jīng)標準分數(shù)歸一化后的數(shù)據(jù)呈標準正態(tài)分布,即均值是0,標準差為1。假設(shè)樣本數(shù)據(jù)有 個,其轉(zhuǎn)換函數(shù)如下所示:
? ? ??其中為原始數(shù)據(jù)的均值, 為原始數(shù)據(jù)的標準差,是當前用得最多的數(shù)據(jù)標準化方式。
(3)中值歸一化方法(median normalization,MDN)
? ? ? 中值歸一化首先尋找原數(shù)據(jù)的中值,然后使用最大值最小值的差作為比例因子,將原始數(shù)據(jù)映射到某個區(qū)間內(nèi),一般是把零點作為區(qū)間中值,區(qū)間定為(-1,+1)或某個自定的范圍。此方法多用于數(shù)據(jù)中沒有錯誤樣本,而只是單純的將整個數(shù)據(jù)進行等比例的擴大或者縮小。
? ? ? 假設(shè)樣本數(shù)據(jù)有?n個,其轉(zhuǎn)換函數(shù)如下所示::
??
總結(jié)
以上是生活随笔為你收集整理的机器学习中数据预处理的几种方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle 数据库基本知识概念
- 下一篇: AltiumDesigner 的 Pcb