當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【商务智能】数据预处理

發(fā)布時間：2025/6/17 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了【商务智能】数据预处理小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

商務(wù)智能系列文章目錄

【商務(wù)智能】數(shù)據(jù)預(yù)處理

文章目錄

商務(wù)智能系列文章目錄
前言
一、數(shù)據(jù)預(yù)處理主要任務(wù)
二、數(shù)據(jù)規(guī)范方法
- 1、z-score 規(guī)范化
- 2、最小-最大規(guī)范化
三、數(shù)據(jù)離散方法
- 1、分箱離散化
- 2、基于熵的離散化
總結(jié)

前言

在進行數(shù)據(jù)分析之前 , 先要對數(shù)據(jù)進行預(yù)處理操作 , 本篇博客簡要介紹常用的數(shù)據(jù)預(yù)處理方法 ;

一、數(shù)據(jù)預(yù)處理主要任務(wù)

數(shù)據(jù)預(yù)處理主要任務(wù) :

① 數(shù)據(jù)離散化 : 分箱離散化 , 基于熵的離散化 , ChiMerge 離散化 ;

② 數(shù)據(jù)規(guī)范化 : 又稱數(shù)據(jù)標準化 , 統(tǒng)一樣本數(shù)據(jù)的取值范圍 , 避免在數(shù)據(jù)分析過程中 , 因為屬性取值范圍不同 , 在數(shù)據(jù)分析過程中導(dǎo)致分析結(jié)果出現(xiàn)誤差 ; 如 : 時間屬性的數(shù)值 , 有用秒作為單位的 , 有用小時作為單位的 , 必須統(tǒng)一成同一個時間單位 ;

③ 數(shù)據(jù)清洗 : 識別和處理數(shù)據(jù)缺失 , 噪音數(shù)據(jù) , 數(shù)據(jù)不一致等情況 ; 如 : 某樣本某屬性數(shù)據(jù)缺失 , 將同類樣本的該屬性的平均值賦值給該缺失屬性的樣本 ;

④ 特征提取與特征選擇 : 面向分類的特征選擇方法 , 有效的特征選擇 , 既可以降低數(shù)據(jù)量 , 又能提高分類模型的構(gòu)建效率 , 還能提高分類準確率 ;

二、數(shù)據(jù)規(guī)范方法

1、z-score 規(guī)范化

z-score : 也稱為標準分 ; z-score 值為 $\cfrac{x - \mu}{\sigma}$ ;

其中 $x$ 是本次要規(guī)范的屬性值 , $μ\mu$ 是均值 , $σ\sigma$ 是標準差 , 該公式的含義是計算當(dāng)前屬性值 $x$ 偏離均值 $μ\mu$ 的距離是多少個標準差 $σ\sigma$ ;

z-score 規(guī)范化 又稱為零均值規(guī)范化 ( Zero-Mean Normalization ) , 給定屬性 $A$ , 均值為 $μ\mu$ , 標準差為 $σ\sigma$ , 屬性 $A$ 的取值 $x$ 規(guī)范后的值 $\cfrac{x - \mu}{\sigma}$ ;

年收入平均值 $82$ 萬 , 標準差 $39$ , 年收入 $60$ 萬使用 z-score 規(guī)范化后的值為 :

$\cfrac{60 - 82}{39} =0.564$

2、最小-最大規(guī)范化

樣本屬性原來取值范圍 $[l, r]$ , 現(xiàn)在需要將樣本屬性映射到 $[L, R]$ 區(qū)間內(nèi) , 根據(jù)等比例映射原理 , 屬性值 $x$ 映射到新區(qū)間后的值計算方法如下 :

$\cfrac{x - l}{r-l}(R-L) + L$

某樣本屬性為年收入 , 取值范圍 $[10, 100]$ , 將其映射到 $[0, 1]$ 區(qū)間內(nèi) , 則 $20$ 映射到新區(qū)間后的值為 :

$\cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111$

三、數(shù)據(jù)離散方法

1、分箱離散化

分箱離散化 分為等距離分箱 , 等頻率分箱 ;

等距離分箱 : 又稱為等寬度分箱 , 將屬性的每個取值映射到等大小區(qū)間的方法 ;

如 : 學(xué)生考試分數(shù) , $0$ ~ $100$ 分 , 以 $10$ 分為一檔 , 分為 $10$ 檔 ,

$15$ 分處于 $11$ ~ $20$ 檔 ,
$52$ 分處于 $51$ ~ $60$ 檔 ;

等距離分箱 , 可能導(dǎo)致某些取值多 , 某些取值少 , 如 $71$ ~ $80$ 這一檔很多 , $01$ ~ $10$ 這一檔幾乎沒有 ;

等頻率分箱 : 又稱為等深度分箱 , 將每個取值映射到一個區(qū)間 , 每個區(qū)間包含的取值個數(shù)相同 ;

2、基于熵的離散化

分箱離散化是無監(jiān)督離散化方法 , 基于熵的離散化是有監(jiān)督離散化方法 ;

給定數(shù)據(jù)集 $D$ 及其分類屬性 , 類別集合為 $\{ c_1 , c_2 , \cdots , c_k \}$ , 數(shù)據(jù)集 $D$ 的信息熵 $entropy(D)\rm entropy(D)$ 計算公式如下 :

$entropy(D)=?∑i=1kp(ci)log2p(ci)\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)$

$p(c_i)$ 的值是 $count(ci)∣D∣\rm \cfrac{count(c_i)}{|D|}$ , $count(ci)\rm count(c_i)$ 是指 $c_i$ 在數(shù)據(jù)集 $D$ 中出現(xiàn)的次數(shù) , $∣ D ∣$ 表示數(shù)據(jù)樣本個數(shù) ;

信息熵 $entropy(D)\rm entropy(D)$ 取值越小 , 類別分步越純 ;

屬性信息熵計算參考【數(shù)據(jù)挖掘】決策樹中根據(jù) 信息增益確定劃分屬性 ( 信息與熵 | 總熵計算公式 | 每個屬性的熵計算公式 | 信息增益計算公式 | 劃分屬性確定 ) 博客 ;

總結(jié)

本博客主要講解數(shù)據(jù)預(yù)處理需要進行的操作 , 數(shù)據(jù)規(guī)范化 , 數(shù)據(jù)離散化 , 數(shù)據(jù)清洗 , 特征提取與特征選擇 ;

數(shù)據(jù)規(guī)范化涉及最小-最大規(guī)范化和 z-score 規(guī)范化 ;

數(shù)據(jù)離散化涉及分箱離散化和基于熵的離散化 , 分箱離散化分為等距離分箱和等頻率分箱 ;

總結(jié)

以上是生活随笔為你收集整理的【商务智能】数据预处理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【Android 插件化】“ 插桩式 “
下一篇：【商务智能】数据仓库 ( 多维数据模型

编程问答

【商务智能】数据预处理

商務(wù)智能系列文章目錄

文章目錄

前言

一、數(shù)據(jù)預(yù)處理主要任務(wù)

二、數(shù)據(jù)規(guī)范方法

1、z-score 規(guī)范化

2、最小-最大規(guī)范化

三、數(shù)據(jù)離散方法

1、分箱離散化

2、基于熵的離散化

總結(jié)

總結(jié)

一、數(shù)據(jù)預(yù)處理主要任務(wù)

1、z-score 規(guī)范化

2、最小-最大規(guī)范化

三、數(shù)據(jù)離散方法

1、分箱離散化