【商务智能】数据预处理
商務(wù)智能系列文章目錄
【商務(wù)智能】數(shù)據(jù)預(yù)處理
文章目錄
- 商務(wù)智能系列文章目錄
- 前言
- 一、數(shù)據(jù)預(yù)處理主要任務(wù)
- 二、數(shù)據(jù)規(guī)范方法
- 1、z-score 規(guī)范化
- 2、最小-最大規(guī)范化
- 三、數(shù)據(jù)離散方法
- 1、分箱離散化
- 2、基于熵的離散化
- 總結(jié)
前言
在進行數(shù)據(jù)分析之前 , 先要對數(shù)據(jù)進行預(yù)處理操作 , 本篇博客簡要介紹常用的數(shù)據(jù)預(yù)處理方法 ;
一、數(shù)據(jù)預(yù)處理主要任務(wù)
數(shù)據(jù)預(yù)處理主要任務(wù) :
① 數(shù)據(jù)離散化 : 分箱離散化 , 基于熵的離散化 , ChiMerge 離散化 ;
② 數(shù)據(jù)規(guī)范化 : 又稱數(shù)據(jù)標準化 , 統(tǒng)一 樣本數(shù)據(jù)的 取值范圍 , 避免在數(shù)據(jù)分析過程中 , 因為屬性取值范圍不同 , 在數(shù)據(jù)分析過程中導(dǎo)致分析結(jié)果出現(xiàn)誤差 ; 如 : 時間屬性的數(shù)值 , 有用秒作為單位的 , 有用小時作為單位的 , 必須統(tǒng)一成同一個時間單位 ;
③ 數(shù)據(jù)清洗 : 識別 和 處理 數(shù)據(jù)缺失 , 噪音數(shù)據(jù) , 數(shù)據(jù)不一致 等情況 ; 如 : 某樣本某屬性數(shù)據(jù)缺失 , 將 同類樣本的該屬性的平均值 賦值給該缺失屬性的樣本 ;
④ 特征提取與特征選擇 : 面向分類的特征選擇方法 , 有效的特征選擇 , 既可以 降低數(shù)據(jù)量 , 又能 提高分類模型的構(gòu)建效率 , 還能 提高分類準確率 ;
二、數(shù)據(jù)規(guī)范方法
1、z-score 規(guī)范化
z-score : 也稱為 標準分 ; z-score 值為 z=x?μσz = \cfrac{x - \mu}{\sigma}z=σx?μ? ;
其中 xxx 是本次要規(guī)范的屬性值 , μ\muμ 是均值 , σ\sigmaσ 是標準差 , 該公式的含義是 計算當(dāng)前屬性值 xxx 偏離均值 μ\muμ 的距離是多少個標準差 σ\sigmaσ ;
z-score 規(guī)范化 又稱為 零均值規(guī)范化 ( Zero-Mean Normalization ) , 給定屬性 AAA , 均值為 μ\muμ , 標準差為 σ\sigmaσ , 屬性 AAA 的取值 xxx 規(guī)范后的值 z=x?μσz = \cfrac{x - \mu}{\sigma}z=σx?μ? ;
年收入平均值 828282 萬 , 標準差 393939 , 年收入 606060 萬使用 z-score 規(guī)范化后的值為 :
z=60?8239=0.564z = \cfrac{60 - 82}{39} =0.564z=3960?82?=0.564
2、最小-最大規(guī)范化
樣本屬性原來取值范圍 [l,r][l , r][l,r] , 現(xiàn)在需要將樣本屬性映射到 [L,R][L, R][L,R] 區(qū)間內(nèi) , 根據(jù)等比例映射原理 , 屬性值 xxx 映射到新區(qū)間后的值計算方法如下 :
v=x?lr?l(R?L)+Lv = \cfrac{x - l}{r-l}(R-L) + Lv=r?lx?l?(R?L)+L
某樣本屬性為年收入 , 取值范圍 [10,100][10, 100][10,100] , 將其映射到 [0,1][0, 1][0,1] 區(qū)間內(nèi) , 則 202020 映射到新區(qū)間后的值為 :
v=20?10100?10(1?0)+0=0.1111v = \cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111v=100?1020?10?(1?0)+0=0.1111
三、數(shù)據(jù)離散方法
1、分箱離散化
分箱離散化 分為 等距離分箱 , 等頻率分箱 ;
等距離分箱 : 又稱為 等寬度分箱 , 將屬性的每個取值映射到等大小區(qū)間的方法 ;
如 : 學(xué)生考試分數(shù) , 000 ~ 100100100 分 , 以 101010 分為一檔 , 分為 101010 檔 ,
151515 分處于 111111 ~ 202020 檔 ,
525252 分處于 515151 ~ 606060 檔 ;
等距離分箱 , 可能導(dǎo)致某些取值多 , 某些取值少 , 如 717171 ~ 808080 這一檔很多 , 010101 ~ 101010 這一檔幾乎沒有 ;
等頻率分箱 : 又稱為 等深度分箱 , 將每個取值映射到一個區(qū)間 , 每個區(qū)間包含的取值個數(shù)相同 ;
2、基于熵的離散化
分箱離散化 是 無監(jiān)督 離散化方法 , 基于熵的離散化 是 有監(jiān)督 離散化方法 ;
給定數(shù)據(jù)集 DDD 及其分類屬性 , 類別集合為 C={c1,c2,?,ck}C = \{ c_1 , c_2 , \cdots , c_k \}C={c1?,c2?,?,ck?} , 數(shù)據(jù)集 DDD 的信息熵 entropy(D)\rm entropy(D)entropy(D) 計算公式如下 :
entropy(D)=?∑i=1kp(ci)log2p(ci)\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)entropy(D)=?i=1∑k?p(ci?)log2?p(ci?)
p(ci)p(c_i)p(ci?) 的值是 count(ci)∣D∣\rm \cfrac{count(c_i)}{|D|}∣D∣count(ci?)? , count(ci)\rm count(c_i)count(ci?) 是指 cic_ici? 在數(shù)據(jù)集 DDD 中出現(xiàn)的次數(shù) , ∣D∣|D|∣D∣ 表示數(shù)據(jù)樣本個數(shù) ;
信息熵 entropy(D)\rm entropy(D)entropy(D) 取值越小 , 類別分步越純 ;
屬性 信息熵 計算參考 【數(shù)據(jù)挖掘】決策樹中根據(jù) 信息增益 確定劃分屬性 ( 信息與熵 | 總熵計算公式 | 每個屬性的熵計算公式 | 信息增益計算公式 | 劃分屬性確定 ) 博客 ;
總結(jié)
本博客主要講解數(shù)據(jù)預(yù)處理需要進行的操作 , 數(shù)據(jù)規(guī)范化 , 數(shù)據(jù)離散化 , 數(shù)據(jù)清洗 , 特征提取與特征選擇 ;
數(shù)據(jù)規(guī)范化涉及 最小-最大規(guī)范化 和 z-score 規(guī)范化 ;
數(shù)據(jù)離散化涉及 分箱離散化 和 基于熵的離散化 , 分箱離散化分為 等距離分箱 和 等頻率分箱 ;
總結(jié)
以上是生活随笔為你收集整理的【商务智能】数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Android 插件化】“ 插桩式 “
- 下一篇: 【商务智能】数据仓库 ( 多维数据模型