日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【商务智能】数据预处理

發(fā)布時間:2025/6/17 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【商务智能】数据预处理 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

商務(wù)智能系列文章目錄

【商務(wù)智能】數(shù)據(jù)預(yù)處理


文章目錄

  • 商務(wù)智能系列文章目錄
  • 前言
  • 一、數(shù)據(jù)預(yù)處理主要任務(wù)
  • 二、數(shù)據(jù)規(guī)范方法
    • 1、z-score 規(guī)范化
    • 2、最小-最大規(guī)范化
  • 三、數(shù)據(jù)離散方法
    • 1、分箱離散化
    • 2、基于熵的離散化
  • 總結(jié)


前言

在進行數(shù)據(jù)分析之前 , 先要對數(shù)據(jù)進行預(yù)處理操作 , 本篇博客簡要介紹常用的數(shù)據(jù)預(yù)處理方法 ;





一、數(shù)據(jù)預(yù)處理主要任務(wù)


數(shù)據(jù)預(yù)處理主要任務(wù) :

① 數(shù)據(jù)離散化 : 分箱離散化 , 基于熵的離散化 , ChiMerge 離散化 ;

② 數(shù)據(jù)規(guī)范化 : 又稱數(shù)據(jù)標準化 , 統(tǒng)一 樣本數(shù)據(jù)的 取值范圍 , 避免在數(shù)據(jù)分析過程中 , 因為屬性取值范圍不同 , 在數(shù)據(jù)分析過程中導(dǎo)致分析結(jié)果出現(xiàn)誤差 ; 如 : 時間屬性的數(shù)值 , 有用秒作為單位的 , 有用小時作為單位的 , 必須統(tǒng)一成同一個時間單位 ;

③ 數(shù)據(jù)清洗 : 識別處理 數(shù)據(jù)缺失 , 噪音數(shù)據(jù) , 數(shù)據(jù)不一致 等情況 ; 如 : 某樣本某屬性數(shù)據(jù)缺失 , 將 同類樣本的該屬性的平均值 賦值給該缺失屬性的樣本 ;

④ 特征提取與特征選擇 : 面向分類的特征選擇方法 , 有效的特征選擇 , 既可以 降低數(shù)據(jù)量 , 又能 提高分類模型的構(gòu)建效率 , 還能 提高分類準確率 ;





二、數(shù)據(jù)規(guī)范方法



1、z-score 規(guī)范化


z-score : 也稱為 標準分 ; z-score 值為 z=x?μσz = \cfrac{x - \mu}{\sigma}z=σx?μ? ;

其中 xxx 是本次要規(guī)范的屬性值 , μ\muμ 是均值 , σ\sigmaσ 是標準差 , 該公式的含義是 計算當(dāng)前屬性值 xxx 偏離均值 μ\muμ 的距離是多少個標準差 σ\sigmaσ ;


z-score 規(guī)范化 又稱為 零均值規(guī)范化 ( Zero-Mean Normalization ) , 給定屬性 AAA , 均值為 μ\muμ , 標準差為 σ\sigmaσ , 屬性 AAA 的取值 xxx 規(guī)范后的值 z=x?μσz = \cfrac{x - \mu}{\sigma}z=σx?μ? ;


年收入平均值 828282 萬 , 標準差 393939 , 年收入 606060 萬使用 z-score 規(guī)范化后的值為 :

z=60?8239=0.564z = \cfrac{60 - 82}{39} =0.564z=3960?82?=0.564


2、最小-最大規(guī)范化


樣本屬性原來取值范圍 [l,r][l , r][l,r] , 現(xiàn)在需要將樣本屬性映射到 [L,R][L, R][L,R] 區(qū)間內(nèi) , 根據(jù)等比例映射原理 , 屬性值 xxx 映射到新區(qū)間后的值計算方法如下 :

v=x?lr?l(R?L)+Lv = \cfrac{x - l}{r-l}(R-L) + Lv=r?lx?l?(R?L)+L


某樣本屬性為年收入 , 取值范圍 [10,100][10, 100][10,100] , 將其映射到 [0,1][0, 1][0,1] 區(qū)間內(nèi) , 則 202020 映射到新區(qū)間后的值為 :

v=20?10100?10(1?0)+0=0.1111v = \cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111v=100?1020?10?(1?0)+0=0.1111





三、數(shù)據(jù)離散方法



1、分箱離散化


分箱離散化 分為 等距離分箱 , 等頻率分箱 ;


等距離分箱 : 又稱為 等寬度分箱 , 將屬性的每個取值映射到等大小區(qū)間的方法 ;

如 : 學(xué)生考試分數(shù) , 000 ~ 100100100 分 , 以 101010 分為一檔 , 分為 101010 檔 ,

151515 分處于 111111 ~ 202020 檔 ,
525252 分處于 515151 ~ 606060 檔 ;

等距離分箱 , 可能導(dǎo)致某些取值多 , 某些取值少 , 如 717171 ~ 808080 這一檔很多 , 010101 ~ 101010 這一檔幾乎沒有 ;


等頻率分箱 : 又稱為 等深度分箱 , 將每個取值映射到一個區(qū)間 , 每個區(qū)間包含的取值個數(shù)相同 ;


2、基于熵的離散化


分箱離散化 是 無監(jiān)督 離散化方法 , 基于熵的離散化 是 有監(jiān)督 離散化方法 ;

給定數(shù)據(jù)集 DDD 及其分類屬性 , 類別集合為 C={c1,c2,?,ck}C = \{ c_1 , c_2 , \cdots , c_k \}C={c1?,c2?,?,ck?} , 數(shù)據(jù)集 DDD 的信息熵 entropy(D)\rm entropy(D)entropy(D) 計算公式如下 :

entropy(D)=?∑i=1kp(ci)log2p(ci)\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)entropy(D)=?i=1k?p(ci?)log2?p(ci?)

p(ci)p(c_i)p(ci?) 的值是 count(ci)∣D∣\rm \cfrac{count(c_i)}{|D|}Dcount(ci?)? , count(ci)\rm count(c_i)count(ci?) 是指 cic_ici? 在數(shù)據(jù)集 DDD 中出現(xiàn)的次數(shù) , ∣D∣|D|D 表示數(shù)據(jù)樣本個數(shù) ;

信息熵 entropy(D)\rm entropy(D)entropy(D) 取值越小 , 類別分步越純 ;


屬性 信息熵 計算參考 【數(shù)據(jù)挖掘】決策樹中根據(jù) 信息增益 確定劃分屬性 ( 信息與熵 | 總熵計算公式 | 每個屬性的熵計算公式 | 信息增益計算公式 | 劃分屬性確定 ) 博客 ;






總結(jié)

本博客主要講解數(shù)據(jù)預(yù)處理需要進行的操作 , 數(shù)據(jù)規(guī)范化 , 數(shù)據(jù)離散化 , 數(shù)據(jù)清洗 , 特征提取與特征選擇 ;

數(shù)據(jù)規(guī)范化涉及 最小-最大規(guī)范化z-score 規(guī)范化 ;

數(shù)據(jù)離散化涉及 分箱離散化基于熵的離散化 , 分箱離散化分為 等距離分箱等頻率分箱 ;

總結(jié)

以上是生活随笔為你收集整理的【商务智能】数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。