日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python 数据离散化和面元划分

發(fā)布時(shí)間:2024/1/23 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 数据离散化和面元划分 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
數(shù)據(jù)挖掘中有些算法,特別是分類算法,只能在離散型數(shù)據(jù)上進(jìn)行分析,然而大部分?jǐn)?shù)據(jù)集常常是連續(xù)值和離散值并存的。因此,為了使這類算法發(fā)揮作用,需要對(duì)數(shù)據(jù)集中連續(xù)型屬性進(jìn)行離散化操作。

那么,如何對(duì)連續(xù)型屬性離散化呢?常見的有等寬分箱法等頻分箱法

等寬分箱法的思想是,將數(shù)據(jù)均勻劃分成n等份,每份的間距相等

等頻分箱法的思想是,將觀察點(diǎn)均勻分成n等份,每份的觀察點(diǎn)數(shù)相同

在對(duì)數(shù)據(jù)離散化前,需要先處理異常點(diǎn)敏感問題,即我們需要首先設(shè)定一個(gè)閾值將異常數(shù)據(jù)移除。有兩種思路:

1.設(shè)定閾值為90%,將數(shù)據(jù)從小到大排序,移除全部數(shù)據(jù)最小的5%和最大的5%數(shù)據(jù)

2. ?設(shè)定閾值為90%,將數(shù)據(jù)從小到大排序,然后對(duì)所有數(shù)據(jù)求和,并計(jì)算每個(gè)數(shù)據(jù)占總和的比例,移除占比10%的數(shù)據(jù)

在這里,我們實(shí)現(xiàn)的方法是等寬分箱法,針對(duì)連續(xù)型數(shù)據(jù)集,代碼比較簡單基礎(chǔ),在此拋磚引玉,大家可以在代碼的基礎(chǔ)上增添自己需要的功能。

先介紹2個(gè)方法:

等步長和等頻

1. cut() cut()函數(shù)可以將一個(gè)數(shù)組中的數(shù)據(jù)切分成幾個(gè)部分。 將數(shù)據(jù)分為幾個(gè)部分,就稱為幾個(gè)面元。 cut(數(shù)據(jù)數(shù)組,面元數(shù)組)>>> array = [3, 60, 43, 100, 52, 36, 37, 0, 80, 1000] # 數(shù)組 >>> bins = [0, 25, 50, 75, 100] # 切割成什么 >>> cat = pd.cut(array, bins) >>> cat # cat是一個(gè)Categorical(類別型)類型 [(0, 25], (50, 75], (25, 50], (75, 100], (50, 75], (25, 50], (25, 50], NaN, (75, 100], NaN] Categories (4, interval[int64]): [(0, 25] < (25, 50] < (50, 75] < (75, 100]] >>> cat.codes # 數(shù)組原來的元素?cái)?shù)據(jù)第幾個(gè)面元 array([ 0, 2, 1, 3, 2, 1, 1, -1, 3, -1], dtype=int8) >>> pd.value_counts(cat) # 每個(gè)面元有多少個(gè)元素 (25, 50] 3 (75, 100] 2 (50, 75] 2 (0, 25] 1 dtype: int64還可以不指定面元的界限,直接傳入一個(gè)整數(shù)參數(shù),cut()會(huì)按照指定的數(shù)字,將元素劃分為相應(yīng)的幾部分。>>> pd.cut(array, 5) [(-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (800.0, 1000.0]] Categories (5, interval[float64]): [(-1.0, 200.0] < (200.0, 400.0] < (400.0, 600.0] < (600.0, 800.0] < (800.0, 1000.0]] 2. qcut()cut()函數(shù)劃分得到的面元,每個(gè)面元的數(shù)量不同。而qcut()可以保證每個(gè)面元的數(shù)量相同,且每個(gè)面元的區(qū)間大小不等。 >>> pd.qcut(array, 5) [(-0.001, 29.4], (55.2, 84.0], (40.6, 55.2], (84.0, 1000.0], (40.6, 55.2], (29.4, 40.6], (29.4, 40.6], (-0.001, 29.4], (55.2, 84.0], (84.0, 1000.0]] Categories (5, interval[float64]): [(-0.001, 29.4] < (29.4, 40.6] < (40.6, 55.2] < (55.2, 84.0] < (84.0, 1000.0]] >>> cat = pd.qcut(array, 5) >>> pd.value_counts(cat) (84.0, 1000.0] 2 (55.2, 84.0] 2 (40.6, 55.2] 2 (29.4, 40.6] 2 (-0.001, 29.4] 2 dtype: int64

下面這個(gè)例子:

離散化:數(shù)值屬性(例如:年齡)的原始值用區(qū)間標(biāo)簽(0-10,11-20等)代替。

  • x=[1,1,5,5,5,5,8,8,10,10,10,10,14,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,18,20,2,20,20,20,20,20,20,21,21,21,25,25,25,25,25,28,28,30,30,30]??
  • x=pd.Series(x)??
  • s=pd.cut(x,bins=[0,10,20,30])??
  • d=pd.get_dummies(s)??
  • 這里采用了啞編碼,用OneHotEncoder也可以實(shí)現(xiàn)啞編碼

    sklearn的preprocessing預(yù)處理方法參考http://blog.csdn.net/nkwangjie/article/details/17471889




    創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

    總結(jié)

    以上是生活随笔為你收集整理的python 数据离散化和面元划分的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。