日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘实验——认识数据与进行数据预处理

發(fā)布時(shí)間:2023/12/9 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘实验——认识数据与进行数据预处理 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本實(shí)驗(yàn)的實(shí)驗(yàn)報(bào)告以及相關(guān)數(shù)據(jù)集處理數(shù)據(jù)所用代碼都放在下面這個(gè)資源鏈接之中
認(rèn)識(shí)數(shù)據(jù)與進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)驗(yàn)
免費(fèi)下載 以供學(xué)習(xí)~

實(shí)驗(yàn)內(nèi)容和目的:

根據(jù)老師給出的代碼進(jìn)行復(fù)現(xiàn)和運(yùn)行,實(shí)現(xiàn)——對(duì)一個(gè)數(shù)據(jù)集進(jìn)行分析,包括歸一化操作、缺失值處理、特征篩選,從而達(dá)到認(rèn)識(shí)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理的目的。

實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析:

1.歸一化處理

在拿到一個(gè)數(shù)據(jù)集之后,我們通常會(huì)對(duì)數(shù)據(jù)集進(jìn)行歸一化處理
【1】首先我們引入需要的包
【2】之后我們?cè)谥骱瘮?shù)中進(jìn)行設(shè)置——
對(duì)數(shù)據(jù)的歸一化操作:
讀取數(shù)據(jù):
對(duì)數(shù)據(jù)進(jìn)行歸一化操作的函數(shù)
【3】主函數(shù) 讀取iris.data數(shù)據(jù)
得到進(jìn)行歸一化處理之后的數(shù)據(jù)集 iris_w.data
【4】利用weka獲取的GUI結(jié)果:
【5】自己編程調(diào)用歸一化函數(shù)的結(jié)果

2.缺失值處理

經(jīng)過第一步的操作 我們已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了初步的預(yù)處理,接下來創(chuàng)建一個(gè)新類實(shí)現(xiàn)對(duì)labor數(shù)據(jù)缺失值的處理。
在這一部分,應(yīng)對(duì)不同的數(shù)據(jù)類型我們采用不同的策略~
對(duì)于數(shù)值型數(shù)據(jù)采用策略一,對(duì)于標(biāo)簽型數(shù)據(jù)采用策略二
接下來進(jìn)行實(shí)現(xiàn):
【1】依舊是先引入所需要的的庫
【2】對(duì)數(shù)值型數(shù)據(jù)和標(biāo)簽型數(shù)據(jù)進(jìn)行一個(gè)劃分
【3】進(jìn)行缺失數(shù)據(jù)的處理時(shí)所用的函數(shù)
分為
策略1——針對(duì)數(shù)值型數(shù)據(jù):

策略2——針對(duì)標(biāo)簽型數(shù)據(jù):

其中l(wèi)aborMissing.txt為內(nèi)容有缺失的文件 內(nèi)容如下:

進(jìn)行缺失值處理之后 獲得laborMissing_handle.txt文件

可以看到,缺失的數(shù)據(jù)都進(jìn)行了補(bǔ)全。

3.特征篩選

【1】引入所需的包~
【2】熟悉的讀取文件操作~
返回所有特征的值spf.values 及 數(shù)據(jù)類別 strs 的label
【3】對(duì)每個(gè)特征計(jì)算信息增益
其中,在離散化的過程中,此處將特征的區(qū)間分為10份,不同離散化得到的結(jié)果是有差別的。
【4】進(jìn)行特征篩選~
這里對(duì)熵進(jìn)行計(jì)算
【5】在主函數(shù)中 讀入數(shù)據(jù)
并且打印出結(jié)果

實(shí)驗(yàn)結(jié)論、心得體會(huì)和改進(jìn)建議:

實(shí)驗(yàn)結(jié)論:

在進(jìn)行數(shù)據(jù)集的分析之前進(jìn)行數(shù)據(jù)預(yù)處理是非常有必要且高效的,了解數(shù)據(jù)的第一步,從了解處理數(shù)據(jù) 了解數(shù)據(jù)預(yù)處理開始~
另外,高效利用python中的各種包可以對(duì)數(shù)據(jù)進(jìn)行各種有效的操作,例如 缺失值補(bǔ)全、特征篩選等。

心得體會(huì):

我們可以通過技術(shù)的手段來將復(fù)雜的數(shù)據(jù)變簡單,這是多么有趣的一件事情~之后還要繼續(xù)努力地學(xué)習(xí)數(shù)據(jù)科學(xué)的知識(shí)與各類處理數(shù)據(jù)的方法。

改進(jìn)建議:

感覺可以在本次實(shí)驗(yàn)中加入更多可視化的元素,讓數(shù)據(jù)可以被我們直觀地看到;或者是有一個(gè)應(yīng)用場景,比如銀行一年的流水,這類的“實(shí)際操作”可以讓我們更有代入感和成就感~

總結(jié)

以上是生活随笔為你收集整理的数据挖掘实验——认识数据与进行数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。