python数据挖掘分析案例python_Python 数据挖掘实例 决策树分析
友情提示:此篇文章大約需要閱讀 7分鐘57秒,不足之處請(qǐng)多指教,感謝你的閱讀。
安裝Anaconda Python集成環(huán)境
下載環(huán)境
anaconda下載選擇
安裝環(huán)境
下載過(guò)程中使用默認(rèn),但有一個(gè)頁(yè)面需要確認(rèn),如下圖。
anaconda選擇頁(yè)面
第一個(gè)勾是是否把 Anaconda 加入環(huán)境變量,這涉及到能否直接在 cmd中使用 conda、jupyter、 ipython 等命令,推薦打勾。
第二個(gè)是是否設(shè)置 Anaconda 所帶的 Python 3.6 為系統(tǒng)默認(rèn)的 Python 版本,可以打勾。
安裝完成后,在開(kāi)始菜單中顯示“Anaconda2”如下圖所示。
安裝顯示界面
安裝第三方程序包 Graphviz
目的是在決策樹(shù)算法中八進(jìn)制最終的樹(shù)結(jié)構(gòu)。
1、打開(kāi) Anaconda Prompt ,輸入 conda install python-graphviz,回車(chē)即可完成安裝,如下圖所示,本圖所示已經(jīng)安裝 了 graphviz包,若之前沒(méi)有安裝,這時(shí)會(huì)花點(diǎn)時(shí)間安裝,安裝不用干預(yù)。
安裝決策樹(shù)依賴(lài)包
安裝完成后先輸入 python,然后再輸入 import graphviz,測(cè)試是否成功安裝,如上圖所示。
需要設(shè)置環(huán)境變量,才能使用新安裝的 graphviz。
Anaconda及依賴(lài)包環(huán)境變量設(shè)置
首先查看 anaconda安裝在哪個(gè)目錄下,可以打開(kāi) Spyder的屬性,看一看目標(biāo)是什么目 錄。例如本機(jī)的 anaconda安裝路徑為 C:\Users\lenovo\Anaconda2。
下面設(shè)置環(huán)境變量
(1) 在用戶(hù)變量“path”里添加 C:\Users\lenovo\Anaconda2\Library\bin\graphviz
(2) 在系統(tǒng)變量的“path”里添加 C:\Users\lenovo\Anaconda2\Library\bin\graphviz\dot.exe
(3) 如果現(xiàn)在有正在打開(kāi)的 anaconda 程序,例如正在 Spyder,那么關(guān)閉 Spyder,再啟動(dòng),這 樣剛才設(shè)置的環(huán)境變量生效。
決策樹(shù)分析
格式化原始數(shù)據(jù)
將下圖的表 demo輸入到 Excel中,保存為.csv 文件(.csv為逗號(hào)分隔值文件格式)。
注意將表 demo中的漢字值轉(zhuǎn)換成數(shù)據(jù)字值,例如“是否是公司職員”列中的“是”為“1”, “否”為“0”。轉(zhuǎn)換后的表中數(shù)據(jù)如下圖所示。
學(xué)習(xí)表
編寫(xiě)數(shù)據(jù)分析代碼
編寫(xiě)程序?qū)ι厦娴臄?shù)據(jù)進(jìn)行決策樹(shù)分類(lèi),采用信息熵(entropy)作為度量標(biāo)準(zhǔn)。參考代碼如下所示:
from sklearn.tree import DecisionTreeClassifier,export_graphviz
import graphviz
import csv
dataset = []
reader = csv.reader(open("demo.csv"))
for line in reader:
if reader.line_num == 1:
continue
dataset.append(line)
X = [x[0:4] for x in dataset]
y = [x[4] for x in dataset]
clf = DecisionTreeClassifier(criterion='entropy').fit(X, y)
dot_data = export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("table");
digraph Tree {
node [shape=box] ;
0 [label="X[0] <= 0.5\nentropy = 0.94\nsamples = 14\nvalue = [9, 5]"] ;
1 [label="X[1] <= 1.5\nentropy = 0.985\nsamples = 7\nvalue = [3, 4]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="entropy = 0.0\nsamples = 3\nvalue = [0, 3]"] ;
1 -> 2 ;
3 [label="X[1] <= 2.5\nentropy = 0.811\nsamples = 4\nvalue = [3, 1]"] ;
1 -> 3 ;
4 [label="entropy = 0.0\nsamples = 2\nvalue = [2, 0]"] ;
3 -> 4 ;
5 [label="X[3] <= 0.5\nentropy = 1.0\nsamples = 2\nvalue = [1, 1]"] ;
3 -> 5 ;
6 [label="entropy = 0.0\nsamples = 1\nvalue = [1, 0]"] ;
5 -> 6 ;
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1]"] ;
5 -> 7 ;
8 [label="X[1] <= 2.5\nentropy = 0.592\nsamples = 7\nvalue = [6, 1]"] ;
0 -> 8 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
9 [label="entropy = 0.0\nsamples = 4\nvalue = [4, 0]"] ;
8 -> 9 ;
10 [label="X[3] <= 0.5\nentropy = 0.918\nsamples = 3\nvalue = [2, 1]"] ;
8 -> 10 ;
11 [label="entropy = 0.0\nsamples = 2\nvalue = [2, 0]"] ;
10 -> 11 ;
12 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1]"] ;
10 -> 12 ;
}
數(shù)據(jù)分析結(jié)果
程序運(yùn)行結(jié)果在與該程序在同一目錄下的 table.pdf 文件中,將每一個(gè)葉子結(jié)點(diǎn)轉(zhuǎn)換成IF-THEN 規(guī)則。
決策樹(shù)分析結(jié)果
IF-THEN分類(lèi)規(guī)則
(1)IF"不是公司員工" AND "年齡大于等于40", THEN "不買(mǎi)保險(xiǎn)"。
(2)IF"不是公司員工" AND "年齡小于40", THEN "買(mǎi)保險(xiǎn)"。
(3)IF"不是公司員工" AND "年齡大于50" AND "信用為良", THEN "不買(mǎi)保險(xiǎn)"。
(4)IF"不是公司員工" AND "年齡大于40" AND "信用為優(yōu)", THEN "買(mǎi)保險(xiǎn)"。
(5)IF"是公司員工" AND "年齡小于50", THEN "不買(mǎi)保險(xiǎn)"。
(6)IF"是公司員工" AND "年齡小于50" AND "信用為優(yōu)", THEN "買(mǎi)保險(xiǎn)"。
(7)IF"是公司員工" AND "年齡小于50" AND "信用為良", THEN "不買(mǎi)保險(xiǎn)"。
總結(jié)
以上是生活随笔為你收集整理的python数据挖掘分析案例python_Python 数据挖掘实例 决策树分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java约瑟夫环迭代器_Josephus
- 下一篇: websocket python爬虫_p