日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【sklearn学习】决策树、分类树、剪枝策略

發布時間:2023/12/15 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【sklearn学习】决策树、分类树、剪枝策略 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

模塊sklarn.tree

sklearn中決策樹的類都在“tree”這個模塊之下,這個模塊總共包含五個類:

tree.DecisionTreeClassifier分類樹
tree.DecisionTreeRegressor回歸樹
tree.export_graphviz將生成的決策樹導出為DOT格式
tree.ExtraTreeClassifier高隨機版本的分類樹
tree.ExtraTreeRegressor高隨機版本的回歸樹

分類樹對應的代碼

from sklearn import treeclf = tree.DecisionTreeClassifier() clf = clf.fit(X_train, y_train) result = clf.score(X_test, y_test)

DecisionTreeClassifier

重要參數

criterion

不純度越低,決策樹對訓練集的擬合越好

樹中的每個節點都會有一個不純度,子節點的不純度一定小于父節點的不純度

entropy 信息熵

gini 基尼系數

信息熵對不純度更加敏感,對不純度的懲罰最強,但在實際應用中,兩者效果基本相同。

criterion如何影響模型?

確定不純度的計算方法,找出最佳節點和最佳分枝,不純度越低,決策樹對訓練集的擬合越好。

決策樹的基本流程:

  • 計算全部特征的不純度指標
  • 選取不純度指標最優的特征來分枝
  • 在第一個特征的分枝下,計算全部特征的不純度指標
  • 選取不純度指標最優的特征繼續分枝
  • 導入需要的算法庫和模塊

    from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split import pandas as pd pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target),axis=1]) Xtrain, Xtest, ytrain, ytest = train_test_split(wine.data,wine.target,test_size=0.3)clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=1,splitter="random") clf = clf.fit(Xtrain, ytrain) score = clf.score(Xtest, ytest) import graphvizdot_data = tree.export_graphviz(clf, out_file=None, feature_names=wine.feature_names, class_names=wine.target_names, filled=True, # 填充顏色,表示特定的某個類別rounded=True, # 圓角框special_characters=True) graph = graphviz.Source(dot_data) graph clf.feature_importances_ [*zip(wine.feature_name,clf.feature_importances_)]

    random:高緯度時隨機性會表現更明顯,低維度的數據,隨機性幾乎不會顯現

    splitter=“random"(默認best):分枝時會更加隨機,樹會更深,對訓練集的擬合將會降低。

    為了讓決策樹有更好的泛化性,需要對決策樹進行剪枝。

    • max_depth

    限制樹的最大深度,超過設定深度的樹枝全部剪掉

    • min_sample_leaf

    min_samples_leaf限定一個節點在分枝后的每個子節點都必須包含至少min_samples_leaf個訓練樣本,否則,分枝就不會發生,或者按照每個子節點包含min_samples_leaf個樣本去分。

    • min_sample_split

    min_samples_splits限定一個節點必須包含至少min_samples_splits個訓練樣本,這個節點才被允許分枝,否則,分枝就不會發生。

    • max_features

    限制分枝時考慮的特征個數,超過限制個數的特征都會被舍棄

    • min_impurity_decrease

    限制信息增益的大小,信息增益小于設定數值的分枝不會發生

    確定最優的剪枝參數

    import matplotlib.pyplot as plt test = [] for i in range(10):clf = tree.DecisionTreeClassifier(max_depth = i + 1)clf = clf.fit(Xtrain, ytrain)score = clf.score(Xtest, ytest)test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show()

    目標權重參數

    • class_weight

    完成樣本標簽平衡的參數,給少量的標簽更多的權重,模型向偏向少數類的方向建模

    • min_weight_fraction_leaf

    基于權重的剪枝參數,用基于權重的預修剪標準優化樹結構,確保葉節點至少包含樣本權重的總和的一小部分。

    重要屬性和接口

    # apply返回每個測試樣本所在的葉子節點的索引 clf.apply(Xtest)# predict返回每個測試樣本的分類/回歸結果 clf.predict(Xtest)

    總結

    以上是生活随笔為你收集整理的【sklearn学习】决策树、分类树、剪枝策略的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。