日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

kaggle-Santander 客户交易预测总结

發布時間:2025/3/21 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 kaggle-Santander 客户交易预测总结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 繪圖

sns.kdeplot()——核密度估計圖
sns.distplot()——集合了matplotlib的hist()與核函數估計kdeplot的功能
Seaborn入門系列之kdeplot和distplot

2 Permutation Importance

我們在構建樹類模型(XGBoost、LightGBM等)時,如果想要知道哪些變量比較重要的話。可以通過模型的feature_importances_方法來獲取特征重要性。例如LightGBM的feature_importances_可以通過特征的分裂次數或利用該特征分裂后的增益來衡量。一般情況下,不同的衡量準則得到的特征重要性順序會有差異。我一般是通過多種評價標準來交叉選擇特征。若一個特征在不同的評價標準下都是比較重要的,那么該特征對label有較好的預測能力。
若將一個特征置為隨機數,模型效果下降很多,說明該特征比較重要;反之則不是

import eli5 from eli5.sklearn import PermutationImportance from sklearn.feature_selection import SelectFromModeldef PermutationImportance_(clf,X_train,y_train,X_valid,X_test):perm = PermutationImportance(clf, n_iter=5, random_state=1024, cv=5)perm.fit(X_train, y_train) result_ = {'var':X_train.columns.values,'feature_importances_':perm.feature_importances_,'feature_importances_std_':perm.feature_importances_std_}feature_importances_ = pd.DataFrame(result_, columns=['var','feature_importances_','feature_importances_std_'])feature_importances_ = feature_importances_.sort_values('feature_importances_',ascending=False)#eli5.show_weights(perm, feature_names=X_train.columns.tolist(), top=500) #結果可視化 sel = SelectFromModel(perm, threshold=0.00, prefit=True)X_train_ = sel.transform(X_train)X_valid_ = sel.transform(X_valid)X_test_ = sel.transform(X_test)return feature_importances_,X_train_,X_valid_,X_test#PermutationImportance model_1 = RandomForestClassifier(random_state=1024) feature_importances_1,X_train_1,X_valid_1,X_test_1 = PermutationImportance_(model_1,X_train,y_train,X_valid,X_test)model_2 = lgb.LGBMClassifier(objective='binary',random_state=1024) feature_importances_2,X_train_2,X_valid_2,X_test_2 = PermutationImportance_(model_2,X_train,y_train,X_valid,X_test)model_3 = LogisticRegression(random_state=1024) feature_importances_3,X_train_3,X_valid_3,X_test_3 = PermutationImportance_(model_3,X_train,y_train,X_valid,X_test

3 部分依賴圖

部分依賴圖顯示每個變量或預測變量如何影響模型的預測。這對于以下問題很有用:

  • 男女之間的工資差異有多少僅僅取決于性別,而不是教育背景或工作經歷的差異?
  • 控制房屋特征,經度和緯度對房價有何影響?為了重申這一點,我們想要了解在不同區域如何定價同樣大小的房屋,即使實際上這些地區的房屋大小不同。
  • 由于飲食差異或其他因素,兩組之間是否存在健康差異?
  • #畫部分依賴圖,看目標y與變量之間的關系 from sklearn.ensemble.partial_dependence import plot_partial_dependencemy_plots= plot_partial_dependence(my_model,feature_names= clo_to_use,features= [0,2],X= imputed_X)

    4 tqdm

    from tqdm import tqdm_notebook as tqdm

    Tqdm 是一個快速,可擴展的Python進度條,可以在 Python 長循環中添加一個進度提示信息,用戶只需要封裝任意的迭代器 tqdm(iterator)。

    5 特征工程

    找出每一列中的唯一值,如果其唯一,則標記為1。
    如果某一樣本中含有唯一值,則視為真樣本;如果某一樣本中所有特征均不唯一,則視為假樣本。
    將真樣本和真實訓練樣本拼在一起。

    unique_samples = [] unique_count = np.zeros_like(df_test) for feature in range(df_test.shape[1]):_, index_, count_ = np.unique(df_test[:, feature], return_counts=True, return_index=True)unique_count[index_[count_ == 1], feature] += 1# Samples which have unique values are real the others are fake real_samples_indexes = np.argwhere(np.sum(unique_count, axis=1) > 0)[:, 0] synthetic_samples_indexes = np.argwhere(np.sum(unique_count, axis=1) == 0)[:, 0]

    "vc"列:重復數值的個數,大于10次的取10
    "sum"列:出現次數大于1的,用vc列的值乘以(原值-均值)

    for feat in feats:temp = df[feat].value_counts(dropna = True) df_train[feat+"vc"] = df_train[feat].map(temp).map(lambda x:min(10,x)).astype(np.uint8)df_test[feat+"vc"] = df_test[feat].map(temp).map(lambda x:min(10,x)).astype(np.uint8)print(feat,temp.shape[0],df_train[feat+"vc"].map(lambda x:int(x>2)).sum(),df_train[feat+"vc"].map(lambda x:int(x>3)).sum())df_train[feat+"sum"] = ((df_train[feat] - df[feat].mean()) * df_train[feat+"vc"].map(lambda x:int(x>1))).astype(np.float32)df_test[feat+"sum"] = ((df_test[feat] - df[feat].mean()) * df_test[feat+"vc"].map(lambda x:int(x>1))).astype(np.float32)df_train[feat+"sum2"] = ((df_train[feat]) * df_train[feat+"vc"].map(lambda x:int(x>2))).astype(np.float32)df_test[feat+"sum2"] = ((df_test[feat]) * df_test[feat+"vc"].map(lambda x:int(x>2))).astype(np.float32)df_train[feat+"sum3"] = ((df_train[feat]) * df_train[feat+"vc"].map(lambda x:int(x>4))).astype(np.float32) df_test[feat+"sum3"] = ((df_test[feat]) * df_test[feat+"vc"].map(lambda x:int(x>4))).astype(np.float32) # FREQUENCY ENCODE def encode_FE(df,col,test):cv = df[col].value_counts()nm = col+'_FE'df[nm] = df[col].map(cv)test[nm] = test[col].map(cv)test[nm].fillna(0,inplace=True)if cv.max()<=255:df[nm] = df[nm].astype('uint8')test[nm] = test[nm].astype('uint8')else:df[nm] = df[nm].astype('uint16')test[nm] = test[nm].astype('uint16') returntest['target'] = -1 comb = pd.concat([train,test.loc[real_samples_indexes]],axis=0,sort=True) for i in range(200): encode_FE(comb,'var_'+str(i),test) train = comb[:len(train)]; del comb print('Added 200 new magic features!') 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

    總結

    以上是生活随笔為你收集整理的kaggle-Santander 客户交易预测总结的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 国产精品呦呦 | 伊人影院在线观看视频 | 天天干天天干天天干天天 | 日美女逼逼 | 黄色在线播放 | 18成人在线 | 亚洲天堂男人 | 国产成人亚洲综合a∨婷婷 台湾a级片 | 91理论片| 精品视频无码一区二区三区 | 人人干人人艹 | 黑人玩弄人妻一区二区三区四 | 久久艹精品| 亚洲国产综合网 | 亚洲码中文 | 越南少妇做受xxx片 亚洲av综合色区无码一二三区 | 亚洲国产精品无码久久久久高潮 | 精品人妻一区二区三区免费 | 国产精品自拍在线观看 | 亚洲午夜精品久久久久久app | 老熟妇仑乱一区二区av | 波多野结衣中文字幕在线 | 午夜在线一区 | 一级免费毛片 | 日韩国产在线播放 | 一女三黑人理论片在线 | 激情五月婷婷在线 | 国产51自产区 | 亚洲在线视频观看 | 婷婷色亚洲 | 日本在线免费视频 | 国产精品美女久久久久图片 | 中文字幕成人 | 国产又粗又猛视频免费 | 亚洲色图15p| 亚洲欧洲国产综合 | 天天草天天操 | 欧美视频色 | 天天艹日日艹 | 丁香久久综合 | 欧美大片高清免费观看 | 男人疯狂高潮呻吟视频 | 国产高清视频在线观看 | 国产精品va无码一区二区 | 丁香花免费高清完整在线播放 | 欧美激情15p | 51调教丨国产调教视频 | 交专区videossex农村 | 91在线免费网站 | 精品国产欧美一区二区 | 国产成人综合欧美精品久久 | 国产天堂精品 | 黄色三级免费 | 理论在线视频 | 欧美性大战xxxxx久久久 | 一本大道av | 亚欧美日韩 | 美女赤身免费网站 | 精品熟女一区二区三区 | 精品一区二区三区四 | 亚洲免费在线观看 | 免费av播放 | 乳罩脱了喂男人吃奶视频 | 免费av资源| 国产成人无码精品久久久性色 | 99热网站 | 国产精品色在线 | 久久天天躁狠狠躁夜夜av | 国产黄视频在线观看 | 天堂网亚洲 | 黄色国产毛片 | 性一交一乱一色一免费无遮挡 | 欧美视频自拍偷拍 | 欧美亚洲激情视频 | 亚洲福利影院 | 精品成人无码一区二区三区 | 看片一区 | 动漫av在线播放 | 色资源在线 | 青青视频免费在线观看 | 一色桃子juy758在线播放 | 久久av无码精品人妻出轨 | 久久99国产精品一区 | 精品久久久久一区 | 日韩精品视频网 | 99精品在线 | www久久99| 日韩第一页在线 | 亚洲欧美日韩国产综合 | 少妇又紧又深又湿又爽视频 | 亚洲天天 | 色小说在线 | 久久春色 | 夜夜爱av| 国产精品一区二区久久国产 | 国产精品你懂的 | 色欲久久久天天天精品综合网 | 天天想夜夜操 | 欧美黄色小说视频 |