日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Titanic: Machine Learning from Disaster-kaggle入门赛-学习笔记

發布時間:2023/12/31 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Titanic: Machine Learning from Disaster-kaggle入门赛-学习笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Titanic: Machine Learning from Disaster

  • 對實驗用的數據的認識,數據中的特殊點/離群點的分析和處理,特征工程(feature engineering)很重要。
  • 注意模型融合(model ensemble)。
  • 機器學習系列(3)_邏輯回歸應用之Kaggle泰坦尼克之災

  • 訓練數據中通常遇到缺值的情況,會有幾種常見的處理方式:
  • ? ? ? ? 1.如果缺值的樣本占總數比例極高,可能就直接舍棄了,作為特征加入的話,可能反倒帶入noise,影響最后的結果了;

    ? ? ? ? 2.如果缺值的樣本適中,而該屬性非連續值特征屬性(比如說類目屬性),那就把NaN作為一個新類別,加到類別特征中;

    ? ? ? ? 3.如果缺值的樣本適中,而該屬性為連續值特征屬性,有時候會考慮給定一個step(比如這里的age,可以考慮每隔2/3歲為一個步長),然后把它離散化,之后把NaN作為一個type加到屬性類目中;

    ? ? ? ? 4.有些情況下,缺失的值個數并不是特別多,那也可以試著根據已有的值,擬合一下數據,補充上。

    ?

  • 因為邏輯回歸建模時,需要輸入的特征都是數值型特征,通常會先對類目型的特征因子化。什么叫做因子化呢?舉個例子:以Cabin為例,原本一個屬性維度,因為其取值可以是[‘yes’,‘no’],而將其平展開為’Cabin_yes’,'Cabin_no’兩個屬性。原本Cabin取值為yes的,在此處的"Cabin_yes"下取值為1,在"Cabin_no"下取值為0;原本Cabin取值為no的,在此處的"Cabin_yes"下取值為0,在"Cabin_no"下取值為1。pandas提供對one-hot編碼的函數是:pd.get_dummies()。
  • 交叉驗證cross validation:把train.csv分成兩部分,一部分用于訓練需要的模型,另外一部分數據上看預測算法的效果??梢杂胹cikit-learn的cross_validation來幫忙完成小數據集上的這個工作。
  • 用scikit-learn里面的learning_curve來幫忙分辨模型的狀態。
  • 可以不要用全部的訓練集,每次取訓練集的一個subset,做訓練,這樣,雖然用的是同一個機器學習算法,但是得到的模型卻是不一樣的;同時,因為沒有任何一份子數據集是全的,因此即使出現過擬合,也是在子訓練集上出現過擬合,而不是全體數據上,這樣做一個融合,可能對最后的結果有一定的幫助。
  • 總結

    以上是生活随笔為你收集整理的Titanic: Machine Learning from Disaster-kaggle入门赛-学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。