【论文解读】NN如何在表格数据中战胜GBDT类模型!
作者:一元,四品煉丹師
TabNet: Attentive Interpretable Tabular Learning(ArXiv2020)
01
背景
本文提出了一種高性能、可解釋的規范深度表格數據學習結構TabNet。號稱吊錘XGBoost和LightGBM等GBDT類模型。來吧,開學!
TabNet使用sequential的attention來選擇在每個決策步驟中要推理的特征,使得學習被用于最顯著的特征,從而實現可解釋性和更有效的學習。我們證明了TabNet在廣泛的非性能飽和表格數據集上優于其他變體,并產生了可解釋的特征屬性和對其全局行為的洞察。
最后,我們展示了表格數據的自監督學習,在未標記數據豐富的情況下顯著提高了效果。
1. 決策樹類模型在諸多的表格型問題中仍然具有非常大的優勢:
對于表格型數據中常見的具有近似超平面邊界的決策流形,它們是表示有效的;
它們的基本形式具有高度的可解釋性(例如,通過跟蹤決策節點),并且對于它們的集成形式有流行的事后可解釋性方法;
訓練非常快;
2. DNN的優勢:
有效地編碼多種數據類型,如圖像和表格數據;
減輕特征工程的需要,這是目前基于樹的表格數據學習方法的一個關鍵方面;
從流式數據中學習;
端到端模型的表示學習,這使得許多有價值的應用場景能夠實現,包括數據高效的域適配;
3. TabNet:
TabNet無需任何預處理即可輸入原始表格數據,并使用基于梯度下降的優化方法進行訓練,實現了端到端學習的靈活集成。
TabNet使用sequential attention來選擇在每個決策步驟中從哪些特征中推理,從而實現可解釋性和更好的學習,因為學習能力用于最顯著的特征。這種特征選擇是基于實例的,例如,對于每個輸入,它可以是不同的,并且與其他基于實例的特征選擇方法不同,TabNet采用了一種深度特征選擇和推理的學習體系結構。
TabNet在不同領域的分類和回歸問題的不同數據集上優于或等同于其他表格學習模型;
TabNet有兩種可解釋性:局部可解釋性,用于可視化特征的重要性及其組合方式;全局可解釋性,用于量化每個特征對訓練模型的貢獻。
最后,對于表格數據,我們首次通過使用無監督預訓練來預測掩蔽特征,得到了顯著的性能提升;
02
TabNet
類似于DTs的DNN building blocks
?
使用從數據中學習的稀疏實例特征選擇;
構造一個連續的多步驟體系結構,其中每個步驟有助于基于所選特征的決策的一部分;
通過對所選特征的非線性處理來提高學習能力;
通過更高的維度和更多的步驟來模擬融合。
TabNET的框架
?
我們使用所有的原始數值特征并且將類別特征轉化為可以訓練的embedding,我們并不考慮全局特征normalization。
在每一輪我們將D維度的特征傳入,其中是batch size, TabNet的編碼是基于序列化的多步處理, 有個決策過程。在第步我們輸入第步的處理信息來決定使用哪些特征,并且輸出處理過的特征表示來集成到整體的決策。
特征選擇
我們使用可學習的mask, 用于顯著特征的soft選擇,通過最多的顯著特征的稀疏選擇,決策步的學習能力在不相關的上面不被浪費,從而使模型更具參數效率。masking是可乘的,,此處我們使用attentive transformer來獲得使用在前面步驟中處理過的特征的masks,.
Sparsemax規范化通過將歐幾里得投影映射到概率simplex上鼓勵稀疏性,觀察到概率simplex在性能上更優越,并與稀疏特征選擇的目標一致,以便于解釋。注意: , 是一個可以訓練的函數。
是先驗的scale項,表示一個特殊的特征之前被使用的多少,,其中是縮放參數。
當的時候,特征只會在第一個決策步被使用,當變大的時候, 更多的靈活性會在多個決策步被使用, 被初始化為1,,如果某個特征是沒什么用處的,那么對應的就是0。
為了控制選擇特征的稀疏性,此處加入sparsity的正則來控制數值穩定性,
其中對于數值穩定性是一個很小的書,我們再最終的loss上加入稀疏的正則,對應的參數為.
特征處理
我們使用一個特征transformer來處理過濾的特征,然后拆分決策步驟輸出和后續步驟信息,,其中, ,對于具有高容量的參數有效且魯棒的學習,特征變換器應該包括在所有決策步驟之間共享的層(因為在不同的決策步驟之間輸入相同的特征)以及決策步驟相關的層。上圖展示了作為兩個共享層和兩個決策步驟相關層的級聯的實現。
每個FC層后面是BN和gated線性單元(GLU)非線性,最終通過歸一化連接到歸一化殘差連接。此處我們通過的正則來保證網絡的方差以穩定學習。
為了快速的訓練,此處我們使用帶有BN的大的batch size,因此,除了應用到輸入特征的,我們使用ghost BN形式,使用一個virtual batchsize 和momentum ,對于輸入特征,我們觀測到low-variance平均的好處,因此可以避免ghost BN,最終我們通過decision-tree形式的aggregation,我們構建整體的決策embedding, ,再使用線性mapping, 得到最終的輸出。
解釋性
此處我們可以使用特征選擇的mask來捕捉在每一步的選擇的特征,如果:
,那么第個樣本的第個特征對于我們的決策是沒有任何幫助的;
如果是一個線性函數,的稀疏應該對應的二者重要性,盡管每次決策步使用一個非線性處理,他們的輸出是以線性的方式組合,我們的目的是量化一個總體特征的重要性,除了分析每一步。組合不同步驟的Mask需要一個系數來衡量決策中每個步驟的相對重要性,我們提出:
來表示在第步決策步對于第個樣本的累計決策貢獻。
直覺上,如果,那么在第個決策步的所有特征就應當對整體的決策沒有任何幫助。當它的值增長的時候,它在整體線性的組合上會更為重要,在每次決策步的時候對決策mask進行縮放,,我們對特征重要性mask進行特征的集成, .
表格自監督學習
我們提出了一個解碼器架構來從TabNet編碼的表示中重建表格特征。解碼器由特征變換器組成,每個判決步驟后面是FC層。將輸出相加得到重構特征。我們提出了一個從其他特征列中預測缺失特征列的任務。考慮一個二進制掩碼,
TabNet的encoder輸入;
decoder輸入重構特征, ;
我們在編碼器中初始化, 這么做模型只重點關注已知的特征,解碼器的最后一層FC層和進行相乘輸出未知的特征,我們考慮在自監督階段的重構損失,
使用真實值的標準偏差進行Normalization是有幫助的,因為特征可能有不同的ranges,我們在每次迭代時以概率從伯努利分布中獨立采樣;
03
實驗
1. 基于實例的特征選擇
TabNet比所有其他的模型都要好;
TabNet的效果與全局特征選擇非常接近,它可以找到哪些特征是全局最優的;
刪除冗余特征之后,TabNet提升了全局特征選擇;
2. 現實數據集上的表現
TabNet在多個數據集上的效果都取得了最好的效果;
3. 自監督學習
無監督預訓練顯著提高了有監督分類任務的性能,特別是在未標記數據集比標記數據集大得多的情況下;
如上圖所示,在無監督的預訓練下,模型收斂更快。快速收斂有助于持續學習和領域適應.
04
小結
本文我們提出了TabNet,一種新的用于表格學習的深度學習體系結構。TabNet使用一種順序attention機制來選擇語義上有意義的特征子集,以便在每個決策步驟中進行處理。基于實例的特征選擇能夠有效地進行學習,因為模型容量被充分地用于最顯著的特征,并且通過選擇模板的可視化產生更具解釋性的決策。我們證明了TabNet在不同領域的表格數據集上的性能優于以前的工作。最后,我們展示了無監督預訓練對于快速適應和提高模型的效果。
05
參考文獻
TabNet: https://arxiv.org/pdf/1908.07442.pdf
總結
以上是生活随笔為你收集整理的【论文解读】NN如何在表格数据中战胜GBDT类模型!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7更改适配器设置没有本地连接解决方
- 下一篇: foxmail邮件怎样打印日历