[特征工程系列一] 论特征的重要性
滿打滿算,還有十天左右就要過年了,這些天大家或多或少都有點(diǎn)浮躁。反過來想,趁大家都懈怠的時(shí)候,正是學(xué)習(xí)的最佳時(shí)機(jī)。趁著這幾天,也給自己加點(diǎn)碼,去認(rèn)真的再看一下特征工程。我給自己列了下面的這一份學(xué)習(xí)清單,也會(huì)在過年前后逐一分享給大家。
《特征工程系列二,顯性特征的基本處理方法》:講一下如何處理數(shù)據(jù)特征,以及最基本的概念
《特征工程三,顯性特征的衍生》:準(zhǔn)備通過NBA球星的數(shù)據(jù),展示下特征的衍生的一些概念
《特征工程四,Wide&Deep Learning for Recommender Systems》:講一下如何通過線性算法的顯性特征以及深度學(xué)習(xí)NN算法中的提取的隱式特征做推薦系統(tǒng)
《特征工程五,基于蒙特卡洛樹搜索的半自動(dòng)特征工程方案》:特征工程需要大量的人工干預(yù)和專家經(jīng)驗(yàn),那么能不能有一種方案去實(shí)現(xiàn)自動(dòng)特征工程呢,純自己YY了一套可能的方案。
?
下面我們進(jìn)入今天的正題,特征工程有多重要,可以引用一句話來表達(dá):“數(shù)據(jù)和特征決定了模型的上限,算法只是在幫忙逼近這個(gè)上限。”好的特征是決定一個(gè)模型準(zhǔn)確率的關(guān)鍵,那問題來了?什么是特征呢,特征就是數(shù)據(jù)對(duì)于結(jié)果的一種描述。比如我們形容一個(gè)人是否漂亮,那她的眼睛大小、鼻子的形狀、臉型都是特征。通常,當(dāng)獲得一份結(jié)構(gòu)化數(shù)據(jù)的時(shí)候,如果這份數(shù)據(jù)里存在目標(biāo)列,那么除了目標(biāo)列每個(gè)字段都可以看做是特征,特征工程要做的事情是找到對(duì)結(jié)果影響最大的特征。
?
了解了特征的重要性,我們就可以開啟這一系列文章的分享了,不過在此之前,有幾個(gè)概念需要再明確下。特征分哪幾種呢?
1.????顯性特征:可以理解為用戶直接可以拿到的數(shù)據(jù)字段
2.????半隱性特征:用戶數(shù)據(jù)在通過GBDT等算法的計(jì)算過程中產(chǎn)出的一些特征
3.????隱性特征:深度學(xué)習(xí)在很大程度上可以簡化人肉特征工程的工作量,因?yàn)樯疃葘W(xué)習(xí)可以在計(jì)算過程中自動(dòng)生成一些特征向量,這些特征的表達(dá)往往是不可解釋的,那這些特征就是隱性特征。
Ok~同步完這些概念,開啟沖刺,年前要好好學(xué)習(xí)并分享特征工程的系列文章。
總結(jié)
以上是生活随笔為你收集整理的[特征工程系列一] 论特征的重要性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习实现NBA球星颜值打分完整案例(
- 下一篇: [特征工程系列二]显性特征的基本处理方法