日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习基础】机器学习中的特征工程总结!

發(fā)布時(shí)間:2025/3/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习基础】机器学习中的特征工程总结! 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

譯者:張峰 ,Datawhale成員

結(jié)構(gòu)總覽

特征工程

傳統(tǒng)編程的關(guān)注點(diǎn)是代碼。在機(jī)器學(xué)習(xí)項(xiàng)目中,關(guān)注點(diǎn)變成了特征表示。也就是說(shuō),開(kāi)發(fā)者通過(guò)添加和改善特征來(lái)調(diào)整模型。“Garbage in, garbage out”。對(duì)于一個(gè)機(jī)器學(xué)習(xí)問(wèn)題,數(shù)據(jù)和特征往往決定了結(jié)果的上限,而模型、算法的選擇及優(yōu)化則是在逐步接近這個(gè)上限。特征工程,顧名思義,是指從原始數(shù)據(jù)創(chuàng)建特征的過(guò)程。

將原始數(shù)據(jù)映射到特征

許多機(jī)器學(xué)習(xí)模型都必須將特征表示為實(shí)數(shù)向量,因?yàn)樘卣髦当仨毰c模型權(quán)重相乘。

圖 1. 特征工程將原始數(shù)據(jù)映射到機(jī)器學(xué)習(xí)特征

圖 1 左側(cè)表示來(lái)自輸入數(shù)據(jù)源的原始數(shù)據(jù),右側(cè)表示特征矢量,也就是組成數(shù)據(jù)集中樣本的浮點(diǎn)值集。特征工程指的是將原始數(shù)據(jù)轉(zhuǎn)換為特征矢量。進(jìn)行特征工程預(yù)計(jì)需要大量時(shí)間。

映射數(shù)值

整數(shù)和浮點(diǎn)數(shù)據(jù)不需要特殊編碼,因?yàn)樗鼈兛梢耘c數(shù)字權(quán)重相乘。如圖 2 所示,將原始整數(shù)值 6 轉(zhuǎn)換為特征值 6.0 并沒(méi)有多大的意義:

圖 2. 將整數(shù)值映射到浮點(diǎn)值

映射分類(lèi)值

分類(lèi)特征具有一組離散的可能值。例如,可能有一個(gè)名為 street_name 的特征,其中的選項(xiàng)包括:

{'Charleston Road', 'North Shoreline Boulevard', 'Shorebird Way','Rengstorff Avenue'}

由于模型不能將字符串與學(xué)習(xí)到的權(quán)重相乘,因此我們使用特征工程將字符串轉(zhuǎn)換為數(shù)字值。

要實(shí)現(xiàn)這一點(diǎn),我們可以定義一個(gè)從特征值(我們將其稱為可能值的詞匯表)到整數(shù)的映射。世界上的每條街道并非都會(huì)出現(xiàn)在我們的數(shù)據(jù)集中,因此我們可以將所有其他街道分組為一個(gè)全部包羅的“其他”類(lèi)別,稱為 OOV(out-of-vocabulary)分桶

通過(guò)這種方法,我們可以按照以下方式將街道名稱映射到數(shù)字:

  • 將 Charleston Road 映射到 0

  • 將 North Shoreline Boulevard 映射到 1

  • 將 Shorebird Way 映射到 2

  • 將 Rengstorff Avenue 映射到 3

  • 將所有其他街道 (OOV) 映射到 4

不過(guò),如果我們將這些索引數(shù)字直接納入到模型中,將會(huì)造成一些可能存在問(wèn)題的限制:

  • 我們將學(xué)習(xí)適用于所有街道的單一權(quán)重。例如,如果我們學(xué)習(xí)到 street_name 的權(quán)重為 6,那么對(duì)于 Charleston Road,我們會(huì)將其乘以 0,對(duì)于 North Shoreline Boulevard 則乘以 1,對(duì)于 Shorebird Way 則乘以 2,依此類(lèi)推。以某個(gè)使用 street_name 作為特征來(lái)預(yù)測(cè)房?jī)r(jià)的模型為例。根據(jù)街道名稱對(duì)房?jī)r(jià)進(jìn)行線性調(diào)整的可能性不大,此外,這會(huì)假設(shè)你已根據(jù)平均房?jī)r(jià)對(duì)街道排序。我們的模型需要靈活地為每條街道學(xué)習(xí)不同的權(quán)重,這些權(quán)重將添加到利用其他特征估算的房?jī)r(jià)中。

  • 我們沒(méi)有將 street_name 可能有多個(gè)值的情況考慮在內(nèi)。例如,許多房屋位于兩條街道的拐角處,因此如果模型包含單個(gè)索引,則無(wú)法在 street_name 值中對(duì)該信息進(jìn)行編碼。

要去除這兩個(gè)限制,我們可以為模型中的每個(gè)分類(lèi)特征創(chuàng)建一個(gè)二元向量來(lái)表示這些值,如下所述:

  • 對(duì)于適用于樣本的值,將相應(yīng)向量元素設(shè)為 1。

  • 將所有其他元素設(shè)為 0。

該向量的長(zhǎng)度等于詞匯表中的元素?cái)?shù)。當(dāng)只有一個(gè)值為 1 時(shí),這種表示法稱為獨(dú)熱編碼;當(dāng)有多個(gè)值為 1 時(shí),這種表示法稱為多熱編碼

圖 3 所示為街道 Shorebird Way 的獨(dú)熱編碼。在此二元矢量中,代表 Shorebird Way 的元素的值為 1,而代表所有其他街道的元素的值為 0。

圖 3. 通過(guò)獨(dú)熱編碼映射街道地址

該方法能夠有效地為每個(gè)特征值(例如,街道名稱)創(chuàng)建布爾變量。采用這種方法時(shí),如果房屋位于 Shorebird Way 街道上,則只有 Shorebird Way 的二元值為 1。因此,該模型僅使用 Shorebird Way 的權(quán)重。同樣,如果房屋位于兩條街道的拐角處,則將兩個(gè)二元值設(shè)為 1,并且模型將使用它們各自的權(quán)重。

稀疏表示法

假設(shè)數(shù)據(jù)集中有 100 萬(wàn)個(gè)不同的街道名稱,你希望將其包含為 street_name 的值。如果直接創(chuàng)建一個(gè)包含 100 萬(wàn)個(gè)元素的二元向量,其中只有 1 或 2 個(gè)元素為 ture,則是一種非常低效的表示法,在處理這些向量時(shí)會(huì)占用大量的存儲(chǔ)空間并耗費(fèi)很長(zhǎng)的計(jì)算時(shí)間。在這種情況下,一種常用的方法是使用稀疏表示法,其中僅存儲(chǔ)非零值。在稀疏表示法中,仍然為每個(gè)特征值學(xué)習(xí)獨(dú)立的模型權(quán)重,如上所述。

良好特征的特點(diǎn)

避免很少使用的離散特征值

良好的特征值應(yīng)該在數(shù)據(jù)集中出現(xiàn)大約 5 次以上。這樣一來(lái),模型就可以學(xué)習(xí)該特征值與標(biāo)簽是如何關(guān)聯(lián)的。也就是說(shuō),大量離散值相同的樣本可讓模型有機(jī)會(huì)了解不同設(shè)置中的特征,從而判斷何時(shí)可以對(duì)標(biāo)簽很好地做出預(yù)測(cè)。

例如:house_type 特征可能包含大量樣本,其中它的值為 victorian:house_type: victorian;相反,如果某個(gè)特征的值僅出現(xiàn)一次或者很少出現(xiàn),則模型就無(wú)法根據(jù)該特征進(jìn)行預(yù)測(cè)。例如,unique_house_id 就不適合作為特征,因?yàn)槊總€(gè)值只使用一次,模型無(wú)法從中學(xué)習(xí)任何規(guī)律:

unique_house_id: 8SK982ZZ1242Z

最好具有清晰明確的含義

每個(gè)特征對(duì)于項(xiàng)目中的任何人來(lái)說(shuō)都應(yīng)該具有清晰明確的含義。例如,下面的房齡適合作為特征,可立即識(shí)別是以年為單位的房齡:

house_age: 27

相反,對(duì)于下方特征值的含義,除了創(chuàng)建它的工程師,其他人恐怕辨識(shí)不出:

house_age: 851472000

在某些情況下,混亂的數(shù)據(jù)(而不是糟糕的工程選擇)會(huì)導(dǎo)致含義不清晰的值。例如,以下 user_age 的來(lái)源沒(méi)有檢查值恰當(dāng)與否:

user_age: 277

實(shí)際數(shù)據(jù)內(nèi)不要摻入特殊值

良好的浮點(diǎn)特征不包含超出范圍的異常斷點(diǎn)或特殊的值。例如,假設(shè)一個(gè)特征具有 0 到 1 之間的浮點(diǎn)值。那么,如下值是可以接受的:

quality_rating: 0.82

quality_rating: 0.37

不過(guò),如果用戶沒(méi)有輸入 quality_rating,則數(shù)據(jù)集可能使用如下特殊值來(lái)表示不存在該值:

quality_rating: -1

為解決特殊值的問(wèn)題,需將該特征轉(zhuǎn)換為兩個(gè)特征:

  • 一個(gè)特征只存儲(chǔ)質(zhì)量評(píng)分,不含特殊值。

  • 一個(gè)特征存儲(chǔ)布爾值,表示是否提供了 quality_rating。為該布爾值特征指定一個(gè)名稱,例如 is_quality_rating_defined。

考慮上游不穩(wěn)定性

特征的定義不應(yīng)隨時(shí)間發(fā)生變化。例如,下列值是有用的,因?yàn)槌鞘忻Q一般不會(huì)改變。(注意,我們?nèi)匀恍枰獙ⅰ癰r/sao_paulo”這樣的字符串轉(zhuǎn)換為獨(dú)熱矢量。)

city_id: "br/sao_paulo"

但收集由其他模型推理的值會(huì)產(chǎn)生額外成本。可能值“219”目前代表圣保羅,但這種表示在未來(lái)運(yùn)行其他模型時(shí)可能輕易發(fā)生變化:

inferred_city_cluster: "219"

表示 (Representation):清理數(shù)據(jù)

蘋(píng)果樹(shù)結(jié)出的果子有品相上乘的,也有蟲(chóng)蛀壞果。而高端便利店出售的蘋(píng)果是 100% 完美的水果。從果園到水果店之間,專(zhuān)門(mén)有人花費(fèi)大量時(shí)間將壞蘋(píng)果剔除或給可以挽救的蘋(píng)果涂上一層薄薄的蠟。作為一名機(jī)器學(xué)習(xí)工程師,你將花費(fèi)大量的時(shí)間挑出壞樣本并加工可以挽救的樣本。即使是非常少量的“壞蘋(píng)果”也會(huì)破壞掉一個(gè)大規(guī)模數(shù)據(jù)集。

縮放特征值

縮放是指將浮點(diǎn)特征值從自然范圍(例如 100 到 900)轉(zhuǎn)換為標(biāo)準(zhǔn)范圍(例如 0 到 1 或 -1 到 +1)。如果某個(gè)特征集只包含一個(gè)特征,則縮放可以提供的實(shí)際好處微乎其微或根本沒(méi)有。不過(guò),如果特征集包含多個(gè)特征,則縮放特征可以帶來(lái)以下優(yōu)勢(shì):

  • 幫助梯度下降法更快速地收斂。

  • 幫助避免“NaN 陷阱”。在這種陷阱中,模型中的一個(gè)數(shù)值變成 NaN(例如,當(dāng)某個(gè)值在訓(xùn)練期間超出浮點(diǎn)精確率限制時(shí)),并且模型中的所有其他數(shù)值最終也會(huì)因數(shù)學(xué)運(yùn)算而變成 NaN。

  • 幫助模型為每個(gè)特征確定合適的權(quán)重。如果沒(méi)有進(jìn)行特征縮放,則模型會(huì)對(duì)范圍較大的特征投入過(guò)多精力。

你不需要對(duì)每個(gè)浮點(diǎn)特征進(jìn)行完全相同的縮放。即使特征 A 的范圍是 -1 到 +1,同時(shí)特征 B 的范圍是 -3 到 +3,也不會(huì)產(chǎn)生什么惡劣的影響。不過(guò),如果特征 B 的范圍是 5000 到 100000,你的模型會(huì)出現(xiàn)糟糕的響應(yīng)。

要縮放數(shù)值數(shù)據(jù),一種顯而易見(jiàn)的方法是將 [最小值,最大值] 以線性方式映射到較小的范圍,例如 [-1,+1]。另一種熱門(mén)的縮放策略是計(jì)算每個(gè)值的 Z 得分。Z 得分與距離均值的標(biāo)準(zhǔn)偏差相關(guān)。換言之:

scaledvalue "=("value"-"mean")/"stddev.

例如,給定以下條件:

  • 均值 = 100

  • 標(biāo)準(zhǔn)偏差 = 20

  • 原始值 = 130

則:

scaled_value = (130 - 100) / 20

scaled_value = 1.5

使用 Z 得分進(jìn)行縮放意味著,大多數(shù)縮放后的值將介于 -3 和 +3 之間,而少量值將略高于或低于該范圍。

處理極端離群值

下面的曲線圖表示的是加利福尼亞州住房數(shù)據(jù)集中稱為 roomsPerPerson 的特征。roomsPerPerson 值的計(jì)算方法是相應(yīng)地區(qū)的房間總數(shù)除以相應(yīng)地區(qū)的人口總數(shù)。該曲線圖顯示,在加利福尼亞州的絕大部分地區(qū),人均房間數(shù)為 1 到 2 間。不過(guò),請(qǐng)看一下 x 軸。

圖 4. 一個(gè)非常非常長(zhǎng)的尾巴圖 5. 對(duì)數(shù)縮放仍然留有尾巴

對(duì)數(shù)縮放可稍稍緩解這種影響,但仍然存在離群值這個(gè)大尾巴。我們來(lái)采用另一種方法。如果我們只是簡(jiǎn)單地將 roomsPerPerson 的最大值“限制”為某個(gè)任意值(比如 4.0),會(huì)發(fā)生什么情況呢?

圖 6. 將特征值限制到 4.0

將特征值限制到 4.0 并不意味著我們會(huì)忽略所有大于 4.0 的值。而是說(shuō),所有大于 4.0 的值都將變成 4.0。這就解釋了 4.0 處的那個(gè)有趣的小峰值。盡管存在這個(gè)小峰值,但是縮放后的特征集現(xiàn)在依然比原始數(shù)據(jù)有用。

分箱

下面的曲線圖顯示了加利福尼亞州不同緯度的房屋相對(duì)普及率。注意集群 - 洛杉磯大致在緯度 34 處,舊金山大致在緯度 38 處。

圖 7. 每個(gè)緯度的房屋數(shù)

在數(shù)據(jù)集中,latitude 是一個(gè)浮點(diǎn)值。不過(guò),在我們的模型中將 latitude 表示為浮點(diǎn)特征沒(méi)有意義。這是因?yàn)榫暥群头课輧r(jià)值之間不存在線性關(guān)系。例如,緯度 35 處的房屋并不比緯度 34 處的房屋貴 35/34(或更便宜)。但是,緯度或許能很好地預(yù)測(cè)房屋價(jià)值。為了將緯度變?yōu)橐豁?xiàng)實(shí)用的預(yù)測(cè)指標(biāo),我們對(duì)緯度“分箱”,如下圖所示:

圖 8. 分箱值

我們現(xiàn)在擁有 11 個(gè)不同的布爾值特征(LatitudeBin1、LatitudeBin2、…、LatitudeBin11),而不是一個(gè)浮點(diǎn)特征。擁有 11 個(gè)不同的特征有點(diǎn)不方便,因此我們將它們統(tǒng)一成一個(gè) 11 元素矢量。這樣做之后,我們可以將緯度 37.4 表示為:[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]

分箱之后,我們的模型現(xiàn)在可以為每個(gè)緯度學(xué)習(xí)完全不同的權(quán)重。

為了簡(jiǎn)單起見(jiàn),我們?cè)诰暥葮颖局惺褂谜麛?shù)作為分箱邊界。如果我們需要更精細(xì)的解決方案,我們可以每隔 1/10 個(gè)緯度拆分一次分箱邊界。添加更多箱可讓模型從緯度 37.4 處學(xué)習(xí)和維度 37.5 處不一樣的行為,但前提是每 1/10 個(gè)緯度均有充足的樣本可供學(xué)習(xí)。

另一種方法是按分位數(shù)分箱,這種方法可以確保每個(gè)桶內(nèi)的樣本數(shù)量是相等的。按分位數(shù)分箱完全無(wú)需擔(dān)心離群值。

清查

截至目前,我們假定用于訓(xùn)練和測(cè)試的所有數(shù)據(jù)都是值得信賴的。在現(xiàn)實(shí)生活中,數(shù)據(jù)集中的很多樣本是不可靠的,原因有以下一種或多種:

  • 缺失值。例如,有人忘記為某個(gè)房屋的年齡輸入值。

  • 重復(fù)樣本。例如,服務(wù)器錯(cuò)誤地將同一條記錄上傳了兩次。

  • 不良標(biāo)簽。例如,有人錯(cuò)誤地將一顆橡樹(shù)的圖片標(biāo)記為楓樹(shù)。

  • 不良特征值。例如,有人輸入了多余的位數(shù),或者溫度計(jì)被遺落在太陽(yáng)底下。

一旦檢測(cè)到存在這些問(wèn)題,你通常需要將相應(yīng)樣本從數(shù)據(jù)集中移除,從而“修正”不良樣本。要檢測(cè)缺失值或重復(fù)樣本,你可以編寫(xiě)一個(gè)簡(jiǎn)單的程序。檢測(cè)不良特征值或標(biāo)簽可能會(huì)比較棘手。

除了檢測(cè)各個(gè)不良樣本之外,你還必須檢測(cè)集合中的不良數(shù)據(jù)。直方圖是一種用于可視化集合中數(shù)據(jù)的很好機(jī)制。此外,收集如下統(tǒng)計(jì)信息也會(huì)有所幫助:

  • 最大值和最小值

  • 均值和中間值

  • 標(biāo)準(zhǔn)偏差 考慮生成離散特征的最常見(jiàn)值列表。例如,country:uk 的樣本數(shù)是否符合你的預(yù)期?language:jp 是否真的應(yīng)該作為你數(shù)據(jù)集中的最常用語(yǔ)言?

了解數(shù)據(jù)

遵循以下規(guī)則:

  • 記住你預(yù)期的數(shù)據(jù)狀態(tài)。

  • 確認(rèn)數(shù)據(jù)是否滿足這些預(yù)期(或者你可以解釋為何數(shù)據(jù)不滿足預(yù)期)。

  • 仔細(xì)檢查訓(xùn)練數(shù)據(jù)是否與其他來(lái)源(例如信息中心)的數(shù)據(jù)一致。

像處理任何任務(wù)關(guān)鍵型代碼一樣謹(jǐn)慎處理你的數(shù)據(jù)。良好的機(jī)器學(xué)習(xí)依賴于良好的數(shù)據(jù)。

特征組合:對(duì)非線性規(guī)律進(jìn)行編碼

在圖 9 和圖 10 中,我們做出如下假設(shè):

  • 藍(lán)點(diǎn)代表生病的樹(shù)。

  • 橙點(diǎn)代表健康的樹(shù)。

圖 9. 這是線性問(wèn)題嗎?

你可以畫(huà)一條線將生病的樹(shù)與健康的樹(shù)清晰地分開(kāi)嗎?當(dāng)然可以。這是個(gè)線性問(wèn)題。這條線并不完美。有一兩棵生病的樹(shù)可能位于“健康”一側(cè),但你畫(huà)的這條線可以很好地做出預(yù)測(cè)。

現(xiàn)在,我們來(lái)看看下圖:

圖 10. 這是線性問(wèn)題嗎?

你可以畫(huà)一條直線將生病的樹(shù)與健康的樹(shù)清晰地分開(kāi)嗎?不,你做不到。這是個(gè)非線性問(wèn)題。你畫(huà)的任何一條線都不能很好地預(yù)測(cè)樹(shù)的健康狀況。

圖 11. 一條線無(wú)法分開(kāi)兩類(lèi)數(shù)據(jù)

要想解決圖 10 所示的非線性問(wèn)題,可以創(chuàng)建一個(gè)特征組合。特征組合是指通過(guò)將兩個(gè)或多個(gè)輸入特征相乘來(lái)對(duì)特征空間中的非線性規(guī)律進(jìn)行編碼的合成特征。“cross”(組合)這一術(shù)語(yǔ)來(lái)自 cross product(向量積)。我們通過(guò)將x1與 x2組合來(lái)創(chuàng)建一個(gè)名為 x3的特征組合:

我們像處理任何其他特征一樣來(lái)處理這個(gè)新建的x3特征組合。線性公式變?yōu)?#xff1a;

線性算法可以算出 w3的權(quán)重,就像算出 w1 和 w2 的權(quán)重一樣。換言之,雖然 w3 表示非線性信息,但你不需要改變線性模型的訓(xùn)練方式來(lái)確定 w3的值。

特征組合的種類(lèi)

我們可以創(chuàng)建很多不同種類(lèi)的特征組合。例如:

  • [A X B]:將兩個(gè)特征的值相乘形成的特征組合。

  • [A x B x C x D x E]:將五個(gè)特征的值相乘形成的特征組合。

  • [A x A]:對(duì)單個(gè)特征的值求平方形成的特征組合。

通過(guò)采用隨機(jī)梯度下降法,可以有效地訓(xùn)練線性模型。因此,在使用擴(kuò)展的線性模型時(shí)輔以特征組合一直都是訓(xùn)練大規(guī)模數(shù)據(jù)集的有效方法。

特征組合:組合獨(dú)熱矢量

到目前為止,我們已經(jīng)重點(diǎn)介紹了如何對(duì)兩個(gè)單獨(dú)的浮點(diǎn)特征進(jìn)行特征組合。在實(shí)踐中,機(jī)器學(xué)習(xí)模型很少會(huì)組合連續(xù)特征。不過(guò),機(jī)器學(xué)習(xí)模型卻經(jīng)常組合獨(dú)熱特征矢量,將獨(dú)熱特征矢量的特征組合視為邏輯連接。例如,假設(shè)我們具有以下兩個(gè)特征:國(guó)家/地區(qū)和語(yǔ)言。對(duì)每個(gè)特征進(jìn)行獨(dú)熱編碼會(huì)生成具有二元特征的矢量,這些二元特征可解讀為 country=USA, country=France 或 language=English, language=Spanish。然后,如果你對(duì)這些獨(dú)熱編碼進(jìn)行特征組合,則會(huì)得到可解讀為邏輯連接的二元特征,如下所示:

country:usa AND language:spanish

再舉一個(gè)例子,假設(shè)你對(duì)緯度和經(jīng)度進(jìn)行分箱,獲得單獨(dú)的 5 元素特征矢量。例如,指定的緯度和經(jīng)度可以表示如下:

  • binned_latitude = [0, 0, 0, 1, 0]

  • binned_longitude = [0, 1, 0, 0, 0]

假設(shè)你對(duì)這兩個(gè)特征矢量創(chuàng)建了特征組合:

  • binned_latitude X binned_longitude

此特征組合是一個(gè) 25 元素獨(dú)熱矢量(24 個(gè) 0 和 1 個(gè) 1)。該組合中的單個(gè) 1 表示緯度與經(jīng)度的特定連接。然后,你的模型就可以了解到有關(guān)這種連接的特定關(guān)聯(lián)性。

假設(shè)我們更粗略地對(duì)緯度和經(jīng)度進(jìn)行分箱,如下所示:

binned_latitude(lat) = [ 0 < lat <= 10 10 < lat <= 20 20 < lat <= 30 ] binned_longitude(lon) = [ 0 < lon <= 15 15 < lon <= 30 ] 針對(duì)這些粗略分箱創(chuàng)建特征組合會(huì)生成具有以下含義的合成特征: binned_latitude_X_longitude(lat, lon) = [ 0 < lat <= 10 AND 0 < lon <= 15 0 < lat <= 10 AND 15 < lon <= 30 10 < lat <= 20 AND 0 < lon <= 15 10 < lat <= 20 AND 15 < lon <= 30 20 < lat <= 30 AND 0 < lon <= 15 20 < lat <= 30 AND 15 < lon <= 30 ]

現(xiàn)在,假設(shè)我們的模型需要根據(jù)以下兩個(gè)特征來(lái)預(yù)測(cè)狗主人對(duì)狗狗的滿意程度:

  • 行為類(lèi)型behavior type(吠叫、啜泣、依偎等)

  • 時(shí)段time of day

如果我們根據(jù)這兩個(gè)特征構(gòu)建以下特征組合:

[behavior type X time of day]

我們最終獲得的預(yù)測(cè)能力將遠(yuǎn)遠(yuǎn)超過(guò)任一特征單獨(dú)的預(yù)測(cè)能力。例如,如果狗狗在下午 5 點(diǎn)主人下班回來(lái)時(shí)(快樂(lè)地)叫喊,可能表示對(duì)主人滿意度的正面預(yù)測(cè)結(jié)果。如果狗狗在凌晨 3 點(diǎn)主人熟睡時(shí)(也許痛苦地)哀叫,可能表示對(duì)主人滿意度的強(qiáng)烈負(fù)面預(yù)測(cè)結(jié)果。

線性學(xué)習(xí)器可以很好地?cái)U(kuò)展到大量數(shù)據(jù)。對(duì)大規(guī)模數(shù)據(jù)集使用特征組合是學(xué)習(xí)高度復(fù)雜模型的一種有效策略。神經(jīng)網(wǎng)絡(luò)可提供另一種策略。

往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯

總結(jié)

以上是生活随笔為你收集整理的【机器学习基础】机器学习中的特征工程总结!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。