特征处理
學(xué)自 極客時(shí)間 《深度學(xué)習(xí)推薦系統(tǒng)實(shí)戰(zhàn)》
特征分為兩類(lèi):
- 類(lèi)別特征(性別、地理位置、季節(jié)、天氣、風(fēng)格)
- 數(shù)值型特征(年齡、收入、點(diǎn)擊量、點(diǎn)擊率)
類(lèi)別特征經(jīng)過(guò) One-Hot 編碼后放入特征向量、或者 多個(gè)的特征值采用 Multi-Hot 編碼
數(shù)值特征直接放到特征向量上
- 數(shù)值特征有時(shí)候,分布跨度很大(比如點(diǎn)擊量 0 - 無(wú)窮大),我們需要將其歸一化至 [0,1] 之間,避免其掩蓋其它的特征
- 歸一化不能改變特征值的分布,可以進(jìn)行分桶,用桶 ID 作為特征
總結(jié)
- 上一篇: 天池 在线编程 最小的行程(动态规划)
- 下一篇: LeetCode 1224. 最大相等频