深入理解深度学习——Item Embedding
分類目錄:《深入理解深度學習》總目錄
隨著Word Embedding在NLP很多領域取得不錯的成果,人們開始考慮把這一思想推廣到其他領域。從word2vec模型的實現原理可以看出,它主要依賴一條條語句,而每條語句就是一個序列。由此,只要有序列特征的場景應該都適合使用這種Embedding思想。下圖表示了不同用戶在一定時間內查詢物品形成的序列圖形,可以看出,物品形成的序列與詞形成的序列(語句)有很多相似的地方,因此,人們把Word Embedding這種思想引入物品序列中,推廣到推薦、搜索、廣告等領域,并學習得到Item Embedding。
微軟推薦系統的Item Embedding
微軟寫了一篇實用性很強的關于將word2vec應用于推薦領域的論文。該論文中的方法簡單易用,可以說極大拓展了word2vec的應用范圍,使其從NLP領域直接擴展到推薦、廣告、搜索排序等任何可以生成序列的領域。
Embedding是一種很好的思想,它不局限于自然語言處理領域,還可以應用到其他很多領域。微軟研究人員把這種思想應用到推薦系統中,并將其研究成果發表在論文《Item2Vec:Neural Item Embedding for Collaborative Filtering》中。論文中,他們主要參照了把Word Embedding應用到推薦場景的相似度計算中的方法,把item視為word,把用戶的行為序列視為一個集合。通過把word2vec的Skip-Gram和Negative Sampling(SGNS)的算法思路遷移到基于物品的協同過濾(Item-Based CF)上,以物品的共現性作為自然語言中的上下文關系,構建神經網絡并學習出物品在隱空間的向量表示,讓使用效果得到較大提升。
Airbnb推薦系統使用Item Embedding
作為全世界最大的短租網站,Airbnb的主要業務是在房主掛出的短租房和以旅游為主要目的的租客之間構建一個中介平臺,以更好地為房主和租客服務。這個中介平臺的交互方式比較簡單,即客戶輸入地點、價位、關鍵詞等,Airbnb給出租房的搜索推薦列表。所以,借助這個推薦列表提升客戶訂購率顯得非常關鍵。
Airbnb發表的論文《Real-time Personalization using Embeddings for Search Ranking at Airbnb》提到了具體解決思路。論文中提出了兩種通過Embedding分別捕獲用戶的短期興趣和長期興趣的方法,即利用用戶點擊會話和預定會話序列,如下圖所示:
如上圖所示,這里瀏覽點擊的房源之間存在強時序關系,即前面房源會對后面房源產生很大的影響,可以把一段時間內連續發生的房源序列看作句子,把序列中的房源看作句子中的詞,這樣的結構看上去與word2vec的訓練數據的構造并沒什么區別,因此可以直接按照word2vec的方法(這里采用Skip-Gram模型)進行Embedding訓練。
訓練生成Listing Embedding和User-type&Listing-type Embedding,并將Embedding特征輸入搜索場景下的rank模型,以提升模型效果。Airbnb將業務模式與Embedding相結合的實踐案例可以說是應用word2vec思想于公司業務的典范。具體來說,它通過客戶點擊或預定方式生成租客類型、房租類型等的Embedding,來獲取用戶對短期租賃和長期租賃的興趣。
總結
以上是生活随笔為你收集整理的深入理解深度学习——Item Embedding的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux 终端tty的含义,终端、控制
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习