推荐系统之业务架构总览
前言
前一篇介紹了推薦系統冷啟動的問題,既然已經cold start了,這一節就大致講下新聞推薦系統的業務架構,也就是新聞推薦系統需要有哪些模塊組成,每一個模塊的職責是什么。
?
首先看下整個新聞推薦系統大圖,今天這篇文章就是為大家講解這張圖的具體含義和相互關系,今天主要是介紹大概最為開篇,接下來會有一系列文章介紹圖中每一部分的策略。
(畫圖不容易版權相關,轉載請注明出處~)
圖中紅色相關的形狀是兩個輸入,分別是用戶和內容,分別代表兩個路徑,表示的是當推薦系統進入一個用戶或一個內容的行為軌跡。本文把整個推薦系統按照業務路徑分成3個部分,分別是用戶數據軌跡、內容數據軌跡以及推薦列表生成,接下來分別介紹下每個環節的作用。
?
01
用戶軌跡
?
用戶軌跡方面,每次進來一名用戶首先要判斷這名用戶是否是新用戶,一旦發現是新用戶將啟動冷啟動策略,這個策略在之前的文章已經介紹過。如果用戶不涉及到冷啟動問題,則進入用戶畫像的構建流程。
?
用戶畫像的構建分為兩種,分別是用戶注冊標簽特征(用戶注冊的時候獲取的特征),還有一種是平臺行為特征(用戶過去在平臺的一些操作日志)
?
用戶注冊標簽特征
這部分特征是原始生成的,不需要每次用戶登錄都重新計算并修改。
-
賬號注冊信息:注冊的時候可以讓用戶填寫年齡、性別等內容、手機號等內容,同時也可以通過LBS信息了解用戶的活動區域。針對這些信息可以給用戶興趣做一個初步判斷,比如年輕的都市女性,往往有較高的消費能力,在推薦策略上可以推薦高規格的一些內容
-
身份證信息:現在很多系統都需要實名認證,身份證號其實可以帶來很多有用的信息,比如前兩位是省級代碼,34位是市級代碼,7-14位是生日代碼,第17位是性別代碼(奇數代表男性、偶數代表女性)
-
社交賬號登錄:如果系統可以設計成支持淘寶、微信等賬號登錄,也可以通過這些系統拿到部分用戶畫像信息
-
預采集:現在很多APP,當用戶初次進入都有一個興趣愛好勾選的按鈕,這個就是為了解決冷啟動的一個手段,在推薦之前先通過用戶標記獲取用戶信息
-
數據交換:注冊的時候其實可以拿到用戶的手機號碼,現在有很多賣數據的公司都提供用戶畫像數據的交易,只要提供手機號就能獲取特別全的用戶數據(這個貌似是個黑產業)
平臺行為特征
需要每次用戶登錄都記錄的特征
-
用戶歷史的瀏覽記錄,比如用戶關注了哪些類目的新聞,比如體育新聞或者娛樂新聞
-
用戶在平臺上的一些反饋,評論、點贊、收藏都信息
-
用戶的LBS變化信息,比如用戶經常往返于北京和杭州,這些信息需要實時抓取
?
獲取了以上用戶的特征信息,做匯總就可以入“用戶總庫”,這個用戶行為數據庫將對接下來的模型訓練起到重要作用。
?
02
內容軌跡
?
內容軌跡指的是每次平臺新增新聞內容時的操作。新聞內容不同于其它推薦場景,對于內容的安全審查是非常重要的。如果出現不健康內容,對于平臺會有很大的傷害,具體策略日后詳細講解。執行完內容審查,要開始對內容進行打標,標簽分兩種,分別是內容自身特征以及平臺行為特征。
注:新聞推薦的更多是傾向于文章標題推薦,而安全審查更多地針對文章內容
?
內容自身特征
內容自身的屬性,不需要頻繁更新
-
內容所屬類別,可以分多個級別標記,比如可以標為體育,體育下一級還可以標為籃球,這個標注是依靠算法實現。比如關鍵詞提取或者主題模型
-
內容主體識別,標記出文章包含哪些主體,比如下面這句話“費德勒是個出色的網球運動員”。可以找出“網球”、“運動員”、“費德勒”這3個主體
-
文章的發布時間、發布者等信息,以及是否有地理相關性的特征
?
平臺行為特征
平臺行為特征指的是新聞內容在平臺上歷史被點擊、點贊、收藏、轉發等信息。
?
03
推薦候選集生成軌跡
?
當收集了內容以及用戶特征后,就組成了所有平臺上的內容總庫以及用戶總庫,可以將這兩個組件合并構建出模型訓練集。訓練集匯總了所有平臺上的某某文章被某某閱讀點擊過的全部行為日志,這樣就可以通過算法訓練一個模型用來新聞推薦。
算法有很多形式可以選擇,這個在未來的章節詳細介紹
?
有了內容推薦模型后,要進行的操作就比較簡單了,為用戶預測出他感興趣的模型。有的同學會說,既然有了模型那么對每個用戶在全網所有文章的興趣點預測一次,取topN不就可以了?通常推薦系統不會這么做,因為每個用戶對每個文章都算一下興趣度計算量非常大,而且很難在用戶進入新聞終端時快速拿到預測結果。
?
通常的做法是先通過召回策略篩選出部分推薦候選集,再通過內容推薦模型對候選集進行預測并排序,這樣就可以大大減少計算量。
?
召回策略候選集可以通過用戶畫像標簽從內容總庫中快速查詢獲得。
?
通過內容推薦模型對召回候選集數據進行預測,拿到用戶感興趣的文章排序列表,就可以推送給用戶。以上是本文的介紹,略過了中間的很多策略,待后續文章補充。
?
參考文獻:http://lusongsong.com/info/post/9829.html
總結
以上是生活随笔為你收集整理的推荐系统之业务架构总览的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统之冷启动问题
- 下一篇: 推荐系统之信息茧房问题