當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

腾讯 QQ 看点图文多目标推荐实践经验

發布時間：2024/2/28 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了腾讯 QQ 看点图文多目标推荐实践经验小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者：zhongzhao，騰訊 PCG 應用研究員

在推薦系統中，最常用的排序模型是以用戶點擊為目標的 CTR 預估模型，它沒有考慮用戶點擊后的消費深度，也沒有考慮用戶的多種互動行為帶來的生態方面的收益。為了取得 CTR 以外的更多收益，QQ 看點團隊在深度學習框架下，對推薦系統中的多目標建模做了一系列的研究和實踐，在圖文場景下完成了技術落地，實現了用戶閱讀時長的顯著提升，并在內容生態和賬號生態上也取得了正向收益。本文將由淺入深，分享騰訊 QQ 看點圖文多目標推薦實踐中積累到的經驗和方法，供有需要的同學參考。

本文主要分享 QQ 看點圖文推薦場景下，精排多目標建模的方法。全文共三部分，第一部分介紹多目標建模的業務背景，并列出了基于深度學習方法建模多目標的優勢。第二部分按照多目標模型在 QQ 看點圖文推薦中迭代演進的四個階段分別來介紹具體的經驗和方法，每一次模型升級都取得了業務指標的顯著提升。最后一部分是小結。

1.背景介紹

1.1 多目標模型的業務背景

騰訊 QQ 看點是一個內置于 QQ 的信息流產品，它涵蓋了圖文、短視頻、小視頻、圖集等多種形式的內容，并以個性化的方式展示給用戶。其中，個性化推薦系統在 QQ 看點的整個生態系統中扮演著重要的角色。圖 1 展示了 QQ 看點的生態系統中各個組成部分之間的關系。首先是平臺上所有的內容創作者生產出大量的內容，然后依靠推薦系統，將合適的內容分發給合適的用戶。用戶對推薦內容產生的點擊、互動行為等多種形式的反饋，一方面用于推薦系統的模型訓練，另一方面會被內容創作者感知，影響著內容創作者的積極性和創作內容的質量。在這個生態系統中，推薦系統不僅直接影響著內容的分發效率和用戶的體驗，還會間接影響到內容創作者的創作，對整個生態的發展起著至關重要的作用。

圖1 QQ看點的生態系統

推薦系統中的排序模型最常用的是 CTR 預估模型，傳統的 CTR 預估模型以點擊為目標，只預估文章被用戶點擊的概率，至于用戶點擊之后對內容是否滿意，CTR 預估模型是不管的。在 QQ 看點圖文推薦場景下，用戶在主 feeds 中點擊感興趣的標題，進入詳情頁看正文，如果文章內容并不是用戶真正感興趣的或者質量不高，用戶過不了多久就會退出來，體驗自然也不好。這種情況一方面降低了用戶對推薦結果的滿意度，另一方面產生了一些不好的訓練樣本，誤導模型的訓練，導致推薦內容質量降低，影響到內容生態。為了解決這個問題，我們需要把純點擊模型升級為多目標模型，不僅要對點擊進行預估，還要對點擊之后的消費深度，也就是閱讀時長也去建模，把用戶真正感到滿意的高質量文章推薦給用戶。

除了增加時長目標的建模提升用戶體驗和內容質量外，我們也希望優質內容的創作者能得到更多用戶的關注和認可，這樣他們就會有更大的動力源源不斷地產出優質內容。一般來說，能讓用戶產生互動行為的文章基本都是優質文章，而用戶對文章的各種互動行為同時也是認可內容創作者的最直接體現。推薦模型推薦給用戶的文章如果能讓用戶產生更多這些互動行為，不僅能使用戶體驗得到提升，優質內容得到更好的分發，而且還能給予內容創作者更大的動力，讓他們愿意在這個平臺上創作更多優質內容。為了達到這個目的，我們也需要用多目標模型去建模用戶點擊行為之后的各種互動行為，讓推薦系統推薦的文章更容易讓用戶產生這些互動行為。

因此，建立多目標模型對于提升用戶體驗、提高優質文章的分發效率、改善內容生態和賬號生態，是非常重要和有效的方法。

1.2 基于深度學習的多目標模型

近 5 年以來，深度學習在推薦領域逐漸發展起來，目前已經取得了比傳統模型更好的推薦效果[6-16]。相比 XGBoost、LR 這些傳統模型，深度學習模型有如下的優點：

**(1)更大的模型容量和更高的模型復雜度。**工業級的深度學習推薦模型一般都是在集群上做大規模的分布式訓練，這使得深度模型具備足夠大的模型容量去學習推薦場景下各種高維稀疏特征及其交叉特征，從而擁有更高的模型復雜度去建模大數據場景下的推薦問題。

**(2)端到端的訓練和預測。**對于推薦場景中大量存在的高維度分類變量，深度學習模型通過 embedding 的方式將其統一轉化為低維稠密向量，使得特征學習和分類器學習同時進行，無需為各種分類變量額外學習特征，實現端到端的訓練和預測。學到的特征和分類器也會因為更匹配從而會有更好的效果。整個流程下來簡潔統一而優雅。

**(3)更靈活的模型設計。**在模型結構和損失函數的定義上，深度學習方法提供了很大的靈活性。算法同學可以根據具體推薦場景設計出特定的模型結構和損失函數，求解交給深度學習平臺自動完成。相比 XGBoost 這種模型結構固定、損失函數無法自定義的傳統模型來說，深度學習模型在多目標建模方面有著大得多的優勢。

**(4)更好的實時性。**基于深度學習的推薦模型可以在集群上使用流式數據做在線學習和訓練，及時捕捉樣本分布的變化和學習新 item 的特征，對推薦內容的準確性和時新性上都會更有優勢。

2.圖文多目標模型的迭代演進之路

QQ 看點團隊從開始做多目標模型到現在，已經經歷了多次模型的升級換代，期間實踐過多種不同的多目標模型。以下將要介紹的是實踐過程中有代表性且效果有顯著提升的方法，按時間順序分為四個階段，每一階段都是上一階段的升級。

2.1 第一階段：用加權版的單目標模型實現多目標效果

在圖文場景下，我們不僅希望推出去的文章能被用戶點擊，而且希望用戶點擊之后能閱讀時長盡可能長，要做到這一點，一個最自然的想法就是在用戶會點擊的文章里面，優先推用戶閱讀時長長的文章。對應到模型的損失函數上，就是對正樣本(點擊樣本)加權，閱讀時長越長的正樣本，權重越大。損失函數具體如下

其中為第個樣本的真實類標（點擊為 1，曝光未點擊為 0），為模型預測的點擊概率，表示權重，負樣本的為 1，正樣本的大于 1 并且是用戶閱讀文章時長的增函數，為樣本總數。

上述損失函數擬合的目標仍然是點擊，但因為用時長對樣本加權，模型訓練時會更加關注權重高的樣本，損失函數的梯度會受到權重高的樣本的主導，所以學出來的模型會在預估點擊概率大的文章中優先給用戶推薦閱讀時長更長的文章，從而實現點擊和時長兩個目標的融合。

對于樣本加權方法來說，最關鍵的是權重函數的選取。我們嘗試過的權重函數主要有三類：線性函數，對數函數和冪函數。它們的主要區別在于對時長放縮的程度不同。下面列出了各種常見的權重函數。

常見權重函數

樣本加權方法的優點是實現簡單，見效快。無論是傳統的 LR、XGBoost 模型，還是深度學習 CTR 模型，都可以很方便地通過這種方法帶來 CTR 以外其他目標的提升。但它的缺點也很明顯，權重函數只能改變樣本損失的權重，影響的范圍十分有限，因此很容易就到了天花板。要想再進一步提升其他目標的效果，就需要在損失函數和模型結構這些方面去做進一步的優化。毫無疑問，深度學習方法在損失函數和模型結構上為我們提供了足夠大的靈活性和可優化空間，為我們進一步提升多目標模型的效果提供了強有力的支撐。

2.2 第二階段：基于 deepFM 和 MMoE 的多目標模型

2.2.1 多目標建模常用方法簡介

(1)多目標建模經典結構——Share Bottom Model

在基于深度學習的各種多目標建模論文里，通常都會引用和回顧最為經典的 Share Bottom 模型結構。這種模型結構的特點是所有目標共享同一個輸入。圖 2 所示的是推薦場景下的 Share Bottom 模型結構。這種底層參數共享的方式通常又被稱為參數硬共享。這種模型結構由于底層參數被所有目標共享，所以大大降低了過擬合的風險，與此同時，不同目標在學習時也可以通過這些共享的參數進行知識遷移，利用其它目標學習到的知識幫助自己目標的學習。但也正是因為參數的硬共享，限制了各個目標擬合的自由度，影響了擬合的效果。特別是在不同目標之間相關性比較低時，會更容易顧此失彼，難以學好每個目標。

圖2 推薦場景下的Share Bottom Model

(2)多目標建模的主流結構——MMoE

針對 share bottom 模型結構的缺點，谷歌在 2018 提出了 Multi-gated Mixture of Expert (MMoE)模型[2]，該模型引入了多個專家子網絡和門控結構，通過門控用不同的專家組合分別去學習不同的目標，使得各個目標能被更好地學習。下面的圖 3 是 MMoE 模型結構示意圖。

圖3 MMoE模型

圖 3(a)所示為 MMoE 的一個例子，輸入向量分別輸入到兩個專家網絡 Expert 1 和 Expert 2 中，每個專家是一個可以自定義的子網絡，MMoE 原文中用的是 DNN，DNN 的最后一層為專家的輸出向量。輸入向量和各個專家的輸出向量會傳入門控，門控的內部結構如圖 3(b)所示，輸入向量首先經過一個 MLP，最后一層 softmax 得到各個專家的權重，然后以此權重對各個專家的輸出做一個加權求和，得到該門控下的輸出向量。在 MMoE 中，專家網絡是所有目標共享的，每個目標有一個自己的門控，用于確定該目標下各個專家的權重。MMoE 中的門控，可以被看成是一個分類器，每個目標的門控會根據當前樣本的特征，判別它由哪些專家來擬合會更好，預估出每個專家的權重。相比 Share Bottom 所有目標共享同一個輸入的方法，MMoE 不同目標不一樣的動態輸入為各目標的擬合提供了更大的自由度。

2.2.2 點擊+時長兩目標模型

在圖文排序模型升級為多目標之前，線上的排序模型是基于 deepFM 的純 CTR 預估模型[1]，它的模型結構如圖 4 所示。

圖4 deepFM模型

deepFM 模型將輸入的 id 類稀疏特征如用戶畫像、文章 id 等先通過 embedding layer 轉化低維稠密的向量，左邊的 FM 子網絡用它們計算二階交叉分數，右邊的 DNN 子網絡把它們和其他連續型特征拼接起來輸入一個 MLP 獲取其最后一層輸出，最后將 FM 一階、二階分數和 DNN 的最后一層拼接在一起，做一個投影得到最終的打分。

deepFM 模型比傳統模型 XGBoost 在排序效果上有了很大提升，為了能充分利用 deepFM 的優勢，我們在 deepFM 的基礎上構建多目標模型。在這一階段，我們主要是對點擊和時長這兩個目標建模。我們把 deepFM 的 FM 部分保留下來保持不變，把 deepFM 的 DNN 部分換成了 Share Bottom 結構，就得到了圖 5 所示的 deepFM+Share Bottom 模型，它被用作我們多目標模型的 baseline。

圖5 點擊+時長兩目標模型：deepFM + Share Bottom

類似地，我們把 deepFM 的 DNN 部分換成 MMoE 結構，就得到了圖 6 所示的 deepFM+MMoE 多目標模型。這兩個模型的 deep 部分最終都會輸出兩個向量，然后跟 FM 的一階和二階分數拼接在一起，得到兩個新的向量，分別用于建模點擊目標和時長目標。其中，點擊目標的向量投影之后經過 sigmoid 得到 CTR 的預估值，時長目標的向量投影之后得到時長的預估值。

圖6 點擊+時長兩目標模型：deepFM + MMoE

我們對比過 deepFM+ShareBottom 模型和 deepFM+MMoE 模型的線上效果，后者相對前者在圖文總時長指標上會有小幅度的提升。

2.2.3 損失函數

多目標模型的實際效果，跟兩個因素緊密相關，一是模型結構，二是損失函數。我們前期主要是做模型結構上的優化，后期主要是做損失函數上的優化。在這一階段的模型里， deepFM+MMoE 模型的點擊目標使用二分類交叉熵做損失，點擊樣本為正類，曝光未點擊樣本為負類，時長目標使用平方損失對閱讀時長做回歸，然后把點擊目標和時長目標的損失加權求和得到一個總的損失函數，通過優化這個總的損失函數求解出模型參數?？倱p失函數的表達式如下：

其中，為輸入特征，為點擊目標的類標，點擊為 1，曝光未點擊為 0，為實際閱讀時長；為模型輸出的預估點擊概率，為模型輸出的預估閱讀時長，為二分類交叉熵損失，為模型參數，和分別為點擊目標和時長目標的權重，為樣本總數。

損失函數存在的問題上面給出的多目標損失函數雖然很好理解，但是也存在一些問題，如下：

(1)不同目標損失函數量級差異大的問題二分類交叉熵損失和平方損失在量級上相差比較大，前者在 0 到 1 之間，后者在數十到數百，兩個目標的損失函數關于相同參數的梯度在量級上的差異可能也會比較大，導致量級小的目標可能沒有被優化好。對于這個問題，我們從兩方面做改進，一是通過實驗調整兩個目標損失函數的權重和，以線上指標來評估和的比例是否合適；二是在時長目標中，將擬合時長本身改成擬合時長的某個函數變換(比如平方根)，在保持被擬合目標單調性的同時，降低了被擬合目標的量級。實驗表明，經過上述兩點改進后，離線訓練的指標會更好更穩定，線上的時長指標的提升幅度也會更大。

(2)對于曝光未點擊樣本的時長，是否要當成 0 來擬合對于時長目標，點擊樣本的時長是一個確定的大于 0 的數，但是曝光未點擊樣本的時長是不確定的，用戶不點擊某篇文章，可能是不喜歡，也可能是喜歡但是由于其它原因（比如時間不夠）沒有點擊。因此，對于曝光未點擊樣本，無論是把時長當成是 0 來擬合還是不擬合，都不合理。對于這個問題，可以分別嘗試當成 0 來擬合和不擬合這兩種方案，然后看線上指標哪個好就采用哪個。從其他團隊分享的經驗來看，有的團隊是當 0 來擬合更好，有的團隊是不擬合更好，不同場景的結論不一樣，所以最好就是兩種方案都試一下，然后選那個適合自己場景的方案。

(3)沒有對兩個目標之間的關系建模點擊和時長這兩個目標之間是有依賴關系的，有點擊才會有時長，沒點擊就沒有時長。在上述的損失函數中，點擊和時長的損失函數雖然底層共享了參數和子網絡，但在擬合目標時是各自獨立擬合自己目標的，并沒有把點擊和時長之間的依賴關系通過損失函數建模起來。實際上，之所以會出現（2）中提到的問題，從本質上說就是因為缺乏必要的對點擊和時長之間依賴關系的建模而導致的。解決這個問題的根本方法就是設計新的損失函數，把時長對點擊的依賴關系考慮進損失函數里。詳細的損失函數的優化方案，將會在下文給出。

2.2.4 多目標分數融合策略

在線預估時，模型會輸出和預估時長這兩個分數，需要我們把這兩個分數融合成一個分數作為最后排序的依據。常用的融合方式有加法融合和乘法融合，對于這個模型來說，乘法融合的可解釋意義更好，表示預估閱讀時長的數學期望。所以采用了如下的乘法融合方式：

其中，是的冪，它的最佳值可以通過離線 grid-search 獲得。

2.2.5 實驗分析

參數調優

對于需要重新訓練模型的參數調優（比如專家數），我們直接做了線上實驗來對比；對于不需要重新訓練模型的參數調優（比如融合策略里參數的 grid-search），我們做離線評估來對比。參數調優的一些結論列舉如下：

(1) MMoE 模型里專家的個數

專家個數越多效果越好，但多到一定程度以后，提升幅度就不大了，而訓練和在線預測的耗時會明顯增加，所以需要平衡專家個數和效率來選擇最佳專家個數；

(2) MMoE 門控里 MLP 的隱層數

門控里的隱層數越多效果越好，但提升幅度不會很明顯，所以跟 MMoE 原文保持一致即可；

(3)對時長所做函數變換的類型

實驗了線性變換、對數變化、冪函數變換三種類型，本場景下冪函數(平方根)的時長提升最大，但不同場景的結論可能會不同，需要實驗找到最合適的函數變換；

(4)點擊和時長目標的權重和

在時長目標擬合時長平方根的情況下，實驗了多組權重，通過線上 AB 實驗來確定最佳權重組合。

(5)在線目標融合策略

當小于 1 時，相當于減少預估時長的影響，當大于 1 時，相當于增加預估時長的影響。所以構造的網格時，要從小于 1 的數開始，到大于 1 的數為止，再從中 grid-search 出最佳的。

在線實驗

對照組：CTR 單目標排序模型；

實驗組：deepFM+MMoE 多目標模型。

下圖為 AB 測試曲線圖，實驗組的大盤累計時長，圖文總時長，優質文章曝光占比等指標都有明顯提升。

第二階段折線圖

圖文總時長的提升說明推薦結果更能吸引用戶閱讀，優質圖文曝光的提升說明多目標模型更傾向于向用戶推薦優質的文章，提高了優質文章的分發效率。

2.3 第三階段：建模目標之間的依賴關系——引入 ESMM

2.3.1 相關型多目標模型

在推薦場景中，用戶的行為一般都不止一種，而且不同行為的發生有先后順序和依賴關系。比如在圖文推薦場景中，用戶一般是先在主 feeds 上瀏覽圖文，然后對感興趣的圖文產生點擊行為，點擊之后會進入到詳情頁閱讀正文，這時才會產生閱讀時長，閱讀一段時間后會有一定概率發生各種互動行為。用戶的每一種行為都可以成為多目標模型里的一個目標，像這種目標之間存在依賴關系的多目標模型就屬于相關型的多目標模型。

對于相關型多目標模型，如果每個目標都是獨立擬合的話，目標之間依賴關系的信息就會丟失，模型精度就會有所損失，影響排序效果。所以，在做相關型多目標建模時，我們需要把用戶行為漏斗里的每一步轉化都建模起來。以圖文推薦為例，在這個場景下，我們需要建模的目標是點擊和時長，這兩個目標涉及到的轉化關系可以被描述為：

向用戶展示文章 ——> 用戶點擊文章 ——>閱讀時長超過某個閾值

這里第一步轉化是文章從曝光到被用戶點擊，各種 CTR 預估模型預估的就是這一步轉化發生的概率。第二步轉化是從用戶點擊文章到閱讀時長超過某個閾值，超過閾值就意味著用戶在該文章上產生了顯著正向的時長收益，其中閾值的確定方法會在下文給出。第二步轉化發生的概率一般稱為 CVR。

用表示用戶和文章的特征；表示點擊的 label，表示點擊，表示曝光未點擊；表示時長的 label，表示閱讀時長超過閾值，表示沒有超過閾值，包括沒有點擊。那么用戶行為漏斗中的曝光、點擊、時長的轉化關系和概率量化可以用下面的圖 7 來表示：

圖7 曝光、點擊、時長的轉化關系和概率量化

因為 CTCVR 同時考慮了 CTR 和 CVR，是從文章曝光到最后一步時長轉化的直接估計，所以 CTCVR 被用作最終的排序依據。那是不是我們只擬合 CTCVR 就可以了呢，答案是否定的。因為擬合 CTCVR 的負樣本是的樣本，這些負樣本有兩種，一種是點擊后閱讀時長沒有超過閾值，另一種就是曝光未點擊。這兩種負樣本是有著很大差別的，前者是被用戶點擊過的，在相關性上比后者大得多。如果只用的數據去擬合 CTCVR 的話，是無法區分的樣本到底是哪一種負樣本的，相當于在擬合的時候損失了一些很重要的信息，十分影響模型的效果。

2.3.2 引入 ESMM 的損失函數

為了更精確地擬合 CTCVR，我們借鑒了 ESMM 構造損失函數的方法[3]。ESMM 用了兩個共享底層參數的 DNN 分別預估 CTR 和 CVR，CTCVR 的預估值則通過 CTR 和 CVR 的預估值的乘積得到，而不是用一個網絡去直接預估。預估的 CTR 和點擊類標用于計算擬合 CTR 的損失，預估的 CTR×CVR 和類標用于計算擬合 CTCVR 的損失，其中的 CVR 只是一個用于構造預估 CTCVR 的中間變量，并不擬合任何目標。由于對 CTCVR 的預估分解成了對 CTR 的預估和對 CVR 的預估，所以在預估 CTCVR 時，上述兩種不同負樣本就能被很好地區分開來。最后 CTR 損失和 CTCVR 損失加權求和得到一個總損失，通過最小化總損失求解模型參數，具體的損失函數如下：

其中，和分別是擬合 CTR 和 CTCVR 的損失函數，均為二分類交叉熵，為點擊的類標，為時長的類標(閱讀時長超過閾值秒取 1，否則取 0)，θ 是對 CTR 的預估，θ 是對 CVR 的預估，θ 為模型參數，和分別為兩個損失的權重，為樣本總數。

2.3.3 點擊+時長模型的改進版 deepFM+MMoE+ESMM

ESMM 主要解決的是相關型多目標模型中如何更精確地擬合各種轉化率的問題，屬于損失函數層面上的優化，跟模型的網絡結構無關。為此，我們將上一版多目標模型中基于 MMoE 的模型結構和 ESMM 的損失函數結合在一起，得到了如圖 8 所示的多目標模型。

圖8 基于ESMM、MMoE和deepFM的多目標模型

這個模型和上一版模型的主要區別有兩點。

第一點是損失函數，通過把時長截斷為二分類，為時長目標引入了轉化率的概念，從而可以借鑒 ESMM 同時擬合 CTR 與 CTCVR 的做法，優化損失函數，解決了上一版模型中沒有對點擊和時長兩個目標關系建模而產生的一系列問題。

第二點是模型結構的細節。在上一版模型中，FM 和 MMoE 是共享底層的 lookup table 的，通過線上的對比實驗我們發現，FM 和 MMoE 各自有一個自己的 lookup table，線上效果會更好，所以模型結構改為了圖 8 中所示的獨立 lookup table。

2.3.4 實驗分析

參數調優

(1)時長二分類截斷閾值的確定

為了得到最佳的二分類閾值，我們以閱讀時長的不同分位數作為二分類閾值去訓練模型，通過線上實驗對比確定出最佳的二分類閾值。

(2)FM 與 MMoE 是否共享參數的影響

在這一版模型中，我們對比了參數共享和參數獨立的離線效果，結論是參數獨立時的離線指標會更好，原因可能是參數獨立增加了模型的容量和擬合自由度，在訓練數據量足夠多的場景下，參數獨立帶來了進一步的效果提升。

(3)兩個目標的權重比例

由于這一版模型中兩個目標的損失函數都是二分類交叉熵，類型相同，量級相近，所以不需要做復雜的權重調整實驗。在線實驗對比了幾組不同權重訓練出來的模型，差異并不大。

在線實驗

最終全量上線的模型相比上一個版本的模型取得了圖文總時長和大盤時長的進一步提升：

第三階段折線圖

2.3.5 時長目標 abel 的優化

在這一版模型中，時長截斷成二分類的閾值對于所有點擊樣本來說都是一樣的。這樣做會有一個問題，由于文章長度和內容的差異，不同文章閱讀時長的分布會不一樣。比如說，有些文章內容比較少，很快就可以讀完，那對于這種文章，它就永遠沒有辦法成為時長目標的正樣本。因此，統一的閾值截斷方式會使得那些內容較短的文章更容易被標注為負樣本，導致它們不容易被推出去。為了解決這個問題，我們實驗了個性化的時長二分類方式，把二分類閾值由之前整體統計的分位數換成了各篇文章自己的分位數，從而不同文章成為時長正樣本的標準跟文章本身的時長分布有關。對于那些比較新的，沒有閱讀時長的文章，二分類閾值仍然采用整體的分位數。

實驗結果表明，個性化的二分類閾值會使圖文時長指標下跌，而圖文 pv、點擊率以及各種互動指標會明顯提升。這個實驗的結論并沒有像我們期望的那樣提升圖文時長，但點擊類和互動類指標的提升，說明個性化的二分類閾值訓練出來的模型應該是給用戶推了更喜歡的文章，但這些文章并不一定是用戶閱讀得比較久的文章。

2.4 第四階段：各種互動目標的加入

對于圖文推薦業務來說，我們除了希望能提升用戶的消費深度以外，還希望優質文章能得到更好的分發，同時創作優質文章的優質賬號本身能得到更多用戶的關注。一般來說，能讓用戶產生互動行為的文章基本都是優質文章，如果推薦系統分發的內容能讓用戶產生更多的互動行為，那么不僅用戶的閱讀體驗得到了提升，而且對內容創作者來說，用戶的互動行為會給他們帶來持續創作優質內容的動力，使他們更加愿意留在平臺上創作內容。因此，我們在點擊+時長兩目標模型的基礎上，再加入互動目標，使得推薦結果更容易讓用戶產生互動行為，提高優質文章的分發效率，促進賬號生態的發展。

圖9 詳情頁上的互動按鈕

2.4.1 點擊+時長+互動多目標模型

在這一版模型中，模型結構和損失函數和上一版模型一樣，都是 FM + MMoE + ESMM 的組合，不同點是增加了互動目標。因為用戶只有點擊進入詳情頁之后才能產生互動行為，所以互動行為屬于點擊之后的第二層轉化，類似于時長目標。一般來說，互動行為比點擊行為要少得多，這就使得互動目標的正樣本會非常稀疏，這也是互動目標建模的主要挑戰。ESMM 在全樣本空間中同時擬合 CTR 和 CTCVR 的建模方式，使得它能在很大程度上緩解數據的稀疏性問題，而互動目標天然就是二分類問題，因此十分適合用 ESMM 來建模轉化率。加入互動目標最簡單的做法就是為每個互動目標增加一個擬合 CTCVR 的損失函數，增加多少個互動目標就增加多少個擬合 CTCVR 的損失函數，圖 10 所示為增加一個互動目標時的模型結構。

圖10 點擊+時長+互動三目標模型

類似于 ESMM，這個模型需要同時擬合 CTR，時長 CTCVR，互動 CTCVR 這三個量，其損失函數為

其中，為點擊的 label，為時長的 label，為關注的 label，=1 表示用戶關注了文章作者，=0 表示沒有關注文章作者。、和分別是擬合 CTR、時長 CTCVR 和關注 CTCVR 的損失函數，均為二分類交叉熵，θ 是對 CTR 的預估，θ 是對時長 CVR 的預估，θ 是對關注 CVR 的預估，θ 為模型參數，、和分別為三個損失的權重，為樣本總數。

2.4.2 多目標融合策略

這一版模型會輸出，時長，關注這三個分數，最終要融合成一個分數作為排序依據，這里還是用了乘法融合的方式，其表達式為

其中和的最佳取值由離線 grid search 得到。這里雖然預估分數有三個，但自由參數只有兩個，所以需要做 grid search 的參數只有 2 個。

2.4.3 實驗分析

在線實驗

我們根據離線 grid-search 的結果確定最佳的α和β的值，在線對比上一版模型，互動指標得到大幅度提升，效果如下：

第四階段三目標折線圖

2.4.4 目標合并的訓練策略

當我們想要優化的互動目標越來越多時，這種多一個互動目標就多一個 loss 的建模方式會使得在線預測的耗時明顯增加，離線 grid-search 也需要更多的時間。為了解決目標數增加帶來的這些問題，我們嘗試了合并目標的訓練策略，根據業務需要把某些目標合并成一個目標。在基于 ESMM 的模型結構下，擬合 CTR 的點擊目標是固定的，其余擬合 CTCVR 的目標中，我們把時長單獨做一類，所有需要建模的互動目標合并成一類。在構造互動目標的正樣本時，把所有互動的正樣本做并集，只要發生了其中一種互動行為，就算作是互動的正樣本。因此，模型結構跟之前的圖 10 完全一樣，建模的時候都是三個目標，只是訓練數據中互動目標的正類 label 構造的方式不一樣，如圖 11 所示。

圖11 互動目標合并的多目標模型：點擊+時長+合并的互動

實驗效果

點擊+時長+合并的互動多目標模型對比點擊+時長兩目標模型，下圖為其中某個互動指標的對比效果。

第四階段四目標

實驗結果表明，這種把多個互動目標合并成一個目標的建模方式，能有效提升其中每種互動的線上指標，對增加多種互動目標的建模具有很好的可擴展性。

經過以上多目標建模四個階段的優化后，QQ 看點圖文推薦在圖文時長、優質圖文曝光占比以及各種互動指標上，都得到了大幅度的提升，為業務帶來了顯著的正向收益。

小結

(1)相比純點擊目標的 CTR 預估模型，多目標模型能進一步提升用戶體驗，促進內容生態和賬號生態的發展。

(2)在多目標模型演進的第一階段，我們對點擊模型的樣本損失用時長加權，實現了點擊+時長兩目標模型的效果，有效提升了用戶的閱讀時長。該方法操作簡單，效果立竿見影，但是提升的幅度有限。

(3)在多目標模型演進的第二階段，我們在 DeepFM 點擊模型的基礎上做多目標建模，將 DeepFM 的 DNN 改進為多目標 MMoE 結構，模型輸出的兩個分數分別建模點擊和時長兩個目標，實現了真正的點擊+時長兩目標模型，大幅度提升了線上的用戶閱讀時長。

(4)在多目標模型演進的第三階段，我們把時長目標對點擊目標的依賴關系也建模起來，借鑒 ESMM 建模點擊轉化率的方法，在全樣本空間中同時擬合 CTR 和 CTCVR，更精確地預估每一步的轉化率，實現了用戶閱讀時長的進一步提升。

(5)在多目標模型演進的第四階段，我們保持模型結構和損失函數不變，在點擊和時長目標的基礎上，分別以單獨和合并的方式引入互動目標，實現了互動指標的顯著提升。

參考文獻

[1] Guo H, Tang R, Ye Y, et al. DeepFM: a factorization-machine based neural network for CTR prediction. IJCAI 2017: 1725-1731.

[2] Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts. SIGKDD 2018: 1930-1939.

[3] Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate. SIGIR 2018: 1137-1140.

[4] Zhao Z, Hong L, Wei L, et al. Recommending what video to watch next: a multitask ranking system. RecSys. 2019: 43-51.

[5] Tang H, Liu J, Zhao M, et al. Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations. RecSys 2020: 269-278.

[6] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems. RecSys 2016: 7-10.

[7] Wang R, Fu B, Fu G, et al. Deep & cross network for ad click predictions. ADKDD 2017: 1-7.

[8] Wang R, Shivanna R, Cheng D Z, et al. DCN-M: Improved Deep & Cross Network for Feature Cross Learning in Web-scale Learning to Rank Systems. arXiv preprint, 2020.

[9] Shan Y, Hoens T R, Jiao J, et al. Deep crossing: Web-scale modeling without manually crafted combinatorial features. SIGKDD 2016: 255-262.

[10] Song W, Shi C, Xiao Z, et al. Autoint: Automatic feature interaction learning via self-attentive neural networks. CIKM 2019: 1161-1170.

[11] Chen Q, Zhao H, Li W, et al. Behavior sequence transformer for e-commerce recommendation in Alibaba. Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. 2019: 1-4.

[12] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction. SIGKDD 2018: 1059-1068.

[13] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction. AAAI 2019, 33: 5941-5948.

[14] Xiao J, Ye H, He X, et al. Attentional factorization machines: learning the weight of feature interactions via attention networks. IJCAI 2017: 3119-3125.

[15] Lian J, Zhou X, Zhang F, et al. xdeepfm: Combining explicit and implicit feature interactions for recommender systems. SIGKDD 2018: 1754-1763.

[16] Covington P, Adams J, Sargin E. Deep neural networks for youtube recommendations. RecSys 2016: 191-198.

視頻號最新視頻歡迎點贊：

總結

以上是生活随笔為你收集整理的腾讯 QQ 看点图文多目标推荐实践经验的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：微信看一看实时相关推荐介绍
下一篇：云开发如何帮助业务扛过大流量活动洪峰丨深