當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读

發(fā)布時(shí)間：2023/12/19 pytorch 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

之前的文章講解了DIEN模型：CTR深度學(xué)習(xí)模型之 DIEN(Deep Interest Evolution Network) 的理解與示例，而這篇文章要講的是DSIN模型，它與DIEN一樣都從用戶歷史行為中抽取興趣表示，但不同的是DSIN把歷史行為劃分成了不同的Session，并且使用Transformer對每個(gè)Session內(nèi)的行為抽取特征。

模型解讀

整體模型的結(jié)構(gòu)如下：

首先看看右下部分的矩形區(qū)域，這部分主要是對用戶的行為序列建模，其中包含了4個(gè)子模塊。

1. Session Divsion Layer

從下往上看的話，最底層的粉色區(qū)域是Session分割層：

首先是把用戶的行為序列 $S={b_1, b_2, ... B_N}$ 劃分成K個(gè)Session會(huì)話 $Q_1, Q_2, ... Q_K$ ，不同的Session直接的間隔大于30分鐘，同一Session內(nèi)的序列 ${b_1, b_2, ..., b_T}$ 的間隔小于30分鐘。

2. Session Interest Extractor Layer

得到K個(gè)Session后，輸入到黃色的Session興趣抽取層，最終得到K個(gè)Session的興趣表示：

這一層把每個(gè)Session的序列數(shù)據(jù) $Q_k$ 和對應(yīng)的 bias encoding 結(jié)合起來，通過Transformer的 Multi-head Self-Attention機(jī)制提取Session內(nèi)部行為之間的聯(lián)系，進(jìn)而得到Session對應(yīng)的興趣表示 $I_k$ 。

2.1 bias encoding

首先，這個(gè) bias encoding 是怎么回事？

為了刻畫不同Session中不同物品的順序關(guān)系，引入了 bias encoding ：
$BE_{(k,t,c)} = w_k^K + w_t^T + w_c^C$
$BE_{(k,t,c)}$ 表示第k個(gè)session中第t個(gè)物品的embedding向量的第c個(gè)位置的偏置項(xiàng)，于是輸入到 Self-attention 中的數(shù)據(jù)為：
$Q = Q + B E$
其中，Q 包含了 $Q_1, Q_2, ... , Q_K$ 。

2.2 Multi-head Self Attention

然后就是每個(gè)Session的數(shù)據(jù)輸入到 Transformer 中：

對于輸入的數(shù)據(jù)，首先進(jìn)入的是 Multi-head Self-Attention，不同 head 學(xué)習(xí)到的 Attention 可能有所不同，這好比是用戶對商品的注意力頭可能放在顏色，款式，價(jià)格等不同因素上。假設(shè)要使用 H 個(gè) head，那么作者把 $Q_k$ 中每個(gè)物品的embedding平分成了H份： $Q_k = [Q_{k1}, Q_{k2}, ..., Q_{kH}]$ ，其中 $Qkh∈RT×dh,dh=1HdmodelQ_{kh} \in \mathbb{R}^{T \times d_h}, d_h = \frac{1}{H} d_{model}$ , 然后就是計(jì)算每個(gè) head 的 attention:
$head?h=Attention?(QkhWQ,QkhWK,QkhWV)=softmax?(QkhWQWKTQkhTdmodel?)QkhWV\begin{aligned} \text { head }_{h} &=\text { Attention }\left(\mathbf{Q}_{k h} \mathbf{W}^{Q}, \mathbf{Q}_{k h} \mathbf{W}^{K}, \mathbf{Q}_{k h} \mathbf{W}^{V}\right) \\ &=\operatorname{softmax}\left(\frac{\mathbf{Q}_{k h} \mathbf{W}^{Q} \mathbf{W}^{K^{T}} \mathbf{Q}_{k h}^{T}}{\sqrt{d_{\text {model }}}}\right) \mathbf{Q}_{k h} \mathbf{W}^{V} \end{aligned}$
其中 $W^Q, W^K, W^V$ 是線性變換矩陣，是模型需要學(xué)習(xí)的參數(shù)。然后將 $Q_k$ 所有的 head 拼接到一起，然后經(jīng)過 Add & Norm 層(殘差連接與層歸一化)，輸入到前饋神經(jīng)網(wǎng)絡(luò)中：
$I_k^Q = FFN(Concat(head_1, head_2, ..., head_H)W^o)$
然后再經(jīng)過一個(gè) Add & Norm 層。需要注意的是， $I_k^Q$ 仍然是 $T×dmodelT\times d_{model}$ 的大小，于是可以使用一個(gè)平均值池化把每個(gè)Session的序列轉(zhuǎn)為 $d_{model}$ 維向量：
$I_k = Avg(I_k^Q)$

3. Session Interest Interacting Layer

得到了K個(gè)Session的興趣表示 $I_1, I_2, ..., I_K$ 后，還需要輸入到 Bi-LSTM 中捕獲不同Session間的演變過程：

最終每個(gè)時(shí)刻的輸出為：
$H_t = Concat (h_{ft}, h_{bt})$
其中 $h_{ft}, h_{bt}$ 是前向LSTM的隱藏狀態(tài)和反向LSTM的隱藏狀態(tài)。

4. Session Interest Activating Layer

經(jīng)過上面的步驟，得到了兩種 Session表示： $I_1, I_2, ..., I_K$ 以及 $H_1, H_2, ... , H_K$ ，接下來就可以分別和目標(biāo)商品計(jì)算相似度了，如下圖的紫色部分所示：

其中的 Activation Unit 結(jié)構(gòu)如下圖所示：

左邊的輸入是目標(biāo)物品的 embedding，右邊的兩個(gè)輸入都是Session表示，這個(gè)注意力單元可以給不同的 Session 分配不同的權(quán)重，用來表示某個(gè) Session 和目標(biāo)物品的相關(guān)性，進(jìn)而可以對各個(gè) Session 進(jìn)行加權(quán)求和：
$akI=exp?(IkWIXI))∑kKexp?(IkWIXI)UI=∑kakIIk\begin{aligned} a_{k}^{I} &=\frac{\left.\exp \left(\mathbf{I}_{k} \mathbf{W}^{I} \mathbf{X}^{I}\right)\right)}{\sum_{k}^{K} \exp \left(\mathbf{I}_{k} \mathbf{W}^{I} \mathbf{X}^{I}\right)} \\ \mathbf{U}^{I} &=\sum_{k} a_{k}^{I} \mathbf{I}_{k} \end{aligned}$

$akH=exp?(HkWHXI))∑kKexp?(HkWHXI)UH=∑kKakHHk\begin{aligned} a_{k}^{H} &=\frac{\left.\exp \left(\mathbf{H}_{k} \mathbf{W}^{H} \mathbf{X}^{I}\right)\right)}{\sum_{k}^{K} \exp \left(\mathbf{H}_{k} \mathbf{W}^{H} \mathbf{X}^{I}\right)} \\ \mathbf{U}^{H} &=\sum_{k}^{K} a_{k}^{H} \mathbf{H}_{k} \end{aligned}$

其中的X，就是目標(biāo)item的embedding.

最后一個(gè)部分就是把用戶特征向量、待推薦物品向量、會(huì)話興趣加權(quán)向量 $U^I$ 、帶上下文信息的會(huì)話興趣加權(quán)向量 $U^H$ 進(jìn)行橫向拼接，輸入到全連接層中，得到輸出：

實(shí)驗(yàn)結(jié)果

使用了兩個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)，分別是阿里媽媽的廣告數(shù)據(jù)集(Advertising)和阿里巴巴的電商推薦數(shù)據(jù)集(Recommender)。如下圖所示：

對于某個(gè)商品，attention 可視化結(jié)果如下所示：

參考文章：

Deep Session Interest Network for Click-Through Rate Prediction

DSIN（Deep Session Interest Network ）分享

推薦系統(tǒng)論文DSIN：Deep Session Interest Network

總結(jié)

以上是生活随笔為你收集整理的CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： excel 创建数据有效性及背景颜色
下一篇：人脸跟踪