日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

神策数据房东雨:精准推荐的场景和实践

發布時間:2025/3/19 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 神策数据房东雨:精准推荐的场景和实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

?

以下內容根據神策數據架構師房東雨在神策 2018 數據驅動大會現場,題為《推薦的場景與實踐》演講內容整理所得。

本文主要內容包括:

  • 推薦的概念與主要場景

  • 推薦的流程

  • 推薦的方法

推薦在很早之前就已經開始應用,場景非常廣泛。近些年推薦也在發展,我的分享主要圍繞常用和前沿的推薦方法,以及不同推薦方法之間的優缺點等內容。

一、推薦的概念與主要場景

推薦本質是讓人們在海量信息找到他們需要的方法,它是信息爆炸時代下的產物推薦與搜索不同,搜索是用戶帶著意愿,推薦則與之相反:我(用戶)不知道要什么,此時你推薦的內容出現的話,我(用戶)會眼前一亮。

推薦有三個作用,包括降低信息過載、發掘長尾、提高轉化率。推薦分為個性化推薦和非個性化推薦。值得強調的是,個性化推薦只是推薦一種,是千人千面,精準到個人一面;非個性化推薦包括熱門推薦、編輯精選、相似推薦等。只有當個性化推薦與個性化配合,才能達到比較好的效果。

這是知乎的兩個主要的推薦場景,內容類主要是以這兩個類型為主流。圖 1 是用戶登錄后看到的內容,這些內容和用戶查看的歷史內容相類似。圖 2 中的“相關問題”,這些內容和用戶在讀的文章內容是有關聯的,這屬于非個性化推薦。

圖 1 知乎登錄首頁,來自于知乎

圖 2 知乎相關問題,來自于知乎

場景一:Feed

圖 3 Feed 推薦

這類是以信息流( Feed 流)的形式進行推薦。今日頭條是最典型的代表,內容足夠多也足夠優質,推薦很好地提升了用戶的使用時長。它的特點是,Feed 流會占據 APP 的主要空間,當用戶瀏覽到最底端的時候,下面會持續出現 Feed,當用戶進來后可以持續消費內容。

場景二:猜你喜歡

圖 4 猜你喜歡

這是“猜你喜歡”場景,它和 Feed 推薦最核心的區別在于:“猜你喜歡”一般是占用頁面的一部分,希望實現的是用戶行為的延伸操作。

場景三:相關推薦

圖 5 相關推薦

以上是“相關推薦”。比如用戶瀏覽一個手機后,下面推薦了“相關手機”,閱讀一篇文章后,下面推薦了“相關文章”,看了一部電影后,下面有“相關電影”,推薦內容和我們關注的內容相關。

二、推薦的流程

推薦目的之一是要建立人與物以及物物之間的關系,推薦的流程分為幾步。

第一步:確定業務場景

要根據你的產品形態、現有數據、業務目標、產品運營方向來確定你做推薦所需要的數據源。這些數據源包括:

1、要推薦物品或內容的元數據,例如 ID、關鍵字、描述等;

2、系統用戶的基本信息,例如 ID、性別、年齡等;

用戶需要唯一識別的 ID,推薦系統有一個難點是 Web 端的統一用戶識別,因為在手機端我們可以相對容易的來確定用戶 ID,但在 Web 端,由于存在瀏覽器等各種差異,會導致用戶 ID 差異。在此基礎上,如果有性別、年齡等信息,那么用戶畫像會更加清晰,更方便做個性化推薦。

3、用戶對物品或者信息的偏好,包括顯式的用戶反饋、隱式的用戶反饋、負反饋。顯式的用戶反饋例如用戶對物品的評分,或者對物品的評論;隱式的用戶反饋,例如用戶購買了某物品,用戶查看了某物品的信息等。負反饋,例如用戶點擊不喜歡, 或展現了物品信息但是用戶沒有點擊。

負反饋是大家容易忽略的,在機器學習系統里面如果只有正例,沒有負例是不能工作的。那我們如何采集負例?比如用戶點擊了一個叫“我不喜歡”的按鈕,這是用戶的負反饋。這種負反饋的缺點往往是量級不夠大,所以為了保證負反饋的足夠量級,神策通常采集負反饋的方式之一是,當我展示十個物品時,用戶點了第三個,可能因為不太喜歡第一、第二個物品,因而沒有點擊,那么前兩個物品就是用戶的負反饋,第三個商品就是用戶的正反饋。

4、訪問時的上下文信息,例如時間、請求頁面的其他信息等。

比如,用戶在公交車上與躺床上看的視頻可能是不一樣的,導致差異的因素可能是時間,也可能是網絡環境等;家里的電視,雖然是同一個 ID,但是爸爸、媽媽、孩子觀看的內容差異很大,如何在這種情況下做推薦?我們會嘗試引入時間維度,因為小朋友看電視的時間比較固定,媽媽看連續劇的時間也相對固定,引入時間維度在一定程度上能緩解這件事情,這個嘗試是很重要的。

第二步:建立評價體系

建立推薦系統之前,要想好如何進行評估。評價體系的方法包括離線評估和在線評估兩種方式。

離線評估包括人工評估、AUC、DCG。人工評估很好理解,比如我們評估一個用戶很喜歡動畫片,并進行一些推薦,我們可以直接去觀察所推薦的內容中用戶播放動畫片的比例是否比較大;同時 AUC、DCG 也是常用的模型離線評價指標,但是這些數據指標可能會存在比較大的偏差,所以我們一般不會拿此指標來直接評價效果,而只是將它作為參照指標。在線評估的標準,包括 CTR、平均閱讀時長、轉化率、留存等。

要進行科學的評估,可以重點注意以下幾個問題:

第一,通過 A/B Test 進行評估;大家應該非常了解 A/B Test,我要強調的是,分組的用戶應該是正交的,如果分組是安卓渠道和 iOS 渠道,那這兩組用戶本身的行為就會存在偏差,因為兩個渠道是有各自的特點的,這樣做并不是科學的方式。

第二,使用對比指標而不是絕對值指標;如果你關注 CTR 指標,追求的目標并非將目標達到 5% 就 OK,我們關注的指標應該是相對值,也就是對比基線策略提升了多少。因為絕對值會被產品形態和具體業務場景影響,比如產品首頁上只有這一個按鈕肯定點擊率很高。也就是說,在所有因子不變的情況下,只修改策略和方法后的對比指標才有意義。

第三,不管是機器學習還是推薦系統,追求的都是整體效果提升,而無法具體到優化每個個體的效果。推薦系統能優化的也是整體效果,是無法優化到個人,對個人優化時,我們一般只會處理那些 Bad Case。

第三步:選擇 Feature 與 Label

這個過程包括特征選取、數據清洗、特征工程、正例與負例。

第四步:模型訓練和工程化

這個過程包括數據流建立、訓練和優化模型、推薦服務。

第五步:實驗與迭代

綜上所述,推薦系統是一個流程:海量 Item——候選集合——排序列表——推薦結果。

圖 6 推薦系統流程

在推薦系統中,海量物品組成的可推薦池子中,對所有的數據進行一定的處理,才能保證在百毫秒內召回需要推薦的物品,并對物品進行排序,按照排序列表進行推薦,這個還需要配合非常多的工程上的方法。

三、推薦的方法

我們看一個優惠券推送的場景,這跟推薦場景非常一致。你可以通過用戶分群來做,不過這樣你可能會陷入無窮盡的規則添加中,直到失控。不過這種方式類似老中醫診脈,依賴前人經驗,有點不太靠譜。

圖 7 基于畫像、標簽的推薦(圖片來源于網絡)

如圖所示,左邊所謂的基于人口統計學推薦,右邊是基于內容標簽的推薦。

(一)內容標簽

1、分類與來源

基于標簽的推薦,要了解優質內容的標簽,以及內容標簽的分類,你需要花費大量的精力來整理標簽的體系。同時你也需要了解標簽的來源,包括運營產生標簽、用戶產生標簽、機器自動產生標簽。這三種標簽方法優缺點都很明顯。

  • 運營產生標簽的優點:質量較好、符合產品調性;缺點:存在運營人員自己的偏見、人力成本高、效率低。

  • 用戶產生標簽的優點:數量大、節省成本、能產生意想不到的內容;缺點:需要產品形態支持、質量較差、需要進行審核。

  • 機器自動產生標簽的優點:可自動運行;缺點:技術難度大、效果不可控。

如果將三種標簽方式結合后產生標簽的方法有時會更有價值。我們看下面這張圖,生成的第一個內容標簽是“偷拍成功”,第二個是“學霸養成中”,第三個詞是“完美側顏”,這三個標簽都是經過運營、用戶、機器三者的結合后打的標簽,這個標簽經過了圖像識別,然后由客戶選擇了運營之前寫好的標簽,這樣能產生更有意思的結果,但是這個確實比較難,需要你們的產品能夠支持這種模式。

圖 8 圖片與標簽場景

2、內容標簽推薦的優缺點

標簽推薦的優點是簡單易行,可以理解。缺點包括以下幾個方面:

第一,受標簽質量影響大。如果標簽質量太差,標簽粒度很粗,那就沒有什么價值。

第二,受標簽產生者個人偏差大。標簽產生者受自身知識體系所限,所設標簽和用戶真實應用場景不一致。

第三,采用基于規則方法時規則量化不準確。比如優惠券為什么設為 1000 元,而不是 1500 元?這個數據是拍腦袋決定的。

第四,缺乏探索性和擴展性。你只能選擇被標簽化的內容,比如一部動畫片中有很多舞蹈,包括街舞、宅舞等。如果沒有“宅舞”這個標簽,這類內容你只能將其分到其他標簽中,比如“廣場舞”標簽中,因此內容標簽推薦受限于完整的分類體系。

(二)協同過濾

協同過濾是非常有效的推薦方法,最早應用協同過濾系統的設計是解決 Xerox 公司在 Palo Alto 的研究中心資訊過載的問題。協同過濾簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息,考慮的是“共現”,基礎是物以類聚、人以群分的思想。

協同過濾在推薦效果上有明顯的提升,他的優點在于:

第一,利用其他人的智慧,能學習出難以表述的概念(如個人品味,文章的質量等)。利用了群體智慧來幫助構建推薦系統,比如用戶看完 A 視頻后,去看了 B 視頻,用戶這種潛意識的行為會幫你建立 AB 視頻的聯系。

所以例如品位是一個很難量化且無法標簽化的東西,但通過協同過濾這種共現的方法,是可以學習到品味這種概念。

第二,不需要預先建立標簽體系,你不需要花人力來做大量標簽的標注。

第三,可以根據數據和反饋自動訓練。這個模型是在不斷變化的,它會使用最新的數據來去訓練模型,而不需要你的運營人員反復看“我的標簽體系是不是要變了,是不是要重新打標簽了”。

第四,更好的規則變化,有更大的探索性擴展性。因為所有的值都是機器學習出來的,而不是去拍腦袋“拍”的,會更加客觀,并且具有更大的探索和擴展性,很多你不知道的概念會被機器學習到。

同時,缺點也很明顯,一是冷啟動的問題,因為協同過濾應用的是人和物的關系,如果物是一個新的人或者是一個新的物品,就很難解決;二是稀疏性問題: 系統歷史數據過少,系統無法進行訓練,難以進行精確的模式查找匹配推薦;三是不具備可解釋性。

(三)推薦系統中的深度學習

對比協同過濾,深度學習召回模型更有優勢:

第一,更全面的行為表達。在模型中結合點擊、收藏、搜索等多種行為,能更全面地表示用戶行為偏好,而在協同過濾中是不能這么做的。

第二,可添加畫像特征,可加入性別、地域等用戶畫像相關的特征。如果你有額外的一些標簽或發生的信息,這個模型是可以兼容的,它可以把所有信息糅雜在同一模型里面去做,而在協同過濾模型里面是完全無法引入的。

第三,考慮用戶的行為順序。比如用戶通常的行為順序是,先買一個手機,然后再去買一個手機殼;買了一個汽車后可能會買個汽車坐墊。如果推薦順序是:用戶買了個手機殼后被推薦了一款手機,這樣的邏輯明顯是錯誤的。

協同過濾是不具備序列關系的學習能力的,它將所有的行為都看成一個完全平等的關系,而深度學習是可以學習順序,在整體模型的表達的能力和調優方面都非常前沿。

圖 9? 神策數據某電視推薦場景

這個是神策在一個客戶上做推薦的結果。一個用戶剛看完《小豬佩奇》第二季第一集,如果基于協同過濾可以推出《小豬佩奇》其他集,但是如果基于深度學習召回模型是可以連續推出《小豬佩奇》第二季第二集、第三集等。

第四,組合復雜特征。神經網絡可以進行更復雜的特征組合,挖掘更深層次的關聯關系。

(四)排序方法

在排序方面,這些年有很大的發展。隨著數據量增多以及業務模式的復雜性,我們可以選擇更復雜的模型來解決問題。當然這需要推薦的點擊數據要和展現數據實現比較好的整合,這也是要重視展現數據的主要原因。

圖 10 神策數據推薦排序場景

這里是我們在做排序數據的時候,Level 列的數字是 01010,意思就是有沒有點擊,所有點擊的展現全都寫在一張表里,如此才可以訓練排序模型。

四、綜述

綜上所述,推薦是一個系統,不是一個簡簡單單的模型,推薦包含了大量的數據收集和業務理解的工作,同時還需要對應的全套工程架構的支持。最后有幾句話想和大家分享下:

第一句是“數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已”。如果你的數據根基沒有做好,那所有的工作都是徒勞的。

第二句是“世界上最遙遠的距離,是我們的算法一樣, 但訓練數據不同”。每家公司的模型搭建都大同小異,但是模型落地在業務的時候,真正差距在于你的數據是不是對的,是不是干凈,是不是及時的,這才是決定整個推薦系統最終效果的重要因素。如果你不能從數據治理開始,空中樓閣般的搭了一套算法框架的話,你會發現你的產品落地還是很遠。

總之,推薦的關鍵是數據,數據是一切算法的根基, 是一切迭代的依據。

更多互聯網干貨和案例,可關注【神策數據】公眾號了解~

?

總結

以上是生活随笔為你收集整理的神策数据房东雨:精准推荐的场景和实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。