日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

广告分析

發(fā)布時間:2025/3/21 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 广告分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

廣告分析

廣告點擊率預測中的幾點問題

@zen.wan

? ? ? ?【問題來源】LR模型將會用于對廣告展現(xiàn)時,根據(jù)點擊率,對展現(xiàn)的廣告做重排序。具體的做法是:

  • 根據(jù)一個月該行業(yè)的日志,找到每次搜索時,當時展現(xiàn)的所有廣告(一次展現(xiàn)固定出三條廣告)。他們把每個廣告的每次展現(xiàn)當作樣本,當時是否點擊為LR的y值:0或者1。這樣一共獲得了50w個樣本(比如在一次搜索queryA下展現(xiàn)了三條廣告a,b,c,其實a被點擊了一次,那么這次搜索一共對應3個樣本,其中第一個樣本的y為1,后面兩個樣本的y為0)
  • 對樣本做均勻抽樣分成兩份,70%為訓練樣本,30%為測試樣本,抽取了100種特征,其中一個特征是當時廣告在網(wǎng)頁中的排序(1,2或者3)
  • 使用公司的LR在訓練樣本上進行訓練,在測試樣本中進行檢測, 認為LR模型給出的p即為廣告的點擊率,其中:
  • 對于廣告在網(wǎng)頁中的排序,韓梅梅使用的方法是離散乘0-1特征,即將排序離散成(是否為第一名,是否為第二名,是否為第三名),如果樣本的排序是第一名,對應的特征為(1,0,0),如果樣本的排序為第二名,對應的特征為(0,1,0),而李雷的方法是直接對排序做歸一后當作特征的取值,如第一名為0,第二名為0.5,第三名為1,問他們誰的方法效果會更好,為什么?
  • 一般大型LR模型都是使用隨機梯度下降的方式,所以需要選擇初始值,韓梅梅把beta()的初始值設置成了廣告的平均點擊0.01,而李雷把bata()設置為1,問在實際線上應用的時候,他們誰的方法效果會更好,為什么?
  • 在直接使用LR模型的時候(loss=\sum yi*log(h(x))+(1-yi)*log(1-h(x)))h(x)=1/(1+exp(-xi*thetai)),韓梅梅和李雷發(fā)現(xiàn)在訓練樣本中擬合的很好,但是在測試樣本中效果比較差,問可能是什么原因?qū)е?#xff1f;怎么解決?
  • d.在測試的時候,他們使用auc來評估效果,請問auc是怎么計算的?

  • 在單特征(實際業(yè)界還需要用到cross_feature)提取中,對于categorical feature ,一般采用one-hot encoding(獨熱編碼),而cross_feature 也一般是對categorical feature經(jīng)常交叉。需要one-hot encoding 是因為一些離散的值是沒有比較大小的意義,比如gender=[“man”,”female”],city = [“shanghai”,”hefei”,”wuhan”],對于一些看似可比的feature,實際上也是沒有可比性的,比如廣告的位置(rank)。有實際比較意義的feature如:price價格),reviews_count(評論數(shù)),sold_count(銷量)等。
    下面我舉個例子來說明one-hot encoding:
    user_gender=gender=[“man”,”female”],user_city = [“shanghai”,”hefei”,”wuhan”] ,ad_rank = [1,2,3] 則feature_set = [“man”,”female”,”shanghai”,”hefei”,”wuhan”,rank_1,rank_2,rank_3],假如有一條記錄是:一位上海同學對第二個廣告進行了點擊,則one-hot endoing的結(jié)果就是[1,0,1,0,0,0,1,0].
    實際開發(fā)中,我們需要掃描兩次數(shù)據(jù),采用稀疏矩陣存儲,第一次生成feature_set,第二次再進特征編碼。
  • beta()初始值設定沒有固定原則,beta()的幾何意義是截距,就是在特征權(quán)值w全為0的情況下的取值,從另外一個角度看,就是對一個全新的商品賦予的點擊率。通常可以取平均值,取1的話就是賦予了對點擊率預測來說 有點過高,不太可取。
  • 模型選擇的策略一般有兩種,一種是結(jié)構(gòu)風險最小化,還有一種是經(jīng)驗風險最小化,此處選用的是經(jīng)驗風險最小化,經(jīng)驗風險最小化的一個缺點是,它求取的的參數(shù)是對于訓練集的無偏估計,結(jié)果就是容易產(chǎn)生過擬合現(xiàn)象,即對訓練集而言有良好的泛化能力,對驗證集卻很糟糕,而結(jié)構(gòu)風險最小化就是克服over-fitting而提出的,它的做法就是在經(jīng)驗最小化的基礎上增加一個正則化因子,正則化項可以是參數(shù)向量的L1范數(shù),也可以是L2范數(shù)!業(yè)界通常采用LR+L1的做法(Lasso回歸)。為什么選擇L1而不是L2,主要是L1是一種稀疏型學習方法。
  • 計算AUC前需要了解ROC曲線:

    正如我們在這個ROC曲線的示例圖中看到的那樣,ROC曲線的橫坐標為false positive rate(FPR),縱坐標為true positive rate(TPR)。下圖中詳細說明了FPR和TPR是如何定義的。

    接下來我們考慮ROC曲線圖中的四個點和一條線。第一個點,(0,1),即FPR=0, TPR=1,這意味著FN(false negative)=0,并且FP(false positive)=0。Wow,這是一個完美的分類器,它將所有的樣本都正確分類。第二個點,(1,0),即FPR=1,TPR=0,類似地分析可以發(fā)現(xiàn)這是一個最糟糕的分類器,因為它成功避開了所有的正確答案。第三個點,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true positive)=0,可以發(fā)現(xiàn)該分類器預測所有的樣本都為負樣本(negative)。類似的,第四個點(1,1),分類器實際上預測所有的樣本都為正樣本。經(jīng)過以上的分析,我們可以斷言,ROC曲線越接近左上角,該分類器的性能越好。
    AUC(Area Under Curve)被定義為ROC曲線下的面積,顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應AUC更大的分類器效果更好。
    最簡便的計算規(guī)則如下:首先對score從大到小排序,然后令最大score對應的sample 的rank為n,第二大score對應sample的rank為n-1,以此類推。然后把所有的正類樣本的rank相加,再減去正類樣本的score為最 小的那M個值的情況。得到的就是所有的樣本中有多少對正類樣本的score大于負類樣本的score。然后再除以M×N。即 另外,特別需要注意的是,再存在score相等的情況時,對相等score的樣本,需要 賦予相同的rank(無論這個相等的score是出現(xiàn)在同類樣本還是不同類的樣本之間,都需要這樣處理)。具體操作就是再把所有這些score相等的樣本 的rank取平均。然后再使用上述公式。


    參考文獻:
    [1]李航.統(tǒng)計學習方法.清華大學大學出版社.
    [2]ROC和AUC介紹以及如何計算AUC
    [3]?AUC的計算方法總結(jié)

  • 總結(jié)

    以上是生活随笔為你收集整理的广告分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。