日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

推荐系统笔记:基于模型的协同过滤

發布時間:2025/4/5 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐系统笔记:基于模型的协同过滤 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 介紹

????????基于鄰域的協同過濾方法可以看作是機器學習中常用的k-最近鄰分類器KNN的泛化。 這些方法是基于實例的方法,因此,除了可選的預處理階段之外,沒有專門為預測預先創建模型

推薦系統筆記:Introduction_UQI-LIUWJ的博客-CSDN博客

1.1 基于模型的協同過濾 VS 分類回歸問題

????????在基于模型的方法中,與有監督或無監督的機器學習方法一樣,預先創建了從數據學習到的模型。 因此,訓練(或模型構建階段)與預測階段明顯分開。

????????傳統機器學習中此類方法的示例包括決策樹、基于規則的方法、貝葉斯分類器、回歸模型、支持向量機和神經網絡 。 有趣的是,幾乎所有這些模型都可以推廣到協同過濾場景,就像 k 最近鄰分類器可以推廣到基于鄰域的模型進行協同過濾一樣。

????????這是因為傳統的分類和回歸問題是矩陣補全(或協同過濾)問題的特例。(推薦系統筆記:Introduction_UQI-LIUWJ的博客-CSDN博客?1.1.3 小節)

????????在為協同過濾設計學習算法時,記住協同過濾問題和數據分類問題之間的相似性很有用。這是因為數據分類是一個研究比較深入的領域,分類的各種解決方案也為協同過濾算法的設計提供了重要的提示。

????????事實上,大多數機器學習和分類算法在協同過濾文獻中都有直接的類比。以類似于分類模型的方式,可以理解協同過濾推薦系統中的大量算法。(例如,分類文獻中的經典元算法,如 bagging、boosting 或模型組合,可以擴展到協同過濾。)

????????然而,將數據分類模型直接推廣到矩陣完成問題并不總是那么容易,尤其是當絕大多數條目丟失時。 此外,各種模型的相對有效性在不同的環境中是不同的。 例如,一些最近的協同過濾模型,例如潛在因子模型,特別適合協同過濾。 然而,這些模型在數據分類的背景下不被視為有競爭力的好模型。

1.2 相比于基于鄰居的協同過濾問題的優勢

1.2.1 空間優勢

????????通常,學習模型的大小比原始評分矩陣小得多。 因此,空間要求通常很低。

1.2.2 速度優勢(訓練速度&預測速度)

????????基于鄰域的方法的一個問題是預處理階段是用戶數量或項目數量的二次方。(比較某一個用戶/項目 和其他所有的用戶和項目, 以找到同類用戶/項目)

????????在構建訓練模型的預處理階段,基于模型的系統通常要快得多。 在大多數情況下,緊湊和匯總的模型可用于有效地進行預測

1.2.3 避免過擬合

????????過度擬合是許多機器學習算法中的一個嚴重問題。?基于模型的方法的總結方法通常可以幫助避免過度擬合。 此外,在基于模型的方法中,可以使用正則化方法使這些模型具有魯棒性。

????????盡管基于鄰域的方法是最早的協同過濾方法之一,并且由于其簡單性也是最受歡迎的方法之一,但它們不一定是當今可用的最準確的模型

????????事實上,一些最準確的方法通常基于基于模型的技術,特別是基于潛在因素模型

2 決策樹&回歸樹

????????推薦系統筆記:決策樹&回歸樹_UQI-LIUWJ的博客-CSDN博客

3 關聯規則

關聯規則(Association Rules)筆記_UQI-LIUWJ的博客-CSDN博客_association rule

????????關聯規則\和協同過濾之間的關系是很自然的,因為關聯規則問題首先是在發現超市數據之間的關系,并利用之向用戶推薦的背景下提出的。?

? ? ? ? 在關聯規則問題中,客戶購買的物品設置為 1,而缺失的物品設置為 0 作為近似值。 對于大多數類型的評分矩陣,將缺失值設置為 0 并不常見,因為這樣做會導致預測出現偏差。 但是,它通常被認為是稀疏一元矩陣中可接受的做法,因為在這些情況下,屬性的最常見值通常為 0。 因此,偏差的影響相對較小,現在可以將矩陣視為二進制數據集。

? ? ? ??基于關聯規則的協同過濾的第一步是在預先指定的最小支持度和最小置信度水平上發現所有關聯規則。最小支持度和最小置信度可以被視為參數,這些參數經過調整 以最大限度地提高預測準確性。

????????只保留那些結果中恰好包含一個項目的規則。這組規則就是模型,可用于為特定用戶執行推薦。

????????考慮一個給定的客戶 A,它希望向其推薦相關項目。第一步是確定客戶 A 觸發的所有關聯規則。如果關聯規則的前件中的項集是該客戶偏好的項的子集,則稱關聯規則被客戶 A 觸發

????????然后按照降低置信度的順序對所有觸發的規則進行排序。在這些排序規則的結果中發現的前 k 個項目被推薦為客戶 A 的前 k 個項目。

????????上述關聯規則基于一元評分矩陣,允許指定喜歡,但不允許指定不喜歡。

???????? 但是,通過使用這種基本方法的變體,可以輕松處理數值評級。

???????? 當可能的評分數量很少時,評分-項目組合的每個值都可以視為一個偽項目(pseudo item)。 此類偽項目的一個示例是(項目 = 面包,評分 = 1分)。【此時的規則形如這樣的:(項目=面包,評分=1分) & (項目=蛋糕,評分=5分)-> (項目=披薩,評分=4分)】

????????根據這些偽項目創建一組新的交易。 然后使用前面討論的關聯規則方法根據這些偽項目構建規則。 ?

????????對于給定的客戶,觸發規則集是通過識別其先行詞包含該用戶的偽項目子集的規則來確定的。

????????規則按置信度降序排列。這些排序規則可用于通過選擇這些規則的結果中的前 k 個偽項目來預測項目的評分。

????????在這種情況下可能需要的附加步驟是解決各種規則之間的沖突,因為客戶觸發的規則中的不同偽項可能會發生沖突。

????????例如,偽項目(項目 = 面包,評分 = 1分)和(項目 = 面包,評分 = 2分)是沖突的偽項目。

????????這種沖突可以通過找到一種在結果中聚合評級的方法來解決,以創建最終排序的推薦列表。還可以通過使用各種啟發式方法對結果中的評分進行數值聚合

????????例如,可以首先確定結果對應于感興趣項目的所有觸發規則。以加權平均方式對這些觸發規則的結果中的項目評分進行投票,以便對該用戶-項目組合進行預測。人們可以通過平均過程中的相應置信度來加權觸發規則中的評級

????????例如,如果兩個規則在結果(對于特定項目)中包含評分1,置信度分別為 0.9 和 0.8,則該項目打分為1分的總“票數”為 0.9+0.8=1.7 .

???????當評分量表的粒度非常有限(例如,喜歡或不喜歡)時,投票方法更合適。在具有高粒度的基于區間的評級的情況下,可以將評級離散為較少數量的區間,然后使用與上述相同的方法。

總結

以上是生活随笔為你收集整理的推荐系统笔记:基于模型的协同过滤的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。