使用基于时间的关系加权标准来改善社交网络中的链接预测
使用基于時間的關系加權標準來改善社交網絡中的鏈接預測
關鍵詞:鏈接預測,社交網絡,加權圖。
?
摘要:近年來,對復雜網絡中鏈路預測(LP)問題的研究引起了相當多的關注。此問題試圖預測網絡中兩個未互連節點之間出現未來關聯的可能性。已經開發了各種方法來解決這個問題。其中一些計算連接節點之間的兼容性程度(鏈接強度),并應用非連接節點之間的相似性度量以識別潛在鏈接。然而,盡管時間數據對LP問題的重要性得到公認,但很少有舉措研究使用這種信息來表示鏈接強度。在本文中,我們提出了一個權重標準,它將交互頻率和關于它們的時間信息結合起來,以便定義連接節點對之間的鏈接強度。我們在10個共同作者網絡中使用傳統加權相似性度量的實驗結果證實了我們的假設,即基于時間信息的加權鏈接事實上可以改進鏈接預測。擬議的標準制定,實驗程序和所進行的實驗結果進行了詳細討論。
1.?引言
近年來,社會網絡分析受到了科學界和工業界的高度關注(Wang et al。,2015)。 它試圖了解大規模社交網絡的結構如何演變。 例如,預測未來一對節點是否會連接是一個重要的網絡分析任務,稱為鏈路預測(LP)問題(Liben-Nowell和Kleinberg,2007)。 已經開發了各種方法來預測社會網絡中的鏈接(Adamic和Adar,2003)(Barabasi等,2001)(Choudhary等,2013),(Liben-Nowell和Kleinberg,2007)(Munasinghe和Ichise,2012年 ),(Valverde-Rebaza等,2015),(Lu¨和Zhou,2010),(Murata和Moriyasu,2007),(Soares和Prudencio,2011),(Zhu and Xia,2016)。 根據(王等人,2015),這些方法分為兩種方法:
(1)監督 - 這種方法將原始圖轉換為二元分類問題,并使用決策樹和神經網絡等學習算法來構建分類模型(Hasan等,2006)。
(2)無監督 - 來自這種方法的方法基于相似性度量,該度量計算分數以表達在非連接節點對之間的某種兼容性程度(例如,同源性,關系,分離程度等)。然后獲得一個按照得分降序排列的列表,并且來自列表頂部的對的節點更可能連接(Liben-Nowell和Kleinberg,2007)。公共的鄰居(CN)和Adamic-Adar索引(AA)的數量是在計分計算中經常使用的基于拓撲的相似性度量的典型示例(Wang et al。,2015)。
節點連接時也可以考慮兼容程度。在這種情況下,它被稱為節點之間的鏈接強度,并由分配給表示相應連接的邊的數字權重組成。鏈路強度值越高(低或越低),表示節點強烈(或弱)鏈接。從無監督方法到LP問題的大多數舉措都沒有考慮到鏈接強度。然而,這些信息可能被用來為鏈接預測提供有用的見解。例如,與其共同鄰居強聯系的兩個非聯結節點比聯結其共同鄰居的聯結更可能連接。
很少有關于LP問題的無監督方法的研究評估了連接節點之間鏈接強度的使用(Murata and Moriyasu,2007),(Lu¨和Zhou,2010)(Soares和Prudencio,2011)(Zhao et al。, (Taha,2007),(Zhu and Xia,2016),(Dunlavy et al。,2011)。他們采用了一些加權標準來計算鏈接強度3。在幾乎所有這些標準中,所采用的權重標準是節點(Fi)(村田和Moriyasu,2007),(Lu和Zhou,2010),(Soares和Prudencio,2011),夏,2016)。基于Fi,頻繁交互的節點之間的鏈接強度高于偶爾連接的鏈接強度。雖然有趣,但這個標準并沒有考慮到互動發生的時間。因此,新舊交互在體重定義上具有相同的影響力。這一特征并不能滿足弱關系的社會理論(Granovetter,1973)。根據這種理論,最近的相互作用傾向于刺激網絡中新的相互作用的發生。因此,最近的連接應該在鏈路強度計算中有更高的影響,并因此在鏈路預測中有更大的影響。
我們的假設是基于交互頻率和時間信息的組合加權鏈接可以改善鏈接預測。 為了說明這一點,在本文中,我們提出了一個權重標準(稱為FTi),它將交互頻率和關于它們的時間信息相結合,以提高鏈接強度的質量,從而提高社交網絡中LP的性能。 在實驗中,我們運行FTi和Fi來分析每個網絡的權重。 此后,我們比較了WCN和WAA應用于所有加權網絡的性能。 兩種指標在應用于FTi標準加權的網絡時表現出更好的性能,證實了我們的假設。
該文本包含其他五個部分。 第2節介紹一些關于鏈接預測的背景知識。 在第3節中,我們描述了建議的加權標準。 關于實驗結果的細節在第4節中給出。結論和未來的工作在第5節中提出。
2.?背景
給定在時間ti和相似性度量d(d:VxV→R)上的齊次歸屬多圖G(V,E)的快照,通過以下步驟描述無監督方法對LP的一般過程(Liben-Nowell 和Kleinberg,2007年):
(1)Graph分區 - 這個步驟將G(V,E)分成兩個子圖:GTraining(V,EOld)和GTest(V,ENew)。 GTraining包含直到ti為止創建的所有邊(即,e.t≤ti且e∈EOld)。 類似地,GTest包含在ti之后創建的所有邊e(即,e.t> ti和e∈∈ew)
(2)Graph加權 - 首先,它在GTraining中連接的節點之間建立人工邊界。 然后它計算每個邊的權重。 權重計算遵循特定標準(例如,相應節點之間的原始邊緣的數量)。 圖1說明了這個過程。
?
圖1:人工加權圖的例子。 原始圖形中存在由連續線表示的邊線。 用虛線表示的那些是為了LP目的而人為創建的。 加權標準定義了虛線的權重。
?
(3)核心標識 - 該步驟負責過濾活動節點vi,即在GTraining中至少有k個原始邊緣和至少k個GTest中的原始邊緣的節點。參數k由用戶定義,通常取決于 網絡中發生交互的平均頻率。 活動節點比很少與其他節點交互的節點更可能連接。 Core,G中所有活動節點的集合就是這一步的輸出。
(4)4分值計算 - 它使用d來為每對屬于核心的節點vi和v j分配一個分數d(vi,v j),并且在GTraining中沒有連接。
(5)性能評估 - 此步驟按d(vi,v j)(排名表中第一位較高的分數d(vi,v j))對配對(vi,v j)進行排序。排名列表中的Top-N對(vi,v j)被選為具有最高可能性的節點在t之后進行連接。 N是未在GTraining中連接但在GTest中連接的活動節點對的數量(見公式1)。最后,這一步將d的性能與基線隨機預測器的性能進行比較。隨機預測器只是簡單地預測在GTraining中沒有連接的隨機選擇的節點對。隨機預測正確的概率僅由| ENew |之間的比率表示和可能的正確預測的數量((核心) - | Eold |)。公式2輸出相對于隨機預測器的相似性度量的改進因子,其中Ecorrect是進程正確預測的鏈接數量。這個因素是傳統上用來比較LP中相似性度量的性能的評估度量(Liben-Nowell和Kleinberg,2007)。
?
關于上面介紹的無監督方法有一些重點需要強調:
(6)過去幾年,對LP的非監督方法進行了深入的研究(Liben-Nowell和Kleinberg,2007),(Lu和Zhou,2010),(Li等,2012),(Kuo等,2013)。 基本上,相關工作在構思相似性指標的方式和用于生成分數的信息種類方面有所不同。
(7)雖然圖形加權步驟不屬于(Liben-Nowell和Kleinberg,2007)提出的原始過程,但它經常被考慮到連接節點的鏈接強度以預測新的連接。
(8)相似性度量的選擇是無監督方法的一個重要決策。 (Murata和Moriyasu,2007)是第一個提出圖表加權步驟和相似性度量的加權版本(如常見鄰居和Adamic-Adar索引)的工作。 有關這些指標的原始版本和加權版本,請參閱表1。 加權度量不考慮圖的原始邊。 對于這些度量標準,分數計算僅限于圖形加權步驟構建的仿真邊。)
表1:在LP中使用得分計算方法的例子 - 原始版本和加權版本。
?
3.提出的權重標準
本節介紹了在LP的無監督方法的圖加權步驟中使用的建議加權標準(FTi)。 受到弱關系社會理論的啟發,FTi標準的構想是將相互作用的頻率與關于它們的時間信息相結合,以便最近的相互作用在預測新的關聯方面比舊關系具有更高的影響。
等式3定義了FTi標準。 它應用于加權圖的每個人造邊緣并包含兩個因素:
?
(1)第一個函數(NoI(u,v))返回節點u和v之間交互(原始邊)的數量(頻率)。
(2)受(Munasinghe和Ichise,2012)提出的時間分數度量的啟發,第二個(βCT-max(t(u,v)))是一個阻尼因子(即需要考慮時間)。 最近交互的連接節點之間的權重高于最近一次交互發生在過去的那些節點之間的權重。 CT表示當前時間。 函數max(t(u,v))返回u和v之間邊中最近的時間戳。因此,CT_max(t(u,v))返回最近一次u 和v到當前時間。 β是屬于區間[0,1]的參數,分析人員使用它來校準加權過程中最近相互作用年齡的重要性。 β的較高(或較低)值在加權定義中增強(或衰減)時間的影響。
考慮如圖1所示的例子。將權重標準限制為互動的次數(Fi)(Murata和Moriyasu,2007)(Lu¨和Zhou,2010),(Soares和Prudencio,2011),( Zhao等人,2015),(Taha,2007),(Zhu and Xia,2016),(Dunlavy et al。,2011),所有三對節點的權重是相同的(權重(A,D) =權重(B,D)=權重(C,D)= 3)。 因此,他們的聯系在分數計算中具有同樣的重要性,因此在鏈接預測中也是如此。 例如,WCN相似性度量將針對三個可能的新鏈接(WCN(A,B)= WCN(A,C)=WCN(B,C)= 3)呈現相同得分,表明它們在鏈接預測中沒有偏好。
另一方面,如果按照FTi準則的規定考慮了時間信息,那么最近的相互作用會導致更高的權重,并因此在鏈路預測中更多地受到影響(根據弱關系理論)。 在該示例中,使用CT= 2016并且β= 0.8的FTi準則,權重將是:
?
雖然,三對節點呈現相同的交互頻率(每個三個連接),但與FTi相比,最近交互的節點獲得了更高的權重。相互作用的頻率隨著每對節點之間最近相互作用的年齡而衰減。 (A,D)對的權重最高。事實上,由于節點在當前時間內互動(2016年),A和D之間的交互頻率沒有受到衰減。另一方面,對(B,D)和(C,D)的節點之間的相互作用的頻率確實遭受了一些衰減。節點C和節點D之間的最后一次互動發生在2014年(年份差= 2歲)。 B和D最后在2015年互動(年份差= 1年)。因此,(C,D)的權重高于(B,D)的權重。
考慮到FTi提出的權重,WCN相似性度量將為三個可能的新鏈接提供不同的評分 (WCN(A, B) =2.7; WCN(A,C) = 2.5; WCN(B,C) = 2.2)。根據這個度量標準,配對(A,B)比其他配對更可能連接。兩個節點(A和B)最近與其共同鄰居(D)交互,而不是其他對。強調這一結果符合弱關系理論是非常重要的。事實上,根據這個理論,那些最近的交互會刺激網絡中出現新的交互,很可能在節點A和B之間。
4.實驗
4.1數據集
我們選擇了兩個版本(Liben-Nowell和Kleinberg,2007)使用相同的五個共工作者網絡來執行我們的實驗。 第一版(1994年至1999年的論文)覆蓋了(Liben-Nowell和Kleinberg,2007年)使用的相同時間間隔。 這對幫助我們驗證我們的實施非常重要。 第二版(2000年至2005年的論文)涵蓋了(Munasinghe和Ichise,2012年)使用的同一時期。 所有網絡都是從arXiv API9中提取的。
這兩種版本的網絡都是同質的多圖,其中節點和邊分別代表作者和論文。 所有網絡在邊緣都包含一個屬性:論文的發表年份。
4.2實驗過程
我們的實驗遵循了第2節中描述的相同步驟。關于每一步的具體內容如下:
?圖表分區 - 我們將每個網絡分為兩個三年的時間段。因此,從1994年到1999年的每篇論文都被劃分為GTraining [1994,1996]和GTest [1997,1999]。同樣,2000年至2005年的論文網絡分為GTraining [2000,2002]和GTest [2003,2005]。
?圖加權 - 我們在GTraining中連接的節點之間創建了人造邊。然后我們計算出每個人工邊緣的十個權重值。 Fi是用于計算第一個權重的權重標準。 FTi被用來計算
其他九個權重。我們將阻尼因子β的值從0.1變化到0.9。 β的每個值都導致九個權重之一。
?核心識別 - 為了識別屬于核心組的節點,我們考慮了k = 3。因此,核心組成員包括所有在訓練集至少寫過3篇文章的活躍作者,以及至少3篇文章測試集。有三個原因指導了這種選擇:(a)所有網絡的訓練和測試周期的長度為三年; (b)我們認為一年可能是紙張出版的合理頻率間隔; (c)這與(Liben-Nowell和Kleinberg,2007)中定義的相同的值,其中進行了類似的實驗。
?分數計算 - 此步驟執行每個網絡中每個仿真邊緣的相似性度量(WCN和WAA)。 為了更好地呈現結果,我們使用首字母縮略詞WCNFi和WAAFi來表示用Fi標準產生的權重計算的相似性度量。 首字母縮略詞WCNFTi(β)和WAAFTi(β)用于表示用所提出的權重標準產生的權重計算的相似性度量。
?性能評估 - 將WCNFi,WAAFi,WCNFTi(β)和WAAFTi(β)的性能與隨機預測器的性能進行比較。 它們代表隨機預測變量相應度量的改進因子。
4.3結果
表2和表3提供了識別核心步驟后的網絡的一些統計數據。
?
表2:關于實驗中使用的第一版網絡的統計數據 - 1994年至1999年的論文。
?
圖2和圖3顯示了每個網絡上每個度量在隨機預測器上的改進因子的性能。 整體分析顯示,在所有網絡和時段中,沒有任何指標超過所有其他指標。 盡管如此,仔細分析可以看出一些有趣的結果。
?
在衡量標準的兩兩比較中,WCNFTi和WAAFTi分別在六個網絡(60%)和七個網絡(70%)中表現優于WCNFi和WAAFi。 同樣重要的是強調WCNFTi和WAAFTi分別在第二版的五個網絡中的四個(80%)和五個(100%)中表現優于WCNFi和WAAFi。 我們認為,這是由于這些網絡更近(2000年至2005年),因此比第一版(1994年至1999年)更完整和更新。
?
在加權標準的兩兩比較中,FTi在十個網絡中的六個(60%)中表現優于Fi。這六個網絡中的五個屬于第二個版本,加強了我們關于該組網絡完整性的理論。在兩個網絡中,兩個標準都導致了可比的結果。 Fi僅在兩個網絡中跑贏了FTi。
所有上述結果證實了弱關系理論和我們的假設,即基于時間信息的加權鏈接可以改善鏈接預測。
?
圖4和5顯示了兩個網絡版本中相似性度量WCN和WAA中的FTi參數(阻尼因子)獲得的平均性能。對于網絡的第一個版本,對于兩個相似性指標,β= 0.4時達到最佳性能。第二版WCN的最佳性能是在β= 0.2時達到的,而WAA是在β= 0.6時達到的。
最后,我們的結果還顯示,WAA在所有網絡中幾乎總是跑贏WCN。事實上,FTi和Fi標準并沒有改變這種情況。它表明,無論加權標準如何,次要的和主要的共同鄰居可能會比用主要共同鄰居產生更好的結果有用。
5.?結論
?
預測未來一對節點是否將連接是一項重要的網絡分析任務,稱為鏈路預測(LP)問題。已經開發了各種方法來預測社交方法中的聯系。其中一些計算連接節點之間的兼容性程度(鏈接強度),以獲得LP的有用見解。然而,盡管時間數據對LP問題的重要性,但很少有舉措調查了使用這種信息來表達鏈接強度及其在鏈接預測中的相應結果。
受到弱關系社會理論的啟發,在本文中,我們提出了一個權重標準,它將關于它們的交互頻率和時間信息(FTi)相結合,以便定義社交網絡中連接節點對之間的權重(鏈接強度)。根據FTi,最近的互動在權重計算方面比舊的互動有更大的影響,在LP中。我們的實驗是由許多有關LP的研究以前使用的十個共工作者網絡完成的。我們比較了傳統相似度量加權公共鄰居(WCN)和加權亞當 - 阿達爾(WAA)產生的性能,并結合兩個加權標準:一個是提出的標準(FTi),另一個是最先進的加權標準,僅基于交互頻率(Fi)。結果表明,在大多數網絡中,WCN和WAA聯合FTi優于WCN和WAA聯合Fi,證實了我們的假設,即基于時間信息的加權鏈路可以改善鏈路預測。
作為未來的工作,我們考慮制定一個同時結合時間,拓撲和背景數據的加權標準。評估我們的基于時間的加權標準對LP問題的監督方法的影響也是有趣的。我們的標準與聯合作者背景下的網絡實驗也是可取的。對于更多的網絡,我們還計劃檢查加權標準獲得的結果之間的統計顯著性差異。
總結
以上是生活随笔為你收集整理的使用基于时间的关系加权标准来改善社交网络中的链接预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java计算机毕业设计ssm智慧餐厅点餐
- 下一篇: 矩阵的零空间和列空间