D-Map: Visual Analysis of Ego-centric Information Diffusion Patterns in Social Media
圖1:系統界面:源微博表格視圖(a),用于選擇不同的源組微博; 來源微博分布圖(b),包括文檔視圖(b1)和關鍵詞視圖(b2); D-Map視圖(c),總結中心用戶參與人員之間的社交互動; 社區雷達視圖(d),顯示具有雷達視圖(d1)和統計信息窗口(d2)的社區的高維特征; 分層視圖(e),說明轉貼結構; 時間表視圖(f),突出顯示擴散的時間趨勢; 小型多視圖(g),識別D-Map快照的關鍵時間幀
摘要
流行的社交媒體平臺可以迅速在眾多人群中傳播重要的社交網絡信息。在本文中,我們提出了D-Map(擴散映射),一種新穎的視覺化方法,通過地圖隱喻來支持在典型社交媒體上的信息傳播和傳播過程中對社會行為的探索和分析。在D-Map中,我們收集了轉發(即重新發送其他人最初發布的消息)微博的用戶并映射到基于其行為的相似性和轉發的時間順序的六邊形網格中。通過交互和鏈接,D-Map能夠刻畫具有影響力的用戶的視覺肖像,并描述他們的社交行為。并開發一個全面的視覺分析系統,以支持與D-Map的交互式探索。我們用真實世界的社交媒體數據評估我們的工作,并在用戶中查找有趣的模式和重要的參與者,識別重要的信息傳播路徑以及社區之間的互動。
關鍵字
社交媒體,地圖,信息傳播
1 前言
社交媒體已經成為我們日常生活的重要組成部分,對我們的交流方式產生了重大影響。 每天有數百萬甚至數十億來自世界各地的人通過發布或回復信息的形式在時間和空間上互相交流,從而產生大量在社交媒體平臺上傳播的信息。 社交媒體數據的豐富性為理解人們的信息傳播和社交行為過程提供了極大的機會,在這些過程中,識別關鍵人物(如意見領袖)和理解其影響是兩個關鍵的任務。
現有的可視化技術主要集中在說明社會對象(如,從消息中提取的消息,主題或意見)如何在空間和時間上傳播[7,48,52]。 本文的研究集中在揭示人們如何參與融合過程,并受到原創微博傳播過程的中心用戶的影響。 此外,一個原始微博如何被轉發,可以通過轉發樹進行可視化[36],但是難點是合并這些轉發樹以理解轉發樹并揭示受影響用戶之間的社交互動。因此,迫切需要對傳播過程進行清晰,直觀的總結,以說明消息在不同群體中的傳播模式,揭示中心用戶的社會影響。
設計滿足上述要求的可視化面臨以下挑戰。首先,社交媒體數據通常非常復雜。更具體地說,它們是異構的,龐大的,動態的,既包含結構化的數據,也包含非結構化的數據,使得匯總信息在社區間的傳播結構非常困難。其次,捕捉用戶的影響力需要深入了解用戶的社交行為,并對用戶的歷史信息記錄進行詳細的分析。這種分析通常是困難的,因為用戶的行為模式在現實世界中是復雜的,并且可能經常變化,從而捕獲擴散動態并揭示規則擴散模式是一個挑戰性的任務。第三,不同人群之間信息傳播過程和模式的可視化需要多種類型的信息,如用戶之間的關系,角色,所傳播的信息以及整個信息傳播過程。同時,避免可視化中的重疊節點和邊界交叉等雜亂現象也非常重要。
為了解決上述挑戰,本文引入了D-Map,一個互動信息擴散圖,它可以總結中心用戶在社會空間背景下發布的歷史信息傳播過程,探索具有影響力的用戶群體。 具體而言,本文基于六邊形合成地圖以消除節點重疊來減少視覺混亂。 在本文的設計中,社交媒體用戶的行為和角色被編碼為具有顏色和大小的十六進制節點。 這些用戶根據自己的行為在地圖上分成不同的區域,形成中心用戶的社交肖像。 這種方式在視覺上突顯了中心用戶的社會影響力。
本文的主要貢獻有以下兩點:
- 視覺隱喻設計。本文引入一種新穎的動態信息圖設計來揭示人們如何參與擴散過程以及受中心用戶影響的動態模式。 這些技術確保了以自我為中心的擴散過程的清晰和直觀的視覺表現,從而形成了中心用戶的社交肖像。
- 視覺分析系統。 本文開發了一個全面的視覺分析系統(圖1),結合了先進的社區檢測技術和多個協調的可視化視圖。提供了一個理解中心用戶和不同融合過程中社交互動的影響的解決方案。 本文使用從中國最大的微博平臺微博收集的數據來評估系統,并且反映了許多有趣的真實世界模式,據我們所知,這些模式以前從未被可視化過。
2 相關工作
2.1 社交網絡可視化
對社交網絡的廣泛研究涵蓋了廣泛的主題,包括社區檢測[18],角色識別[29]以及最近的信息傳播和影響分析[27,38]。 可視化技術在分析社交網絡中扮演著重要的角色[23,24,25]。 現有技術大多集中于捕捉社會網絡的結構,并通過節點鏈接圖[23],鄰接矩陣[24]或兩種方法的組合[25]進行顯示。而本文利用網絡地圖來說明不同人群之間以及不同社區之間的傳播途徑。
2.2 信息擴散分析和可視化
信息傳播已成為近年來社交媒體分析領域的重要研究領域[22]。研究涵蓋了廣泛的主題,包括主題的演變[15],影響分析[42],可視化和分析擴散過程[7]。許多視覺分析技術被開發出來,幫助用戶通過交互式的探索和分析更好地理解擴散過程。例如,Marcus等人[31]介紹了TweetInfo從空間,時間和事件維度對tweets的靈活集合,從而支持事件傳播過程的可訪問性探索。 Viegas等人[47]介紹了Google+ Ripples,它采用了一個分層結構的循環打包模式來說明重新共享的行為和消息傳播過程。曹等人[7]介紹了Whisper,一種花式的可視化,旨在實時監控特定主題的信息傳播。 Ren等人[36]提出了基于眾包的信息傳播過程靈活解釋的微博事件。所有這些技術都成功地從不同的角度展示了信息的融合過程,但是沒有一個能夠以地圖的形式對擴散過程進行靜態總結,一眼就可以揭示擴散模式。最近,更多的研究集中在探索集體主題或意見擴散動態[41,48,50]。并且已經開發了多種視覺分析技術來檢測消息[52],意見領袖[10]和具有可疑行為的用戶賬戶的異常傳播[11]。這些視覺分析技術著眼于不同應用領域的問題,而不是總結擴散過程,因此與我們的工作不同。
2.3 動態網絡和以自我為中心的可視化
研究人員提出了動態網絡的先進可視化方法[1]。動畫和小倍數是兩種常見的方法[3]。最近,為了揭示關系演化的更多見解,研究人員提出了基于時間線的動態網絡可視化方法[2,16,46]。在動態網絡中,識別關鍵參與者及其影響是理解信息傳播的另一個重要分析任務[42]。分類和聚類分析被廣泛用于角色識別[35,44]。這些技術根據用戶的行為特征將用戶分為不同的角色類別。 Cha et al [14]根據不合理的程度,轉發和提及的次數來衡量用戶對Twitter的影響力。這些問題也引起了可視化領域的關注。特別是以自我為中心的觀點能夠更好地觀察個體行為,從而提供更詳細的行為模式[8,39,49]。例如,Brandes等人提出了一個漣漪隱喻來展示時間的流逝和電影演員的傳記[5]。施等人選擇1.5D形式沿時間軸嵌入網絡,揭示時間和自我網絡結構[39]。曹等人[8]開發了Episogram,討論了以自我為中心的社會互動中的數據模型。與這些技術不同的是,D-Map引入了一種新穎的信息擴散圖設計,說明了不同社區的人如何受到中心用戶的影響。本文所提出的方法捕捉以自我為中心的社交互動網絡的拓撲和內容信息,形成中心用戶的社交肖像,還未被研究過。
2.4 面向地圖的圖形可視化
早期的工作是用類似于地圖的可視化來表示網絡數據。甘斯納等人[20]引入GMap,一個互動的可視化設計,將社交網絡轉換為地圖視圖,突出不同社區之間的界限。此外,他們提出了動態網絡數據的這種地圖視圖的穩定布局[27,32]。他們將動態地圖生成技術應用于Twitter數據[21]和計算機科學文獻[19]。盡管這些作品在分析動態數據方面做了很好的保留人類心智圖的工作,但重點不在于以自我為中心的用戶的社會聯系。曹等人[12]介紹FacetAtlas基于節點鏈接圖可視化和捆綁技術來表示一個文本語料庫的多方面圖集。遵循類似的想法,Nachmanson等人[33]導入的GraphMaps,它也在節點鏈接圖中應用邊緣綁定來幫助探索大圖。楊等人 [51]提出了六邊形算法來可視化分層數據。最近,曹等人 [11]在多維數據的三角形圖上顯示社交互動圖[9]。然而,這些技術都沒有產生一個緊湊的可視化作為中心社交媒體用戶的肖像來說明用戶對傳播信息的影響,這也是本文的研究重點。
3 數據描述
在這項研究中,數據是從新浪微博提取的,其主要服務與Twitter類似。 每個微博都是一個微博客,就像Twitter上的Twitt一樣。 我們的目標是評估一個有影響力的人在社交網絡中的社會影響。因此,本文的數據是來自一個用戶的一系列微博,所有的微博都是來自這些源微博。我們提取了微博的內容,時間戳,id和pid,源微博的id。 根據所選微博的pid和id,我們建立了一個分層的轉發樹來顯示單個微博的擴散過程。將所有的轉發樹與超級中心節點合并。這些數據構建了以一個用戶為基礎的社交網絡(圖2)。
基于對數據的觀察,我們從四個方面總結了以自我為中心的微博數據的特征:
- 參與功能。中心用戶吸引了不同的參與者。其中,積極的用戶經常轉發微博,不活躍的人只轉發一次。
- 參與者的影響力。參與者的轉貼導致不同時間的多層次轉發。一個用戶所吸引的直接轉發和總轉發數量都表明了這個用戶的影響力。
- 核心用戶分布。我們可以定義那些微博被大量轉發的用戶為核心用戶。核心用戶可能對不同群體或不同類型的人產生影響。
- 動態擴散。社交媒體擴散的生命周期由多個階段組成,包括開始,爆發和死亡。在每個階段,轉播頻率,延遲時間,影響力和參與人數都不相同。
我們的設計考慮是基于這些特征來探索傳播過程和用戶關系,以更深入地理解用戶的社交行為。
4 D-Map
在本節中,我們提出了設計D-Map的概念模型,并詳細介紹了視覺設計和實現過程。
4.1 概念模型
我們的目標是從多個方面評估一個中心用戶的社會影響。 具體而言,我們感興趣的是源微博如何散布在多個人群中的。 在這個過程中,應該指出核心用戶和重要的擴散路徑。 另外,不同人群之間的互動模式可以反映中心用戶的社會關系結構(圖3)。
為了實現這些目標,我們需要合并所有的轉發鏈,并進行分析。用戶通信記錄的直接節點鏈接圖可視化通常會導致視圖的混亂,而不能有效地揭示數據的深意[40],毛球雜亂無法使用戶感覺到不同的分組,并且不能選擇單個用戶,為分析添加了太多的干擾,浪費了大量的可視化空白空間。此外,它缺乏時間信息來進一步研究擴散過程。因此,考慮到力導向圖的局限性和轉發行為的特點,我們總結了如下設計要求。
- 清晰直觀的展示參與者的社區分布。為了調查參與者,我們需要對具有相似轉發行為的用戶進行分類和分組。
- 了解人與人之間的社交互動。轉發導致了消息的傳播,反映了社交互動。我們需要比較用戶的轉發模式
- 了解用戶轉發行為的特征。中心用戶的社交肖像是建立在轉發人的特征上的。核心用戶和他們之間的聯系應予以強調。
- 動態的描述信息擴散過程。理解擴散過程可以更好的的查看歷史。我們應該允許用戶選擇擴散狀態和個別路徑的細節。
為了達到上述要求,我們提出了D-Map設計來生成社交用戶肖像。
4.2 社區發現
社區是一組內部連接密集,與其他組間的連接稀疏的節點。 經常轉發同一個人的微博并具有相似行為的人們可以被視為一個社區。 作為D-Map設計的基礎,我們需要根據轉發行為來檢測所有參與者的社區。 地圖的輸入圖是社交媒體用戶的多邊轉發網絡,從源始微博的所有轉發樹進行合并(圖6a)。 連接不同樹中節點的虛線連接的節點代表同一個用戶。在合并過程之后,每個節點是一個社交媒體用戶,并且每一條邊表示用戶A從用戶B一次轉發。 兩個節點之間可能有多條邊。為了找到多邊形圖的社區結構,我們使用度修正的隨機塊模型[30]。
符合我們設計目標的這種方法的優點是它不僅可以識別節點的社區分配,還可以找到社區之間的交互。 另一方面,我們不排除使用其他算法的可能性。 設G是n個節點上的無向多邊圖。 假設有K個組,gi是節點i的組分配。 這里我們給出非歸一化的對數似然函數:
mrs是r組和s組之間的邊的總數。 kr,ks分別是r和s中度數的和。 目標是最大化節點組分配的概率。 網絡被分成k個社區的初始隨機集合。 通過重復地將一個頂點從一個組移到另一個,該方法將找到L值最大的狀態。
當L被最大化時,K被確定。 繼[34]的工作之后,我們可以為K計算設置一個最小和最大范圍。 對于大量的人群,例如 我們將K的范圍設置為5到30。在我們的測試中,大多數用戶的社區結果落在這個范圍內。 用戶也可以在不同場景下調整范圍。
4.3 視覺編碼
為了避免混亂,我們選擇緊湊的布局,馬賽克地圖和基于voronoi的鑲嵌地圖。我們選擇馬賽克圖譜,因為它們與可計數的單元進行數據交流,這很容易進行視覺比較[6]。我們希望選擇一種形狀,以最大限度地減少項目之間的浪費空間,并最大限度地擴大其中的面積。三角形網格引入了兩種類型的三角形 - 正三角形和倒三角形,這可能會在視覺表現上引入更大的變化。正方形分箱在垂直和水平方向上伸出[13]。其他具有較多邊緣的形狀太復雜。點和圓網格不緊湊。在圖像領域中,六邊形[26]的使用是非常普遍的,能夠增強了用戶的審美,熟悉度和接受度[17]。考慮到這些因素,我們最終選擇使用六邊形網格作為D-Map的基準。
在地圖設計中,每個節點代表一個人或一組具有相似行為的人。每個具有多個節點的顏色區域表示一個社區(圖4)。中心用戶用高亮的橙色表示。核心用戶是由轉發人數的閾值決定的。在我們的實驗中,我們將閾值設置為總人數的平方根。核心用戶突出顯示為一個放大的黑色的六邊形,表明他們對其他人的影響更大。在每個六邊形內,都有一個小六邊形,其大小顯示了這些人轉發了多少個微博。為了避免混亂,我們默認顯示社區之間的聚合鏈接,并按需顯示所選人員的單獨鏈接。鏈接的寬度編碼兩個社區之間所有轉發的數量。轉發包括直接和間接轉發。用戶可以通過控制閾值來過濾轉發次數,從而減少混亂。每個社區的節點根據相對時間由內而外布置,表示每個社區的動態擴散過程(圖4)。這種重新排序有一個設計權衡。為了獲得關鍵的時間關系,我們可能會失去本地集群的拓撲關系。為了彌補這一點,用戶可以通過多種交互來感知關系。而且,用戶仍然可以將距離感知為不同社區之間的關系。
我們使用顏色區域來編碼不同的社區。 地區大小代表每個社區的規模。 我們的目標是為每個中心用戶生成一個獨特的地圖,顯示他的社交網絡的屬性。 一個重要的特點是使地圖可以在多個中心用戶之間進行比較。 我們提供了一個顏色映射方案和尺寸映射功能來實現這個目標。 正如第3節所討論的那樣,有四類重要特征,包括參與性,影響力,核心用戶分布和擴散過程統計。 我們設計了四個不同細節層次的顏色系列(圖5)。 在設計過程中,我們考慮色彩的平衡感知特性[43]和數據的特性。 設置顏色后,有兩種方法可以將顏色映射到每個社區:
- 將特征向量投影到RGB空間我們定義高維的距離,并采用降維方法來獲取顏色。 優點是投影考慮了所有的屬性。 然而,缺點是顏色可能是隨機的,不容易比較。
- 選擇最具代表性的特征的預定義顏色我們計算所有社區中所有特征的排名。對于每個社區,我們選擇社區所有特征中排名最高的維度作為最具代表性的特征。缺點是信息的丟失。但是,我們可以得到一個可比的和精心設計的美學色彩方案來糾正這一點。
考慮到兩種方法之間的設計權衡,我們選擇第二種,因為可比性和可理解性是地圖最重要的目標之一。對于每個社區,我們在最具代表性的特征的顏色系列中選擇相應的排列顏色(圖5)。為了補償丟失的細節,我們提供了交互式的雷達圖可視化來說明每個維度的特征分布。每個類目都是從第3部分討論的數據特征導出的特征子類。每個類目的名稱是右側相同顏色的相應子類別的縮寫(圖5)。因此,用戶可以理解為什么選擇顏色,也能夠感知具有代表性的用戶。
4.4 地圖設計
通過輸入已檢測到的社區的多邊緣網絡(圖6a),地圖構建過程包括自定義的力導向布局,節點合并,布局壓縮,基于時間的布局調整和重新排序(算法1)。
為了讓同一社區中的用戶定位在一起,我們選擇一個具有自定義鏈接設置的強制導向布局[28]。除了人與人之間的原始聯系之外,我們還在圖中添加了一個人為的鏈接類型。如前所述,我們有來自中心用戶的一系列源微博。我們在轉發同一個源微博的參與者之間加入了邊。邊的增加過程使得轉發相同微博的人距離更近,這也可能表明他們具有相似的興趣。此外,它增加了每個社區內部的聯系,這有助于在最終的D-Map中更好地進行社區劃分。下一步,我們合并向鄰近的節點,以減少視覺復雜度(圖6b)。這些節點通常具有相似的行為,所以它們排列在一起。在每個社區中應用分層合并操作。計算每個節點的成對距離。對距離值進行排序后,合并兩個距離值最小的節點。通過反復合并,可以得到具有預期六邊形粒度的節點合并效果。用戶可以調整適應不同場景的粒度(圖7)。為了降低計算復雜度,我們將每個社區平均分成多個塊,并對每個塊進行合并處理。最后,我們合并每個塊中的所有節點以獲得最終的結果(算法1-步驟2)。
合并過程之后,我們需要刪除節點間的空白,并使布局緊湊(圖6c)。我們用力的強度把每個節點從不同的方向吸引到中心用戶節點的位置。用戶可以應用不同的分度值。最為常用的分度值為45°,我們可以吸引節點,同時保持鄰接節點的相對位置。為了實現吸引過程,我們使用八個方向直方圖存儲每個45°范圍內的節點,并逐一使最近的節點與中心節點靠攏(算法1-步驟3)。吸引完成之后,有時會有大量的節點被打包在一個特定的方向上。為了解決這個問題,我們使用第二輪壓縮過程來使布局緊湊,從而節省空間并提高數據利用率(圖6d,算法1-步驟4)。在每個社區中,我們計算出每個微博相對于其來源微博的相對時間。如果節點包含多個微博,我們設置節點的最小時間。我們計算每個社區的中心,并根據它們的相對時間從內向外映射節點(圖6e,算法1-步驟5)。
D-Map的設計代表了社區中的人們參與特性并描述了信息的擴散過程。為了從多個方面展現D-Map的分析能力,我們提出了一個交互式可視化分析系統。
5 可視化分析系統
可視化分析系統結合了D-Map,Souce Weibo Table View,Community Radar View,Hierarchical View,Timeline View和Small Multiple View(圖1)。 通過分析微博數據的多個方面,用戶可以系統地探索社區之間的擴散過程(圖8)。系統中的顏色與社區的顏色是一致的(圖5)。
5.1 視覺分析概述和入口
通過將來自中心用戶的源微博投影到二維空間,并作為可視化分析的起點。其中一個研究目標是了解社區的特點以及一些社區傳播的消息類型。有兩個關鍵點 - 參與人和微博的內容。一方面,用戶可以通過參與者轉發每個源微博的分布來分析人際關系。另一方面,用戶可以通過探索參與者對不同關鍵字和內容的偏好來了解社區的特點。因此,我們讓用戶從這兩個角度分析源微博。默認情況下,我們為每個源微博構建一個高維向量。每個維度是每個社區的規模。與4.3節一致,我們選擇參與人數最多的社區的顏色來編碼源微博。利用計算的高維距離,我們將文檔投影到具有t-SNE的二維空間[45](圖9a)。從內容的角度來看,我們首先通過分詞處理源微博的文本,并去除停用詞。停用詞包括沒有具體含義的標準術語。為了得到距離矩陣,我們采用TF-IDF [37]來創建一個加權矢量,并根據矢量之間的余弦距離來測量每個源微博的相似度。最后,我們基于與t-SNE的內容相似性將源微博投影到二維空間(圖9c)。
同時支持點擊和選擇(如圖9b)這樣的交互操作,用戶也可以點擊關鍵字來選擇相關的微博和轉發人(圖9c)。此外,我們還提供了源微博表格的排序功能以及關鍵字搜索和過濾功能(圖1a)。選定的源微博會突出顯示。源微博的參與者在D-Map上會高亮顯示,以供進一步探索。
5.2 動態擴散探索
我們用一個縮略圖(圖1g)來應用時間線視圖(圖1f)來支持用D-Map來探索動態擴散過程。在時間軸視圖中,y軸是檢測到的社區,x軸是對應的時間。考慮到每個微博的短暫生存時間,我們顯示了微博被轉發的24小時之內,時間線寬度的80%。我們提供了一個動畫功能來快速展示傳播擴散過程。我們提出兩種方法來分割時間線,并基于百分比劃分和基于熵的劃分顯示小倍數中的關鍵期范圍。我們可以用百分位群來概述社區之間的信息傳播(圖1g)。我們將數據分為25%,50%和75%的數量閾值。對于基于熵的劃分,我們使用香農熵來度量分布的散布程度或集中度。對于給定的直方圖X = {ni,i = 1,…,N},社區i在樣本中出現n次。 S =Σn=(ni)是i 1的總數社區觀察。 H(X)定義如下:
我們的目標是找到低熵值和大熵變的時間段。 低熵值的社區可能集中了社區內的轉發。 熵的變化表明源微博被轉移到少數社區的其他人,反之亦然。 在小型多視圖中,按照受影響人數(圖1g)的順序將核心用戶顯示為矩形。 當我們點擊縮略圖時,相應的D-Map會顯示在主窗口中。 在選定的D-Map上,用戶可以探索不同人的特定擴散路徑。 發現突出顯示的核心用戶的擴散路徑中的用戶。
5.3 社區分析
一系列的轉發行為導致了信息的傳播,反映了社會的互動。具體來說,我們的系統支持查看每個社區的特點,社區間的傳播擴散過程和用戶之間的影響。
首先,在社區雷達視圖(圖1d1)中,高維特征反映了社區特征。當用戶選擇社區內的節點時,將顯示選定的人員編號(圖1d2)。除了統計數據之外,內部社區行為的概述可以被視為箭形設計。這些行為通常包括單中心擴散(圖11e),或社區成員之間的強聯系(圖11f)。箭頭設計也可以通過減少鏈接的長度來避免視圖混亂。
其次,選擇地圖上的社區,相關社區將被突出顯示。因此,我們可以推斷出社區有多大的影響力,以及用戶影響力是多少。此外,分層視圖在擴散過程中聚集了相同社區的節點,這有助于用戶了解選定社區在分層轉發樹中的位置(圖11c)。當用戶選擇多個社區時,在社區雷達視圖(圖11b)能夠交互式地進行功能比較。
第三,通過選擇地圖上的節點,我們可以查看用戶的直接轉發和轉發節點。擴散路徑和核心用戶可以反映中心用戶的影響(圖1c)。
可視化分析系統使用HTML5 / Javascript構建,服務器端處理使用Python和MongoDB。客戶端使用SVG和D3.js [4]。我們通過新浪微博通過開放的API抓取微博數據,并利用微博事件履歷[36]為每個源數據構建了轉發樹。數據存儲在MongoDB中,并提供用于獲取數據的定制API。
6 案例分析
我們提出了三個案例,展示了我們系統的不同功能,并討論了社會學專家感興趣的的主題。
6.1 案例1:動態擴散模式分析
在這種情況下,我們探討了社區之間的傳播模式。我們選擇了一個有影響力的人的300個微博,并且從5917個獨特的用戶(圖10)中構建了一個D-Map和7694個微博。有兩個最大的社區,2,986(C1)和1,811人(C4),以紅色顯示。通過探索擴散過程,我們可以更好地了解這些社區是如何形成的以及他們的行為模式是什么。
有兩個主要的擴散狀態(圖10a)。第一個狀態包括三個階段(T1 - T3)。在前15分鐘(T1),中心用戶發布微博,主要影響第一層轉發者C1。稍后一小時(T2),周邊社區的人們轉發了更多的微博,而微博在C1內部蔓延。通過在T3中選擇C2(圖10b2),我們發現它具有最多的內部傳播計數為298,這表明C2中的人群較活躍。在晚些時候(10小時),轉發主要在每個社區內延續和傳播。之后,轉到第二個主要階段,又分為三個重要階段(T4-T6)。影響較大的紫色社區C3轉發了來自C1的微博,并且很快在C3和C4(T5)中爆發了擴散。進一步的信息傳播到所有的社區(T6)。
通過進一步調查社區,我們可以看出社區劃分和行為模式的原因。 除了大量常見的第一層轉發者(C1,圖10b1)之外,中心用戶還有另一個長期發展的傳播社區(C3)。 通過點擊C3中的關鍵人物(圖10b3),我們發現他是新浪微博中最有影響力的人物之一,他們的追隨者比中心用戶多得多。 因此,我們可以意識到不同的人的層次水平,以及隨著時間的推移狀態的變化。
6.2 案例2:社區行為分析
我們在新浪微博上研究了一個分享技術信息的微博賬號“We Media”。我們從他三個月內發布了500條微博里,從10,209個用戶那里提取了79,013個微博(圖11)。
十個社區中有七個社區有很多用戶(圖11a)。最大的兩個社區包括4,391(紅色,C1)和2913(藍色,C2)。我們首先通過選擇每個組中的所有人來分許社區特征。在C1中,人們傾向于直接從中心用戶(圖11e)直接轉發微博,因為箭頭字形的方向是統一的。 C2中的轉發行為更不規則。他們在社區內有多種來源和強有力的溝通。更有意思的是,我們發現這個社區與C3社區(粉紅色)有大量的互動(圖11f)。通過觀察時間表,我們發現中心用戶在第一個8小時內發布了微博,并且主要影響了C1和C2的用戶。在8-16小時內,C2中的人大部分轉貼了C3的微博,這意味著第二輪爆發。時間線視圖和分層視圖也證實了這一現象–C2中的人長時間保持活動(圖11d),并參與了第二輪轉發(圖11c)。總共有C2人轉發了53542次,比C1中的人活躍了10237次。 C3對他人有顯著的影響,導致最高的轉發次數–10,310(圖11b)。具體而言,我們認為C3中的人對C2有較大的影響(圖11h)。為了進一步調查人的行為,我們可以找出C3中影響最大的核心用戶(圖11i)。
在這種情況下,我們總結出三個社區的特征 - 直接轉發人(C1),高影響力人(C3)和積極轉發人(C2)的特征。我們還展示了調查每個社區間動態傳播模式的能力,并描述了相關的社交之間的互動。
6.3 案例3:人物肖像
為了進一步評估D-Map,我們在新浪微博上測試了更多有影響力的案例。我們從廣泛的領域搜索了34個有影響力的賬戶。五年來,這些有影響力的賬戶大約有五十萬個。至少有一百萬人參與了所有的這些微博。
我們可以選擇一個中心用戶,并加載全部或部分的微博及其轉發微博。由于API的抓取限制,我們對每個用戶的微博進行了過濾。源微博的規模為500條,參與人數在1萬到5萬之間。運行每個案例的參數是相同的,社區范圍從5到30,六邊形的數量約為3,000。我們找到很多模式,并選擇其中的九個(圖12)。從左到右,檢測到的社區數量增加。從上到下,社區之間的影響變大了。中心用戶有大量屬于“紅色”的“第一層轉發用戶。更有意思的是,根據他們的轉發結構,我們可以找到不同的模式。
首先,社區少,社區影響力弱的中心用戶往往是服務賬戶,運營較差(圖12a)。雖然他們有很多的追隨者和轉發者,但他們不能積極地讓人或追隨者進一步轉發。通常情況下,他們是一些相關的服務賬戶轉發彼此的微博,并且一些賬號甚至是僵尸賬號。其次,擁有較大社區但社區間影響力較低的中心用戶更有可能是社交媒體的企業家(圖12c)。他們善于創造話題,吸引不同類型的人轉發。這些人發揮了重要的中心作用,但是在其他社區之間的社區影響力較弱。第三,社區數量少,社區間影響力強的中心用戶通常有一個或一些有影響力的關鍵人物。核心用戶在中心用戶的地圖上建立了他們的“領土”,形成了雙中心模式(圖12d,g)。最后,具有積極的社區間行為的中心用戶傾向于擁有更多的同等規模的社區(圖12f,i)。每個社區都有其核心用戶,他們之間有聯系。這些中心用戶很可能是特定領域的領域專家,在同一地區擁有眾多的追隨者,并積極地轉發彼此的微博。
隨著時間的推移模式的趨勢也不同。 例如,商人的擴散模式與擴散時間的起點幾乎保持一致。 我們建立商人繼續影響其他社區的假設,轉發他以前的微博,以再次獲得公眾的關注。 與商人不同的是,領域專家的微博由不同社區的核心用戶轉發(可能是同一領域的其他專家),并在后期擴散到多個社區。 這個例子證實了系統描繪和比較中心用戶社交模式的能力。 我們可以檢查一個賬號是否有影響或不好操作。發現有趣的模式,如雙中心擴散(圖12d,g),強中心作用(圖12c)和強相互作用(圖12f,i)。
7 討論
在本節中,我們討論提議的D-Map可視化的優缺點。特別是,通過將節點放入六邊形網格中,D-Map消除了節點重疊的現象,從而能夠明確的表明中心用戶的社交模式,形成了一幅描繪用戶社交行為的擴散圖,揭示了用戶在社交空間中傳播信息的影響力。這種可視化使得信息擴散過程能夠被動態地展開,并且促進了擴散模式的快速比較。
雖然新穎強大,但D-Map設計的仍有改進空間。特別是以力為導向的初始布局算法和社區檢測方法都可能給最終的結果帶來隨機性,使得相同數據的結果圖有時出現不同。有兩種方法可以解決這個問題:(1)精確地控制力指向布局和社區檢測中使用的初始參數,以減少隨機性;(2)采用優化而不是啟發式算法進行布局。另一個問題是鏈路覆蓋引入混亂。我們提供濾波閾值和箭頭字形設計來減少雜波。
我們設想以幾種方式擴展D-Map。首先,我們可以考慮多個中心用戶,并建立一個更大的D-map。第二,我們可以在地圖構建和分析過程中將更多的主題信息與擴散結構相結合,可以提供更多的語義豐富的結果。第三,基于不同用戶的興趣模式,我們可以進一步用預先模型來擴展D-Map。通過實時的數據源,我們可以預測人員的擴散路徑和目標社區。此外,我們還會從社會學專家那里對所提出的方法進行系統的評估。
8 結論
我們提出了一種新穎的可視化方法D-Map,用于視覺總結和探索中心用戶的社交網絡。 我們將所有轉發中心用戶的微博的用戶映射到六邊形地圖。 可以檢測差異融合模式和社區互動,重點關注核心用戶和重要的擴散路徑。 通過全面的視覺分析系統,我們可以用真實世界的社交媒體數據來評估我們的工作,并在了解個人社會影響的獨特特征時找到有趣的模式。
總結
以上是生活随笔為你收集整理的D-Map: Visual Analysis of Ego-centric Information Diffusion Patterns in Social Media的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 招聘网站爬虫及可视化分析
- 下一篇: 设置苹果手机button按钮颜色显示问题