Exploratory Social Network Analysis with Pajek(第三版)6-1
第三部分 中介
在很多理論中,社會關(guān)系被認為是人與人或組織之間傳遞信息、服務(wù)或商品的渠道。從這個角度來看,社會結(jié)構(gòu)有助于解釋信息、商品甚至態(tài)度和行為如何在社會系統(tǒng)中擴散。網(wǎng)絡(luò)分析揭示了社會結(jié)構(gòu)并有助于追蹤商品和信息可能遵循的邊。一些社會結(jié)構(gòu)允許信息的快速傳播,而另一些則包含難以到達的部分。
這是整個社交網(wǎng)絡(luò)的鳥瞰圖。但是,我們也可以關(guān)注網(wǎng)絡(luò)中特定人員或組織的位置。一般來說,連接良好是有利的。聯(lián)系人是獲取信息和幫助的必要條件。一個人關(guān)系的數(shù)量和強度被稱為他或她的社交能力或社會資本,在西方社會中,眾所周知,它與年齡和教育程度呈正相關(guān)。有些人在渠道系統(tǒng)中占據(jù)中心或戰(zhàn)略地位,對傳播過程至關(guān)重要。這樣的職位可能會給居住者帶來壓力,但也可能會產(chǎn)生權(quán)力和利潤。
在本書的這一部分,我們將關(guān)注社交網(wǎng)絡(luò)作為允許信息交換的結(jié)構(gòu)。在這種方法中,關(guān)系的方向不是很重要,所以我們只討論無向網(wǎng)絡(luò)(有一個例外)。在第 6 章中,我們介紹了中心性和中心化的概念。在第 7 章中,我們討論了直接參與者網(wǎng)絡(luò)的結(jié)構(gòu),尤其是與這個自我網(wǎng)絡(luò)的特定結(jié)構(gòu)相關(guān)的壓力或權(quán)力。在第 8 章中,我們在研究網(wǎng)絡(luò)結(jié)構(gòu)在創(chuàng)新和疾病傳播中的作用時將時間考慮在內(nèi)。
六、中心和外圍
6.1 介紹
在本章中,我們介紹中心性和集中化的概念,這是網(wǎng)絡(luò)分析中最古老的兩個概念。大多數(shù)社交網(wǎng)絡(luò)都包含處于中心位置的人員或組織。由于他們的地位,他們有更好的獲取信息的渠道和更好的傳播信息的機會。這被稱為以自我為中心的中心化方法。從社會中心的角度來看,整個網(wǎng)絡(luò)或多或少是中心化的。請注意,我們使用中心性來指代網(wǎng)絡(luò)中各個頂點的位置,而我們使用中心化來表征整個網(wǎng)絡(luò)。如果中心和外圍之間有明確的邊界,則網(wǎng)絡(luò)是高度集中的。在高度中心化的網(wǎng)絡(luò)中,信息很容易傳播,但中心對于信息的傳遞是不可或缺的。
在本章中,我們討論了幾種測量頂點中心性和網(wǎng)絡(luò)中心化的方法。我們將我們對中心性的討論限制在無向網(wǎng)絡(luò)上,因為我們假設(shè)信息可以在通過紐帶聯(lián)系在一起的人或組織之間雙向交換。與定向網(wǎng)絡(luò)中的重要性相關(guān)的概念,尤其是聲望,在本書的第四部分進行了討論。
6.2 示例
對組織的研究通常側(cè)重于非正式溝通:誰與誰討論工作問題,人們向誰尋求建議?非正式溝通對組織的運作很重要,但并不總是與組織的正式結(jié)構(gòu)相吻合。了解在溝通網(wǎng)絡(luò)中占據(jù)中心位置的人,對于信息的傳播和檢索,至關(guān)重要。
我們的示例是小型企業(yè)內(nèi)的溝通網(wǎng)絡(luò):鋸木廠。所有員工都被要求說明他們與每位同事討論工作問題的頻率,以 5 分制,從每周少于一次到每天幾次不等。如果兩名員工將他們的聯(lián)系人評級為三個或更多,則他們會在溝通網(wǎng)絡(luò)中鏈接。我們不知道兩位員工是否必須以這種方式評價他們的關(guān)系,或者至少一名員工必須表明強度為 3 或更多。網(wǎng)絡(luò)存儲在文件 Sawmill.net 中。
在鋸木廠,員工會說西班牙語 (H) 或說英語 (E),這當然與他們的交流有關(guān)。鋸木廠包含兩個主要部分:磨坊 (M),將樹干鋸成圓木,刨床部分 §,刨光原木。然后有一個院子(Y),兩名員工在此工作,還有一些經(jīng)理和其他官員。
圖 58 顯示了鋸木廠的溝通網(wǎng)絡(luò)。請注意,頂點標簽表示每個員工的種族和工作類型;例如,HP-10 是在刨床部門 § 工作的西班牙裔 (H)。在該圖中,頂點標簽而不是頂點顏色標識了員工的屬性。很容易看出,與工作相關(guān)的溝通是按照工作部分(左邊是刨工,右邊是鋸木工)和種族來構(gòu)建的:西班牙裔在頂部,說英語的在底部——假設(shè)管理人員、林務(wù)員、窯工、和員工
院子里都是說英語的。這是同質(zhì)性的一個例子(第 3 章),它與分類性密切相關(guān)(第 6.6 節(jié))。
直觀地說,HM-1 (Juan) 是這個網(wǎng)絡(luò)中的核心人物,也許是最核心的人物。他與許多同事直接交流,通過他的直接聯(lián)系,他很容易接觸到大多數(shù)在鋸木廠工作的人。Juan似乎在刨床、軋機部門和管理層之間的信息流中占據(jù)了關(guān)鍵位置。本章介紹了集中性和集中化的正式度量,它們捕捉了這些直覺。
6.3 距離
中心化和集中化的一種方法是基于一個簡單的想法,即信息可以很容易地到達在通信網(wǎng)絡(luò)中處于中心位置的人。或者,換個說法,如果可以很容易獲得信息的人是中心。
一個人可以訪問的資源越多,獲取信息就越容易;例如,如果他或她的社會支持網(wǎng)絡(luò)更大,老年人將更容易獲得有關(guān)在哪里尋求幫助的信息。從這個意義上說,社會紐帶構(gòu)成了一種社會資本,可以用來調(diào)動社會資源。因此,最簡單的中心性指標是其鄰居的數(shù)量,即他或她在簡單無向網(wǎng)絡(luò)中的度數(shù)(見第 3 章)。頂點的度數(shù)越高,它擁有的信息源越多,信息到達頂點的速度就越快,因此它越中心。在鋸木廠網(wǎng)絡(luò)中,Juan 與不少于 13 個同事通信,而工廠經(jīng)理只有 7 個通信關(guān)系(圖 58)。在這方面,Juan 比經(jīng)理更重要,來自車間的信息比經(jīng)理更容易到達他的手中。如果度是頂點中心性的最簡單度量,那么表示網(wǎng)絡(luò)具有中心的程度的整個網(wǎng)絡(luò)的相關(guān)中心化度量是什么?讓我們首先回答另一個相關(guān)問題:給定固定數(shù)量的邊,交換信息的最有效結(jié)構(gòu)是什么?我們應(yīng)該注意,這個網(wǎng)絡(luò)必須是連接的;否則信息無法到達所有頂點。在這種情況下,已知星形網(wǎng)絡(luò)是給定固定邊數(shù)時最有效的結(jié)構(gòu)。星形是一個網(wǎng)絡(luò),其中一個頂點連接到所有其他頂點,但這些頂點之間沒有連接(例如,圖 59 中的網(wǎng)絡(luò) A)。
將圖 59 中的星形網(wǎng)絡(luò)與包含相同數(shù)量的頂點和邊的線形網(wǎng)絡(luò)(網(wǎng)絡(luò) B)進行比較。在星形網(wǎng)絡(luò)中比在線形網(wǎng)絡(luò)中更容易識別中心頂點,因為中心頂點之間(V5)外圍頂點(v1、v2、v3 和 v4)的差異比線形網(wǎng)絡(luò)中的要明顯得多。這導(dǎo)致了一個可能違反直覺的想法,即如果頂點在中心性方面的差異越大,則網(wǎng)絡(luò)會更加中心化。頂點中心性值的更多變化會產(chǎn)生更集中的網(wǎng)絡(luò)。
現(xiàn)在我們可以將度中心性( degree centralization)定義為頂點度數(shù)變化除以給定網(wǎng)絡(luò)中頂點數(shù)可能的最大度數(shù)變化。在特定大小的簡單網(wǎng)絡(luò)中,星形網(wǎng)絡(luò)具有最大度數(shù)。在星形網(wǎng)絡(luò)的情況下,除以最大度數(shù)確保度中心性范圍從 0(無變化)到 1(最大變化)。
- 一個頂點的度中心度(degree centrality)就是它的度數(shù)。
- 網(wǎng)絡(luò)的度中心性( degree centralization)是頂點度數(shù)的變化除以相同大小的網(wǎng)絡(luò)中可能的最大度數(shù)變化。
變化是頂點的中心度得分與它們之間的最大中心度得分之間的總和(絕對)差異。例如,在網(wǎng)絡(luò) A(圖 59)中,一個頂點 (v5) 的度數(shù)為 4,這是這種大小的簡單無向網(wǎng)絡(luò)中的最大度數(shù),因為該頂點連接到所有其他頂點。其他四個頂點的度數(shù)最小,在連通無向網(wǎng)絡(luò)中為 1。因此,度數(shù)變化量為 12:(頂點 v1 到 v4 貢獻)4 ×(4 - 1)和(頂點 v5 貢獻)1 ×(4 - 4)。在一個簡單的無向網(wǎng)絡(luò)中,頂點的度數(shù)變化不能超過這個,所以 12 是最大變化;當然,將 12 除以自身會產(chǎn)生 1.00 的度中心性。
在網(wǎng)絡(luò) B 中,兩個頂點的度數(shù)為 1(v1 和 v2),其他頂點的度數(shù)為 2。因為 2 是該網(wǎng)絡(luò)中的最大度數(shù),所以度數(shù)變化等于 2 × (2 ? 1) (對于頂點 v1和 v2),3 × (2 ? 2)(對于頂點 v3 到 v5),即 2。為了獲得網(wǎng)絡(luò) B 的度中心化,我們將 2 除以 12,這是簡單無向網(wǎng)絡(luò)中的最大變化,并且我們得到 0.17。如果我們在 v1 和 v2 之間添加一條邊,則度中心性變?yōu)樽钚?(0.00),因為所有頂點的度數(shù)相等,因此度數(shù)的變化為 0.00,度中心性為 0.00。
度中心性=(實際最大度數(shù)?頂點度數(shù))(理論最大度數(shù)?頂點度數(shù))度中心性 =\frac{(實際最大度數(shù) - 頂點度數(shù))}{(理論最大度數(shù) - 頂點度數(shù))}度中心性=(理論最大度數(shù)?頂點度數(shù))(實際最大度數(shù)?頂點度數(shù))?
我們應(yīng)該在這里發(fā)出警告。在具有多重邊或環(huán)的網(wǎng)絡(luò)中,頂點的度數(shù)不等于其鄰居的數(shù)量。因此,星形網(wǎng)絡(luò)不一定具有最大變化,如果我們將具有多重邊或環(huán)的網(wǎng)絡(luò)中的變化與相同的簡單星形網(wǎng)絡(luò)中的變化進行比較,我們可能會獲得超過 1.00 的度中心性分數(shù)。在這種情況下,我們建議不要使用度中心性。
在一個簡單的無向網(wǎng)絡(luò)中,度中心度只是一個頂點的鄰居數(shù)。在某些情況下,這就是我們所知道的關(guān)于人們的網(wǎng)絡(luò)位置的全部信息,例如,當通過一項調(diào)查收集數(shù)據(jù)時,要求人們指出他們的個人網(wǎng)絡(luò)的規(guī)模。但是,如果要分析網(wǎng)絡(luò)的通信結(jié)構(gòu),我們需要知道整個網(wǎng)絡(luò)中誰與誰相連;我們必須注意間接聯(lián)系,因為信息可以從一個人流向另一個人,然后再傳給其他人。在通信網(wǎng)絡(luò)中,如果信息不必“走很遠”,信息將更容易到達一個人。這給我們帶來了網(wǎng)絡(luò)中距離的概念,即某人到達網(wǎng)絡(luò)中的另一個人所需的步驟或中介的數(shù)量。頂點之間的距離越短,信息交換就越容易。
在第 3 章中,我們將路徑定義為一系列邊,其中第一個和最后一個頂點之間的頂點不會出現(xiàn)多次。通過一條路徑,我們可以到達網(wǎng)絡(luò)中的另一個人:我們可以通知我們的鄰居,他將信息傳遞給他的鄰居,而他的鄰居又將其傳遞,直到信息最終到達目的地。如果有一條從后者到前者的路徑,我們說一個人可以從另一個人到達。請注意,如果兩個人在無向網(wǎng)絡(luò)中通過一條路徑連接,則他們是相互可達的,但在有向網(wǎng)絡(luò)中需要兩條路徑(每個方向一個)。
在無向網(wǎng)絡(luò)中,兩個頂點之間的距離只是連接這些頂點的最短路徑中的邊數(shù)或步數(shù)。最短路徑也稱為測地距離。在有向網(wǎng)絡(luò)中,一個人到另一個人的測地距離與反向的測地距離不同,因此距離可能不同。如果您習(xí)慣于地理距離,這聽起來很奇怪,但可以將定向網(wǎng)絡(luò)視為單向街道系統(tǒng):很容易想象從 A 到 B 的路邊與返回的路不同。然而,在本章中,我們只使用無向網(wǎng)絡(luò),因此您不必擔心這個問題。
- 測地距離是兩個頂點之間的最短路徑。
- 從頂點 u 到頂點 v 的距離是從 u 到 v 的測地距離長度。
距離在社交網(wǎng)絡(luò)分析中很重要。回想一下小世界問題(第 1.3 節(jié)),它指出所有人之間的網(wǎng)絡(luò)距離非常低,平均約為 6。有了距離的概念,我們還可以定義另一個中心性指標,稱為接近中心性。頂點的接近中心性基于一個頂點與所有其他頂點之間的總距離,其中較大的距離產(chǎn)生較低的接近中心性分數(shù)。一個頂點離所有其他頂點越近,信息就越容易到達它,它的中心性就越高。
就像度中心性一樣,我們可以將接近中心性概念化為頂點接近中心性分數(shù)的變化量。同樣,我們將中心性分數(shù)的變化與可能的最大變化進行比較,即相同大小的星網(wǎng)絡(luò)中接近中心性的變化。
- 頂點的接近中心性是其他頂點的數(shù)量除以頂點與所有其他頂點之間的所有距離的總和。
- 接近中心性是頂點接近中心性的變化除以相同大小的網(wǎng)絡(luò)中可能的接近中心性分數(shù)的最大變化。
在星形網(wǎng)絡(luò) A(圖 59)中,頂點 v5 具有最大的接近中心,因為它直接鏈接到所有其他頂點。到其他頂點的距離之和最小,即長度為 1 的四個測地距離組合成距離之和為 4。由于除 v5 之外還有四個頂點,因此頂點 v5 的接近中心性最大:4/4 = 1.00。網(wǎng)絡(luò) A 的其他頂點的接近中心性得分要低得多(0.57=4/1+2?30.57=4/1+2 * 30.57=4/1+2?3),因為三個頂點距離它們兩步。
在網(wǎng)絡(luò) B 中,v5 也具有最高的接近中心度,因為它位于中間,但現(xiàn)在它的接近中心度不是最大的(0.67),并且它與接近中心度為 0.57 (頂點 v3 和 v4)、0.40(v1 和 v2)的其他頂點的差異較小,并且。因為網(wǎng)絡(luò) B 中的接近中心性分數(shù)的變化小于網(wǎng)絡(luò) A,所以網(wǎng)絡(luò) B 的中心化程度較低。其接近中心度為 0.42,而接近中心度最大的A是1。
請注意,如果網(wǎng)絡(luò)沒有(強)連接,則會出現(xiàn)復(fù)雜情況。如果無向網(wǎng)絡(luò)不連通或有向網(wǎng)絡(luò)不強連通,則所有頂點之間沒有路徑,因此無法計算某些頂點之間的距離。這個問題的解決方案是只考慮到我們想要計算接近中心性的頂點可到達或到達的頂點,并按可到達頂點的百分比加權(quán)總和距離。該解決方案適用于頂點的接近中心度。然而,它不允許我們計算整個網(wǎng)絡(luò)的接近中心性,因為如果網(wǎng)絡(luò)沒有(強)連接,星型網(wǎng)絡(luò)不一定具有最高的接近中心度數(shù)變化。因此,在網(wǎng)絡(luò)沒有(強)連接的情況下,我們不使用接近中心性。
應(yīng)用
在第 3 章中,我們解釋了如何計算頂點的度。請注意,Network> Create Partition> Degree> All 命令只計算一次邊,如果網(wǎng)絡(luò)是無向的,這很好。但是,在包含邊和弧的網(wǎng)絡(luò)中,您可能希望將邊計算為傳入和傳出弧。如果是這樣,在使用 All 命令計算度數(shù)之前,將邊替換為雙向弧(Network> Create New Network>Transform>Edges→Arcs)。此外,我們建議在計算度中心性和度中心度之前,從網(wǎng)絡(luò)中刪除多重邊(Network> Create New Network>Transform> Remove> Multiple Lines)和環(huán)(Network>Create New Network>Transform> Remove> Loops)。Degree partition 告訴我們所有頂點的度中心度。對于度中心性,我們必須計算度的變化。在 Pajek 哲學(xué)中,partition 是將頂點分配給簇的分類。簇(Cluster)數(shù)不應(yīng)用于計算;向量應(yīng)該用于計算。出于這個原因,網(wǎng)絡(luò)的度中心性沒有與Degree partition 一起報告。我們必須使用 Create Vector> Centrality> Degree 子菜單來獲得報告屏幕中的度數(shù)集中。該命令將頂點的度中心度分數(shù)存儲為向量。
請注意,僅當網(wǎng)絡(luò)不包含多重邊和環(huán)時才報告度中心性。否則,Pajek 會報告一條消息,說明度中心性對該網(wǎng)絡(luò)無效。在鋸木廠網(wǎng)絡(luò)中,集中度為 0.289。這種集中化值僅與其他網(wǎng)絡(luò)相比才有意義。
如果你想知道一個頂點(例如,Juan)和網(wǎng)絡(luò)中所有其他頂點之間的距離,你可以使用 Network> Create Partition> k-Neighbours 子菜單中的命令,它創(chuàng)建一個partition ,包含該頂點與所有其他頂點之間的距離的類。輸入選項計算到選定頂點的距離,而輸出選項計算到頂點的距離。 All 命令不考慮邊的方向。在無向網(wǎng)絡(luò)中,您可以選擇 Input、Output 或 All 命令:它們產(chǎn)生相同的結(jié)果。
當你執(zhí)行一個 k-Neighbours 命令時,你必須首先指定頂點編號或從其計算距離的頂點的標簽。在 Juan 的情況下,輸入 12(他的頂點編號)或 HM-1(他的頂點標簽的開始)。接下來,您可以設(shè)置要計算的最大距離的限制。在非常大的網(wǎng)絡(luò)中,設(shè)置限制可能會大大加快計算速度。在此對話框中,0 表示您想要所有距離,這在小型網(wǎng)絡(luò)的情況下通常是正確的選擇。結(jié)果存儲在一個partition 中;而無法到達的頂點或比最大距離更遠的頂點被放置在類號 999999998 中,這表明它們的距離是未知的。
在圖 60 中,頂點顏色和類號表示 Juan 和其他員工之間的距離。大多數(shù)員工直接連接到 Juan(黑色)或間接連接到一個中介(淺灰色,距離 2)。兩名員工距離 Juan 四步之遙,分別是 HP-1 和 EM-4。
員工 HP-1 和 EM-4 似乎在通信網(wǎng)絡(luò)中相距最遠,因為他們與 Juan 的距離為 4。但他們的測地距離不一定包括 Juan,因此他們可能會在少于八步的時間內(nèi)連接起來。在 Pajek 中,可以使用命令 Network> Create New Network> SubNetwork with Paths> All Shortest Paths between two Vertices找到兩個頂點之間的測地距離。首先輸入 HP-1 的頂點編號或標簽,然后輸入 EM-4,然后對“忘記邊的值?”的問題回答“是”。因為您不想通過它們的值對邊條進行加權(quán)。這是正確的做法,除非邊值指示距離,例如地理距離。最后,一個對話框詢問是否必須在源網(wǎng)絡(luò)中識別路徑。如果您對此問題的回答是“是”,Pajek 會為原始網(wǎng)絡(luò)生成一個partition ,將測地距離上的頂點分配給 1 類,將其他頂點分配給 0 類。無論您在此對話框中選擇什么,Pajek 都會創(chuàng)建一個新網(wǎng)絡(luò),其中包含頂點和構(gòu)成測地距離的邊(圖 61)。
此外,它還會在報告屏幕中打印距離。在我們的示例中,HP-1 和 EM-4 之間的所有測地距離都包括 Juan(參見圖 61),因此 HP-1 和 EM-4 之間的距離不能小于 8,即它們到 Juan 的距離之和。
對于網(wǎng)絡(luò)的一般描述,所有頂點對之間距離的頻率分布通常很有用。網(wǎng)絡(luò)的特征是短測地距離還是長測地距離?命令 Network> Create Vector> Distribution of Distances? 報告網(wǎng)絡(luò)中的平均和最大距離,并生成一個包含距離分布的向量。請注意,這不是一個網(wǎng)絡(luò)中的每個頂點都有一個條目的普通向量,相反,它為每個距離包含一個條目,并且向量值指定網(wǎng)絡(luò)中具有此長度的測地距離的數(shù)量。編輯距離分布向量 (File> Vector> View/Edit) 以檢查鋸木廠網(wǎng)絡(luò)中的距離分布:124 對頂點通過長度為 1 的路徑連接,308 對通過長度為 2 的路徑連接,依此類推。
在 Pajek 中,計算接近中心度很簡單。因為接近中心度的值是連續(xù)的而不是離散的,所以中心度命令位于 Network> Create Vector> Centrality> Closeness 子菜單中,可以計算網(wǎng)絡(luò)中所有頂點的接近中心度。對于無向網(wǎng)絡(luò),您可以選擇Input, Output, or All,但都產(chǎn)生相同的結(jié)果。如果網(wǎng)絡(luò)沒有(強)連接,Pajek 會創(chuàng)建一個具有接近中心度分數(shù)的向量,但它不計算接近度中心性,這在這樣的網(wǎng)絡(luò)中是未定義的。無法到達或來自所有其他頂點的頂點的接近中心度設(shè)置為0。對于中型和大型網(wǎng)絡(luò),接近中心度需要大量計算時間,因此應(yīng)謹慎應(yīng)用。
Pajek 使用頂點的接近中心度值創(chuàng)建一個向量。你可以檢查這個向量或者按照前面章節(jié)中解釋的方式將它用于計算。在我們的示例中,接近中心度值范圍從 0.20 到 0.51,而 Juan (0.51) 比經(jīng)理 (0.42) 更中心化。此外,Pajek 計算網(wǎng)絡(luò)的接近中心性,并打印在報告屏幕中。鋸木廠通信網(wǎng)絡(luò)的緊密度中心性得分為 0.38,再次強調(diào),與其他網(wǎng)絡(luò)相比,必須對其進行解釋。
總結(jié)
以上是生活随笔為你收集整理的Exploratory Social Network Analysis with Pajek(第三版)6-1的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Smartbi:财务人的福音,原来企业财
- 下一篇: 云计算之 PaaS详解