日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

GPU上的快速光谱图分区

發布時間:2023/11/28 生活经验 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 GPU上的快速光谱图分区 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

GPU上的快速光譜圖分區
圖形是用于對物理,生物,社會和信息系統中許多類型的關系和過程進行建模的數學結構。用于解決各種高性能計算和數據分析問題。對于網絡分析,基因組學,社交網絡分析和其他領域,大規模圖形處理的計算需求,只有加速器才能提供的強大而高效的計算性能。NVIDIA通過CUDA 8引入了nvGRAPH,這是GPU加速圖形算法的新庫。它的第一個版本nvGRAPH 1.0支持3種關鍵圖形算法(PageRank,單源最短路徑)以及“單源最寬路徑”),工程和研究團隊已經在為將來的版本開發新的并行算法。
許多應用程序需要將圖劃分為子圖,或在其中找到簇。例如,圖分區可用于偏微分方程(PDE)的數值解中,以執行更有效的稀疏矩陣-矢量乘法,而圖聚類可用于標識社交網絡中的社區和網絡安全(請參見圖1)。
在這里插入圖片描述

圖1:圖分區的應用
圖形分區或集群的質量可能會對應用程序的整體性能產生重大影響。不僅要利用GPU來快速找到拆分子圖(GPU頻譜圖分區方案的執行速度比CPU實現快7倍),而且找到可能的最佳拆分也非常重要,這需要開發新算法。
同樣,圖分區和聚類旨在基于特定度量將圖拆分為子圖。特別地,頻譜圖的劃分和聚類依賴于與給定圖相對應的拉普拉斯矩陣的頻譜(特征值和關聯的特征向量)。接下來,將正式定義這個問題,展示它與拉普拉斯矩陣的頻譜之間的關系,并研究其性質和權衡。
定義
讓圖
由其頂點集
和邊集定義
。頂點集

表示圖中的 節點,每個節點由唯一的整數標識
。邊集
表示
圖中的邊,從節點
到的每個邊
都由一對標識

圖2:由一組頂點S = {1,2}引起的圖G =(V,E)的最小平衡分割
應用程序經常需要找到將圖形拆分為相似大小的子圖,并通過盡可能少的邊連接的子圖。該陳述通常表述為以下問題:找到一組頂點

, 以成本函數的方式誘導圖形的最小平衡割

重要的是要指出,分區和聚類都旨在將原始圖分成多個子圖。但是,在分區時,分區的數量通常是固定的,而在群集中,實際上沒有分區可能是一個結果。同樣,可以通過不同的成本函數(包括模塊性,中間性或流程性)來衡量拆分的最優 性。
成本函數

拉普拉斯矩陣

這說明了為什么在上一節中,可以用向量x 和Laplacian矩陣來表示比率中的所有項以及歸一化的成本函數L 。技術報告中給出了更詳細的解釋。
光譜方案的關鍵思想
請注意,通過找到向量的最佳非零離散值來獲得成本函數的最小值 u并不比找到集合的最佳索引容易 S。成本函數的兩個公式是等價的,都是NP難題。
頻譜劃分和聚類的關鍵思想不是直接尋找離散解決方案,而是分兩個步驟進行。
首先,放寬離散約束,讓向量u 取實值而不是離散值。在這種情況下,遵循線性代數Courant-Fischer定理(有時稱為Min-Max定理),成本函數的最小值由p與 拉普拉斯矩陣的最小特征值相關的特征向量獲得。
其次,將獲得的實際值映射回離散值以找到感興趣的解決方案。可以使用簡單的試探法(例如,對實數值進行排序并尋找缺口)或使用更高級的多維算法(例如,k均值算法)來完成此步驟。在前一種情況下,間隙之間的所有實數值,而在后一種情況下,將聚集在特定質心周圍的所有實數值,分配給相同的離散值,因此將屬于相同的特定分區或群集。
不能保證兩步法將找到最佳解決方案,但是在實踐中,通常會找到足夠好的近似值并且工作得相當好。
圖3提供了該過程的直觀輪廓,算法1以偽代碼表示了該算法。

圖3:頻譜劃分大綱
令G =(V,E)為輸入圖
設A為G的鄰接矩陣
令對角矩陣D = diag(Ae)
設置拉普拉斯矩陣L = DA
解決特征值問題L u =λu
使用啟發式將實數轉換為離散值
特征值問題
特征值問題的解決方案通常是頻譜圖分區/聚類中最耗時的部分。有很多特征值求解器可以用來求解它,包括Lanczos,Tracemin,Jacobi-Davidson和LOBPCG。特別是,圖3和圖4分別顯示了比較結果,比較了Lanczos和LOBPCG方法在從DIMACS圖集合中尋找幾種矩陣的30個最小特征向量時的性能和質量。盡管Lanczos通常是最快的特征值求解器,但是當具有0填充的不完全LU(ILU0)可用時,預處理的LOBPCG特征值求解器可能具有競爭力,并且通常可以計算出質量較高的解決方案。

圖3:GPU上各種特征值求解器的性能。 圖4:GPU上各種特征值求解器的質量。
實驗
現在,將比較GPU上的頻譜方案和CHACO軟件包中CPU上實現的頻譜方案。實驗是在配備3.2 GHz Intel Core i7-3930K CPU和NVIDIA Tesla K40c GPU的工作站上進行的。
方案非常相似,但不完全相同,因為CHACO對算法的實現略有不同,并且還嘗試在固定閾值內提供負載均衡的削減
,例如
。因此,CHACO的成本函數類似于削減比率,但最終的群集偏向于提供負載平衡的分區,同時仍將邊際削減降至最低。此外,CHACO實現了頻譜平分,因此與之比較時,將圖形分為兩個分區。
圖5和圖6分別顯示了兩種頻譜方案的性能和質量。請注意,使用Lanczos的GPU頻譜方案通常可以更快地獲得解決方案,但與CHACO中的CPU頻譜方案相比,其質量也可變,CHACO也使用Lanczos方法的一種變體。另一方面,當使用預處理的LOBPCG時,GPU的實現通常更快,并且在大多數情況下都可以通過成本函數獲得更高質量的解決方案。這些實驗的詳細結果可以在技術報告中找到。

圖5:GPU與CPU(CHACO)上光譜圖分區的加速。

圖6:GPU與CPU(CHACO)上頻譜圖分區的質量。
最后,如前所述,存在許多不同的分區和群集策略。尤其是,一些用于提供圖的平衡切割的流行方法使用了在METIS等軟件包中實現的多級方案。與局部啟發式算法(例如Kernighan-Lin算法)相比,頻譜和多級方案都是適用于整個圖形的全局方法。
根據頻譜方案和多級方案獲得的邊緣切除和成本函數,比較它們的質量是很有趣的。圖7和8所示的數值實驗繪制了30個分區的這些量的比率(METIS獲得的成本除以GPU頻譜方案獲得的成本)。結果趨勢表明,對于兩類問題,頻譜方案和多層方案的行為完全不同:(i)PDE離散化產生的網格;(ii)經常具有冪律分布的社交網絡圖。每個節點的邊緣。推測是,這些方案之間質量的差異是由于以下事實導致的:多級方案通常依賴于本地信息來構建用于對圖進行分區的圖層次結構。
注意,對于PDE,通過兩種方案獲得的分區質量基本相同,而對于具有高度節點的網絡(如社交網絡),頻譜方案可以獲得明顯更高質量的分區。即使在實驗中,頻譜方案所花費的時間通常比多級方案所花費的時間更長,但認為頻譜方案對于質量很重要的應用可能是一個不錯的選擇。例如,在稀疏線性代數應用中,即使分區質量的適度提高也會對整體應用性能產生重大影響,因此頻譜方案的額外分區成本可能是值得的。

圖7:PDE的頻譜與多級方案(METIS)。

圖8:網絡的頻譜與多級方案(METIS)。
結論
我希望閱讀了這篇博文后,您已經了解了頻譜圖分區/聚類方案的一些直覺,以及如何將其與其他類似算法進行比較。在我們的技術報告中可以找到對主題的更正式的處理,可以精確地推導出理論結果并進行詳細的數值實驗。
數值實驗表明,GPU上的頻譜分區性能可以比CPU上的頻譜分區性能高7倍。同樣,很明顯,多級方案是劃分PDE生成的網格的不錯選擇,而頻譜方案可以在具有高度節點的網絡圖(例如社交網絡圖)上實現高質量的劃分和聚類。
如果需要在應用程序中加速圖形算法,請查看新的GPU加速的 nvGRAPH 庫。您還可以在“ CUDA 8功能公開”一文中閱讀有關nvGRAPH的更多信息。我們正在考慮將來將光譜劃分添加到nvGRAPH中。如果您覺得有用,請在評論中告訴我們。
關于圖形的注意事項
拉普拉斯矩陣的特征向量還有許多其它應用。例如,它們可用于繪制圖形。實際上,此博客中的圖形繪制是使用它們完成的。已經研究了用于該應用的特征向量的解釋。

總結

以上是生活随笔為你收集整理的GPU上的快速光谱图分区的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。