當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘十大算法翻译——6PageRank

發(fā)布時間：2023/12/29 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘十大算法翻译——6PageRank 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1 總覽

PageRank是由Sergey Brin和Larry Page在1998年4月的第七屆國際全球廣域網(wǎng)會議（WWW7）中提出的。它是一個使用超鏈接的搜索排序算法。基于這個算法，他們穿在了Google搜素引擎，并且取得了巨大的成功。現(xiàn)在，每個搜索引擎都有自己的基于超鏈接的排序算法。

PageRank產(chǎn)生一個網(wǎng)頁的靜態(tài)排行，也就是說PageRank離線的計算每個頁面，并且不依賴于查詢。通過使用大量的鏈接結(jié)構(gòu)作為單個頁面的衡量標準，這個算法利用了Web的民主特性。PageRank的精髓就是通過把從x頁面到Y(jié)頁面的一個鏈接，作為x頁面給y頁面的投票。然而，PageRank不僅僅只是單純的統(tǒng)計票數(shù)，或者一個頁面收到的鏈接數(shù)。它也分析透出票的頁面。如果投出票的頁面本身是重要的，那么它會使得它投票的對象也是重要的。這就是在社交網(wǎng)絡(luò)中的“rank prestige(威望等階)”的思想。

2 算法

現(xiàn)在我們介紹PageRank公式。首先我們先成熟一些Web頁面的額內(nèi)容。
頁面i的入鏈接(in-link)：從其他頁面指向頁面i的超鏈接。通常而言，從同一個站點的鏈接不被考慮。
頁面i的出鏈接(out-link)：從頁面i指向其他頁面的超級鏈接。一般而言，不考慮同一個站點的鏈接。
下面這些基于rank prestige[86]的思想可以用來驅(qū)動PageRank算法:
1. 從一個頁面指向另一個頁面的超鏈接是一種暗含的權(quán)威的轉(zhuǎn)移。因此，頁面i收到的in-link越多，頁面i的prestige（威望）就越高
2. 指向頁面i的頁面也有他們自己的威望分數(shù)。擁有較高威望的頁面的投票比擁有較少威望的頁面的投票更重要。簡而言之，被重要的頁面指向的頁面也是重要的。
根據(jù)社交網(wǎng)絡(luò)中的威望等級，頁面i的重要性（這里是i的PageRank分數(shù)）是由所有指向i的頁面所決定的。因為一個頁面可能指向其他的很多頁面，它的“威望”應(yīng)夠由它指向的頁面來共享。
為了使用公式表達這個思想，我們把Web作為一個有向圖G=（V,E）這里的V是頂點，也就是所有頁面的集合。E是圖的有向邊，也就是所有超鏈接。這里讓所有頁面的總數(shù)設(shè)為n（n=|V|）第i個頁面的PageRank分數(shù)由下面的式子定義。

P(i)=∑(j,i)∈EP(j)Oj
這里的Oj是頁面j的out-link的數(shù)量。數(shù)學(xué)上而言，我們有n個含有n個線性方程的未知數(shù)。我們可以用一個矩陣來代表所有的等式。設(shè)P是PageRank值的n維列限量，有如下表示：
P=（P(1),P(2),…,P(n)）T
設(shè)A是我們的圖的鄰接矩陣

Aij={1/Oi,0,if(i,j)∈Eotherwise
我們把n個等式的系統(tǒng)寫作

P=ATP （3）
這是特征系統(tǒng)的特征值方程，這里的解P是特征值為1的特征向量。由于這是一個循環(huán)的定義，我們使用一個迭代的算法來解決它。事實證明，如果條件滿足，1
是最大的特征值，并且PageRank向量P是主特征向量；

Power iteration(冪迭代)[30]是一個用來找到P的有名的數(shù)學(xué)方法。
然而問題在于由于Web圖不滿足條件，等式（3）是不重復(fù)的。事實上等式（3）也可以由Markov chain（馬爾科夫鏈）得到。然后從馬爾科夫鏈中得到的一些理論就可以被使用。在擴張Web圖使得它滿足條件之后，下面的等式就產(chǎn)生了：

P=(1?d)e+dATP
這里的e是所有1’s的列向量。這樣，我們得到了每個頁面i的PageRank公式：

P(i)=(1?d)+d∑j=1nAjiP(j)
這是公式等加油在原始的PageRank論文中給出的公式：

P(i)=(1?d)+d∑(j,i)∈EP(j)Oj
參數(shù)d被稱為damping factor（尼阻因素），它的值介于0和1之間，在論文[10,52]使用的中d=0.85。
可以使用冪迭代的方法來計算PageRank的值，這樣會得到特征值為1的特征向量。這個算法非常簡單，可以從Fig4 表4中看到。我們可以從任何的指定的PageRank的初始值開始。如果結(jié)果變動不多，那么迭代就救贖。在Fig4中，如果1-殘余向量的范式小于預(yù)定的閾值e那么迭代就結(jié)束。
由于在Web搜索中，我們感興趣的是網(wǎng)頁的排名，所以這個算法最終是否收斂我們是不關(guān)心的。這樣就可以使用更少的迭代。在[10]中，一個擁有322百萬，3.22億鏈接的數(shù)據(jù)庫，經(jīng)過了52次迭代就達到了可以接受的效果。

3 PageRank的未來

自從在論文[10,61]中提出了PageRank算法，研究者就可以提出了很多的加強的模型，和替代模型，用于提高他的計算，增加暫時的維度[91]。Liu，Langville和Meyer的書中包括了一些PageRank的升讀分析和其他幾個基于鏈接的算法。

總結(jié)

以上是生活随笔為你收集整理的数据挖掘十大算法翻译——6PageRank的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：透过《数字孪生白皮书2020》，看平行世
下一篇： redis未授权