数据挖掘十大算法翻译——6PageRank
1 總覽
PageRank是由Sergey Brin和Larry Page在1998年4月的第七屆國際全球廣域網(wǎng)會議(WWW7)中提出的。它是一個使用超鏈接的搜索排序算法。基于這個算法,他們穿在了Google搜素引擎,并且取得了巨大的成功。現(xiàn)在,每個搜索引擎都有自己的基于超鏈接的排序算法。
PageRank產(chǎn)生一個網(wǎng)頁的靜態(tài)排行,也就是說PageRank離線的計算每個頁面,并且不依賴于查詢。通過使用大量的鏈接結(jié)構(gòu)作為單個頁面的衡量標準,這個算法利用了Web的民主特性。PageRank的精髓就是通過把從x頁面到Y(jié)頁面的一個鏈接,作為x頁面給y頁面的投票。然而,PageRank不僅僅只是單純的統(tǒng)計票數(shù),或者一個頁面收到的鏈接數(shù)。它也分析透出票的頁面。如果投出票的頁面本身是重要的,那么它會使得它投票的對象也是重要的。這就是在社交網(wǎng)絡(luò)中的“rank prestige(威望等階)”的思想。
2 算法
現(xiàn)在我們介紹PageRank公式。首先我們先成熟一些Web頁面的額內(nèi)容。
頁面i的入鏈接(in-link):從其他頁面指向頁面i的超鏈接。通常而言,從同一個站點的鏈接不被考慮。
頁面i的出鏈接(out-link):從頁面i指向其他頁面的超級鏈接。一般而言,不考慮同一個站點的鏈接。
下面這些基于rank prestige[86]的思想可以用來驅(qū)動PageRank算法:
1. 從一個頁面指向另一個頁面的超鏈接是一種暗含的權(quán)威的轉(zhuǎn)移。因此,頁面i收到的in-link越多,頁面i的prestige(威望)就越高
2. 指向頁面i的頁面也有他們自己的威望分數(shù)。擁有較高威望的頁面的投票比擁有較少威望的頁面的投票更重要。簡而言之,被重要的頁面指向的頁面也是重要的。
根據(jù)社交網(wǎng)絡(luò)中的威望等級,頁面i的重要性(這里是i的PageRank分數(shù))是由所有指向i的頁面所決定的。因為一個頁面可能指向其他的很多頁面,它的“威望”應(yīng)夠由它指向的頁面來共享。
為了使用公式表達這個思想,我們把Web作為一個有向圖G=(V,E)這里的V是頂點,也就是所有頁面的集合。E是圖的有向邊,也就是所有超鏈接。這里讓所有頁面的總數(shù)設(shè)為n(n=|V|)第i個頁面的PageRank分數(shù)由下面的式子定義。
這里的Oj是頁面j的out-link的數(shù)量。數(shù)學(xué)上而言,我們有n個含有n個線性方程的未知數(shù)。我們可以用一個矩陣來代表所有的等式。設(shè)P是PageRank值的n維列限量,有如下表示:
P=(P(1),P(2),…,P(n))T
設(shè)A是我們的圖的鄰接矩陣
Aij={1/Oi,0,if(i,j)∈Eotherwise
我們把n個等式的系統(tǒng)寫作
P=ATP (3)
這是特征系統(tǒng)的特征值方程,這里的解P是特征值為1的特征向量。由于這是一個循環(huán)的定義,我們使用一個迭代的算法來解決它。事實證明,如果條件滿足,1
是最大的特征值,并且PageRank向量P是主特征向量;
Power iteration(冪迭代)[30]是一個用來找到P的有名的數(shù)學(xué)方法。
然而問題在于由于Web圖不滿足條件,等式(3)是不重復(fù)的。事實上等式(3)也可以由Markov chain(馬爾科夫鏈)得到。然后從馬爾科夫鏈中得到的一些理論就可以被使用。在擴張Web圖使得它滿足條件之后,下面的等式就產(chǎn)生了:
P=(1?d)e+dATP
這里的e是所有1’s的列向量。這樣,我們得到了每個頁面i的PageRank公式:
P(i)=(1?d)+d∑j=1nAjiP(j)
這是公式等加油在原始的PageRank論文中給出的公式:
P(i)=(1?d)+d∑(j,i)∈EP(j)Oj
參數(shù)d被稱為damping factor(尼阻因素),它的值介于0和1之間,在論文[10,52]使用的中d=0.85。
可以使用冪迭代的方法來計算PageRank的值,這樣會得到特征值為1的特征向量。這個算法非常簡單,可以從Fig4 表4中看到。我們可以從任何的指定的PageRank的初始值開始。如果結(jié)果變動不多,那么迭代就救贖。在Fig4中,如果1-殘余向量的范式小于預(yù)定的閾值e那么迭代就結(jié)束。
由于在Web搜索中,我們感興趣的是網(wǎng)頁的排名,所以這個算法最終是否收斂我們是不關(guān)心的。這樣就可以使用更少的迭代。在[10]中,一個擁有322百萬,3.22億鏈接的數(shù)據(jù)庫,經(jīng)過了52次迭代就達到了可以接受的效果。
3 PageRank的未來
自從在論文[10,61]中提出了PageRank算法,研究者就可以提出了很多的加強的模型,和替代模型,用于提高他的計算,增加暫時的維度[91]。Liu,Langville和Meyer的書中包括了一些PageRank的升讀分析和其他幾個基于鏈接的算法。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘十大算法翻译——6PageRank的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 透过《数字孪生白皮书2020》,看平行世
- 下一篇: redis未授权