网络爬虫的分析算法
爬蟲節點爬取到的網頁數據會存放到資源庫中,資源庫對爬取到的數據進行分析并建立索引,分析算法有以下幾種
(1) 基于用戶行為的分析算法:根據用戶對網頁的訪問頻率 、訪問時長 、點擊率等對網頁數據進行分析
(2) 基于網絡拓撲的分析算法:根據網頁的外鏈 、網頁的層次 、網頁的等級等對網頁數據進行分析,計算出網頁的權重,對網頁進行排名
(3) 基于網頁內容的分析算法:根據網頁的外觀 、網頁的文本等內容特征對網頁數據進行分析
?
?
?
?
?
?
? ? ?
轉載于:https://www.cnblogs.com/pzk7788/p/10530849.html
總結
- 上一篇: ThinkPHP中的display()和
- 下一篇: java后台常见问题