當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据之爬虫

發布時間：2023/12/10 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据之爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文為《搞定大數據爬蟲項目》學習，想通系統學習機器這個最火爆內容的同學，推薦學習課程：http://www.dajiangtai.com/course/7.do?sp=www_117

課程大綱

項目背景

1、了解傳統廣電收視率項目背景?
2、用戶數據有哪些價值點?
3、哪些機構掌握這些數據?
4、爬蟲目標：互聯網各大視頻網站?

項目總體需求

1、多維度統計：總播放指數、每日播放增量、評論數、收藏數、贊、踩?
2、數據可視化：節目收視排行榜、多維度指標趨勢圖?

難點分析

1、網站采取反爬策略?
2、網站模板定期變動?
3、網站URL抓取失敗?
4、網站頻繁抓取IP被封?

系統架構設計

1、總體架構解析?
2、數據流向?
3、功能模塊劃分?
4、各個模塊詳細解讀?

技術選型

1、數據采集層?
2、數據存儲層?
3、數據處理層?
4、數據展示層?

部署方案

1、爬蟲項目：分布式集群?
2、爬蟲定時項目：一臺服務器?
3、爬蟲項目監控：一臺服務器?
4、爬蟲可視化：多臺服務器?
5、Hbase數據庫：分布式集群?
6、Redis數據庫：分布式集群?
7、Solr 全文檢索：分布式集群?
8、Zookeeper 監控：分布式集群?
9、Solr 建立索引：一臺服務器?
10、郵件提醒：一臺服務器?

爬蟲代碼詳盡實現

1、下載、解析視頻網站詳情頁面url，提取關鍵字段數據?
2、抽取視頻網站解析規則模板，優化解析代碼?
3、打通數據爬蟲的下載、解析、存儲流程?
4、采用Hbase存儲爬蟲數據，詳解Hbase寬表和窄表設計以及爬蟲項目表的詳細設計，包含rowKey設計、列簇設計、歷史版本?
5、解析視頻網站所有分頁url并優化解析實現類?
6、使用Queue隊列存儲視頻網站所有url，實現視頻網站url循環抓取?
7、采用高、低優先級隊列循環抓取視頻網站url?
8、采用Redis數據庫實現url抓取優先級，并支持分布式爬蟲?
9、采用多線程爬蟲，加快爬蟲效率?
10、定時啟動爬蟲項目?
11、完善爬蟲項目、補充抓取關鍵字段數據?

全文檢索

1、Lucene、Solr、ElasticSearch簡介?
2、全文檢索過程：索引創建和搜索索引?
3、解決全文檢索的核心問題?
4、Solr+Hbase組合提升檢索效率?
5、Solr 配置詳解?
6、Solr 安裝部署?
7、Solr 建立索引?
8、Solr 檢索視頻網站數據?

數據可視化

1、采用SpringMVC框架編寫爬蟲Web項目?
2、編寫Hbase工具類查詢Hbase數據?
3、編寫Solr工具類檢索爬蟲數據?
4、采用Freemarker或者jsp展示頁面?
5、采用Highcharts插件展示收視指數曲線圖?
6、打通爬蟲整個項目流程，實時查看收視排行榜以及收視指數曲線圖?

項目優化一

1、設置合理的抓取時間間隔，模擬正常用戶訪問，降低IP被封概率?
2、采用Redis 動態IP庫，隨機獲取IP，隨機抓取不同網站數據，降低同一IP對統一網站的訪問頻率?
3、實現分布式爬蟲，提高爬蟲效率?

項目優化二

1、Ganglia、Zookeeper簡介?
2、詳解Zookeeper特性監控爬蟲項目?
3、完善爬蟲項目注冊Zookeeper集群?
4、編寫Watcher監視器監控爬蟲項目生命周期?
5、集群監控的整體聯調?

項目優化三

1、監控器監控爬蟲項目異常，異常數據插入數據庫
2、編寫郵件Mail項目掃描爬蟲項目異常信息，通知運維人員
3、編寫定時器定時執行Mail項目?

轉載于:https://www.cnblogs.com/dajiangtai/p/10737558.html

總結

以上是生活随笔為你收集整理的大数据之爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。