大数据之爬虫
?
本文為《搞定大數據爬蟲項目》學習,想通系統學習機器這個最火爆內容的同學,推薦學習課程:http://www.dajiangtai.com/course/7.do?sp=www_117
?
課程大綱
項目背景| 1、了解傳統廣電收視率項目背景? 2、用戶數據有哪些價值點? 3、哪些機構掌握這些數據? 4、爬蟲目標:互聯網各大視頻網站? |
| 1、多維度統計:總播放指數、每日播放增量、評論數、收藏數、贊、踩? 2、數據可視化:節目收視排行榜、多維度指標趨勢圖? |
| 1、網站采取反爬策略? 2、網站模板定期變動? 3、網站URL抓取失敗? 4、網站頻繁抓取IP被封? |
| 1、總體架構解析? 2、數據流向? 3、功能模塊劃分? 4、各個模塊詳細解讀? |
| 1、數據采集層? 2、數據存儲層? 3、數據處理層? 4、數據展示層? |
| 1、爬蟲項目:分布式集群? 2、爬蟲定時項目:一臺服務器? 3、爬蟲項目監控:一臺服務器? 4、爬蟲可視化:多臺服務器? 5、Hbase數據庫:分布式集群? 6、Redis數據庫:分布式集群? 7、Solr 全文檢索:分布式集群? 8、Zookeeper 監控:分布式集群? 9、Solr 建立索引:一臺服務器? 10、郵件提醒:一臺服務器? |
| 1、下載、解析視頻網站詳情頁面url,提取關鍵字段數據? 2、抽取視頻網站解析規則模板,優化解析代碼? 3、打通數據爬蟲的下載、解析、存儲流程? 4、采用Hbase存儲爬蟲數據,詳解Hbase寬表和窄表設計以及爬蟲項目表的詳細設計,包含rowKey設計、列簇設計、歷史版本? 5、解析視頻網站所有分頁url并優化解析實現類? 6、使用Queue隊列存儲視頻網站所有url,實現視頻網站url循環抓取? 7、采用高、低優先級隊列循環抓取視頻網站url? 8、采用Redis數據庫實現url抓取優先級,并支持分布式爬蟲? 9、采用多線程爬蟲,加快爬蟲效率? 10、定時啟動爬蟲項目? 11、完善爬蟲項目、補充抓取關鍵字段數據? |
| 1、Lucene、Solr、ElasticSearch簡介? 2、全文檢索過程:索引創建和搜索索引? 3、解決全文檢索的核心問題? 4、Solr+Hbase組合提升檢索效率? 5、Solr 配置詳解? 6、Solr 安裝部署? 7、Solr 建立索引? 8、Solr 檢索視頻網站數據? |
| 1、采用SpringMVC框架編寫爬蟲Web項目? 2、編寫Hbase工具類查詢Hbase數據? 3、編寫Solr工具類檢索爬蟲數據? 4、采用Freemarker或者jsp展示頁面? 5、采用Highcharts插件展示收視指數曲線圖? 6、打通爬蟲整個項目流程,實時查看收視排行榜以及收視指數曲線圖? |
| 1、設置合理的抓取時間間隔,模擬正常用戶訪問,降低IP被封概率? 2、采用Redis 動態IP庫,隨機獲取IP,隨機抓取不同網站數據,降低同一IP對統一網站的訪問頻率? 3、實現分布式爬蟲,提高爬蟲效率? |
| 1、Ganglia、Zookeeper簡介? 2、詳解Zookeeper特性監控爬蟲項目? 3、完善爬蟲項目注冊Zookeeper集群? 4、編寫Watcher監視器監控爬蟲項目生命周期? 5、集群監控的整體聯調? |
| 1、監控器監控爬蟲項目異常,異常數據插入數據庫 2、編寫郵件Mail項目掃描爬蟲項目異常信息,通知運維人員 3、編寫定時器定時執行Mail項目? |
轉載于:https://www.cnblogs.com/dajiangtai/p/10737558.html
總結
- 上一篇: 微信小程序登录 更新中
- 下一篇: HBase查询优化