这样的爬虫思路要怎么设计??
生活随笔
收集整理的這篇文章主要介紹了
这样的爬虫思路要怎么设计??
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
首先,不用兩只爬蟲,一只爬蟲爬去內容的時候,就可以分辨出是優質還是劣質內容,是的話,就直接發布 "good_content" 事件,你的爬蟲系統就這么簡單。
訂閱了 "good_content" 的系統收到該事件,就會自動更新內容。具體是用什么來實現發布訂閱模式,方法有很多。如果是在一個項目中,自己寫代碼實現一個就行了;如果不是一個項目,就用消息隊列,或者Redis也有提供發布訂閱的功能(據說不太好用,哈哈~)。
發布訂閱模式,有優質內容就發布一個 "good_content" 事件,然后其他的網站訂閱這個事件,這樣不管你有多少網站,整個系統都是松耦合的。
有問題可以繼續討論。
高估了自己的數據量,低估了python性能。不用設計,花半天看scrapy文檔,官方例子流程就符合你了。
訂閱了 "good_content" 的系統收到該事件,就會自動更新內容。具體是用什么來實現發布訂閱模式,方法有很多。如果是在一個項目中,自己寫代碼實現一個就行了;如果不是一個項目,就用消息隊列,或者Redis也有提供發布訂閱的功能(據說不太好用,哈哈~)。
發布訂閱模式,有優質內容就發布一個 "good_content" 事件,然后其他的網站訂閱這個事件,這樣不管你有多少網站,整個系統都是松耦合的。
有問題可以繼續討論。
高估了自己的數據量,低估了python性能。不用設計,花半天看scrapy文檔,官方例子流程就符合你了。
總結
以上是生活随笔為你收集整理的这样的爬虫思路要怎么设计??的全部內容,希望文章能夠幫你解決所遇到的問題。