當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy学习资料汇总

發布時間：2024/1/17 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 scrapy学习资料汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

接觸 Scrapy，是因為想爬取一些知乎的數據，最開始的時候搜索了一些相關的資料和別人的實現方式。

Github 上已經有人或多或少的實現了對知乎數據的爬取，我搜索到的有以下幾個倉庫：

https://github.com/KeithYue/Zhihu_Spider?實現先通過用戶名和密碼登陸再爬取數據，代碼見?zhihu_spider.py。
https://github.com/immzz/zhihu-scrapy?使用 selenium 下載和執行 javascript 代碼。
https://github.com/tangerinewhite32/zhihu-stat-py
https://github.com/Zcc/zhihu?主要是爬指定話題的topanswers，還有用戶個人資料，添加了登錄代碼。
https://github.com/pelick/VerticleSearchEngine?基于爬取的學術資源，提供搜索、推薦、可視化、分享四塊。使用了 Scrapy、MongoDB、Apache Lucene/Solr、Apache Tika等技術。
https://github.com/geekan/scrapy-examples?scrapy的一些例子，包括獲取豆瓣數據、linkedin、騰訊招聘數據等例子。
https://github.com/owengbs/deeplearning?實現分頁獲取話題。
https://github.com/gnemoug/distribute_crawler?使用scrapy、redis、mongodb、graphite實現的一個分布式網絡爬蟲,底層存儲mongodb集群,分布式使用redis實現,爬蟲狀態顯示使用graphite實現
https://github.com/weizetao/spider-roach?一個分布式定向抓取集群的簡單實現。

其他資料：

scrapy 和 javascript 交互例子：

來源：

http://segmentfault.com/blog/javachen/1190000000583419

轉載于:https://blog.51cto.com/pcliuyang/1575428

以上是生活随笔為你收集整理的scrapy学习资料汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。