scrapy学习资料汇总
學習資料
接觸 Scrapy,是因為想爬取一些知乎的數據,最開始的時候搜索了一些相關的資料和別人的實現方式。
Github 上已經有人或多或少的實現了對知乎數據的爬取,我搜索到的有以下幾個倉庫:
https://github.com/KeithYue/Zhihu_Spider?實現先通過用戶名和密碼登陸再爬取數據,代碼見?zhihu_spider.py。
https://github.com/immzz/zhihu-scrapy?使用 selenium 下載和執行 javascript 代碼。
https://github.com/tangerinewhite32/zhihu-stat-py
https://github.com/Zcc/zhihu?主要是爬指定話題的topanswers,還有用戶個人資料,添加了登錄代碼。
https://github.com/pelick/VerticleSearchEngine?基于爬取的學術資源,提供搜索、推薦、可視化、分享四塊。使用了 Scrapy、MongoDB、Apache Lucene/Solr、Apache Tika等技術。
https://github.com/geekan/scrapy-examples?scrapy的一些例子,包括獲取豆瓣數據、linkedin、騰訊招聘數據等例子。
https://github.com/owengbs/deeplearning?實現分頁獲取話題。
https://github.com/gnemoug/distribute_crawler?使用scrapy、redis、mongodb、graphite實現的一個分布式網絡爬蟲,底層存儲mongodb集群,分布式使用redis實現,爬蟲狀態顯示使用graphite實現
https://github.com/weizetao/spider-roach?一個分布式定向抓取集群的簡單實現。
其他資料:
http://www.52ml.net/tags/Scrapy?收集了很多關于 Scrapy 的文章,推薦閱讀
用Python Requests抓取知乎用戶信息
使用scrapy框架爬取自己的博文
Scrapy 深入一點點
使用python,scrapy寫(定制)爬蟲的經驗,資料,雜。
Scrapy 輕松定制網絡爬蟲
在scrapy中怎么讓Spider自動去抓取豆瓣小組頁面
scrapy 和 javascript 交互例子:
用scrapy框架爬取js交互式表格數據
scrapy + selenium 解析javascript 實例
來源:
http://segmentfault.com/blog/javachen/1190000000583419
轉載于:https://blog.51cto.com/pcliuyang/1575428
總結
以上是生活随笔為你收集整理的scrapy学习资料汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于Vmware workstation
- 下一篇: zookeepr+kafka集群搭建(一