爬虫技能
一、技能列表
1、掌握java、尤其編程網絡部分;李剛的java基礎至少看了三遍以上;
2、熟悉html、js、?ajax、firedebug
3、網頁去重、找到網站特點
4、分布式
5、多線程
6、一種關系型數據庫mysql/oraclelserver/mybatis
7、正則表達式、css?selector、?xpath
8、DNS?cache
9、TCP/IP/Http協議tp2.010、web登錄協議
10、?SSO、OAuth原理
11、反爬策略
12、熟悉httpClient、okhttp3...
13、?熟悉一些提取工具、jsoup、selenim WebDriver...
14、搜索技術。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15、熟悉XML、JSON、SOAP協議;
16、mongodb、?redis、?hbase、?hadoop
17、文本分析、機器學習、數據挖掘、自然語言處理[NLP]
18、完成網頁、微博、微信、貼吧、論壇等數據信息的精準抽取
19、RPC協議
20、netty、NIO
21、HTMLUnit、PhantomJS、SlimerJS?、CasperJS
22、代理部署方案:http/socks
23、nginx、?squid、jetty
24、破解ios
25、驗證碼、ocr、tess4j
?
二、爬蟲工具
1、Phantomjs
2、berserkJS(基于Phantomjs的改進版本)
3、SlimerJS
4、CasperJS
5、selenium
三、Java相關
常用的IDE:IntelliJ IDEA,Eclipse,Netbeans
Web開發相關:Tomcat、Resin、Jetty、WebLogic等,常用的組件Struts,Spring
HibernateNetty: 異步事件驅動網絡應用編程框架,用于高并發網絡編程比較好(NIO框架)
MINA:簡單地開發高性能和高可靠性的網絡應用程序(也是個NIO框架),不少手游服務端是用它開發的
jOOQ:java Orm框架Activiti:工作流引擎,類似的還有jBPM、Snaker
Perfuse:是一個用戶界面包用來把有結構與無結構數據以具有交互性的可視化圖形展示出來.
Gephi:復雜網絡分析軟件, 其主要用于各種網絡和復雜系統,動態和分層圖的交互可視化與探測開源工具
Nutch:知名的爬蟲項目,hadoop就是從這個項目中發展出來的
web-harvest:Web數據提取工具
POM工具:Maven+ArtifactoryNetflix
Curator:Netflix公司開源的一個Zookeeper client library,用于簡化Zookeeper客戶端編程
Akka:一款基于actor模型實現的 并發處理框架
EclEmma:覆蓋測試工具
?
轉載于:https://www.cnblogs.com/mmbbflyer/p/6025517.html
總結
- 上一篇: 股指期货跌百分之十股指期权会跌多少?
- 下一篇: java命令行参数