日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

爬虫技能

發布時間:2023/11/27 生活经验 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫技能 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、技能列表

1、掌握java、尤其編程網絡部分;李剛的java基礎至少看了三遍以上;

2、熟悉html、js、?ajax、firedebug
3、網頁去重、找到網站特點
4、分布式
5、多線程
6、一種關系型數據庫mysql/oraclelserver/mybatis
7、正則表達式、css?selector、?xpath
8、DNS?cache
9、TCP/IP/Http協議tp2.010、web登錄協議

10、?SSO、OAuth原理

11、反爬策略
12、熟悉httpClient、okhttp3...
13、?熟悉一些提取工具、jsoup、selenim WebDriver...
14、搜索技術。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15、熟悉XML、JSON、SOAP協議;
16、mongodb、?redis、?hbase、?hadoop
17、文本分析、機器學習、數據挖掘、自然語言處理[NLP]
18、完成網頁、微博、微信、貼吧、論壇等數據信息的精準抽取
19、RPC協議
20、netty、NIO
21、HTMLUnit、PhantomJS、SlimerJS?、CasperJS
22、代理部署方案:http/socks
23、nginx、?squid、jetty
24、破解ios
25、驗證碼、ocr、tess4j

?

二、爬蟲工具

1、Phantomjs

2、berserkJS(基于Phantomjs的改進版本)

3、SlimerJS

4、CasperJS

5、selenium

三、Java相關

常用的IDE:IntelliJ IDEA,Eclipse,Netbeans

Web開發相關:Tomcat、Resin、Jetty、WebLogic等,常用的組件Struts,Spring

HibernateNetty: 異步事件驅動網絡應用編程框架,用于高并發網絡編程比較好(NIO框架)

MINA:簡單地開發高性能和高可靠性的網絡應用程序(也是個NIO框架),不少手游服務端是用它開發的

jOOQ:java Orm框架Activiti:工作流引擎,類似的還有jBPM、Snaker

Perfuse:是一個用戶界面包用來把有結構與無結構數據以具有交互性的可視化圖形展示出來.

Gephi:復雜網絡分析軟件, 其主要用于各種網絡和復雜系統,動態和分層圖的交互可視化與探測開源工具

Nutch:知名的爬蟲項目,hadoop就是從這個項目中發展出來的

web-harvest:Web數據提取工具

POM工具:Maven+ArtifactoryNetflix

Curator:Netflix公司開源的一個Zookeeper client library,用于簡化Zookeeper客戶端編程

Akka:一款基于actor模型實現的 并發處理框架

EclEmma:覆蓋測試工具

?

轉載于:https://www.cnblogs.com/mmbbflyer/p/6025517.html

總結

以上是生活随笔為你收集整理的爬虫技能的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。