生活随笔
收集整理的這篇文章主要介紹了
使用WebCollector爬取时光网电影数据
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據源http://video.mtime.com/search
原數據是json格式的,其中i標示頁碼
http://video.mtime.com/api/videoSearch/getFilterData?h=movie&y=2019-2015&r=美國&p=3&s=1&i=1&c=30
<dependency><groupId>cn.edu.hfut.dmic.webcollector
</groupId><artifactId>WebCollector
</artifactId><version>2.73-alpha
</version>
</dependency>
public class MtimeMovieCrawler extends RamCrawler {public MtimeMovieCrawler(int pageNum
) {for (int i
= 1; i
<= pageNum
; i
++) {String url
= String
.format("http://video.mtime.com/api/videoSearch/getFilterData?h=movie&y=2019-2015&r=美國&p=3&s=1&i=%s&c=30", i
);addSeedAndReturn(url
);}}@Overridepublic void visit(Page page
, CrawlDatums next
) {JsonArray list
= page
.jsonObject().get("movieIntegrateList").getAsJsonArray();list
.forEach(element
->{JsonObject movie
= element
.getAsJsonObject();System
.out
.println(movie
.get("movieId").getAsString()+" "+movie
.get("titleCn").getAsString()+" ("+movie
.get("year").getAsInt()+")");System
.out
.println("導演:"+movie
.get("directorNameCn1").getAsString());System
.out
.println("演員:"+movie
.get("actorNameCn1").getAsString()+" "+movie
.get("actorNameCn2").getAsString());System
.out
.println("海報:"+"http:"+movie
.get("coverPath").getAsString());System
.out
.println("");});}public static void main(String
[] args
) throws Exception
{MtimeMovieCrawler crawler
= new MtimeMovieCrawler(5);crawler
.setThreads(5);crawler
.getConf().setExecuteInterval(500);crawler
.start(1);}
}
218090 復仇者聯盟4:終局之戰 (2019)
導演:安東尼·羅素
演員:小羅伯特·唐尼 克里斯·埃文斯
海報:http://img5.mtime.cn/mg/2019/03/29/095612.14234221_200X200X2.jpg235701 大偵探皮卡丘 (2019)
導演:羅伯·萊特曼
演員:瑞安·雷諾茲 賈斯提斯·史密斯
海報:http://img5.mtime.cn/mg/2019/05/06/105807.30044254_200X200X2.jpg213190 哥斯拉2:怪獸之王 (2019)
導演:邁克爾·道赫蒂
演員:米莉·博比·布朗 維拉·法梅加
海報:http://img5.mtime.cn/mg/2019/05/23/095634.71391607_200X200X2.jpg
總結
以上是生活随笔為你收集整理的使用WebCollector爬取时光网电影数据的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。