日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > java >内容正文

java

java斗图表情_Java爬取斗图网站的所有表情包

發(fā)布時間:2023/12/20 java 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java斗图表情_Java爬取斗图网站的所有表情包 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

跟朋友聊天總會用到大量表情包,有些人甚至專門收集各種各樣的表情包,看看誰能打敗誰。今天我就用java爬取了一個斗圖網(wǎng)站上的所有表情包,用來充實自己的表情包庫。代碼邏輯有可能并不完美,哈哈,也花了我?guī)讉€小時才完成呢。

下載完所有圖片,總共有225M.

思路:主要通過解析頁面的源代碼來獲取圖片的URL地址,然后通過圖片地址下載圖片到本地,所以要學(xué)會使用瀏覽器進行分析。

所用jar包:jsoup-1.8.1.jar

網(wǎng)站首頁:https://doutushe.com/portal/index/index/p/1

瀏覽器:Chrome

1,獲取網(wǎng)頁源代碼

/**

* 獲取網(wǎng)頁源代碼

* @author Augustu

* @param url 網(wǎng)頁地址

* @param encoding 網(wǎng)頁編碼

* @return 網(wǎng)頁源代碼

*/

public static String getUrlResource(String url,String encoding) {

//網(wǎng)頁源代碼,用String這個容器記錄

String htmlResource = "";

//記錄讀取網(wǎng)頁的每一行數(shù)據(jù)

String temp = null;

try {

//1,找到網(wǎng)站地址

URL theUrl = new URL(url);

//2,建立起與網(wǎng)站的連接

URLConnection urlConnection = theUrl.openConnection();

//3,創(chuàng)建輸入流,此處讀取的是網(wǎng)頁的源代碼

InputStreamReader isr = new InputStreamReader(urlConnection.getInputStream(),encoding);

//4,對輸入流進行緩沖,加快讀取速度

BufferedReader reader = new BufferedReader(isr);

//5,一行一行讀取源代碼,存到htmlResource中

while((temp = reader.readLine()) != null) {

htmlResource += temp;

}

} catch (IOException e) {

e.printStackTrace();

}

return htmlResource;

}

2,獲取頁面所有組圖片的UrL地址

/**

* 獲取頁面所有組圖片的UrL地址

* @author Augustu

* @param context 每個頁面的urL

* @return 獲取頁面所有組圖片的UrL地址

*/

public static String findPictureUrl(String context) {

String temp = "";//暫時存儲得到的每個url

String pictureUrl = "";//得到所有URL

//1,Jsoup將讀取的網(wǎng)頁源代碼解析為Html文檔,便可以使用Jsoup的方法操作html元素了,就像javascript一樣

Document document = Jsoup.parse(context);

//2,觀察網(wǎng)頁源代碼,發(fā)現(xiàn)每組圖片都連接到了另一個URL地址,這個a標簽的class為“l(fā)ink-2”

Elements groupUrl = document.getElementsByClass("link-2");

//3,遍歷每個a標簽,得到href

for(Element ele: groupUrl) {

//此處我發(fā)現(xiàn)每次Url都輸出兩次,也沒找到原因,就用此方法先解決他

if(ele.attr("href") == temp) {

continue;

}

temp = ele.attr("href");

//4,將所有URL存入String中,并使用空格分開,便于后面分割

//本來我使用“|”分隔開來,分割的結(jié)果竟然是每個字符都分開了

pictureUrl += "https://doutushe.com"+ele.attr("href")+" ";

}

return pictureUrl;

}

3,下載單張圖片

/**

* 下載單張圖片

* @param picturl 圖片地址

* @param filePath 下載路徑

* @param fileName 下載名

*/

public static void downPicture(String picturl,String filePath,String fileName) {

FileOutputStream fos = null;//輸出文件流

BufferedOutputStream bos = null;//緩沖輸出

File file = null;//創(chuàng)建文件對象

File dir = new File(filePath);//創(chuàng)建文件保存目錄

Connection.Response response;

try {

//1,Jsoup連接地址,得到響應(yīng)流,ignoreContentType表示忽略網(wǎng)頁類型,如果不加會報錯(默認只支持文本),因為我們頁面是圖片

response = Jsoup.connect(picturl).ignoreContentType(true).execute();

//2,將頁面內(nèi)容按字節(jié)輸出

byte[] img = response.bodyAsBytes();

//3,寫入本地文件中

//判斷文件目錄是否存在,

if(!dir.exists() ){

dir.mkdir();//創(chuàng)建文件夾

}

file = new File(filePath+"\\"+fileName);//創(chuàng)建文件

fos = new FileOutputStream(file);

bos = new BufferedOutputStream(fos);

bos.write(img);//寫入本地

} catch (IOException e) {

e.printStackTrace();

}finally{

//4,釋放資源

if(bos!=null){

try {

bos.close();

} catch (IOException e) {

e.printStackTrace();

}

}

if(fos!=null){

try {

fos.close();

} catch (IOException e) {

e.printStackTrace();

}

}

}

}

4,下載所有圖片

/**

* 下載所有圖片

* @author Augustu

* @param pictureUrl 每組圖片url

*/

public static void downallPicture(String pictureUrl,String downLoadPath) {

String picturl = "";

String pictureName ="";//

String[] pictureUrlArry = pictureUrl.split(" ");//圖片組的url

for(int i=0;i

//遍歷得到每組圖片的url

String pictureHtml = getUrlResource(pictureUrlArry[i],"utf-8");

Document document = Jsoup.parse(pictureHtml);

//得到該組圖片的分類名稱

String dir = document.getElementsByTag("blockquote").first().child(0).text();

//該標簽包含所有圖片url

Elements elements = document.getElementsByClass("lazy");

for(Element ele: elements) {

//得到每張圖片url

picturl = ele.attr("data-original");

//觀察源代碼,發(fā)現(xiàn)獲取的圖片地址多了/themes/doutushe/Public/assets/images/doutushe-erweima.jpg,將其刪除

if(picturl.equals("/themes/doutushe/Public/assets/images/doutushe-erweima.jpg")) {

continue;

}

//得到每張圖片的名字,別忘了加后綴

pictureName = ele.attr("title")+".gif";

//下載該圖片

downPicture(picturl,downLoadPath+"\\"+dir,pictureName);

}

}

}

5,主函數(shù)運行代碼

public static void main(String[] args) {

String context = "";

//觀察源代碼,發(fā)現(xiàn)共有28個頁面

for(int i=1;i<=28;i++) {

//獲取每個頁面

context = getUrlResource("https://doutushe.com/portal/index/index/p/"+i+"","utf-8");

//獲取該頁面所有組圖片的url

String pictureUrl = findPictureUrl(context);

downallPicture(pictureUrl,"E:\\image\\表情包");

}

}

總結(jié)

以上是生活随笔為你收集整理的java斗图表情_Java爬取斗图网站的所有表情包的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。