當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【爬虫】爬取带有cookie才能获取网页内容的新闻网站

發布時間：2024/8/23 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了【爬虫】爬取带有cookie才能获取网页内容的新闻网站小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

工作任務：

今天老大讓我跑取一個新聞網站：https://www.yidaiyilu.gov.cn/

采坑記錄：

https協議，如果利用http協議去請求會報出如下信息：

錯誤：SSLHandshake錯誤就知道了，客戶端與服務端進行連接時，需要通過SSL協議進行握手

(坑)改用：重寫DefaultHttpClient方法使其支持SSL協議

package httpsParse; import java.security.cert.CertificateException; import java.security.cert.X509Certificate; import javax.net.ssl.SSLContext; import javax.net.ssl.TrustManager; import javax.net.ssl.X509TrustManager; import org.apache.http.conn.ClientConnectionManager; import org.apache.http.conn.scheme.Scheme; import org.apache.http.conn.scheme.SchemeRegistry; import org.apache.http.conn.ssl.SSLSocketFactory; import org.apache.http.impl.client.DefaultHttpClient; //用于進行Https請求的HttpClient public class SSLClient extends DefaultHttpClient{ public SSLClient() throws Exception{ super(); //傳輸協議需要根據自己的判斷　 SSLContext ctx = SSLContext.getInstance("TLSv1.2"); X509TrustManager tm = new X509TrustManager() { @Override public void checkClientTrusted(X509Certificate[] chain, String authType) throws CertificateException { } @Override public void checkServerTrusted(X509Certificate[] chain, String authType) throws CertificateException { } @Override public X509Certificate[] getAcceptedIssuers() { return null; } }; ctx.init(null, new TrustManager[]{tm}, null); SSLSocketFactory ssf = new SSLSocketFactory(ctx,SSLSocketFactory.ALLOW_ALL_HOSTNAME_VERIFIER); ClientConnectionManager ccm = this.getConnectionManager(); SchemeRegistry sr = ccm.getSchemeRegistry(); sr.register(new Scheme("https", 443, ssf)); } }

（坑）然后再利用HttpClient去請求獲取網頁源代碼：

public static void main(String[] args) throws Exception {HttpClientUtil httpClientUtil = new HttpClientUtil();String url = "https://www.yidaiyilu.gov.cn/zchj.htm";String html = httpClientUtil.doGet(url);System.out.println(html);}

最后發現得到的結果：是一段js代碼

開始懷疑是cookie的原因，然后在瀏覽器中將cookie帶上去最后請求出結果，但是cookie是有有效期的，隔一段時間cookie就失效了，因此這種方法行不通
后來分析發現瀏覽器訪問該網站首先會加載js然后生成cookie，再將這次生成的cookie帶上請求頭再次請求，所以為什么第一次上面的請求會出現js代碼，但是js是動態加載的，因此需要利用java模擬瀏覽的方式去實現
最終通過htmlunit實現的代碼：

package cn.server;import org.openqa.selenium.htmlunit.HtmlUnitDriver;public class GFDynamicWeb {public static HtmlUnitDriver driver = new HtmlUnitDriver();public static boolean isGetCookie = false; // public static boolean isRepeatExec = false;public static String GetContent(String url) {if(!isGetCookie) {driver.setJavascriptEnabled(true);//第一次加載js獲取cookiedriver.get(url);}driver.setJavascriptEnabled(false);//第二次加載網頁源碼driver.get(url);String pageSource = driver.getPageSource();isGetCookie = true;return pageSource;}public static void renewIsGetCookie() {isGetCookie = false;}public static void closeDriver() {driver.close();}public static void main(String[] args) {long s = System.currentTimeMillis();for(int i = 0; i < 100; i ++) {String url = "https://www.yidaiyilu.gov.cn/";String content = GetContent(url);System.out.println(content);}long e = System.currentTimeMillis();System.out.println((e - s)/1000 + "秒");renewIsGetCookie();closeDriver();} }

期間利用的網址：

在線接口測試

521狀態碼作用

521出錯問題解決辦法

總結

以上是生活随笔為你收集整理的【爬虫】爬取带有cookie才能获取网页内容的新闻网站的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ubuntu下编译OpenGL
下一篇：【链接转载保存】Collections.