日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python跳转到新页面、如何等待页面加载完_python urllib2 – 在抓取之前等待页面完成加载/重定向?...

發(fā)布時(shí)間:2023/12/15 python 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python跳转到新页面、如何等待页面加载完_python urllib2 – 在抓取之前等待页面完成加载/重定向?... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

我正在學(xué)習(xí)制作網(wǎng)絡(luò)抓取工具,并希望抓住TripAdvisor的個(gè)人項(xiàng)目,使用urllib2抓取html.

但是,我遇到了一個(gè)問題,使用下面的代碼,我回來的html是不正確的,因?yàn)轫?yè)面似乎需要一秒鐘重定向(你可以通過訪問網(wǎng)址驗(yàn)證這一點(diǎn)) – 而是我得到的代碼從最初短暫出現(xiàn)的頁(yè)面.

是否有一些行為或參數(shù)要設(shè)置以確保頁(yè)面在獲取網(wǎng)站內(nèi)容之前已完全加載/重定向?

import urllib2

from bs4 import BeautifulSoup

bostonPage = urllib2.urlopen("http://www.tripadvisor.com/HACSearch?geo=34438#02,1342106684473,rad:S0,sponsors:ABEST_WESTERN,style:Szff_6")

soup = BeautifulSoup(bostonPage)

print soup.prettify()

解決方法:

有趣的問題不是重定向是該頁(yè)面使用javascript修改內(nèi)容,但urllib2沒有JS引擎它只是GETS數(shù)據(jù),如果你在瀏覽器上禁用了javascript,你會(huì)注意到它加載的內(nèi)容與urllib2基本相同回報(bào)

import urllib2

from BeautifulSoup import BeautifulSoup

bostonPage = urllib2.urlopen("http://www.tripadvisor.com/HACSearch?geo=34438#02,1342106684473,rad:S0,sponsors:ABEST_WESTERN,style:Szff_6")

soup = BeautifulSoup(bostonPage)

open('test.html', 'w').write(soup.read())

test.html并在瀏覽器中禁用JS,最簡(jiǎn)單的firefox內(nèi)容 – >取消選中啟用javascript,生成相同的結(jié)果集.

Travel/Hotel API’s?

盡管有一些限制,它看起來可能會(huì)有所不同.

但是如果我們?nèi)匀恍枰褂肑S,那么我們可以使用它主要用于測(cè)試的selenium http://seleniumhq.org/,但它的簡(jiǎn)單且具有相當(dāng)好的文檔.

希望有所幫助.

作為旁注:

>>> import urllib2

>>> from bs4 import BeautifulSoup

>>>

>>> bostonPage = urllib2.urlopen("http://www.tripadvisor.com/HACSearch?geo=34438#02,1342106684473,rad:S0,sponsors:ABEST_WESTERN,style:Szff_6")

>>> value = bostonPage.read()

>>> soup = BeautifulSoup(value)

>>> open('test.html', 'w').write(value)

標(biāo)簽:python,urllib2

來源: https://codeday.me/bug/20190929/1830484.html

總結(jié)

以上是生活随笔為你收集整理的python跳转到新页面、如何等待页面加载完_python urllib2 – 在抓取之前等待页面完成加载/重定向?...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。