日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python selenium 保存网页_使用python/selenium保存完整的网页(包括css、图像)

發布時間:2023/12/16 python 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python selenium 保存网页_使用python/selenium保存完整的网页(包括css、图像) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我正在使用Python/Selenium將遺傳序列提交到一個在線數據庫中,并希望保存返回的結果的整個頁面。下面是讓我得到我想要的結果的代碼:from selenium import webdriver

URL = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome'

SEQUENCE = 'CCTAAACTATAGAAGGACAGCTCAAACACAAAGTTACCTAAACTATAGAAGGACAGCTCAAACACAAAGTTACCTAAACTATAGAAGGACAGCTCAAACACAAAGTTACCTAAACTATAGAAGGACAGCTCAAACACAAAGTTACCTAAACTATAGAAGGACA' #'GAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGAGAAGA'

CHROME_WEBDRIVER_LOCATION = '/home/max/Downloads/chromedriver' # update this for your machine

# open page with selenium

# (first need to download Chrome webdriver, or a firefox webdriver, etc)

driver = webdriver.Chrome(executable_path=CHROME_WEBDRIVER_LOCATION)

driver.get(URL)

time.sleep(5)

# enter sequence into the query field and hit 'blast' button to search

seq_query_field = driver.find_element_by_id("seq")

seq_query_field.send_keys(SEQUENCE)

blast_button = driver.find_element_by_id("b1")

blast_button.click()

time.sleep(60)

此時,我有一個頁面,我可以手動單擊“另存為”,并獲得一個本地文件(帶有對應的image/js assets文件夾),該文件允許我在本地查看整個返回的頁面(減去通過向下滾動頁面動態生成的內容,這很好)。我假設在python/selenium中有一種簡單的方法來模擬這個“另存為”函數,但是沒有找到。下面保存頁面的代碼只保存了html,并沒有給我留下一個像在web瀏覽器中那樣的本地文件,還有圖像等等

^{pr2}$

我也找到了this question/answer on SO,但接受的答案只是打開了“另存為”框,并沒有提供單擊它的方法(正如兩位評論人士指出的那樣)

有沒有一種簡單的方法可以使用python將[full page]另存為?理想情況下,我更喜歡使用selenium的答案,因為selenium使爬行部分變得非常簡單,但是如果有更好的工具來完成這項工作,我愿意使用另一個庫。或者我只需要在代碼中指定要下載的所有圖像/表,而沒有快捷方式來模擬右鍵單擊“另存為”功能?在

更新-詹姆斯回答的后續問題

所以我運行James的代碼生成一個page.html(以及相關文件),并將其與手動單擊saveas得到的html文件進行比較。通過James的腳本保存的page.html非常棒,并且包含了我需要的所有內容,但是當在瀏覽器中打開時,它還顯示了許多隱藏在手動保存頁面中的額外格式化文本。請參閱所附的屏幕截圖(左側是手動保存的頁面,右側顯示了附加格式文本的腳本保存頁面)。

這讓我特別驚訝,因為James腳本保存的頁面的原始html似乎表明這些字段仍然應該被隱藏。例如,請參見下面的html,這兩個文件中顯示的是相同的,但有爭議的文本僅出現在由James腳本保存的頁面上的瀏覽器呈現頁面中:

These options control formatting of alignments in results pages. The

default is HTML, but other formats (including plain text) are available.

PSSM and PssmWithParameters are representations of Position Specific Scoring Matrices and are only available for PSI-BLAST.

The Advanced view option allows the database descriptions to be sorted by various indices in a table.

知道為什么會這樣嗎?在

總結

以上是生活随笔為你收集整理的python selenium 保存网页_使用python/selenium保存完整的网页(包括css、图像)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。