當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何批量保存html,如何批量保存网页信息

發布時間：2023/12/31 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了如何批量保存html,如何批量保存网页信息小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

如何批量保存網頁信息

現在我們利用網絡數據庫探索者來批量保存這些聯系地址，就能大大減少重復勞動的工作量。

下載地址：http://www2.skycn.com/soft/14620.html

一、查找頁面規律

在使用網絡數據庫探索者前我們要摸清頁面的規律，一般可以從兩、三個所需頁面的鏈接地址對比中找到規律。在“四川”的企業列表中進入第二、第三頁，發現它們的地址分別為：http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=和http://www.pharmnet.com.cn/cgi/company_search.cgi?p=3&t=company&terms=四川&c=，可見地址變化的就是p的值，依此類推就可以得出p=4是第四頁、p=5就是第五頁……這里的p就是數據頁的url關鍵字，其前面的地址部分http://www.pharmnet.com.cn/cgi/company_search.cgi?是url1，后面的&t=company&terms=四川&c=則是url2了。

二、設置規則

清楚頁面規律后還需要為要保存的網頁信息建立一個規則。開啟網絡數據庫探索者，在“文件”下點擊“新建規則文件”打開“設置規則”窗口(圖1)。首先設置“一級規則”，一級規則的內容就是類似制藥企業列表這樣的一級數據了。在“規則用途”方面是根據所要保存的頁面數據大小來定，這里的各企業聯系方法數據較小就勾選“提取一般數據”，接下來給規則輸入一個名稱并輸入數據頁的url1、url2和關鍵字。

提示：如果沒有url2就以空格代替;填寫url關鍵字的時候要注意其大小寫要和實際地址中的一致。

因為在頁面中我們只需要其中的列表部分，這里要設置一下列表部分的“起始關鍵字”，一般可以取列表上一行的固定文字，這里取用“共有159家企業”；“每頁行數”則是從關鍵字開始一直到列表結束的行數，包括空格；“提取頁數”就是列表的頁數了，這里共有11頁，就設置為“1到11”，“遞增值”一般設置為1。

我們真正所需的企業聯系信息是列表中的各個企業的鏈接頁面值，即二級數據，因此在設置完“一級規則”后勾選“二級規則”，進入“二級設置”選項卡，勾選“使用提取行數”，“二級鏈接的url范圍”的選擇可先在軟件自帶的瀏覽器中打開一個一級數據網頁如http://www.pharmnet.com.cn/cgi/company_search.cgi？p=2&t=company&terms=四川&c=，然后按下“二級鏈接的url范圍”后的小按鈕，在彈出的窗口中定位好所需網頁資料的序號(圖2)，若需要28～42之間的二級數據，則“二級鏈接的url范圍”就是“28到42”；然后像設置“一級規則”一樣設置好“二級數據頁的起始關鍵字”和“提取行數”就可以“確定”保存規則了。

提示：在選擇“使用提取行數”和“使用結束關鍵字”時要注意，如果二級數據的行數固定就選“使用提取行數”選項，否則選“使用結束關鍵字”。

三、批量提取數據

規則設置完畢返回軟件主界面就可以提取所需要的網頁信息了。在“規則”下選擇剛才建立的規則文件“四川制藥企業”，單擊“提取”按鈕就可以執行數據庫的信息提取了。提取完畢，在“數據瀏覽”中可以查看到與一級數據相對應的二級數據即各制藥企業的具體聯系方法了。運行“文件→提取的數據另存為文本”就能保存所需要的網頁信息了。

某些網站提供的網頁信息是以分頁形式發布出來的，這樣的網頁具有一定的規律性且數據量大，要想保存這樣的網頁若依靠手工逐一操作，工作量太大。使用網絡數據庫探索者可以直接讀取網站數據庫來保存網頁信息，能夠有效減少重復勞動，減輕工作量。

總結

以上是生活随笔為你收集整理的如何批量保存html,如何批量保存网页信息的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： i5 9400f和i7 7700k哪个好
下一篇：帆软报表学习网址(组内序号)