日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫实战:链接爬虫实战

發布時間:2024/9/30 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫实战:链接爬虫实战 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

假設我們想要把一個網頁中所有的鏈接地址提取出來,我們可以通過python爬蟲實現。
思路

  • 確定好要爬取的入口鏈接
  • 根據需求構建好鏈接提取的正則表達式
  • 模擬成瀏覽器并爬取對應網頁
  • 根據步驟2的正則表達式提取出該網頁中的鏈接
  • 過濾掉重復鏈接
  • 后續操作,如打印出鏈接。
  • 第一步:入口鏈接
    個人博客

    網址

    https://blog.csdn.net/KOBEYU652453?spm=1001.2101.3001.5343

    第二步:定義正則表達式

    鏈接示例

    href="https://blog.csdn.net/kobeyu652453/article/details/106355922

    正則用法教程鏈接
    python :re模塊基本用法

    于是我們可以定義正則規則

    pat='(https?://[^\s)";]+\.(\w|/)*)' #^\匹配任何非空白字符 \w任何數字字母 * 0個或多個

    因為有的網址是http,非https,如何在s后面加?號。

    全文代碼

    import re import urllib.request from urllib import request def getlink(url):headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36")opener = urllib.request.build_opener()opener.addheaders = [headers]# 將opener安裝為全局urllib.request.install_opener(opener)url_request = request.Request(url)html1 = request.urlopen(url_request, timeout=10)data=str(html1.read())#根據需要定義正則表達式pat = '(https?://[^\s)";]+\.(\w|/)*)' # ^\匹配任何非空白字符 \w任何數字字母 * 0個或多個link=re.compile(pat).findall(data)#去除重復元素link=set(link)return linkurl='https://blog.csdn.net/KOBEYU652453?spm=1001.2101.3001.5343' linklist=getlink(url) for link in linklist:print(link[0])


    作者:電氣-余登武

    總結

    以上是生活随笔為你收集整理的爬虫实战:链接爬虫实战的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。