Python爬虫学习二爬虫基础了解
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫学习二爬虫基础了解
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.什么是爬蟲
爬蟲就是進入網頁自動獲取數據的程序。當它進入一個網頁時,將網頁上需要的數據下載下來,并跟蹤網頁上的其他鏈接,進入新的頁面下載數據,并繼續跟蹤鏈接下載數據。
2.URL
URL,即統一資源定位符,也就是我們說的網址,統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的 URL,它包含的信息指出文件的位置以及瀏覽器應該怎么處理它
URL由三部分組成:資源類型、存放資源的主機域名、資源文件名。
也可認為由4部分組成:協議、主機、端口、路徑
URL的一般語法格式為:
(帶方括號[]的為可選項):
protocol 😕/ hostname[:port] / path / [;parameters][?query]#fragment
總結
以上是生活随笔為你收集整理的Python爬虫学习二爬虫基础了解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux操作系统基础解析之(五)——g
- 下一篇: Python风格