Python爬虫获取数据保存到数据库中(超级详细,保证一看就会)
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫获取数据保存到数据库中(超级详细,保证一看就会)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.簡介介紹
-網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
-一般在瀏覽器上可以獲取到的,通過爬蟲也可以獲取到,常見的爬蟲語言有PHP,JAVA,C#,C++,Python,為啥我們經常聽到說的都是Python爬蟲,這是因為python爬蟲比較簡單,功能比較齊全。
2.Xpath獲取頁面信息
通過Xpath進行爬蟲就是獲取到頁面html后通過路徑的表達式來選取標簽節點,沿著路徑選取需要爬取的數據。
Xpath常用表達式:
| / | 從根節點選取(取子節點) |
| // | 選擇的當前節點選擇文檔中的節點 |
| . | 選取當前節點。 |
| … | 選取當前節點的父節點。 |
| @ | 選取屬性 |
| * | 表示任意內容(通配符) |
| | | 運算符可以選取多個路徑 |
Xpath常用函數:
| startswith() | xpath(‘//div[starts-with(@id,”celent”)]‘) | #選取id值以celent開頭的div節點 |
| contains() | xpath(‘//div[contains(@id,”celent”)]‘) | #選取id值包含celent的div節點 |
| and() | xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘) | #選取id值包含celent的div節點 |
| text() | _.xpath(’./div/div[4]/a/em/text()’) | #選取em標簽下文本內容 |
Xpath實操解析:
# 案例1 # //為從當前html中選取節點;[@class="c1text1"]為獲取所有的class為c1text1的節點;/h1[1]為選取的節點下的第一個h1節點,如果沒有[1]則是獲取所有的,可以通過循環進行獲取數據 etreeHtml.xpath('//*[@class="c1text1"]/h1[1]/text()')# 案例2 #//為從當前html中選取節點;[@class="c1text1"]為獲取所有的class為c1text1的節點;/a為獲取當前節點下的所有a標簽節點,得到一個ObjectList;通過for循環獲取里面每個標簽數據,./@src為獲取當前節點的src屬性值 etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a') for _ in etreeHtml2: etreeHtml.xpath(./@src)3.通過Xpath爬蟲實操
本次實例以爬取我的CSDN文章列表信息保存到數據庫為案列
3-1.獲取xpath
通過F12打開開發者模式,點擊左上角圖標可參考下圖,選擇需要爬取數據的容器,在右邊選擇復制選擇xpath就可以得到xpath路徑了(//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div);
完整代碼展示:
總結
以上是生活随笔為你收集整理的Python爬虫获取数据保存到数据库中(超级详细,保证一看就会)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机载雷达导论(附录)
- 下一篇: 【python 图片识别】python识