日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python爬虫之获取淘宝商品数据

發布時間:2023/12/14 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫之获取淘宝商品数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬取淘寶信息數據

首先需要先導入webdriver

from selenium import webdriver

webdriver支持主流的瀏覽器,比如說:谷歌瀏覽器、火狐瀏覽器、IE瀏覽器等等

然后可以創建一個webdriver對象,通過這個對象就可以通過get方法請求網站

driver = webdriver.Chrome() # 創建driver對象 driver.get('https://www.baidu.com') # 請求百度

接下來可以定義一個方法:search_product

一、selenium的簡單介紹

1.selenium簡介

selenium是一個用于測試網站的自動化測試工具,支持很多主流的瀏覽器,比如:谷歌瀏覽器、火狐瀏覽器、IE、Safari等。

2.支持多個操作系統

如windows、Linux、IOS、Android等。

3、安裝selenium

打開終端輸入

pip install Selenium

4、安裝瀏覽器驅動

1、Chrome驅動文件下載:點擊下載谷歌瀏覽器驅動

2、火狐瀏覽器驅動文件下載:點擊下載geckodriver

5、配置環境變量

配置環境變量的方法非常簡單,首先將下載好的驅動進行解壓,放到你安裝Python的目錄下,即可。

因為之前,在配置Python環境變量的時候,就將Python的目錄放到我的電腦–>屬性–>系統設置–>高級–>環境變量–>系統變量–>Path

二、selenium快速入門

1、selenium提供8種定位方式

1、id

2、name

3、class name

4、tag name

5、link text

6、partial link text

7、xpath

8、css selector

2、定位元素的8中方式詳解

定義一個元素定位多個元素含義
find_element_by_idfind_elements_by_id通過元素的id定位
find_element_by_namefind_elements_by_name通過元素name定位
find_element_by_xpathfind_elements_by_xpath通過xpath表達式定位
find_element_by_link_textfind_elements_by_link_text通過完整超鏈接定位
find_element_by_partial_link_textfind_elements_by_partial_link_text通過部分鏈接定位
find_element_by_tag_namefind_elements_by_tag_name通過標簽定位
find_element_by_class_namefind_elements_by_class_name通過類名進行定位
find_element_by_css_selectorfind_elements_by_css_selector通過css選擇器進行定位

3、selenium庫下webdriver模塊常用的方法與使用

控制瀏覽器的一些方法

方法說明
set_window_size()設置瀏覽器的大小
back()控制瀏覽器后退
forward()控制瀏覽器前進
refresh()刷新當前頁面
clear()清除文本
send_keys (value)模擬按鍵輸入
click()單擊元素
submit()用于提交表單
get_attribute(name)獲取元素屬性值
text獲取元素的文本

4、代碼實例

from selenium import webdriver import time# 創建Chrome瀏覽器對象,這會在電腦中打開一個窗口 browser = webdriver.Chrome()# 通過瀏覽器向服務器發起請求 browser.get('https://www.baidu.com')time.sleep(3)# 刷新瀏覽器 browser.refresh()# 最大化瀏覽器窗口 browser.maximize_window()# 設置鏈接內容 element = browser.find_element_by_link_text('抗擊肺炎')# 點擊'抗擊肺炎' element.click()

關于selenium的簡單介紹就先到這里了,更多詳細內容大家可以去selenium官方文檔查看。點擊查看selenium官方文檔

爬取淘寶數據

從上圖,可以看到需要獲取的信息是:價格、商品名稱、付款人數、店鋪名稱。

現在我們開始進入主題。

首先,需要輸入你要搜索商品的內容,然后根據內容去搜索淘寶信息,最后提取信息并保存。

1、搜素商品

我在這里定義提個搜索商品的函數和一個主函數。

搜索商品

在這里需要創建一個瀏覽器對象,并且根據該對象的get方法來發送請求。

從上圖可以發現搜索框的id值為q,那么這樣就簡單很多了,有HTML基礎的朋友肯定知道id值是唯一的。

通過id值可以獲取到文本框的位置,并傳入參數,然后點擊搜索按鈕。

從上圖可以發現搜索按鈕在一個類里面,那么可以通過這個類來定位到搜索按鈕,并執行點擊操作。

當點擊搜索按鈕之后,網頁便會跳轉到登錄界面,要求我們登錄,如下圖所示:


? 登錄成功后會發現,里面的數據總共有100頁面。


上圖是前三頁的url地址,你會發現其實并沒有太大的變化,經過測試發現,真正有效的參數是框起來的內容,它的變化會導致頁面的跳轉,很明顯第一頁的s=0,第二頁s=44,第三頁s=88,以此類推,之后就可以輕松做到翻頁了。

搜搜商品的代碼如下:

def search_product(key_word):''':param key_word: 搜索關鍵字:return:'''# 通過id值來獲取文本框的位置,并傳入關鍵字browser.find_element_by_id('q').send_keys(key_word)# 通過class來獲取到搜索按鈕的位置,并點擊browser.find_element_by_class_name('btn-search').click()# 最大化窗口browser.maximize_window()time.sleep(15)page = browser.find_element_by_xpath('//div[@class="total"]').text # 共 100 頁,page = re.findall('(\d+)', page)[0] # findall返回一個列表return page

2、獲取商品信息并保存

獲取商品信息相對比較簡單,可以通過xpath方式來獲取數據。在這里我就不在論述。在這邊我創建了一個函數get_product來獲取并保存信息。在保存信息的過程中使用到了csv模塊,目的是將信息保存到csv里面。

def get_product():divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq "]') # 這里返回的是列表,注意:elementsfor div in divs:info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').textprice = div.find_element_by_xpath('.//strong').text + '元'nums = div.find_element_by_xpath('.//div[@class="deal-cnt"]').textnames = div.find_element_by_xpath('.//div[@class="shop"]/a').textprint(info, price, nums, names,sep='|')with open('data3.csv', mode='a', newline='', encoding='utf-8') as file:csv_writer = csv.writer(file, delimiter=',') # 指定分隔符為逗號csv_writer.writerow([info, price, nums, names])

3、構造URL實現翻頁爬取

從上面的圖片中可以發現連續三頁URL的地址,其實真正變化并不是很多,經過測試發現,只有q和s兩個參數是有用的。

構造出的url:https://s.taobao.com/search?q={}&s={}

因為q是你要搜索的商品,s是設置翻頁的參數。這段代碼就放在了主函數里面

def main():browser.get('https://www.taobao.com/') # 向服務器發送請求page = search_product(key_word)print('正在爬取第1頁的數據')get_product() # 已經獲得第1頁的數據page_nums = 1while page_nums != page:print('*'*100)print('正在爬取第{}頁的數據'.format(page_nums+1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_nums*44))browser.implicitly_wait(10) # 等待10秒get_product()page_nums += 1

最后結果,如下圖所示:

問題咨詢

如果在這里大家有不理解的地方可以向我提出。可以在文章下方留言,也可以添加我的微信

代碼獲取

大家如果需要獲取源代碼的話可以關注我的公眾號,在公眾號里面文章會更加的詳細。在公眾號中回復:淘寶代碼
即可獲取到源碼!!

視頻教程

本次爬取淘寶信息的視頻教程已經上傳到了B站,點擊觀看視頻教程里面有很多的爬蟲視頻和web安全滲透的視頻,歡迎大家觀看并留言!!

致謝

好了,又到了該說再見的時候了,希望我的文章可以給你帶來知識,帶給你幫助。同時也感謝你可以抽出你寶貴的時間來閱讀,創作不易,如果你喜歡的話,點個關注再走吧。更多精彩內容會在后續更新,你的支持就是我創作的動力,我今后也會盡力給大家書寫出更加優質的文章、。

總結

以上是生活随笔為你收集整理的Python爬虫之获取淘宝商品数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。