當前位置：首頁 > 编程语言 > python >内容正文

python

python3爬虫——模拟登录丁香园并提取信息

發布時間：2024/1/8 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python3爬虫——模拟登录丁香园并提取信息小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上一篇：模擬登錄QQ郵箱

ps:在進行模擬登錄時，輸入賬號密碼后，會彈出驗證碼，目前還沒有解決模擬驗證，所以本教程需要進行人工驗證。

代碼：

from selenium import webdriver import time from lxml import etree#模擬登陸丁香園網站 browser = webdriver.Firefox() browser.get('https://auth.dxy.cn/accounts/login?service=http://www.dxy.cn/bbs/thread/626626') time.sleep(1) browser.find_element_by_xpath('//*[@paneid="j_loginTab2"]').click() time.sleep(5) browser.find_element_by_name('username').send_keys('丁香園網站賬號') time.sleep(6) browser.find_element_by_name('password').send_keys('丁香園網站密碼') time.sleep(3) browser.find_element_by_xpath('//button[@class= "button"]').click() time.sleep(18)#得到所需得到的信息 url = browser.current_url #得到當前網址 browser.get(url) html = browser.page_source #得到頁面的html tree = etree.HTML(html) xpath_auth="//div[@class= 'auth']/a/text()" xpath_level ="//div[@class='user-level-area']" xpath_score_vote_dingdang="//div[@class='num']/a/text()" xpath_contect="//td[@class= 'postbody']"re_auth = tree.xpath(xpath_auth) re_content = tree.xpath(xpath_contect) re_three =tree.xpath(xpath_score_vote_dingdang) re_level=tree.xpath(xpath_level)#將提取到的信息打印出來 i =1 for auth,content,level in zip(re_auth,re_content,re_level):print('作者:'+auth,' 級別：'+level.xpath('string(.)'),' 內容：'+content.xpath('string(.)').strip(),end=' ')print('積分：'+re_three[i],' 得票：'+re_three[i+1],' 丁當：'+re_three[i+2]+'\n')i = i+1```

總結

以上是生活随笔為你收集整理的python3爬虫——模拟登录丁香园并提取信息的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：搭建远程仓库(源)来托管 Sencha
下一篇：手把手带你从0完成医疗行业影像图像检测三