python3爬虫——模拟登录丁香园并提取信息
生活随笔
收集整理的這篇文章主要介紹了
python3爬虫——模拟登录丁香园并提取信息
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
上一篇:模擬登錄QQ郵箱
ps:在進行模擬登錄時,輸入賬號密碼后,會彈出驗證碼,目前還沒有解決模擬驗證,所以本教程需要進行人工驗證。
代碼:
from selenium import webdriver import time from lxml import etree#模擬登陸丁香園網站 browser = webdriver.Firefox() browser.get('https://auth.dxy.cn/accounts/login?service=http://www.dxy.cn/bbs/thread/626626') time.sleep(1) browser.find_element_by_xpath('//*[@paneid="j_loginTab2"]').click() time.sleep(5) browser.find_element_by_name('username').send_keys('丁香園網站賬號') time.sleep(6) browser.find_element_by_name('password').send_keys('丁香園網站密碼') time.sleep(3) browser.find_element_by_xpath('//button[@class= "button"]').click() time.sleep(18)#得到所需得到的信息 url = browser.current_url #得到當前網址 browser.get(url) html = browser.page_source #得到頁面的html tree = etree.HTML(html) xpath_auth="//div[@class= 'auth']/a/text()" xpath_level ="//div[@class='user-level-area']" xpath_score_vote_dingdang="//div[@class='num']/a/text()" xpath_contect="//td[@class= 'postbody']"re_auth = tree.xpath(xpath_auth) re_content = tree.xpath(xpath_contect) re_three =tree.xpath(xpath_score_vote_dingdang) re_level=tree.xpath(xpath_level)#將提取到的信息打印出來 i =1 for auth,content,level in zip(re_auth,re_content,re_level):print('作者:'+auth,' 級別:'+level.xpath('string(.)'),' 內容:'+content.xpath('string(.)').strip(),end=' ')print('積分:'+re_three[i],' 得票:'+re_three[i+1],' 丁當:'+re_three[i+2]+'\n')i = i+1```總結
以上是生活随笔為你收集整理的python3爬虫——模拟登录丁香园并提取信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搭建远程仓库(源)来托管 Sencha
- 下一篇: 手把手带你从0完成医疗行业影像图像检测三