當前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫贴吧_Python爬虫如何爬取贴吧内容

發布時間：2024/4/13 python 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫贴吧_Python爬虫如何爬取贴吧内容小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬取貼吧內容

先了解貼吧url組成:

每個貼吧url都是以'https://tieba.baidu.com/f?'開頭，然后是關鍵字 kw=‘’貼吧名字‘’，再后面是 &pn=頁數（pn=0第一頁，pn=50第二頁，依次類推）

更多關于Python爬蟲的相關知識，可以關注Python學習網的Python爬蟲欄目。

1.先寫一個main，提示用戶輸入要爬取的貼吧名，并用urllib.urlencode()進行轉碼，然后組合url

2.接下來，寫一個百度貼吧爬蟲接口tiebaSpider()，需要傳遞3個參數給這個接口，一個是main里組合的url地址，以及起始頁碼和終止頁碼，表示要爬取頁碼的范圍。

3.前面寫出一個爬取一個網頁的代碼。然后，將它封裝成一個小函數loadPage（），供我們使用。

4.將爬取到的每頁的信息存儲在本地磁盤上，我們可以簡單寫一個存儲文件的接口writePage()# _*_ coding:utf-8 _*_

import urllib,urllib2

def loadPage(url,filename):

#根據url發送請求，獲取服務器響應文件

print '正在下載' + filename

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,

like Gecko) Chrome/60.0.3112.101 Safari/537.36'}

request = urllib2.Request(url,headers = headers)

content = urllib2.urlopen(request).read()

return content

def writePage(html,filename):

#將html內容寫入到本地

print '正在保存' + filename

with open(unicode(filename,'utf-8'),'w') as f:

f.write(html)

print '_' * 30

def tiebaSpider(url,beginPage,endPage):

#貼吧爬蟲調度器，負責組合處理每個頁面的url

for page in range(beginPage,endPage + 1):

pn = (page - 1) * 50

filename = '第' + str(page) + '頁.html'

fullurl = url + '&pn=' + str(pn)

# print fullurl

html = loadPage(fullurl,filename)

writePage(html,filename)

if __name__ == '__main__':

kw = raw_input('請輸入貼吧名：')

beginPage = int(raw_input('請輸入起始頁：'))

endPage = int(raw_input('請輸入結束頁：'))

url = 'https://tieba.baidu.com/f?'

key = urllib.urlencode({'kw':kw})

fullurl = url + key

tiebaSpider(fullurl,beginPage,endPage)

通過輸入想要搜索的貼吧名字，爬取內容并保存到本地

總結

以上是生活随笔為你收集整理的python爬虫贴吧_Python爬虫如何爬取贴吧内容的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：判别器loss为0_TensorFlow
下一篇： python日期函数_python 时间