python爬虫贴吧_Python爬虫如何爬取贴吧内容
爬取貼吧內容
先了解貼吧url組成:
每個貼吧url都是以'https://tieba.baidu.com/f?'開頭,然后是關鍵字 kw=‘’貼吧名字‘’,再后面是 &pn=頁數 (pn=0第一頁,pn=50第二頁,依次類推)
更多關于Python爬蟲的相關知識,可以關注Python學習網的Python爬蟲欄目。
1.先寫一個main,提示用戶輸入要爬取的貼吧名,并用urllib.urlencode()進行轉碼,然后組合url
2.接下來,寫一個百度貼吧爬蟲接口tiebaSpider(),需要傳遞3個參數給這個接口, 一個是main里組合的url地址,以及起始頁碼和終止頁碼,表示要爬取頁碼的范圍。
3.前面寫出一個爬取一個網頁的代碼。然后,將它封裝成一個小函數loadPage(),供我們使用。
4.將爬取到的每頁的信息存儲在本地磁盤上,我們可以簡單寫一個存儲文件的接口writePage()# _*_ coding:utf-8 _*_
import urllib,urllib2
def loadPage(url,filename):
#根據url發送請求,獲取服務器響應文件
print '正在下載' + filename
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
request = urllib2.Request(url,headers = headers)
content = urllib2.urlopen(request).read()
return content
def writePage(html,filename):
#將html內容寫入到本地
print '正在保存' + filename
with open(unicode(filename,'utf-8'),'w') as f:
f.write(html)
print '_' * 30
def tiebaSpider(url,beginPage,endPage):
#貼吧爬蟲調度器,負責組合處理每個頁面的url
for page in range(beginPage,endPage + 1):
pn = (page - 1) * 50
filename = '第' + str(page) + '頁.html'
fullurl = url + '&pn=' + str(pn)
# print fullurl
html = loadPage(fullurl,filename)
writePage(html,filename)
if __name__ == '__main__':
kw = raw_input('請輸入貼吧名:')
beginPage = int(raw_input('請輸入起始頁:'))
endPage = int(raw_input('請輸入結束頁:'))
url = 'https://tieba.baidu.com/f?'
key = urllib.urlencode({'kw':kw})
fullurl = url + key
tiebaSpider(fullurl,beginPage,endPage)
通過輸入想要搜索的貼吧名字,爬取內容并保存到本地
總結
以上是生活随笔為你收集整理的python爬虫贴吧_Python爬虫如何爬取贴吧内容的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 判别器loss为0_TensorFlow
- 下一篇: python日期函数_python 时间