日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python爬虫之爬取时光网电影影评

發(fā)布時(shí)間:2024/5/14 python 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫之爬取时光网电影影评 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近看了美國(guó)往事這部電影。于是就想到最近剛學(xué)的爬蟲,就像試試把時(shí)光網(wǎng)影評(píng)爬取下來(lái),并按照影評(píng)的名字存放在本地文件夾。

在長(zhǎng)影評(píng)頁(yè)面可以看到每篇文章的標(biāo)題對(duì)應(yīng)都有一個(gè)blogid,并且這個(gè)id對(duì)應(yīng)該影評(píng)正文頁(yè)的后綴

那么我們便可以通過(guò)這個(gè)id來(lái)實(shí)現(xiàn)獲取當(dāng)前頁(yè)所有影評(píng)的地址

首先定義一個(gè)方法

id = []#存儲(chǔ)電影id

text = []#存儲(chǔ)文本

name = ''#存儲(chǔ)文章名字

?
  • def getUrl(url):

  • response = requests.get(ur)

  • html = response.text

  • soup = BeautifulSoup(html, 'html.parser')

  • main = soup.find_all(class_ = 'db_comtool')#找到所有標(biāo)簽為db_comtool的div里面內(nèi)容

  • for i in main:

  • id.append(i.get('blogid'))#將所有blogid的內(nèi)容添加到id這個(gè)列表中

  • 這個(gè)時(shí)候我們就得到了當(dāng)前頁(yè)所有的id

    然后打開(kāi)任意一篇文章查看源代碼分析可以得出正文文本所在的<p>標(biāo)簽在一個(gè)class為db_mediacont db_commentcont的div里面文章的標(biāo)題在一個(gè)class為px38 mt30 c_000的<h2>標(biāo)簽中

    ?
  • def getArticle(url):

  • ?
  • global text

  • response = requests.get(url)#訪問(wèn)網(wǎng)站

  • html = response.text#保存網(wǎng)站源代碼

  • bf = BeautifulSoup(html,'html.parser')#解析網(wǎng)址

  • a1 = bf.find_all(class_='db_mediacont db_commentcont')#獲取正文文本

  • a2 = bf.find_all(class_='px38 mt30 c_000')#獲取文章標(biāo)題

  • ?
  • for each in a1:

  • text.append(re.sub('[\t\n]', "", re.sub(r'<[^>]+>', "", str(each))))#利用正則表達(dá)式過(guò)濾掉無(wú)用內(nèi)容

  • for each in a2:

  • name = (re.sub('[\t\n]', "", re.sub(r'<[^>]+>', "", str(each))))

  • ?
  • ?
  • f = open('時(shí)光網(wǎng)影評(píng)/%s.txt'%name, 'w') # 首先先創(chuàng)建一個(gè)文件對(duì)象,打開(kāi)方式為w,名字為剛才得到的name

  • for each in text:

  • f.writelines(each.encode("gbk", 'ignore').decode("gbk", "ignore")) # 用readlines()方法寫入文件

  • text = []#清空text

  • 然后將網(wǎng)址放入函數(shù)中打開(kāi)

    ?
  • for i in range(1,15):

  • ur = 'http://movie.mtime.com/11319/comment-{}.html'.format(i)#自動(dòng)翻頁(yè)

  • getUrl(ur)

  • ?
  • for i in id:

  • url = 'http://movie.mtime.com/11319/reviews/{}.html'.format(i)#自動(dòng)訪問(wèn)每篇影評(píng)的對(duì)應(yīng)地址

  • getTitle(url)

  • 最后可以看到已經(jīng)成功的將影評(píng)保存在本地了。

    總結(jié)

    以上是生活随笔為你收集整理的python爬虫之爬取时光网电影影评的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。