當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

我用Python爬取了豆瓣影评，成功后居然发现了一个惊人的秘密.........

發(fā)布時(shí)間：2023/12/20 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了我用Python爬取了豆瓣影评，成功后居然发现了一个惊人的秘密......... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大家好，我是IT界搬運(yùn)喵。

相信大家在工作無聊時(shí)，總想掏出手機(jī)，看看電影刷刷視頻。更加是夜深人靜的時(shí)候，總是按耐不住自己的內(nèi)心想要去看看小電影，當(dāng)然我可沒有開車。我說的是好電影，豆瓣高分電影，自己想歪的時(shí)候可不要怪我。

但是看電影之前，都想會(huì)簡(jiǎn)單的了解一下這部電影講的是什么劇情等等（我真沒有開車！！！）所以我今天就來帶你爬取一下豆瓣影評(píng)！

前言

利用利用requests+xpath爬取豆瓣影評(píng)，廢話不多說。

讓我們愉快地開始吧~

開發(fā)工具

Python版本：3.6.8

環(huán)境搭建

安裝Python并添加到環(huán)境變量，pip安裝需要的相關(guān)模塊即可。

前期準(zhǔn)備

1.獲取頁(yè)面內(nèi)容

# 爬取頁(yè)面 url\ douban_url = 'https://movie.douban.com/subject/26647117/comments?status=P'\ # requests 發(fā)送請(qǐng)求\ get_response = requests.get(douban_url)\ # 將返回的響應(yīng)碼轉(zhuǎn)換成文本（整個(gè)網(wǎng)頁(yè)）\ get_data = get_response.text

2.分析頁(yè)面內(nèi)容，獲取我們想要的內(nèi)容

瀏覽器中打開我們要爬取的頁(yè)面
按F12進(jìn)入開發(fā)者工具，查看我們想要的數(shù)據(jù)在哪里
這里我們只要評(píng)論人+評(píng)論內(nèi)

?3.分析我們獲取的 xpath值

'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[1]** /div[2]/h3/span[2]/a' '/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[2]** /div[2]/h3/span[2]/a' '/html/body/div[3]/div[1]/div/div[1]/div[4]/**div[3]** /div[2]/h3/span[2]/a'

通過觀察我們發(fā)現(xiàn),這幾個(gè)xpath只有細(xì)微不同,上面加粗的部分已數(shù)加的格式改變，所以我們要爬取所有的 commentator（評(píng)論者），只需把xpath改為：

'/html/body/div[3]/div[1]/div/div[1]/div[4]/**div**/div[2]/h3/span[2]/a'

即不要后面的序號(hào)，當(dāng)我們查詢時(shí)，會(huì)自動(dòng)捕獲類似的xpath。

同樣的分析，我們可以得到評(píng)論內(nèi)容的xpath為： # （跟在上面代碼后）解析頁(yè)面，并輸出獲取內(nèi)容\ a = etree.HTML(get_data)\ commentator = s.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/h3/span[2]/a/text()')\ comment_content = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/p/text()')\ # 解析獲取內(nèi)容，去除多余內(nèi)容\ for i in range(0,len(files)):\print(commentator[i]+'說：')\files[i].strip(r'\n')\files[i].strip(' ')\print(comment_content[i])
運(yùn)行結(jié)果

Oriol Paulo說： 'Wrath of silence' is quite different from the crime movies I've seen. It's a mix of genres. It's a crime movie,a mystery movie,an action movie,it's also a social realistic movie. Xin Yu Kun plays very well the mix of different genres in this film,and it has a powerful ending.文文周說：對(duì)于平均水準(zhǔn)以上的年輕導(dǎo)演，應(yīng)毫不吝嗇予以鼓勵(lì)，對(duì)于年齡一大把了還言之無物的導(dǎo)演，才要無情打擊。西樓塵說：老板兒子吃真空羊肉，貪婪絞入碎肉機(jī)；屠夫兒子喝污染井水，正義只在電視屏。戳瞎左眼，被戳傷的同鄉(xiāng)都能包庇；咬斷舌頭，被救助的律師卻不敢發(fā)聲。憑蠻力壘不成金字塔，靠假聲變不成兔子?jì)尅３嗣婢呷缤夹闹?#xff0c;送不回原主；尋子告示像是招魂符，在風(fēng)里飄搖。真相埋進(jìn)泥土，藏入山洞，終于再無人知。#85說：忻鈺坤第二部作品不是一部秀操作的《心迷宮2.0》，要說風(fēng)格像誰(shuí)，都像也都不像：凝視山洞的庫(kù)布里克單點(diǎn)透視、像科恩兄弟一樣塑造的神經(jīng)質(zhì)殺手、《老男孩》一樣的長(zhǎng)廊Fight…不一樣的是，不只是想告訴你兇手是誰(shuí)，而是他的選擇，以及像手術(shù)刀一樣劃開上層失態(tài)、中層失德、底層失語(yǔ)、人間失格的社會(huì)癥結(jié)一口吃掉小蛋糕說：結(jié)尾太贊，配樂非常喜歡，如果能去掉字幕就好了。從姜武拿起煙灰缸的時(shí)候就猜到了結(jié)尾。只不過細(xì)思極恐，井水為什么越來越咸？為什么那么多人都水腫？村長(zhǎng)是知道的，不然不會(huì)喝礦泉水。然而這個(gè)梗，最后卻沒有過多的交代大大肉罐說：上層偽善殘暴，中層冷漠自私，下層失語(yǔ)無力。武俠小王子說：當(dāng)年摩托羅拉的電量還是大大不如諾基亞。劉瀟陽(yáng)說：僅僅是80%成片，已經(jīng)精彩絕倫。中國(guó)類型片就該這么拍。良好的多線敘事控制力，深穴映射人性，爆炸增長(zhǎng)的經(jīng)濟(jì)，暴裂難控的社會(huì)問題，男人無聲的憤恨和傷痛，就像無法發(fā)聲的底層人民。黑暗結(jié)尾，孩子沒有尋回，真相沒有昭顯，這卻是社會(huì)真相。有時(shí)惡人作惡，僅是為了與相同利益者變成真正的同盟。木衛(wèi)二說：不斷向下，墮入黑暗的那種片子，鞭撻了社會(huì)主要矛盾，且不負(fù)責(zé)提供解謎快感，所以看完會(huì)很沉，很堵。如果《心迷宮》還是手工時(shí)代的自發(fā)創(chuàng)作，《暴裂無聲》明顯是工業(yè)時(shí)代（卡司動(dòng)作特效）的考量，三人較勁，律師一角太弱，宋洋戰(zhàn)力太強(qiáng)，姜武模式化。優(yōu)點(diǎn)和缺陷都比較明顯。巴伐利亞酒神說：結(jié)局太他媽的屌了，看完在影院倒吸一口涼氣。影射也很牛逼啊，1984的摩托牌照，一個(gè)底層屌絲的人設(shè)為啞巴（沒有話語(yǔ)權(quán)），律師（代表中產(chǎn)和法律）和煤老板（代表權(quán)貴和黑惡勢(shì)力）的相互勾結(jié)。所以即便張保民擁有《黃海》里綿正赫那樣爆表的武力值，也只能淪為這個(gè)殘酷社會(huì)的犧牲品。凌睿說：當(dāng)你望著深淵的時(shí)候，深淵也在望著你。frozenmoon說：昌萬年是食肉者，徐文杰是喝湯的，而張保民本人就是“肉”，原本他們?cè)谑澄镦湹囊粋€(gè)位置安之若素的扮演自己的角色，但意外沖垮了一切。失控之后，每個(gè)人都發(fā)現(xiàn)自己不過都是“肉”，昌摘下假發(fā)和西裝，也得臣服于暴力和運(yùn)氣，徐走出金錢和言辭的保護(hù)也要面對(duì)殘酷，張的代價(jià)或許更大。人性暴裂的悶響。無恥不混蛋說：影片最打動(dòng)我的，不是那些顯而易見、甚至昭然若揭的隱喻，而是整部影片的“失語(yǔ)”。我們屬于“失語(yǔ)的一代”，對(duì)應(yīng)片中，不僅僅只是表層的啞巴張保民的“生理性失語(yǔ)”，更是，精英階層律師在片尾所選擇的“主動(dòng)性失語(yǔ)”。而影片對(duì)“失語(yǔ)”的精準(zhǔn)展示，不僅敏感捕捉到了時(shí)代痛點(diǎn)，而且極為戳痛人心。

實(shí)現(xiàn)翻頁(yè)，并把評(píng)論人和評(píng)論內(nèi)容存入csv文件

翻頁(yè)1：

和前面分析xpath不同，我們只要找出每頁(yè)之間url的不同之處和規(guī)律即可。

# start 屬性表示開始位置\ turn_page1 = 'https://movie.douban.com/subject/26647117/comments?status=P'\ turn_page2 = 'https://movie.douban.com/subject/26647117/comments?start=20&limit=20&sort=new_score&status=P'\ turn_page3 = 'https://movie.douban.com/subject/26647117/comments?start=40&limit=20&sort=new_score&status=P'\ turn_page4 = 'https://movie.douban.com/subject/26647117/comments?start=60&limit=20&sort=new_score&status=P'

觀察發(fā)現(xiàn)，除了第一個(gè)，每個(gè)url就只有 start的值不同，而且每次增加20，上面已經(jīng)說了start屬性，通過觀察我們也不難發(fā)現(xiàn)，每個(gè)頁(yè)面只有20條評(píng)論，這個(gè)是由 limit這個(gè)屬性控制的（小編已經(jīng)試過，人為改動(dòng)是沒有用的，估計(jì)是豆瓣的反爬，但并不影響我們），我這里想說明的是這個(gè)start的值之所以會(huì)以20為增量，就是這個(gè) limit 控制的。

翻頁(yè)2：

# 獲取評(píng)論總數(shù)\comment_counts = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[1]/ul/li[1]/span/text()')\comment_counts = int(comment_counts[0].strip("看過()"))\# 計(jì)算出總的的頁(yè)面數(shù)（每頁(yè)有20條評(píng)論）\page_counts = int(comment_counts/20)\# 請(qǐng)求訪問，并把爬取數(shù)據(jù)存入csv文件\for i in range(0,page_counts):\turn_page_url = 'https://movie.douban.com/subject/26647117/comments?start={}&limit=20&sort=new_score&status=P'.format(i*20)\get_respones_data(turn_page_url)

在完成上面之前，我們肯定要把之前寫的代碼進(jìn)行修改，讓代碼看起，我們可以把前面寫的代碼封裝成一個(gè)函數(shù)get_respones_data()，傳入一個(gè)訪問url參數(shù),獲得返回的HTML。

代碼實(shí)現(xiàn)

import requests\ from lxml import etree\ import pandas as pd\ def get_respones_data(douban_url = 'https://movie.douban.com/subject/26647117/comments?status=P'):\# requests 發(fā)送請(qǐng)求\get_response = requests.get(douban_url)\# 將返回的響應(yīng)碼轉(zhuǎn)換成文本（整個(gè)網(wǎng)頁(yè)）\get_data = get_response.text\# 解析頁(yè)面\a = etree.HTML(get_data)\return a\first_a = get_respones_data()\# 翻頁(yè)\comment_counts = first_a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[1]/ul/li[1]/span/text()')\comment_counts = int(comment_counts[0].strip("看過()"))\page_counts = int(comment_counts / 20)\ #小編已經(jīng)測(cè)試過了，如果沒有登入的話最多只能訪問10個(gè)頁(yè)面，也就是200條評(píng)論\ #下一期小編將教大家如何應(yīng)對(duì)反爬\for i in range(0, page_counts+1):\turn_page_url = 'https://movie.douban.com/subject/26647117/comments?start={}&limit=20&sort=new_score&status=P'.format(\i * 20)\print(turn_page_url)\a = get_respones_data(turn_page_url)\# 獲取評(píng)論人和評(píng)論內(nèi)容\commentator = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/h3/span[2]/a/text()')\comment_content = a.xpath('/html/body/div[3]/div[1]/div/div[1]/div[4]/div/div[2]/p/text()')\# 解析內(nèi)容，并存入csv文件\content = [' ' for i in range(0, len(commentator))]\for i in range(0, len(commentator)):\comment_content[i].strip(r'\n')\comment_content[i].strip(' ')\content_s = [commentator[i],comment_content[i]]\content[i] = content_s\name = ['評(píng)論人','評(píng)論內(nèi)容']\file_test = pd.DataFrame(columns=name, data=content)\if i == 0:\file_test.to_csv(r'H:\PyCoding\FlaskCoding\Test_all\test0609\app\comment_content.cvs',encoding='utf-8',index=False)\else:\file_test.to_csv(r'H:\PyCoding\FlaskCoding\Test_all\test0609\app\comment_content.cvs',mode='a+',encoding='utf-8',index=False)

數(shù)據(jù)可視化

安裝新模塊

pip install jieba\ pip install re\ pip install csv\ pip install pyecharts\ pip install numpy

解析數(shù)據(jù)

1 with codecs.open(r'H:\PyCoding\FlaskCoding\Test_all\test0609\app\comment_content.cvs', 'r', 'utf-8') as csvfile:\ 2 content = ''\ 3 reader = csv.reader(csvfile)\ 4 i =0\ 5 for file1 in reader:\ 6 if i == 0 or i ==1:\ 7 pass\ 8 else:\ 9 content =content + file1[1]\ 10 i = i +1\ 11 # 去除所有評(píng)論里多余的字符\ 12 content = re.sub('[,，。. \r\n]', '', content)

分析數(shù)據(jù)

# 切詞，將整個(gè)評(píng)論分解成一個(gè)個(gè)的詞語(yǔ)\ segment = jieba.lcut(content)\ words_df = pd.DataFrame({'segment': segment})\ # quoting=3 表示stopwords.txt里的內(nèi)容全部不引用\ stopwords = pd.read_csv(r"H:\PyCoding\FlaskCoding\Test_all\test0609\app\stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'], encoding='utf-8')\ words_df = words_df[~words_df.segment.isin(stopwords.stopword)]\ # 計(jì)算每個(gè)詞語(yǔ)重復(fù)出現(xiàn)次數(shù)\ words_stat = words_df.groupby(by=['segment'])['segment'].agg({"計(jì)數(shù)": numpy.size})\ words_stat = words_stat.reset_index().sort_values(by=["計(jì)數(shù)"], ascending=False)

數(shù)據(jù)可視化

1 test = words_stat.head(1000).values\ # 獲取所有詞語(yǔ)\ 2 words = [test[i][0] for i in range(0,len(test))]\ # 獲取詞語(yǔ)對(duì)于的出現(xiàn)次數(shù)\ 3 counts = [test[i][1] for i in range(0,len(test))]\ 4wordcloud = WordCloud(width=1300, height=620)\ # 生成詞云圖\ 5 wordcloud.add("爆裂無聲", words, counts, word_size_range=[20, 100])\ 6 wordcloud.render()

效果展示

?好啦。詞云也就出來啦！

總結(jié)一下：Python爬蟲實(shí)戰(zhàn)----------requests+xpath模塊

總結(jié)完畢，大家學(xué)會(huì)了嗎

總結(jié)

以上是生活随笔為你收集整理的我用Python爬取了豆瓣影评，成功后居然发现了一个惊人的秘密.........的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：微信小程序-在使用加速器数据事件后移除的
下一篇： websocket python爬虫_p

python

我用Python爬取了豆瓣影评，成功后居然发现了一个惊人的秘密.........

前言

開發(fā)工具

相關(guān)模塊：

環(huán)境搭建

前期準(zhǔn)備

1.獲取頁(yè)面內(nèi)容

2.分析頁(yè)面內(nèi)容，獲取我們想要的內(nèi)容

?3.分析我們獲取的 xpath值

運(yùn)行結(jié)果

實(shí)現(xiàn)翻頁(yè)，并把評(píng)論人和評(píng)論內(nèi)容存入csv文件

代碼實(shí)現(xiàn)

數(shù)據(jù)可視化

安裝新模塊

解析數(shù)據(jù)

分析數(shù)據(jù)

數(shù)據(jù)可視化

效果展示

總結(jié)