深圳python如何评价_Python分析18万条《八佰》影评,看看观众怎么说?
原標(biāo)題:Python分析18萬條《八佰》影評(píng),看看觀眾怎么說?
最近《八佰》這部電影比較火,上映僅15天就已斬獲22億票房。對(duì)于沉寂了半年、影院上座率仍限定在50%的電影市場(chǎng)而言,這樣的成績(jī)出人意料。
從貓眼電影官網(wǎng)可以看到,《八佰》獲得了9.2分的高口碑。一向好奇的我產(chǎn)生了一些疑惑,這些人到底在評(píng)論些啥?哪些地方的人評(píng)論最多?針對(duì)不同演員角色的評(píng)論內(nèi)容有什么不同?
于是,用Python采集了《八佰》18萬條觀眾影評(píng)并做可視化分析,數(shù)據(jù)采集區(qū)間為2020年8月21日9點(diǎn)至2020年8月30日24點(diǎn)。
數(shù)據(jù)獲取
貓眼電影是簡(jiǎn)單的動(dòng)態(tài)網(wǎng)頁,數(shù)據(jù)格式為json,通過解析接口的方式即可輕松獲取。
defparse_page(html):
try:
data = json.loads(html)[ 'cmts'] # 將str轉(zhuǎn)換為json
#print(data)
comments = []
foritem indata:
comment = {
'id': item[ 'id'],
'nickName': item[ 'nickName'],
'cityName': item[ 'cityName'] if'cityName'initem else'', # 處理cityName不存在的情況
'content': item[ 'content'].replace( 'n', ' ', 10), # 處理評(píng)論內(nèi)容換行的情況
'score': item[ 'score'],
'startTime': item[ 'startTime']
}
comments.append(comment)
returncomments
exceptException ase:
pass
數(shù)據(jù)清洗 讀取影評(píng)數(shù)據(jù)
importpandas aspd
importnumpy asnp
data=[]
withopen( 'comments.txt', 'r',encoding= 'utf-8-sig') asf_input:
forline inf_input:
data.append(list(line.strip.split( ',')))
data
轉(zhuǎn)為DataFrame并添加列名
df = pd.DataFrame(data).iloc[:, 0: 6]
df.columns = [ '觀眾ID', '觀眾昵稱', '城市', '評(píng)論內(nèi)容', '評(píng)分', '評(píng)論時(shí)間']
刪除重復(fù)記錄和缺失值
df = df.drop_duplicates
df = df.dropna
預(yù)覽并保存
df.sample( 5)
df.to_csv( "八佰.csv",index= False,encoding= "utf_8_sig")
整體評(píng)論詞云
對(duì)18萬條影評(píng)內(nèi)容進(jìn)行分詞,并將頻率最高的500個(gè)詞抽離出來制作詞云圖,我們發(fā)現(xiàn)廣大觀眾對(duì)《八佰》這部戰(zhàn)爭(zhēng)題材電影表現(xiàn)出強(qiáng)烈的情感。除了 好看、 不錯(cuò)這些贊美之詞以外,更多的是 震撼、 感人、 歷史、 勿忘國恥等代表著強(qiáng)烈民族色彩的詞。
評(píng)論類型分布
超過90%的好評(píng)率,20億+的票房不是沒有道理。
差評(píng)抽樣
差評(píng)雖不多,但集中在對(duì)《八佰》結(jié)局的轟炸。
評(píng)論數(shù)據(jù)量TOP10城市
成都人對(duì)《八佰》評(píng)論熱情高漲,超過北上廣深等大城市。
相關(guān)演員提及
觀眾評(píng)論中提及歐豪和端午的次數(shù)最多,不知是因?yàn)檠菁歼€是顏值?
關(guān)于端午的評(píng)論
關(guān)于老算盤的評(píng)論
關(guān)于羊拐的評(píng)論
-----------------
希望系統(tǒng)、快速學(xué)習(xí)
數(shù)據(jù)抓取與文本挖掘知識(shí)
可以學(xué)習(xí)數(shù)據(jù)分析專家@文彤老師的
《跟文彤老師學(xué)文本抓取與挖掘》系列視頻課程
系列課程包含以下三門課程
小白零編程網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)
Python數(shù)據(jù)分析--玩轉(zhuǎn)Pandas
Python數(shù)據(jù)分析--玩轉(zhuǎn)文本挖掘
以上順序也是學(xué)習(xí)的建議順序
課程提供講義(含代碼)與數(shù)據(jù)供練習(xí)
學(xué)習(xí)過程有問題可加Q群與老師交流討論
10.15~10.18期間參加課程學(xué)習(xí)
可享受5折優(yōu)惠
只有四天喔,雙11也沒有這優(yōu)惠力度
優(yōu)惠價(jià): 238.50元返回搜狐,查看更多
責(zé)任編輯:
總結(jié)
以上是生活随笔為你收集整理的深圳python如何评价_Python分析18万条《八佰》影评,看看观众怎么说?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python3 设置默认编码_Pytho
- 下一篇: 模型训练 准确率下降_手写批量线性回归算