日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Kaggle TMDB电影数据分析项目实战

發(fā)布時間:2023/12/31 编程问答 53 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Kaggle TMDB电影数据分析项目实战 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

分析步驟

  • Kaggle TMDB電影數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn)
    • 數(shù)據(jù)集
    • 分析結(jié)果

Kaggle TMDB電影數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn)

注:該項(xiàng)目為博主第一次數(shù)據(jù)分析項(xiàng)目,代碼部分參考了:這篇文章。
希望大家支持一下原作者。從下一篇開始將全部為原創(chuàng)項(xiàng)目。請大家多多支持。

數(shù)據(jù)集

在分析之前,首先要將拿到的數(shù)據(jù)處理成可以分析的格式。本項(xiàng)目使用kaggle的開源數(shù)據(jù)集:TMDB 5000 Movie Dataset 它是kaggle官方從IMDB的數(shù)據(jù)中截取出來供研究者們發(fā)掘究竟是什么元素決定著電影業(yè)的盈利與虧損的。
數(shù)據(jù)集總共由兩個文件組成:tmdb_5000_credits.csv和tmdb_5000_movies.csv。

分析結(jié)果

第一個文件包含了電影的名稱、演員陣容以及拍攝隊(duì)伍。后者則是其他的內(nèi)容。通過Python分析過后,我們得到了:不同電影類型的數(shù)量隨時間變化的曲線圖以及1916-2017年間不同類型電影數(shù)量的統(tǒng)計(jì)圖:

從兩個圖可知自電影產(chǎn)業(yè)興起以來Drama(劇情片)一直是被制作最多的電影類型,緊隨其上的還有Comedy(喜劇片)、Thriller(驚悚片)以及Action(動作片)。

之后還可以分析每種類型電影的收益,因?yàn)殡m然劇情片的數(shù)量要占據(jù)第一,但是一般他們都不是最盈利的片種:

由圖可知我們的常識是正確的,劇情片雖然數(shù)量可觀,但觀眾們更愿意為冒險、動作這類的電影買賬。

接下來我們可以分析究竟是什么因素影響著電影的收益呢,畢竟這個問題的答案也是數(shù)據(jù)集被創(chuàng)造的原因。我們可以利用pandas提供的corr方法輸出數(shù)據(jù)集的相關(guān)系數(shù)矩陣,并查看與利潤最相關(guān)的幾個特征:

revenue1.000000
vote_count0.781487
budget0.730823
popularity0.644724
runtime0.251201
vote_average0.197150
release_year0.090074
id-0.050425

可知預(yù)算是和盈利最相關(guān)的特征了。那么我們可以通過繪制散點(diǎn)圖來直觀的看到預(yù)算和盈利的線性相關(guān)性:

接下來我們還可以分析這幾年的原創(chuàng)電影與改編電影的數(shù)量變化:


那么電影的盈利也有可能和發(fā)行它的國家有關(guān)系。我們都知道全球最龐大的電影產(chǎn)業(yè)就是美國的好萊塢了。那么各個國家發(fā)行的電影數(shù)量在這么多年里的占比是什么樣的呢:


除了國家外,可能和企業(yè)也有關(guān)系:

那么光把數(shù)據(jù)輸出成python還不夠美觀,而且也沒法利用,所以我們利用pandas提供的方法,將其導(dǎo)入到excel中,再通過ppt調(diào)用excel的數(shù)據(jù):
首先將數(shù)據(jù)置入excel(運(yùn)行以下代碼可能需要xlrd、xlwt或openpyxl。請讀者自行嘗試。)

excel = os.path.join(folder,'TMDB.xlsx')writer = pd.ExcelWriter(excel) sheetlist = [year_cnt,genre_total,revenue,pd.DataFrame(full_image.loc[:, ('budget','revenue')]),pd.DataFrame(novel_per_year),pd.DataFrame(novel_rate,index=(range(len(novel_rate)))),countries_top6,companies_top10] for i in range(len(sheetlist)):sheetlist[i].to_excel(writer, sheet_name='sheet'+str(i+1))writer.save()

置入后,就可以通過excel畫圖表了。最后在PPT上的成效如下所示:







總結(jié)

以上是生活随笔為你收集整理的Kaggle TMDB电影数据分析项目实战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。