Kaggle TMDB电影数据分析项目实战
分析步驟
- Kaggle TMDB電影數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn)
- 數(shù)據(jù)集
- 分析結(jié)果
Kaggle TMDB電影數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn)
注:該項(xiàng)目為博主第一次數(shù)據(jù)分析項(xiàng)目,代碼部分參考了:這篇文章。
希望大家支持一下原作者。從下一篇開始將全部為原創(chuàng)項(xiàng)目。請大家多多支持。
數(shù)據(jù)集
在分析之前,首先要將拿到的數(shù)據(jù)處理成可以分析的格式。本項(xiàng)目使用kaggle的開源數(shù)據(jù)集:TMDB 5000 Movie Dataset 它是kaggle官方從IMDB的數(shù)據(jù)中截取出來供研究者們發(fā)掘究竟是什么元素決定著電影業(yè)的盈利與虧損的。
數(shù)據(jù)集總共由兩個文件組成:tmdb_5000_credits.csv和tmdb_5000_movies.csv。
分析結(jié)果
第一個文件包含了電影的名稱、演員陣容以及拍攝隊(duì)伍。后者則是其他的內(nèi)容。通過Python分析過后,我們得到了:不同電影類型的數(shù)量隨時間變化的曲線圖以及1916-2017年間不同類型電影數(shù)量的統(tǒng)計(jì)圖:
從兩個圖可知自電影產(chǎn)業(yè)興起以來Drama(劇情片)一直是被制作最多的電影類型,緊隨其上的還有Comedy(喜劇片)、Thriller(驚悚片)以及Action(動作片)。
之后還可以分析每種類型電影的收益,因?yàn)殡m然劇情片的數(shù)量要占據(jù)第一,但是一般他們都不是最盈利的片種:
由圖可知我們的常識是正確的,劇情片雖然數(shù)量可觀,但觀眾們更愿意為冒險、動作這類的電影買賬。
接下來我們可以分析究竟是什么因素影響著電影的收益呢,畢竟這個問題的答案也是數(shù)據(jù)集被創(chuàng)造的原因。我們可以利用pandas提供的corr方法輸出數(shù)據(jù)集的相關(guān)系數(shù)矩陣,并查看與利潤最相關(guān)的幾個特征:
| vote_count | 0.781487 |
| budget | 0.730823 |
| popularity | 0.644724 |
| runtime | 0.251201 |
| vote_average | 0.197150 |
| release_year | 0.090074 |
| id | -0.050425 |
可知預(yù)算是和盈利最相關(guān)的特征了。那么我們可以通過繪制散點(diǎn)圖來直觀的看到預(yù)算和盈利的線性相關(guān)性:
接下來我們還可以分析這幾年的原創(chuàng)電影與改編電影的數(shù)量變化:
那么電影的盈利也有可能和發(fā)行它的國家有關(guān)系。我們都知道全球最龐大的電影產(chǎn)業(yè)就是美國的好萊塢了。那么各個國家發(fā)行的電影數(shù)量在這么多年里的占比是什么樣的呢:
除了國家外,可能和企業(yè)也有關(guān)系:
那么光把數(shù)據(jù)輸出成python還不夠美觀,而且也沒法利用,所以我們利用pandas提供的方法,將其導(dǎo)入到excel中,再通過ppt調(diào)用excel的數(shù)據(jù):
首先將數(shù)據(jù)置入excel(運(yùn)行以下代碼可能需要xlrd、xlwt或openpyxl。請讀者自行嘗試。)
置入后,就可以通過excel畫圖表了。最后在PPT上的成效如下所示:
總結(jié)
以上是生活随笔為你收集整理的Kaggle TMDB电影数据分析项目实战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VS Code:4个中文乱码问题及解决方
- 下一篇: 【java】输入输出流