TMDB电影数据分析
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?這是關于TMDB5000條電影數據的分析報告
? ? ? ?數據來源于Kaggle?https://www.kaggle.com/tmdb/tmdb-movie-metadata
報告分為:
? ? (1)提出問題
?? ?(2)認識數據
?? ?(3)清洗數據
?? ?(4)分析數據
? ? (5)總結
(一)提出問題
???? (1)對電影類型的分析,電影類型主要有哪些,哪些電影類型數量最多,電影類型隨時間的變化,哪些電影的票房/利潤多,觀眾更喜歡那種類型的電影
???? (2)電影票房與哪些因素相關,電影受歡迎程度的分析
???? (3)UniversalPictures和Paramount Pictures這兩個公司產出電影的情況對比
???? (4)對電影導演,突出關鍵字,電影時長,電影產出地的情況進行分析
???? (5)原創電影和非原創電影的分析
(二)認識數據
? ? ? ?從https://www.kaggle.com/tmdb/tmdb-movie-metadata 下載數據集
? ? ? ?有tmdb_5000_credits.csv和tmdb_5000_movies.csv這兩個數據集,描述電影演員相關信息和每部電影的基本信息
可以看出credits有4803行4列數據
可以看出movies有4803行20列數據
2.數據清洗
(1)格式轉化
? ?credits數據中,cast、crew都是json的格式,需要將演員、導演讀取出來,以字符串格式顯示
? ?movies數據中genres、keywords、production_companies、spoken_languages也是json格式,需要轉化成字符串
(a).credits? json解析
(b).movies? json解析
(2)合并數據
? credits和movies中都有movie_id和title,檢查這兩個字段是否是相同的
可以看出這兩個字段是相同的,將movies的title刪掉
?方法一:直接del DF['column-name']
?方法二:采用drop方法,有下面三種等價的表達式:
?1. DF= DF.drop('column_name', 1);
?2. DF.drop('column_name',axis=1, inplace=True)
?3. DF.drop(DF.columns[ : ], axis=1,inplace=True)
df中有22個字段,分別為:
? movie_id : TMDB電影標識號
? title : 電影名稱
? cast :演員列表
? director :導演
? budget :預算(美元)
? genres :風格列表,電影類型
? homepage :電影首頁的 URL
? id :標識號
? original_language :電影語言
? original_title :電影名稱
? overview :劇情摘要
? popularity :在 Movie Database 上的相對頁面查看次數
? production_companies :制作公司
? production_countries :制作國家
? release_date :上映時間
? revenue :收入
? runtime :電影時長
? spoken_languages :口語
? status :狀態
? tagline :電影的標語
? vote_average :平均評分
? vote_count :評分次數
(3)字段及缺失值處理
可以看出director、release_date、runtime分別有30、1、2個缺失值,這里只處理release_date、runtime的缺失值
(三)數據分析及可視化
1.關于電影類型的分析
(1)獲取電影類型
可以看出電影的類型主要是這20種
(2)轉化日期格式
(3)電影類型與數量的關系
(1)分類型判斷每部電影屬于的類型
可以得到如果每行中包含哪個類型的就返回1,否則0
(2)建立包含電影類型和年份的數據框
可以看出電影的拍攝數量是從1992年開始大幅增加的
統計每個類型每年的數量
電影類型隨時間變化的趨勢(折線圖)
可以看出Drama和War這兩個類型是隨時間波動比較大的,增長較快,現在仍比較熱門
電影類型的數量關系(各個類型的總數量)
各個電影類型的數量條形圖
可以看出Drama和Comedy是數量最多的前兩個
各個電影類型的比例餅圖
Drama、Comedy、Thriller、Action這四個類型占了一半多比例,分別為18.9%,14.2%,10.5%,9.5%
(4)電影類型與利潤的關系
? (1)電影類型與利潤的關系
電影類型的利潤條形圖
可以看出Animation和Advanture,Fantasy這三個類型的電影是盈利最好的,而Foreign和TV Movie這兩個是會虧損的
(2)觀眾更喜歡哪種類型的電影
電影類型受歡迎的條形圖
可以看出觀眾最喜歡的四中類型是Adventure、Animation、Science Fiction、Fantasy
2.電影票房與哪些因素相關,電影受歡迎程度的分析
(1)每年的票房統計
電影的票房也是從1992開始大幅度增長的
(2)電影預算與票房的關系
可以看出票房和預算是正相關性的,預算越高票房也越高,除去一些極值
(3)電影評分與票房的關系
可以看出評分跟票房的相關性不是很強,評分跟票房大都集中在一個區域
(4)電影時長與票房的關系
(5)評分與受歡迎的關系
評分與受歡迎之間相關性不是很明顯,但是大部分受歡迎度高的,基本是評分高的
(6)電影時長與受歡迎的關系
觀眾喜歡的電影時長大多是90-160分鐘
3.Universal Pictures和Paramount Pictures這兩個公司產出電影的情況對比
(1)兩家公司電影數量對比
這兩個公司拍攝的電影是差不多的
(2)兩家公司的電影歲時間變化的趨勢對比
可以看出隨著時間的推移,Universal Pictures和Paramount Pictures公司的電影發行量呈現出增長趨勢,尤其是在1992年后增長迅速
(3)兩個公司的利潤對比
4.對電影導演,突出關鍵字,電影時長,電影產出地的情況進行分析
(1)對電影的導演進行分析
#direct=df['director'].value_counts()
#direct1=direct[:20]
*導演的拍攝數
拍攝電影數最多的四位導演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood? 分別為27、21、20、20
*評分前20的導演
這些導演的評分基本都差不多的
*票房前20的導演
票房最高的三位導演是Chris Buck、Kyle Balda、Lee Unkrich
(2)關鍵字分析
可以看出關鍵字顯示的主要是independent film、woman、murder這些字段
(3)電影時長的分析
可以看出評分較高的電影時長集中于80-150分鐘之間
(4)電影產地分析
可以看出美國是電影產出大國,超過一半比例
5.改編電影與原創電影的分析
(1)改編電影與原創電影數量對比
可以看出原創電影占絕大部分
(2)原創電影與改編電影預算、收入、利潤的對比
可以看出改編電影的預算略高于原創電影,但改編電影的票房收入和利潤遠遠高于原創電影
總結
以上是生活随笔為你收集整理的TMDB电影数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cleverhans库——FGSM代码实
- 下一篇: matlab小波具体频段,一种小波包分解