日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TMDB电影数据分析

發布時間:2023/12/31 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 TMDB电影数据分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?這是關于TMDB5000條電影數據的分析報告

? ? ? ?數據來源于Kaggle?https://www.kaggle.com/tmdb/tmdb-movie-metadata

報告分為

? ? (1)提出問題

?? ?(2)認識數據

?? ?(3)清洗數據

?? ?(4)分析數據

? ? (5)總結

(一)提出問題

???? (1)對電影類型的分析,電影類型主要有哪些,哪些電影類型數量最多,電影類型隨時間的變化,哪些電影的票房/利潤多,觀眾更喜歡那種類型的電影

???? (2)電影票房與哪些因素相關,電影受歡迎程度的分析

???? (3)UniversalPictures和Paramount Pictures這兩個公司產出電影的情況對比

???? (4)對電影導演,突出關鍵字,電影時長,電影產出地的情況進行分析

???? (5)原創電影和非原創電影的分析

(二)認識數據

? ? ? ?從https://www.kaggle.com/tmdb/tmdb-movie-metadata 下載數據集

? ? ? ?有tmdb_5000_credits.csv和tmdb_5000_movies.csv這兩個數據集,描述電影演員相關信息和每部電影的基本信息




可以看出credits有4803行4列數據



可以看出movies有4803行20列數據


2.數據清洗

(1)格式轉化
? ?credits數據中,cast、crew都是json的格式,需要將演員、導演讀取出來,以字符串格式顯示
? ?movies數據中genres、keywords、production_companies、spoken_languages也是json格式,需要轉化成字符串

(a).credits? json解析





(b).movies? json解析


(2)合并數據

? credits和movies中都有movie_id和title,檢查這兩個字段是否是相同的


可以看出這兩個字段是相同的,將movies的title刪掉
?方法一:直接del DF['column-name']
?方法二:采用drop方法,有下面三種等價的表達式:
?1. DF= DF.drop('column_name', 1);
?2. DF.drop('column_name',axis=1, inplace=True)

?3. DF.drop(DF.columns[ : ], axis=1,inplace=True)


df中有22個字段,分別為:
? movie_id : TMDB電影標識號
? title : 電影名稱
? cast :演員列表
? director :導演
? budget :預算(美元)
? genres :風格列表,電影類型
? homepage :電影首頁的 URL
? id :標識號
? original_language :電影語言
? original_title :電影名稱
? overview :劇情摘要
? popularity :在 Movie Database 上的相對頁面查看次數
? production_companies :制作公司
? production_countries :制作國家
? release_date :上映時間
? revenue :收入
? runtime :電影時長
? spoken_languages :口語
? status :狀態
? tagline :電影的標語
? vote_average :平均評分

? vote_count :評分次數

(3)字段及缺失值處理



可以看出director、release_date、runtime分別有30、1、2個缺失值,這里只處理release_date、runtime的缺失值


(三)數據分析及可視化

1.關于電影類型的分析

(1)獲取電影類型





可以看出電影的類型主要是這20種

(2)轉化日期格式


(3)電影類型與數量的關系

(1)分類型判斷每部電影屬于的類型


可以得到如果每行中包含哪個類型的就返回1,否則0


(2)建立包含電影類型和年份的數據框




可以看出電影的拍攝數量是從1992年開始大幅增加的


統計每個類型每年的數量


電影類型隨時間變化的趨勢(折線圖)



可以看出Drama和War這兩個類型是隨時間波動比較大的,增長較快,現在仍比較熱門

電影類型的數量關系(各個類型的總數量)


各個電影類型的數量條形圖



可以看出Drama和Comedy是數量最多的前兩個

各個電影類型的比例餅圖



Drama、Comedy、Thriller、Action這四個類型占了一半多比例,分別為18.9%,14.2%,10.5%,9.5%

(4)電影類型與利潤的關系

? (1)電影類型與利潤的關系



電影類型的利潤條形圖



可以看出Animation和Advanture,Fantasy這三個類型的電影是盈利最好的,而Foreign和TV Movie這兩個是會虧損的

(2)觀眾更喜歡哪種類型的電影


電影類型受歡迎的條形圖



可以看出觀眾最喜歡的四中類型是Adventure、Animation、Science Fiction、Fantasy

2.電影票房與哪些因素相關,電影受歡迎程度的分析

(1)每年的票房統計



電影的票房也是從1992開始大幅度增長的

(2)電影預算與票房的關系



可以看出票房和預算是正相關性的,預算越高票房也越高,除去一些極值

(3)電影評分與票房的關系


可以看出評分跟票房的相關性不是很強,評分跟票房大都集中在一個區域

(4)電影時長與票房的關系


(5)評分與受歡迎的關系


評分與受歡迎之間相關性不是很明顯,但是大部分受歡迎度高的,基本是評分高的

(6)電影時長與受歡迎的關系


觀眾喜歡的電影時長大多是90-160分鐘

3.Universal Pictures和Paramount Pictures這兩個公司產出電影的情況對比



(1)兩家公司電影數量對比



這兩個公司拍攝的電影是差不多的

(2)兩家公司的電影歲時間變化的趨勢對比






可以看出隨著時間的推移,Universal Pictures和Paramount Pictures公司的電影發行量呈現出增長趨勢,尤其是在1992年后增長迅速

(3)兩個公司的利潤對比


4.對電影導演,突出關鍵字,電影時長,電影產出地的情況進行分析

(1)對電影的導演進行分析

#direct=df['director'].value_counts()

#direct1=direct[:20]

*導演的拍攝數


拍攝電影數最多的四位導演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood? 分別為27、21、20、20

*評分前20的導演


這些導演的評分基本都差不多的

*票房前20的導演


票房最高的三位導演是Chris Buck、Kyle Balda、Lee Unkrich

(2)關鍵字分析




可以看出關鍵字顯示的主要是independent film、woman、murder這些字段

(3)電影時長的分析


可以看出評分較高的電影時長集中于80-150分鐘之間

(4)電影產地分析





可以看出美國是電影產出大國,超過一半比例

5.改編電影與原創電影的分析

(1)改編電影與原創電影數量對比



可以看出原創電影占絕大部分

(2)原創電影與改編電影預算、收入、利潤的對比




可以看出改編電影的預算略高于原創電影,但改編電影的票房收入和利潤遠遠高于原創電影





總結

以上是生活随笔為你收集整理的TMDB电影数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。