【数据分析】Python :视频网站数据清洗整理和结论研究
生活随笔
收集整理的這篇文章主要介紹了
【数据分析】Python :视频网站数据清洗整理和结论研究
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
視頻網(wǎng)站數(shù)據(jù)清洗整理和結(jié)論研究
要求:
1、數(shù)據(jù)清洗 - 去除空值
- 要求:創(chuàng)建函數(shù)
- 提示:fillna方法填充缺失數(shù)據(jù),注意inplace參數(shù)
2、數(shù)據(jù)清洗 - 時(shí)間標(biāo)簽轉(zhuǎn)化
- 要求:
① 將時(shí)間字段改為時(shí)間標(biāo)簽
② 創(chuàng)建函數(shù) - 提示:
需要將中文日期轉(zhuǎn)化為非中文日期,例如 2016年5月24日 → 2016.5.24
3、問題1 分析出不同導(dǎo)演電影的好評(píng)率,并篩選出TOP20
- 要求:
① 計(jì)算統(tǒng)計(jì)出不同導(dǎo)演的好評(píng)率,不要求創(chuàng)建函數(shù)
② 通過多系列柱狀圖,做圖表可視化 - 提示:
① 好評(píng)率 = 好評(píng)數(shù) / 評(píng)分人數(shù)
② 可自己設(shè)定圖表風(fēng)格
4、問題2 統(tǒng)計(jì)分析2001-2016年每年評(píng)影人數(shù)總量
- 要求:
① 計(jì)算統(tǒng)計(jì)出2001-2016年每年評(píng)影人數(shù)總量,不要求創(chuàng)建函數(shù)
② 通過面積圖,做圖表可視化,分析每年人數(shù)總量變化規(guī)律
③ 驗(yàn)證是否有異常值(極度異常)
④ 創(chuàng)建函數(shù)分析出數(shù)據(jù)外限最大最小值)
⑤ 篩選查看異常值 → 是否異常值就是每年的熱門電影? - 提示:
① 通過箱型圖驗(yàn)證異常值情況
② 通過quantile(q=0.5)方法,得到四分位數(shù)
③ IQR=Q3-Q1
④ 外限:最大值區(qū)間Q3+3IQR,最小值區(qū)間Q1-3IQR (IQR=Q3-Q1)
⑤ 可自己設(shè)定圖表風(fēng)格
一 導(dǎo)入python包
import pandas as pd import numpy as np import matplotlib.pyplot as plt % matplotlib inline二 數(shù)據(jù)讀取
data = pd.read_csv('C:/Users/Hjx/Desktop/愛奇藝視頻數(shù)據(jù).csv', engine = 'python') print(data.head())三 數(shù)據(jù)清洗
1 去除空值
文本型字段空值改為“缺失數(shù)據(jù)”,數(shù)字型字段空值改為 0
- 要求:創(chuàng)建函數(shù)
- 提示:fillna方法填充缺失數(shù)據(jù),注意inplace參數(shù)
- 該函數(shù)可以將任意數(shù)據(jù)內(nèi)空值替換
2 時(shí)間標(biāo)簽轉(zhuǎn)化
將時(shí)間字段改為時(shí)間標(biāo)簽
- 要求:創(chuàng)建函數(shù)
- 提示:需要將中文日期轉(zhuǎn)化為非中文日期,例如 2016年5月24日 → 2016.5.24
- 該函數(shù)將輸入列名的列,改為DatetimeIndex格式
四 統(tǒng)計(jì)分析
- 問題1 分析出不同導(dǎo)演電影的好評(píng)率,并篩選出TOP20
- 要求:
① 計(jì)算統(tǒng)計(jì)出不同導(dǎo)演的好評(píng)率,不要求創(chuàng)建函數(shù)
② 通過多系列柱狀圖,做圖表可視化 - 提示:
① 好評(píng)率 = 好評(píng)數(shù) / 評(píng)分人數(shù)
- 要求:
- 計(jì)算統(tǒng)計(jì)不同導(dǎo)演的好評(píng)率
- 問題2 統(tǒng)計(jì)分析2001-2016年每年評(píng)影人數(shù)總量
- 要求:
① 計(jì)算統(tǒng)計(jì)出2001-2016年每年評(píng)影人數(shù)總量,不要求創(chuàng)建函數(shù)
② 通過面積圖,做圖表可視化,分析每年人數(shù)總量變化規(guī)律
③ 驗(yàn)證是否有異常值(極度異常)
④ 創(chuàng)建函數(shù)分析出數(shù)據(jù)外限最大最小值)
⑤ 篩選查看異常值 → 是否異常值就是每年的熱門電影? - 提示:
① 通過箱型圖驗(yàn)證異常值情況
② 通過quantile(q=0.5)方法,得到四分位數(shù)
③ IQR=Q3-Q1
④ 外限:最大值區(qū)間Q3+3IQR,最小值區(qū)間Q1-3IQR (IQR=Q3-Q1)
- 要求:
- 篩選出不同年份的數(shù)據(jù),去除‘上映年份’字段缺失數(shù)據(jù)
- 求出不同劇的評(píng)分人數(shù)、好評(píng)數(shù)總和
- 合并數(shù)據(jù),得到不同年份,不同劇的評(píng)分人數(shù)、好評(píng)數(shù)總和
- 按照電影上映年份統(tǒng)計(jì),評(píng)分人數(shù)量
- 創(chuàng)建面積圖
- 每年影評(píng)人數(shù)通過每個(gè)電影來判斷是否合理?
- 存在異常值,哪些是異常值?
- 發(fā)現(xiàn)基本每年的數(shù)據(jù)中都有異常值,且為極度異常
- 創(chuàng)建函數(shù)得到外限最大最小值
- 查看異常值
- 創(chuàng)建函數(shù),得到外限最大最小值
- 查看異常值信息
總結(jié)
以上是生活随笔為你收集整理的【数据分析】Python :视频网站数据清洗整理和结论研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据分析】Python :知乎数据清洗
- 下一篇: 【项目实战】基于python行为评分卡模