normalize函数_Pandas 数据处理(一) —— 几个简单函数掌握!
對于 Pandas, 接觸過 Python 數據處理的小伙伴們都應該挺熟悉的,做數據處理不可或缺的一個程序包,最大的特點高效,本篇文章將通過案例介紹一下 Pandas 的一些基礎使用!
1,讀入數據
大部分數據都可以用 read_csv() 函數讀入,函數中有個 sep 參數,表示數據的分隔符,默認為 “,” (因為大部分 csv 文件數據之間就是以 ,隔開的)
users = pd.read_csv("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",sep = '|')# Read data; users原始數據:
讀取之后的數據:
除了 read_csv 之外,還有一個常用的 read_table函數也可進行讀取操作,用法與 read_csv 相似
2,改變索引值,只展示前幾行數據
set_index() 函數用來改變索引值,注意需要加一個參數 replace = True 表示替代; 利用 head(n) 函數表示只展示前 n 行數據
users.set_index('user_id',inplace = True) users.head(25)tail(n) 只展示后幾行數據;
3,查看數據的行和列的基本信息
1,shape 返回 數據的行數和列數,以 tuple 形式返回;
users.shape# (943, 4)2,columns 返回數據列名;
users.columns# Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')3,index 返回行名;
users.indexInt64Index([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,...934, 935, 936, 937, 938, 939, 940, 941, 942, 943],dtype='int64', name='user_id', length=943)4,dtypes 返回各列的數據類型;
users.dtypes# age int64 gender object occupation object zip_code object dtype: object4,只選取某列或多列數據
Pandas 提供多種方式可供選擇,注:users 表示 Pandas 可處理的DataFrame 格式;
1,users.列名;
users.occupation2,users[['列名']];
users[['occupation']]3,users.loc[:,['列名']];
users.loc[:,['occupation']]同時選取多列數據時
1,users[['列名1','列名2']];
users[['occupation','age']]2,users.loc[:,['列名1','列名2']];
users.loc[:,['occupation','age']]5,對列中數據做去重統計
1,列名.nunique() 查看某一列數據有多少個不重復樣本;
users.occupation.nunique()# 21也可以通過這種方式實現
列名.value_counts().count()
users.occupation.value_counts().count()# 21如果想在1 的基礎之上,查看每一個不重復樣本在數據列表沖出現了幾次,可用下面語句
users.列名.value_counts()
users.occupation.value_counts().head()# student 196 other 105 educator 95 administrator 79 engineer 67 Name: occupation, dtype: int646,對數據列表中的數字列做個簡單統計
users.describe() 即可實現,默認統計的是 numeric columns(列中數據都是以數值進行展示的)
users.describe()當然也可以統計全部列,加一個參數 include = 'all';
users.describe(include = 'all')users.列名.describe() 也可以對指定列進行統計:
users.occupation.describe()#count 943 unique 21 top student freq 196 Name: occupation, dtype: object7,對數據做組聚類
groupby 函數對某一列做聚類操作,返回的是 GroupBy 對象;與 5 中方法相似,區別是 groupby 是以聚類后的列為參照,查看其他列的數據統計情況
c =users.groupby("occupation") c# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017673002788>GroupBy.head(n) 查看前 n 行數據
c.head(5)GroupBy.cout() 對每個樣本對應其他列進行數據統計
c.count()GroupBy.size() 統計列中每個樣本出現次數
c.size()還有其它許可操作的函數,
詳細的可去官網上查詢:https://pandas.pydata.org/docs/reference/groupby.html
8,對數據按照某一列進行排序
用到 data.sort_values() 函數,默認從小到大,可以設置 ascending = False 設置為從大到小;
users.sort_values(["age"],ascending = False)也可以參考多個列進行排序:
users.sort_values(["age","zip_code"],ascending = False)9,創建新的列
加入新的列比較簡單,創建一個 Series (行數需與原列表數據行數保持一致),賦值到源數據即可
data['列名'] = 新創建的 series;下面我利用對 age 中數據進行均一化,把數據存放在新的列 age_normalize 中
10,刪除指定列
用 drop() 函數可刪除源數據中的指定列
users.drop(['age'],axis = 1)這里的 axis 代表指定要刪除的是行還是列,默認為0,0代表的是行,1代表的是列;也可以直接用下面命令:
users.drop(columns =['age'])總結
以上是生活随笔為你收集整理的normalize函数_Pandas 数据处理(一) —— 几个简单函数掌握!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 选课网站html源码,选课系统网页制作(
- 下一篇: 幽灵交易策略_源码 | 幽灵交易者策略