當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

normalize函数_Pandas 数据处理(一) —— 几个简单函数掌握！

發布時間：2025/3/12 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 normalize函数_Pandas 数据处理(一) —— 几个简单函数掌握！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對于 Pandas，接觸過 Python 數據處理的小伙伴們都應該挺熟悉的，做數據處理不可或缺的一個程序包，最大的特點高效，本篇文章將通過案例介紹一下 Pandas 的一些基礎使用！

1，讀入數據

大部分數據都可以用 read_csv() 函數讀入，函數中有個 sep 參數，表示數據的分隔符，默認為 “，” (因為大部分 csv 文件數據之間就是以，隔開的)

users = pd.read_csv("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",sep = '|')# Read data; users

原始數據：

讀取之后的數據：

除了 read_csv 之外，還有一個常用的 read_table函數也可進行讀取操作，用法與 read_csv 相似

2，改變索引值，只展示前幾行數據

set_index() 函數用來改變索引值，注意需要加一個參數 replace = True 表示替代；利用 head(n) 函數表示只展示前 n 行數據

users.set_index('user_id',inplace = True) users.head(25)

tail(n) 只展示后幾行數據；

3，查看數據的行和列的基本信息

1，shape 返回數據的行數和列數，以 tuple 形式返回；

users.shape# (943, 4)

2，columns 返回數據列名；

users.columns# Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')

3，index 返回行名；

users.indexInt64Index([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,...934, 935, 936, 937, 938, 939, 940, 941, 942, 943],dtype='int64', name='user_id', length=943)

4，dtypes 返回各列的數據類型；

users.dtypes# age int64 gender object occupation object zip_code object dtype: object

4，只選取某列或多列數據

Pandas 提供多種方式可供選擇，注：users 表示 Pandas 可處理的DataFrame 格式;

1，users.列名；

users.occupation

2，users[['列名']]；

users[['occupation']]

3，users.loc[:,['列名']]；

users.loc[:,['occupation']]

同時選取多列數據時

1，users[['列名1','列名2']]；

users[['occupation','age']]

2，users.loc[:,['列名1','列名2']];

users.loc[:,['occupation','age']]

5，對列中數據做去重統計

1，列名.nunique() 查看某一列數據有多少個不重復樣本；

users.occupation.nunique()# 21

也可以通過這種方式實現

列名.value_counts().count()

users.occupation.value_counts().count()# 21

如果想在1 的基礎之上，查看每一個不重復樣本在數據列表沖出現了幾次，可用下面語句

users.列名.value_counts()

users.occupation.value_counts().head()# student 196 other 105 educator 95 administrator 79 engineer 67 Name: occupation, dtype: int64

6，對數據列表中的數字列做個簡單統計

users.describe() 即可實現，默認統計的是 numeric columns(列中數據都是以數值進行展示的)

users.describe()

當然也可以統計全部列，加一個參數 include = 'all';

users.describe(include = 'all')

users.列名.describe() 也可以對指定列進行統計：

users.occupation.describe()#count 943 unique 21 top student freq 196 Name: occupation, dtype: object

7，對數據做組聚類

groupby 函數對某一列做聚類操作，返回的是 GroupBy 對象；與 5 中方法相似，區別是 groupby 是以聚類后的列為參照，查看其他列的數據統計情況

c =users.groupby("occupation") c# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017673002788>

GroupBy.head(n) 查看前 n 行數據

c.head(5)

GroupBy.cout() 對每個樣本對應其他列進行數據統計

c.count()

GroupBy.size() 統計列中每個樣本出現次數

c.size()

還有其它許可操作的函數，

詳細的可去官網上查詢：https://pandas.pydata.org/docs/reference/groupby.html

8，對數據按照某一列進行排序

用到 data.sort_values() 函數，默認從小到大，可以設置 ascending = False 設置為從大到小；

users.sort_values(["age"],ascending = False)

也可以參考多個列進行排序：

users.sort_values(["age","zip_code"],ascending = False)

9，創建新的列

加入新的列比較簡單，創建一個 Series (行數需與原列表數據行數保持一致)，賦值到源數據即可

data['列名'] = 新創建的 series；下面我利用對 age 中數據進行均一化，把數據存放在新的列 age_normalize 中

10，刪除指定列

用 drop() 函數可刪除源數據中的指定列

users.drop(['age'],axis = 1)

這里的 axis 代表指定要刪除的是行還是列，默認為0，0代表的是行，1代表的是列；也可以直接用下面命令：

users.drop(columns =['age'])

總結

以上是生活随笔為你收集整理的normalize函数_Pandas 数据处理(一) —— 几个简单函数掌握！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：选课网站html源码,选课系统网页制作（
下一篇：幽灵交易策略_源码 | 幽灵交易者策略