當前位置：首頁 > 编程语言 > python >内容正文

python

Python_Dataframe_去除重复数据

發(fā)布時間：2024/1/8 python 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python_Dataframe_去除重复数据小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

去除指定單列或多列中的完全重復的項通過drop_duplicates()函數(shù)實現(xiàn)，需要利用Pandas包。

其中：

1、subset=[] 表示整個dataframe基于[]內(nèi)選定列進行數(shù)據(jù)重復內(nèi)容識別，可以添加多列數(shù)據(jù)進行識別。

????????（1）添加一列列名時表示對選中的單列數(shù)據(jù)進行重復數(shù)據(jù)識別，

????????（2）添加多列時則表示識別多列數(shù)據(jù)同時重復的情況；

2、keep='' 表示對選中的重復數(shù)據(jù)操作策略，可選擇的參數(shù)為'first'、'last'和'False'三種。

????????（1）'first'表示在識別的重復項中保留按照索引順序的第一個內(nèi)容，其余刪除，

????????（2）'last'表示在識別的重復項中保留按照索引順序的最后一個內(nèi)容，其余刪除，

????????（3）'False'表示刪除所有重復項；

3、inplace= 表示對處理好的dataframe存儲策略，可選擇參數(shù)為False和True

? ? ? ? （1）False表示不對原始數(shù)據(jù)進行去重工作，例如示例代碼中data1內(nèi)容不改變，將處理結(jié)果賦予data參數(shù)中，

? ? ? ? （2）True表示去重工作直接在原始數(shù)據(jù)中進行操作，例如示例代碼中data1中去重操作會直接在data1中進行，data不會被賦值。

data = data1.drop_duplicates(subset=['列名1','列名2'], keep='first', inplace= False)

以上是生活随笔為你收集整理的Python_Dataframe_去除重复数据的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。