Python_Dataframe_去除重复数据
去除重復數(shù)據(jù)——drop_duplicates
去除指定單列或多列中的完全重復的項通過drop_duplicates()函數(shù)實現(xiàn),需要利用Pandas包。
其中:
1、subset=[] 表示整個dataframe基于[]內(nèi)選定列進行數(shù)據(jù)重復內(nèi)容識別,可以添加多列數(shù)據(jù)進行識別。
????????(1)添加一列列名時表示對選中的單列數(shù)據(jù)進行重復數(shù)據(jù)識別,
????????(2)添加多列時則表示識別多列數(shù)據(jù)同時重復的情況;
2、keep='' 表示對選中的重復數(shù)據(jù)操作策略,可選擇的參數(shù)為'first'、'last'和'False'三種。
????????(1)'first'表示在識別的重復項中保留按照索引順序的第一個內(nèi)容,其余刪除,
????????(2)'last'表示在識別的重復項中保留按照索引順序的最后一個內(nèi)容,其余刪除,
????????(3)'False'表示刪除所有重復項;
3、inplace= 表示對處理好的dataframe存儲策略,可選擇參數(shù)為False和True
? ? ? ? (1)False表示不對原始數(shù)據(jù)進行去重工作,例如示例代碼中data1內(nèi)容不改變,將處理結(jié)果賦予data參數(shù)中,
? ? ? ? (2)True表示去重工作直接在原始數(shù)據(jù)中進行操作,例如示例代碼中data1中去重操作會直接在data1中進行,data不會被賦值。
data = data1.drop_duplicates(subset=['列名1','列名2'], keep='first', inplace= False)總結(jié)
以上是生活随笔為你收集整理的Python_Dataframe_去除重复数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: React爬坑之路二:Router+Re
- 下一篇: websocket python爬虫_p