日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

DataFrame字符串之分割split()、清洗drop()、合并concat()、重新建立索引reset_index() - (Python)

發布時間:2024/7/5 python 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 DataFrame字符串之分割split()、清洗drop()、合并concat()、重新建立索引reset_index() - (Python) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據建模之前,我們從數據部門拿到數據,但是這些數據的格式往往并不是我們可以直接使用的,比如下面表中的數據(左:原數據格式)。

原數據格式id自成一列,這個很好,但是標簽和標簽的置信度(這個id屬于這個標簽的可能性) 都在一個單元格里,僅用空格分隔開來,這對數據處理的過程中很不方便。

我們需要將數據轉化成右圖格式(右:所需數據格式),這有利于我們用id和其他表格中的數據匹配。

原數據格式:id標簽所需數據格式:idtagtag置信度
222201數學老師 0.67 父親 0.87 兒子 0.77222201數學老師0.67
222202全職太太 0.56 孕媽 0.45222202全職太太0.56
222203大學生 0.33 服務員 0.48 社團主席 0.68222203大學生0.33
222204父親 0.79 服務員 0.56222204父親0.79
222205語文老師 0.89?222205語文老師0.89
222206年級長 0.86 數學老師 0.74222206年級長0.86
222207大學生 0.65?222207大學生0.65

Python代碼:

import pandas as pddatafile = u'D:\\pythondata\\learn\\split.xlsx' data = pd.read_excel(datafile)n = 3 #n表示一個id最多有多少個標簽 names=data['標簽'].str.split(' ',expand=True) #將標簽列按照空格分割數據 names.columns=['tag','tag置信度'] * n #分割為多列之后為列重命名data_total = pd.DataFrame(columns=['id', 'tag', 'tag置信度'])#設置一個空的DataFrame for i in range(n):data_0i = pd.concat([data.iloc[:,:1], names.iloc[:,i*2:(i+1)*2]], axis = 1, join='outer', sort=False)data_0i = data_0i.dropna()#刪除包含空值的行data_total = pd.concat([data_total, data_0i],axis=0)#向下合并數據data_total = data_total.reset_index(drop = True)#重新建立索引,代替原有的索引 print(data_total)

在實現這個格式轉化的過程中,我們涉及到分割函數 split()、合并函數 concat()、刪除缺失值函數 dropna()、建立索引?reset_index(),備忘,over!

總結

以上是生活随笔為你收集整理的DataFrame字符串之分割split()、清洗drop()、合并concat()、重新建立索引reset_index() - (Python)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。