csv文件用excel打开有多行是空的,用sublime打开空白行没有''处理方案
預備知識:
①''和"",if語句中用==來判斷,下面代碼在python2.x和python3.x都成立
>>> ""=='' True②None,if語句中用==來判斷
③nan的不合理的處理判斷方法如下:
>>>np.nan==np.npnFalse >>>math.nan==math.nanFalse?
③nan的合理的處理判斷方法如下:
>>> math.isnan(math.nan) True >>> math.isnan(numpy.nan) True >>> a=np.NaN >>> a is np.NaN True?
④Null的處理(這里不討論先)
#---------------------------------------------------------------------------------------------------------------
數(shù)據(jù)addr2.csv是這樣的(同時,addr2也是下面的列名):
| addr2 |
| 87 |
| 87 |
| ? |
| 87 |
| 87 |
| ? |
| 87 |
靈魂發(fā)問:
1.這個表格到底有幾行?
2.這個空行了里面到底是NUll,'',"",None還是NaN?
----------------------------------------首先使用pandas進行處理-----------------------------------
代碼如下:
import pandas as pd def null_detect(path,column):df = pd.read_csv(path,keep_default_na=True,header=1)print(df.shape[0])print(df.isnull()) if __name__ == '__main__':path="addr2.csv"column='addr2'null_detect(path,column)實驗結(jié)果是:
長度是5
isnull的輸出全部都是False
?
上面的結(jié)果表示:
df.shape[0]看不到空行,
df.isnull()不存在空行
顯然處理失敗,如果我們需要往上百萬的這種數(shù)據(jù)中去填充缺失值,如果連缺失值本身都檢測不到,就更談不上填充了.
#---------------------------------------------------最終解決方案----------------------------------------------------------------------------
import pandas as pd import csv #---------------------------------------------------- column='addr2' csv_file=open('addr2.csv') #打開文件 csv_reader_lines = csv.reader(csv_file) #用csv.reader讀文件 #注意讀取進來的時候,是帶有列名的date_PyList=[] sums=0 result=[] for one_line in csv_reader_lines: if len(one_line)==0:#為了檢測單元格是空的這種情況result.append("?")else:result.append(one_line[0]) df=pd.DataFrame(result, columns=[column]) #這里list轉(zhuǎn)化為DataFrame #因為csv讀取進內(nèi)存的時候帶有列名,所以這里的列名columns隨便設置就可以了 #------------- 直接覆蓋原來的文件-------------------------------------- df.to_csv(column+".csv",index=False,header=None) #總共是590540條數(shù)據(jù)+1條列名處理結(jié)果如下:
| addr2 |
| 87 |
| 87 |
| ? |
| 87 |
| 87 |
| ? |
| 87 |
?
這里的?也可以改成其他自己需要的、認為合理的數(shù)值.
總結(jié)
以上是生活随笔為你收集整理的csv文件用excel打开有多行是空的,用sublime打开空白行没有''处理方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 改变libreOffice的Calc的背
- 下一篇: datatable删除一行数据