Python处理千万级数据
從別人的論文里找到要用的數據的原始數據自己做過濾
搗鼓了兩天覺得代碼太慢開始用pandas做處理
不得不說最大的感觸就是 pandas 以及numpy在一定程度上在還原MATLAB
比如MATLAB中利用邏輯值取數、元素的用法,pandas中有幾乎一樣的方法
test:
同時pandas中有很多很好用的方法,猜測使用了很多哈希值
但是pandas同numpy一樣,增量添加很慢
也就是pandas適用于 已經確定size的數據的讀取操作非常友好,但是把兩個dataframe合并,是很慢的操作
實際上先做了數據的拷貝再進行的拼接,可想而知是多慢了
而Python里的list是一個動態數組,比較適合用于動態增長的情況,比如append,+,extends這樣的方法
總之記住只對dataframe進行讀取就夠啦
?
最后寫代碼的時候 對于for循環要小心!!!
想清楚這個代碼是不是在循環里面還是外面!!
把要在循環外面的代碼先寫著!!
比如這次把生成dataframe的兩行代碼寫了for循環里面
查了好幾遍才發現!! 真的很費時間!!
?
時間的寶貴使人進步。
加油。
?
————————————————
版權聲明:本文為CSDN博主「HeReCJJ」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/HeReCJJ/article/details/81431240
總結
以上是生活随笔為你收集整理的Python处理千万级数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析TB级别数据量大了怎么办,不会代
- 下一篇: websocket python爬虫_p