當前位置：首頁 > 编程语言 > python >内容正文

python

《Python Cookbook 3rd》笔记（5.21）：序列化 Python 对象

發(fā)布時間：2023/12/13 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了《Python Cookbook 3rd》笔记（5.21）：序列化 Python 对象小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

序列化 Python 對象

問題

你需要將一個 Python 對象序列化為一個字節(jié)流，以便將它保存到一個文件、存儲到數(shù)據(jù)庫或者通過網(wǎng)絡傳輸它。

解法

對于序列化最普遍的做法就是使用 pickle 模塊。為了將一個對象保存到一個文件中，可以這樣做：

import pickledata = ... # Some Python object f = open('somefile', 'wb') pickle.dump(data, f)

為了將一個對象轉(zhuǎn)儲為一個字符串，可以使用 pickle.dumps() ：

s = pickle.dumps(data)

為了從字節(jié)流中恢復一個對象，使用 picle.load() 或 pickle.loads() 函數(shù)。比如：

# Restore from a file f = open('somefile', 'rb') data = pickle.load(f)# Restore from a string data = pickle.loads(s)

討論

對于大多數(shù)應用程序來講， dump() 和 load() 函數(shù)的使用就是你有效使用 pickle模塊所需的全部了。它可適用于絕大部分 Python 數(shù)據(jù)類型和用戶自定義類的對象實例。如果你碰到某個庫可以讓你在數(shù)據(jù)庫中保存/恢復 Python 對象或者是通過網(wǎng)絡傳輸對象的話，那么很有可能這個庫的底層就使用了 pickle 模塊。

pickle 是一種 Python 特有的自描述的數(shù)據(jù)編碼。通過自描述，被序列化后的數(shù)據(jù)包含每個對象開始和結(jié)束以及它的類型信息。因此，你無需擔心對象記錄的定義，它總是能工作。舉個例子，如果要處理多個對象，你可以這樣做：

>>> import pickle >>> f = open('somedata', 'wb') >>> pickle.dump([1, 2, 3, 4], f) >>> pickle.dump('hello', f) >>> pickle.dump({'Apple', 'Pear', 'Banana'}, f) >>> f.close() >>> f = open('somedata', 'rb') >>> pickle.load(f) [1, 2, 3, 4] >>> pickle.load(f) 'hello' >>> pickle.load(f) {'Apple', 'Pear', 'Banana'} >>>

你還能序列化函數(shù)，類，還有接口，但是結(jié)果數(shù)據(jù)僅僅將它們的名稱編碼成對應的代碼對象。例如：

>>> import math >>> import pickle >>> pickle.dumps(math.cos) b'\x80\x03cmath\ncos\nq\x00.' >>>

當數(shù)據(jù)反序列化回來的時候，會先假定所有的源數(shù)據(jù)時可用的。模塊、類和函數(shù)會自動按需導入進來。對于 Python 數(shù)據(jù)被不同機器上的解析器所共享的應用程序而言，數(shù)據(jù)的保存可能會有問題，因為所有的機器都必須訪問同一個源代碼。

注意：千萬不要對不信任的數(shù)據(jù)使用 pickle.load()。pickle 在加載時有一個副作用就是它會自動加載相應模塊并構(gòu)造實例對象。但是某個壞人如果知道 pickle 的工作原理，他就可以創(chuàng)建一個惡意的數(shù)據(jù)導致 Python 執(zhí)行隨意指定的系統(tǒng)命令。因此，一定要保證 pickle 只在相互之間可以認證對方的解析器的內(nèi)部使用。

有些類型的對象是不能被序列化的。這些通常是那些依賴外部系統(tǒng)狀態(tài)的對象，比如打開的文件，網(wǎng)絡連接，線程，進程，棧幀等等。用戶自定義類可以通過提供__getstate__() 和__setstate__() 方法來繞過這些限制。如果定義了這兩個方法，pickle.dump() 就會調(diào)用__getstate__() 獲取序列化的對象。類似的，__setstate__()在反序列化時被調(diào)用。為了演示這個工作原理，下面是一個在內(nèi)部定義了一個線程但仍然可以序列化和反序列化的類：

# countdown.py import time import threadingclass Countdown:def __init__(self, n):self.n = nself.thr = threading.Thread(target=self.run)self.thr.daemon = Trueself.thr.start()def run(self):while self.n > 0:print('T-minus', self.n)self.n -= 1time.sleep(5)def __getstate__(self):return self.ndef __setstate__(self, n):self.__init__(n)

試著運行下面的序列化試驗代碼：

>>> import countdown >>> c = countdown.Countdown(30) >>> T-minus 30 T-minus 29 T-minus 28 ...>>> # After a few moments >>> f = open('cstate.p', 'wb') >>> import pickle >>> pickle.dump(c, f) >>> f.close()

然后退出 Python 解析器并重啟后再試驗下：

>>> f = open('cstate.p', 'rb') >>> pickle.load(f) countdown.Countdown object at 0x10069e2d0> T-minus 19 T-minus 18 ...

你可以看到線程又奇跡般的重生了，從你第一次序列化它的地方又恢復過來。

pickle 對于大型的數(shù)據(jù)結(jié)構(gòu)比如使用 array 或 numpy 模塊創(chuàng)建的二進制數(shù)組效率并不是一個高效的編碼方式。如果你需要移動大量的數(shù)組數(shù)據(jù)，你最好是先在一個文件中將其保存為數(shù)組數(shù)據(jù)塊或使用更高級的標準編碼方式如 HDF5 (需要第三方庫的支持)。

由于 pickle 是 Python 特有的并且附著在源碼上，所有如果需要長期存儲數(shù)據(jù)的時候不應該選用它。例如，如果源碼變動了，你所有的存儲數(shù)據(jù)可能會被破壞并且變得不可讀取。坦白來講，對于在數(shù)據(jù)庫和存檔文件中存儲數(shù)據(jù)時，你最好使用更加標準的數(shù)據(jù)編碼格式如 XML， CSV 或 JSON。這些編碼格式更標準，可以被不同的語言

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的《Python Cookbook 3rd》笔记（5.21）：序列化 Python 对象的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： kaggle（01）-泰坦尼克号问题
下一篇：《Python Cookbook 3rd