Python pickle模塊:實現(xiàn)Python對象的持久化存儲
Python 中有個序列化過程叫作 pickle,它能夠?qū)崿F(xiàn)任意對象與文本之間的相互轉(zhuǎn)化,也可以實現(xiàn)任意對象與二進制之間的相互轉(zhuǎn)化。也就是說,pickle 可以實現(xiàn) Python 對象的存儲及恢復(fù)。
值得一提的是,pickle 是 python 語言的一個標(biāo)準(zhǔn)模塊,安裝 python 的同時就已經(jīng)安裝了 pickle 庫,因此它不需要再單獨安裝,使用 import 將其導(dǎo)入到程序中,就可以直接使用。
pickle 模塊提供了以下 4 個函數(shù)供我們使用:
- dumps():將 Python 中的對象序列化成二進制對象,并返回;
- loads():讀取給定的二進制對象數(shù)據(jù),并將其轉(zhuǎn)換為 Python 對象;
- dump():將 Python 中的對象序列化成二進制對象,并寫入文件;
- load():讀取指定的序列化數(shù)據(jù)文件,并返回對象。
以上這 4 個函數(shù)可以分成兩類,其中 dumps 和 loads 實現(xiàn)基于內(nèi)存的 Python 對象與二進制互轉(zhuǎn);dump 和 load 實現(xiàn)基于文件的 Python 對象與二進制互轉(zhuǎn)。
pickle.dumps()函數(shù)
此函數(shù)用于將 Python 對象轉(zhuǎn)為二進制對象,其語法格式如下:
- dumps(obj, protocol=None, *, fix_imports=True)
此格式中各個參數(shù)的含義為:
- obj:要轉(zhuǎn)換的 Python 對象;
- protocol:pickle 的轉(zhuǎn)碼協(xié)議,取值為 0、1、2、3、4,其中 0、1、2 對應(yīng) Python 早期的版本,3 和 4 則對應(yīng) Python 3.x 版本及之后的版本。未指定情況下,默認為 3。
- 其它參數(shù):為了兼容 Python 2.x 版本而保留的參數(shù),Python 3.x 中可以忽略。
【例 1】
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- #使用 dumps() 函數(shù)將 tup1 轉(zhuǎn)成 p1
- p1 = pickle.dumps(tup1)
- print(p1)
輸出結(jié)果為:
- b'\x80\x03X\r\x00\x00\x00I love Pythonq\x00cbuiltins\nset\nq\x01]q\x02(K\x01K\x02K\x03e\x85q\x03Rq\x04N\x87q\x05.'
pickle.loads()函數(shù)
此函數(shù)用于將二進制對象轉(zhuǎn)換成 Python 對象,其基本格式如下:
- loads(data, *, fix_imports=True, encoding='ASCII', errors='strict')
其中,data 參數(shù)表示要轉(zhuǎn)換的二進制對象,其它參數(shù)只是為了兼容 Python 2.x 版本而保留的,可以忽略。
【例 2】在例 1 的基礎(chǔ)上,將 p1 對象反序列化為 Python 對象。
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- p1 = pickle.dumps(tup1)
- #使用 loads() 函數(shù)將 p1 轉(zhuǎn)成 Python 對象
- t2 = pickle.loads(p1)
- print(t2)
運行結(jié)果為:
- ('I love Python', {1, 2, 3}, None)
注意,在使用 loads() 函數(shù)將二進制對象反序列化成 Python 對象時,會自動識別轉(zhuǎn)碼協(xié)議,所以不需要將轉(zhuǎn)碼協(xié)議當(dāng)作參數(shù)傳入。并且,當(dāng)待轉(zhuǎn)換的二進制對象的字節(jié)數(shù)超過 pickle 的 Python 對象時,多余的字節(jié)將被忽略。
pickle.dump()函數(shù)
此函數(shù)用于將 Python 對象轉(zhuǎn)換成二進制文件,其基本語法格式為:
- dump (obj, file,protocol=None, *, fix mports=True)
其中各個參數(shù)的具體含義如下:
- obj:要轉(zhuǎn)換的 Python 對象。
- file:轉(zhuǎn)換到指定的二進制文件中,要求該文件必須是以"wb"的打開方式進行操作。
- protocol:和 dumps() 函數(shù)中 protocol 參數(shù)的含義完全相同,因此這里不再重復(fù)描述。
- 其他參數(shù):為了兼容以前 Python 2.x版本而保留的參數(shù),可以忽略。
【例 3】將 tup1 元組轉(zhuǎn)換成二進制對象文件。
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- #使用 dumps() 函數(shù)將 tup1 轉(zhuǎn)成 p1
- with open ("a.txt", 'wb') as f: #打開文件
- pickle.dump(tup1, f) #用 dump 函數(shù)將 Python 對象轉(zhuǎn)成二進制對象文件
運行完此程序后,會在該程序文件同級目錄中,生成 a.txt 文件,但由于其內(nèi)容為二進制數(shù)據(jù),因此直接打開會看到亂碼。
pickle.load()函數(shù)
此函數(shù)和 dump() 函數(shù)相對應(yīng),用于將二進制對象文件轉(zhuǎn)換成 Python 對象。該函數(shù)的基本語法格式為:
- load(file, *, fix_imports=True, encoding='ASCII', errors='strict')
其中,file 參數(shù)表示要轉(zhuǎn)換的二進制對象文件(必須以 "rb" 的打開方式操作文件),其它參數(shù)只是為了兼容 Python 2.x 版本而保留的參數(shù),可以忽略。
【例 4】將例 3 轉(zhuǎn)換的 a.txt 二進制文件對象轉(zhuǎn)換為 Python 對象。
- import pickle
- tup1 = ('I love Python', {1,2,3}, None)
- #使用 dumps() 函數(shù)將 tup1 轉(zhuǎn)成 p1
- with open ("a.txt", 'wb') as f: #打開文件
- pickle.dump(tup1, f) #用 dump 函數(shù)將 Python 對象轉(zhuǎn)成二進制對象文件
- with open ("a.txt", 'rb') as f: #打開文件
- t3 = pickle.load(f) #將二進制文件對象轉(zhuǎn)換成 Python 對象
- print(t3)
運行結(jié)果為:
- ('I love Python', {1, 2, 3}, None)
總結(jié)
看似強大的 pickle 模塊,其實也有它的短板,即 pickle 不支持并發(fā)地訪問持久性對象,在復(fù)雜的系統(tǒng)環(huán)境下,尤其是讀取海量數(shù)據(jù)時,使用 pickle 會使整個系統(tǒng)的I/O讀取性能成為瓶頸。這種情況下,可以使用 ZODB。
ZODB 是一個健壯的、多用戶的和面向?qū)ο蟮臄?shù)據(jù)庫系統(tǒng),專門用于存儲 Python 語言中的對象數(shù)據(jù),它能夠存儲和管理任意復(fù)雜的 Python 對象,并支持事務(wù)操作和并發(fā)控制。并且,ZODB 也是在 Python 的序列化操作基礎(chǔ)之上實現(xiàn)的,因此要想有效地使用 ZODB,必須先學(xué)好 pickle。