Python之数据序列化（json、pickle、shelve）详解.doc

《Python之数据序列化（json、pickle、shelve）详解》

在Python编程中，数据序列化是将内存中的对象转换为可存储或传输的格式的过程，而反序列化则是将序列化后的数据重新转换为内存对象。这一技术广泛应用于配置文件存储、网络通信、持久化数据等领域。Python提供了多种序列化工具，其中json、pickle和shelve是开发者最常用的三种方案。本文将详细解析这三种技术的原理、使用场景及优缺点，帮助读者根据实际需求选择合适的工具。

一、JSON：跨语言的数据交换格式

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，基于文本且易于人类阅读。由于其通用性，JSON已成为Web开发中数据传输的标准格式，支持几乎所有主流编程语言。

1.1 基本用法

Python内置的json模块提供了序列化和反序列化的核心方法：

import json

# 序列化：将字典转换为JSON字符串
data = {"name": "Alice", "age": 25, "skills": ["Python", "SQL"]}
json_str = json.dumps(data)
print(json_str)  # 输出: {"name": "Alice", "age": 25, "skills": ["Python", "SQL"]}

# 反序列化：将JSON字符串转换为字典
parsed_data = json.loads(json_str)
print(parsed_data["name"])  # 输出: Alice

对于文件操作，可使用json.dump()和json.load()：

# 写入JSON文件
with open("data.json", "w") as f:
    json.dump(data, f)

# 读取JSON文件
with open("data.json", "r") as f:
    loaded_data = json.load(f)

1.2 类型限制与自定义处理

JSON仅支持基本数据类型：字符串、数字、布尔值、列表、字典和null。若需序列化Python特有对象（如datetime），需通过参数指定转换函数：

from datetime import datetime

def datetime_encoder(obj):
    if isinstance(obj, datetime):
        return obj.isoformat()
    raise TypeError(f"Object of type {type(obj)} is not JSON serializable")

now = datetime.now()
json_str = json.dumps({"time": now}, default=datetime_encoder)
print(json_str)  # 输出: {"time": "2023-07-20T12:34:56.789123"}

反序列化时，可通过object_hook参数自定义解析逻辑。

1.3 适用场景

JSON适合需要跨语言交互的场景，如Web API、配置文件等。其优势在于可读性强、兼容性好，但无法处理Python特有的对象（如自定义类实例）。

二、Pickle：Python专属的高效序列化

Pickle是Python的二进制序列化模块，支持所有Python数据类型（包括函数、类实例等），但生成的二进制数据不可读且存在安全风险。

2.1 基本用法

import pickle

# 序列化
data = {"key": [1, 2, 3], "func": lambda x: x*2}
pickle_data = pickle.dumps(data)
print(pickle_data[:20])  # 输出二进制前20字节: b'\x80\x04\x95\x1d\x00\x00\x00...'

# 反序列化
loaded_data = pickle.loads(pickle_data)
print(loaded_data["func"](5))  # 输出: 10

文件操作示例：

# 写入文件
with open("data.pkl", "wb") as f:
    pickle.dump(data, f)

# 读取文件
with open("data.pkl", "rb") as f:
    loaded = pickle.load(f)

2.2 协议版本与兼容性

Pickle支持多种协议版本（0-5），高版本协议更高效但需Python版本匹配。可通过protocol参数指定：

pickle_data = pickle.dumps(data, protocol=pickle.HIGHEST_PROTOCOL)

2.3 安全警告

Pickle反序列化可能执行任意代码，切勿加载不可信来源的数据。示例攻击代码：

# 恶意Pickle数据示例（切勿实际运行！）
malicious_data = pickle.dumps({"__import__": ("os",).system("rm -rf /")})
# 加载此数据将导致系统命令执行

2.4 适用场景

Pickle适合Python内部的数据持久化，如缓存、机器学习模型保存等。其优势在于支持所有Python类型且效率高，但仅限Python环境使用。

三、Shelve：基于字典的持久化存储

Shelve模块提供了一个类似字典的持久化存储接口，底层使用Pickle序列化，适合存储大量结构化数据。

3.1 基本用法

import shelve

# 写入数据
with shelve.open("mydata") as db:
    db["user1"] = {"name": "Bob", "age": 30}
    db["user2"] = {"name": "Charlie", "age": 25}

# 读取数据
with shelve.open("mydata") as db:
    print(db["user1"])  # 输出: {'name': 'Bob', 'age': 30}

3.2 高级特性

（1）writeback参数控制内存缓存：

# 启用writeback可修改嵌套对象（但消耗更多内存）
with shelve.open("mydata", writeback=True) as db:
    user = db["user1"]
    user["age"] = 31  # 直接修改
    # 无需显式赋值回db

（2）同步写入：

# 手动同步（默认在close时自动同步）
with shelve.open("mydata") as db:
    db["user3"] = {"name": "David"}
    db.sync()  # 立即写入磁盘

3.3 注意事项

（1）Shelve文件在不同操作系统间可能不兼容

（2）多进程访问需加锁

（3）键必须为字符串

3.4 适用场景

Shelve适合需要频繁读写的小型数据库场景，如配置管理、游戏存档等。其优势在于提供字典般的接口，但不适合高并发或超大规模数据。

四、三种技术对比与选型建议

特性	JSON	Pickle	Shelve
数据格式	文本	二进制	二进制（基于Pickle）
跨语言支持	是	否	否
支持类型	基础类型	所有Python类型	所有Python类型
安全性	高	低（需信任来源）	低（需信任来源）
典型用例	API、配置文件	模型保存、缓存	小型数据库

选型建议：

（1）需要跨语言交互时选择JSON

（2）仅Python环境且需高效序列化时选择Pickle

（3）需要字典式持久化存储时选择Shelve

五、性能测试与优化

以下是一个简单的性能对比测试：

import json
import pickle
import shelve
import time
import random
import string

# 生成测试数据
data = {"key": "value", "list": [random.choice(string.ascii_letters) for _ in range(1000)]}

def test_json():
    start = time.time()
    for _ in range(1000):
        json_str = json.dumps(data)
        json.loads(json_str)
    return time.time() - start

def test_pickle():
    start = time.time()
    for _ in range(1000):
        pkl_data = pickle.dumps(data)
        pickle.loads(pkl_data)
    return time.time() - start

def test_shelve():
    # 仅测试写入性能（读取需文件操作）
    start = time.time()
    for _ in range(100):  # Shelve文件操作较慢，减少次数
        with shelve.open("temp_shelve") as db:
            db["test"] = data
    return time.time() - start

print(f"JSON耗时: {test_json():.4f}秒")
print(f"Pickle耗时: {test_pickle():.4f}秒")
print(f"Shelve耗时: {test_shelve():.4f}秒")

测试结果通常显示：Pickle > JSON > Shelve（序列化速度），实际性能受数据复杂度和系统环境影响。