刚刚开始学习Python？了解二进制数据处理是必不可少的！

2023-06-01 12:36| 来源: 网络整理| 查看: 265

在Python中，我们通常使用文本文件存储和处理数据。但是，在某些情况下，文本文件并不够用。例如，当需要处理音频、视频或图像等多媒体数据时，它们可能会以二进制格式保存。此外，在与其他语言（如C++）编写的程序交互时，也可能需要处理二进制数据。

二进制文件通常是由一系列字节组成的，每个字节由8位（即一个字节）组成，可以表示0到255之间的整数。在Python中，有几个模块可以帮助我们读写二进制文件，包括 struct 模块、位运算和数据压缩和解压。这篇教程将介绍如何使用这些工具来处理二进制数据。

Python 中的 struct 模块

struct 模块是Python中处理二进制数据的重要工具。它允许我们将二进制数据转换为Python对象，或者将Python对象转换为二进制数据。它提供了一种简单的方式来处理各种类型的数据，包括整数、浮点数、布尔值、字符串和自定义结构体等。

struct 模块的作用和优势

在Python中，我们通常使用内置的数据类型（如整数、浮点数和字符串）来表示数据。这些数据类型在内存中的表示方式是固定的，即它们都具有相同的字节大小和排列顺序。

但是，在处理二进制数据时，其表示方式可能与Python中的数据类型不同。例如，一个整数可能由4个字节组成，这些字节的排列顺序可能是大端（MSB在前）或小端（LSB在前）。如果我们使用内置的数据类型来处理这样的数据，就需要考虑这些细节，并手工解析字节序列。这很容易出错，并且非常繁琐。

struct 模块提供了一种简单的方式来处理这些问题。它可以自动将二进制数据解析为Python对象，并根据需要进行字节序转换。它还提供了一种简单的方式来将Python对象转换为二进制数据，并使用正确的字节序。

结构体概念和使用方法

在 struct 模块中，可以使用结构体来描述二进制数据的格式。结构体是一种自定义数据类型，它指定了二进制数据中每个字段的类型和顺序。可以通过结构体将二进制数据转换为Python对象，或将Python对象转换为二进制数据。

结构体通常以字符串的形式给出，其中包含一个或多个格式代码。格式代码指定了数据类型和字节顺序等信息。下面是常用的格式代码：

格式代码

数据类型

有符号字节

无符号字节

有符号短整数（2个字节）

无符号短整数（2个字节）

有符号整数（4个字节）

无符号整数（4个字节）

有符号长整数（8个字节）

无符号长整数（8个字节）

单精度浮点数（4个字节）

双精度浮点数（8个字节）

字符串

例如，假设我们有一个包含一个整数和一个浮点数的二进制数据，整数在前，浮点数在后，我们可以使用以下代码将其解析为Python对象：

import struct # 定义结构体格式字符串 format_str = "if" # 读取二进制数据 with open("data.bin", "rb") as f: data = f.read() # 解析二进制数据 result = struct.unpack(format_str, data) # 输出结果 print(result) # (42, 3.14)

这里，我们首先定义了一个格式字符串 format_str，它包含两个格式代码：i 表示一个有符号整数，占据4个字节，f 表示一个单精度浮点数，占据4个字节。然后，我们使用 open() 函数打开二进制文件（注意要以 'rb' 模式打开），并使用 read() 方法读取其中的所有数据。最后，我们使用 struct.unpack() 函数将二进制数据解析为一个元组，并将其存储在变量 result 中。

如何使用 struct 模块进行二进制数据的转换

除了解析二进制数据之外，struct 模块还提供了一种简单的方式来将Python对象转换为二进制数据。我们可以使用 struct.pack() 函数将一个或多个参数转换为一个字节串，该字节串具有指定的格式。例如，如果要将一个整数和一个浮点数打包成一个字节串，可以使用以下代码：

import struct # 定义结构体格式字符串 format_str = "if" # 打包数据 data = struct.pack(format_str, 42, 3.14) # 写入二进制文件 with open("output.bin", "wb") as f: f.write(data)

这里，我们首先定义了一个格式字符串 format_str，与上面的例子相同。然后，我们使用 struct.pack() 函数将整数和浮点数打包成一个字节串，并将其存储在变量 data 中。最后，我们使用 open() 函数打开二进制文件（注意要以 'wb' 模式打开），并使用 write() 方法将字节串写入文件中。

示例代码

下面是一个完整的示例代码，它将一个自定义结构体写入二进制文件，然后读取该文件并解析其中的数据：

import struct # 定义自定义结构体 class Point2D: def __init__(self, x, y): self.x = x self.y = y # 定义结构体格式字符串 format_str = "dd" # 创建 Point2D 对象 p = Point2D(3.14, 2.71) # 将 Point2D 对象打包成字节串 data = struct.pack(format_str, p.x, p.y) # 写入二进制文件 with open("point.bin", "wb") as f: f.write(data) # 从二进制文件中读取数据 with open("point.bin", "rb") as f: data = f.read() # 解析二进制数据 result = struct.unpack(format_str, data) # 创建新的 Point2D 对象 p2 = Point2D(result[0], result[1]) # 输出结果 print(p2.x, p2.y)

在这个例子中，我们首先定义了一个自定义结构体 Point2D，它包含两个属性 x 和 y。然后，我们定义了一个格式字符串 format_str，表示两个双精度浮点数。接着，我们创建了一个 Point2D 对象 p，并使用 struct.pack() 函数将其打包成一个字节串，并将该字节串写入文件中。

接下来，我们使用 open() 函数打开二进制文件，并使用 read() 方法读取其中的所有数据。然后，我们使用 struct.unpack() 函数将该字节串解析为一个元组。最后，我们使用解析出的结果创建一个新的 Point2D 对象 p2，并输出其中的属性值。

位运算

除了使用 struct 模块之外，另一种处理二进制数据的方式是使用位运算。位运算是一种操作二进制数据的方式，它可以对单个字节或多个字节进行逐位操作，并产生一个新的二进制数值作为结果。

位运算的基础知识和应用场景

在计算机中，每个字节由8个位组成，每个位可能是0或1。在二进制数据处理中，我们通常需要对这些位进行逐位操作，例如检查某个位是否为1、将某个位设置为1或0、取反某个字节等等。这就是位运算所涉及的内容。

位运算可以应用于许多领域，包括网络编程、密码学、图像处理等。例如，在网络编程中，IP地址通常被表示为32位的二进制数，所以需要使用位运算来提取其子网掩码或进行其他操作。在密码学中，位运算可以用于加密和解密数据。在图像处理中，位运算可以用于处理像素数据。

Python 中的位运算符及其使用方法

在Python中，有几个位运算符可供使用。这些运算符用于对整数进行逐位操作，并返回一个整数作为结果。以下是常用的位运算符：

运算符

描述

按位与

按位或

按位异或

按位取反

右移

例如，如果要将一个字节中的第3位设置为1，可以使用以下代码：

# 将第3位设置为1 b = 0b00001000 b |= (1

【本文地址】

公司简介

联系我们