快速编程之HTTP多线程下载器

您所在的位置：网站首页 › python多线程下载文件 › 快速编程之HTTP多线程下载器

快速编程之HTTP多线程下载器

#快速编程之HTTP多线程下载器| 来源: 网络整理| 查看: 265

＼

栏目编辑

。

。ｋｅｔ＠ｈ。

。

●

＿

盖－＿巨曼

—

＿匠翟

＿＿

＿ｌｌｌＩ

Ｌ

上网冲浪免不了下载各种各样的软件，

因此几

乎每台电脑都安装

了专业的下载工具。

从最早流行

国内的网络蚂蚁到网际快车，

再到现在的影音传送

带和

迅雷，以及各种点对点下载工具Ｂ

Ｔ、Ｅ

Ｍ

ｕ

ｌ

ｅ

等，真是五花八门：Ｌｉｎ

ｕｘ／Ｕｎｉ

ｘ下也有一些强大的

命令行下载工具，比如ｗｇｅｔ等。但工具虽多．

说

白

了都是多线程断点续传的下载器而已，

今天我们就

用最简单的方式自己编写一款较为

完善的多线程下

载工具。

首先我们需要了解用Ｐｙｔｈｏｎ代码编写一个下载

代码是

多么的容易！

以下几行简单代码就可以实现

最基本的下载功能。

其中ｕ

ｒＩＩｉｂ为

一个专门处理ＨＴＴＰ事务的类库

ＵＲＬ为要下载的文件路径ＳａｖｅＦｉｌｅ为文件

的本地保

存地址ｕｒＩＩｉｂ．

ｕｒｌｏｐｅｎ

（ＵＲＬ）

用于打开一个ＵＲＬ对象，

并

通过返回对象ｒｅｓｐｏｎｓｅ来控

｛￣ＩＪＨＴＴＰ数据之后ｏｐｅｎ

函数创建本地文

件．通过ｒｅｓｐｏｎｓｅ的ｒｅａｄ（）方法来获

取要下载的数据．最后写入文件并关

闭文件句柄．

即下载文件完毕！

够简单的吧？Ｐｙｔｈｏｎ给我们提供了许多功能强

大方便的类库，

使我们达到自己目的的方式非常简

单明了！

但这作为一个功能完善的下

载器是远远不够

的，

比如没有多线程支持，

读取下载数据的时候

全部都放在内存，

以及

没有任何错误的处理等。

针对第２个不足．

我们稍加改进．

可以得到下面的

这样做的好

处是每次读取１

００．

１

０２４个字节后

就写入文件．

不必将整个文件都放在内存中．

遇

到下载大文件时，

好处会很明显！

当无法再读取

数据的时候就跳出ｗｈｉＩ

ｅ循环．

然后关闭文件，

即

下载成功！

下面我们正式进入多线程下载器编写的阶段！

为了更好

地理解下载的流程和原理，

我们有必要先

了解ＨＴＴＰ的相关协议。

事实上，

难道你对迅

雷是如

何将

灰鸽子

”

下载下来的没有一点兴趣吗７

访问Ｗｅｂ￣Ｅ务器上面的资源一

般使用三个ＨＴＴＰ

命令Ｐｏｓｔ、Ｇｅｔ和Ｈｅａｄ

Ｐｏｓｔ用于提交数据．比如

你要注册黑防论坛会员，那么浏览器发送的就是

Ｐｏｓｔ命令Ｈｅａｄ命令平时用得最

少．先不管它Ｇｅｔ

命令很重要，浏览网页、下载文件都要用它．因此

我们这里只关注

Ｇｅｔ命令。

ＨＴＴＰ的版本也很重要。现在用得最多的ＨＴＴＰ

协议是１．１版．

也

有不少网站还在用１．０或０．９版

的．千万不要以为所有人都用１．１版了，新浪用的

就

是１．ｏＫ．不信用ＷＳＥ抓包试试．嘿嘿！之所以要判

断ＨＴＴＰ协议版本，是因

为只有１１．

１版才支持多线程

和断点续传，

因此在进行下载的时候必须进行版本

的判

断。

一个合法的单线程ＨＴＴＰ下载请求如下。

誓

；

ｋｅ．ｒ．ｃ

ｏｍ．ｎ

ｎ

圜

维普资讯

http://www.cqvip.com

［

－）栏目编辑）

。

。ｋ。ｔ）

。

。ｋｅｔ＠ｈ。

。ｋｅ『。

。ｍ。

／

对应的回复应答如

下。

ＨＴＴＰ／１．１

２０ｏ

ＯＫ

Ｄａｔｅ：ＴＬ

Ｄ．１３

Ｍａｒ

２０８７

１２：３３：４１

ＧＭＴ

Ｓｅｒｖｅｒ：Ａｐａｃｈｅ／１．３．２７

Ｃａｃｈｅ

—

Ｃｏｎｔｒｏｌ：

ｍａｘ

—

ａｇｅ＝３１５３６０Ｏ０Ｏ

Ｅｘｐｉｒｅｓ：

Ｆｒｉ．

１０

Ｍａｒ

２Ｏ１７

１２：３３：４１

ＧＭＴ

Ｌａｓｔ

—

Ｍｏｄｉｆｉｅｄ：Ｓａｔ，

１７

Ｊｕｎ

２００６

１０：

２３：

５４

ＧＭＴ

ＥＴａｇ：

＇

，

７ａ８９ａ８

—

６２

８

—

４４９３ｄ８３ａ

”

Ａｃｃｅｐｔ－Ｒａｎｇｅｓ：ｂｙｔｅｓ

Ｃｏｎｔｅｎｔ

—

Ｌｅｎｇｔｈ：

１

５７６

Ｃｏｎｔｅｎｔ

—

Ｔｙｐｅ：

ｉｍａｇｅ／ｇｉｆ

仔细看看，

可以发现发送请求时，

对我们编写

下载器重要的信息只有几个ＧＥＴ、

ｉｍｇ／Ｉｏｇｏ

ｇｉｆ和

ＨＴＴＰ／１．

１，

分别对应发送请求的方式、

要下载的文

件名和ＨＴＴＰ协

议版本。

Ｈｏｓｔ头部信息是必须的，

而

其他的头部信息只是服务器用来分析客户请求的。

在回复应答里，

重要的是ＨＴＴＰ状态码和Ｃｏｎｔｅｎｔ

—

Ｌｅｎｇｔｈ字段。

这里的

状态码为２００表示请求成功，

Ｃｏｎｔｅｎｔ

—

Ｌｅｎｇｔｈ表示实际数据的大小。

那么我们如何进行多线程下载呢？很简单，

只

要在请求中加入一个Ｒａｎｇｅ头部的字段

【本文地址】

公司简介

联系我们