Python并发与并行的新手指南_程序人生

Python并发与并行的新手指南

admin

2023-07-30 21:54:41

0次

在批评Python的讨论中，常常说起Python多线程是多么的难用。还有人对 global interpreter lock(也被亲切的称为“GIL”)指指点点，说它阻碍了Python的多线程程序同时运行。因此，如果你是从其他语言（比如C++或Java）转过来的话，Python线程模块并不会像你想象的那样去运行。必须要说明的是，我们还是可以用Python写出能并发或并行的代码，并且能带来性能的显著提升，只要你能顾及到一些事情。如果你还没看过的话，我建议你看看Eqbal Quran的文章《Ruby中的并发和并行》。

在本文中，我们将会写一个小的Python脚本，用于下载Imgur上最热门的图片。我们将会从一个按顺序下载图片的版本开始做起，即一个一个地下载。在那之前，你得注册一个Imgur上的应用。如果你还没有Imgur账户，请先注册一个。

本文中的脚本在Python3.4.2中测试通过。稍微改一下，应该也能在Python2中运行——urllib是两个版本中区别最大的部分。

开始动手

让我们从创建一个叫“download.py”的Python模块开始。这个文件包含了获取图片列表以及下载这些图片所需的所有函数。我们将这些功能分成三个单独的函数：

get_links
download_link
setup_download_dir

第三个函数，“setup_download_dir”，用于创建下载的目标目录（如果不存在的话）。

Imgur的API要求HTTP请求能支持带有client ID的“Authorization”头部。你可以从你注册的Imgur应用的面板上找到这个client ID，而响应会以JSON进行编码。我们可以使用Python的标准JSON库去解码。下载图片更简单，你只需要根据它们的URL获取图片，然后写入到一个文件即可。

代码如下：

1234567891011121314151617181920212223242526

import jsonimport loggingimport osfrom pathlib import Pathfrom urllib.request import urlopen, Request logger = logging.getLogger(__name__) def get_links(client_id): headers = {\’Authorization\’: \’Client-ID {}\’.format(client_id)} req = Request(\’https://api.imgur.com/3/gallery/\’, headers=headers, method=\’GET\’) with urlopen(req) as resp: data = json.loads(resp.readall().decode(\’utf-8\’)) return map(lambda item: item[\’link\’], data[\’data\’]) def download_link(directory, link): logger.info(\’Downloading %s\’, link) download_path = directory / os.path.basename(link) with urlopen(link) as image, download_path.open(\’wb\’) as f: f.write(image.readall()) def setup_download_dir(): download_dir = Path(\’images\’) if not download_dir.exists(): download_dir.mkdir() return download_dir

接下来，你需要写一个模块，利用这些函数去逐个下载图片。我们给它命名为“single.py”。它包含了我们最原始版本的Imgur图片下载器的主要函数。这个模块将会通过环境变量“IMGUR_CLIENT_ID”去获取Imgur的client ID。它将会调用“setup_download_dir”去创建下载目录。最后，使用get_links函数去获取图片的列表，过滤掉所有的GIF和专辑URL，然后用“download_link”去将图片下载并保存在磁盘中。下面是“single.py”的代码：

1234567891011121314151617181920212223

import loggingimport osfrom time import time from download import setup_download_dir, get_links, download_link logging.basicConfig(level=logging.DEBUG, format=\’%(asctime)s – %(name)s – %(levelname)s – %(message)s\’)logging.getLogger(\’requests\’).setLevel(logging.CRITICAL)logger = logging.getLogger(__name__) def main(): ts = time() client_id = os.getenv(\’IMGUR_CLIENT_ID\’) if not client_id: raise Exception(\”Couldn\’t find IMGUR_CLIENT_ID environment variable!\”) download_dir = setup_download_dir() links = [l for l in get_links(client_id) if l.endswith(\’.jpg\’)] for link in links: download_link(download_dir, link) print(\’Took {}s\’.format(time() – ts)) if __name__ == \’__main__\’: main()

在我的笔记本上，这个脚本花了19.4秒去下载91张图片。请注意这些数字在不同的网络上也会有所不同。19.4秒并不是非常的长，但是如果我们要下载更多的图片怎么办呢？或许是900张而不是90张。平均下载一张图片要0.2秒，900张的话大概需要3分钟。那么9000张图片将会花掉30分钟。好消息是使用了并发或者并行后，我们可以将这个速度显著地提高。

接下来的代码示例将只会显示导入特有模块和新模块的import语句。所有相关的Python脚本都可以在这方便地找到this GitHub repository。

使用线程

线程是最出名的实现并发和并行的方式之一。操作系统一般提供了线程的特性。线程比进程要小，而且共享同一块内存空间。

在这里，我们将写一个替代“single.py”的新模块。它将创建一个有八个线程的池，加上主线程的话总共就是九个线程。之所以是八个线程，是因为我的电脑有8个CPU内核，而一个工作线程对应一个内核看起来还不错。在实践中，线程的数量是仔细考究的，需要考虑到其他的因素，比如在同一台机器上跑的的其他应用和服务。

下面的脚本几乎跟之前的一样，除了我们现在有个新的类，DownloadWorker，一个Thread类的子类。运行无限循环的run方法已经被重写。在每次迭代时，它调用“self.queue.get()”试图从一个线程安全的队列里获取一个URL。它将会一直堵塞，直到队列中出现一个要处理元素。一旦工作线程从队列中得到一个元素，它将会调用之前脚本中用来下载图片到目录中所用到的“download_link”方法。下载完成之后，工作线程向队列发送任务完成的信号。这非常重要，因为队列一直在跟踪队列中的任务数。如果工作线程没有发出任务完成的信号，“queue.join()”的调用将会令整个主线程都在阻塞状态。

ref=\”http://www.jobbole.com/members/foolalex\”>鸭梨山大翻译，笑虎校稿。未经许可，禁止转载！
英文出处：MARCUS MCCURDY。欢迎加入翻译组。

本文中的脚本在Python3.4.2中测试通过。稍微改一下，应该也能在Python2中运行——urllib是两个版本中区别最大的部分。

开始动手

get_links
download_link
setup_download_dir

第三个函数，“setup_download_dir”，用于创建下载的目标目录（如果不存在的话）。

代码如下：

1234567891011121314151617181920212223242526

1234567891011121314151617181920212223

接下来的代码示例将只会显示导入特有模块和新模块的import语句。所有相关的Python脚本都可以在这方便地找到this GitHub repository。

使用线程

线程是最出名的实现并发和并行的方式之一。操作系统一般提供了线程的特性。线程比进程要小，而且共享同一块内存空间。

o\” style=\”min-height: 18.2px !important; line-height: 18.2px !important;\”>

上一篇：如何入门 Python 爬虫？

下一篇：利用 scrapy爬知乎用户关系网以及下载头像

Python并发与并行的新手指南

开始动手

使用线程

开始动手

使用线程

相关内容

热门资讯