使用Pyrex来扩展和加速Python程序的教程

Pyrex 是一种专门设计用来编写 Python 扩展模块的语言。根据 Pyrex Web 站点的介绍，“它被设计用来在友好易用的高级 Python 世界和凌乱的低级 C 世界之间搭建一个桥梁。”虽然几乎所有的 Python 代码都可以作为有效的 Pyrex 代码使用，但是您可以在 Pyrex 代码中添加可选的静态类型声明，从而使得这些声明过的对象以 C 语言的速度运行。
加速 Python

从某种意义上来说，pyrex 只是不断发展的 python 类语言系列的一个部分：jython、ironpython、prothon、boo、vyper（现在没人用了）、stackless python（以一种方式）或 parrot runtime（以另外一种方式）。按照语言的术语来说，pyrex 本质上是在 python 中添加了类型声明。它的另外几个变化没有这么重要（不过对 for 循环的扩展很漂亮）。

然而，您真正希望使用 Pyrex 的原因是它编写的模块比纯 Python 运行得更快，可能会快很多。

实际上，Pyrex 会从 Pyrex 代码生成一个 C 程序。中间文件 module.c 依然可以用于手工处理。然而对于“普通的” Pyrex 用户来说，没有什么理由需要修改所生成的 C 模块。Pyrex 本身可以让您访问那些对速度至关重要的 C 级代码，而节省了编写内存分配、回收、指针运算、函数原型等的工作。Pyrex 还可以无缝地处理 Python 级对象的所有接口；通常它都是通过在必要的地方将变量声明为 PyObject 结构并使用 Python C-API 调用进行内存处理和类型转换而实现的。

对于大部分情况来说，Pyrex 不需要不断对简单数据类型变量进行装箱（box）和拆箱（unbox）操作，因此速度比 Python 更快。例如，Python 中的 int 类型是一个具有很多方法的对象。它有一个继承树，自己有一个计算好的“方法解析顺序（mothod resolution order，MRO）”。它有分配和回收方法可以用于内存处理。它知道何时将自己转换为一个 long 类型，以及如何对其他类型的值进行数值运算。所有这些额外的功能都意味着在使用 int 对象进行处理时需要经过更多级的间接处理或条件检查。另外一方面，C 或 Pyrex 的 int 变量只是内存中各个位设置为 1 或 0 的一个区域。使用 C/Pyrex 的 int 类型进行处理不需要涉及任何间接操作或条件检查。一个 CPU “加”操作在硅芯片中就可以执行完了。

在仔细选择的情况中，Pyrex 模块的速度可以比 Python 版本的相同模块的运行速度快 40 到 50 倍。但是与使用 C 本身编写的模块相比，Pyrex 版本的模块几乎都不会比 Python 版本的模块更长，代码更类似于 Python，而不是 C。

立即学习“Python免费学习笔记（深入）”；

当然，当您开始谈论加速（类）Python 模块时，Pyrex 并不是惟一可用的工具。在 Python 开发者的选择中，也可以使用 Psyco。Psyco 可以保持代码非常简短；它是（x86）机器代码中的一个 JIT Python 代码编译器。与 Pyrex 不同，Psyco 并不会精确地限定变量的类型，而是根据数据可能是哪种类型的每种假设为每个 Python 代码块创建几种可能的机器代码。如果在一个给定的代码段中数据是是简单类型，例如 int，那么这段代码（如果是一个循环，这种情况就更为突出）就可以很快地运行。例如，x 在一个执行一百万次的循环中可以是 int 类型，但是在循环结束时可以依然是一个 float 类型的值。Psyco 可以使用与在 Pyrex 中显式指定的类型相同的类型来加速循环。

虽然 Pyrex 也并不难，但是 Psyco 更加简单易用。使用 Psyco 不过是在模块的末尾加上几行；实际上，如果加上正确的代码，那么即使在 Psyco 不可用时，模块也可以同样运行（只是速度较慢）。
清单 1. 只有在 Psyco 可用时才使用 Psyco

# Import Psyco if availabletry:  import psyco  psyco.full()except ImportError:  pass

登录后复制

要使用 Pyrex，需要对代码进行的修改会更多（但也不过是多一点而已），系统中还需要安装一个 C 编译器，并正确对生成 Pyrex 模块的系统进行配置。虽然您可以分发二进制的 Pyrex 模块，但是为了能使您的模块在其他地方也可以运行，Python 的版本、架构和终端用户需要的优化选项必须匹配。

速度初体验

我最近为 developerWorks 的文章 Beat spam using hashcash 创建了一个纯 Python 的 hashcash 实现，但是基本上来说，hashcash 是一种使用 SHA-1 提供 CPU 工作的技术。Python 有一个标准的模块 sha，这使得编写 hashcash 非常简单。

与我编写的 95% 的 Python 程序不同，hashcash 模块缓慢的速度让我心烦，至少有那么一点点心烦。按照设计，这个协议就是要吃光所有的 CPU 周期，因此运行效率非常关键。hashcash.c 的 ANSI C 二进制文件运行的速度是这个 hashcash.py 脚本的 10 倍。而且启用了 PPC/Altivec 的优化后的 hashcash.c 二进制文件的速度是普通的 ANSI C 版本的 4 倍（1Ghz 的 G4/Altivec 在处理 hashcash/SHA 操作时的速度相当于 3Ghz 的 Pentium4?/MMX；G5 的速度会更快）。因此在我的 TiPowerbook 上的测试显示，这个模块的速度比优化后的 C 版本速度慢 40 倍（不过在 x86 上的差距没有这么大）。

由于这个模块的运行速度很慢，可能 Pyrex 会是一个比较好的加速方法。至少我认为是如此。“Pyrex 化” hashcash.py 的第一件事情（当然是在安装 Pyrex 之后）是简单地将其拷贝为 hashcash_pyx.pyx，并试图这样处理：

$ pyrexc hashcash_pyx.pyx

登录后复制

创建二进制模块

运行这个命令会生成一个 hashcash.c 文件（这会对源文件进行一些微小的改动）。不幸的是，调整 gcc 开关刚好适合我的平台需要点技巧，因此我决定采用推荐的捷径，让 distutils 为我做一些工作。标准的 Python 安装知道如何在模块安装过程中使用本地的 C 编译器，以及如何使用 distutils 来简化 Pyrex 模块的共享。我创建了一个 setup_hashcash.py 脚本，如下所示：
清单 2. setup_hashcash.py 脚本

from distutils.core import setupfrom distutils.extension import Extensionfrom Pyrex.Distutils import build_extsetup( name = "hashcash_pyx", ext_modules=[  Extension("hashcash_pyx", ["hashcash_pyx.pyx"], libraries = [])  ], cmdclass = {'build_ext': build_ext})

登录后复制

运行下面的命令，完整地编译一个基于 C 的扩展模块 hashcash：

$ python2.3 prime_setup.py build_ext --inplace

登录后复制

代码修改

我把从 hashcash.pyx 生成基于 C 的模块的工作有些简化了。实际上，我需要对源代码进行两处修改；通过查找 pyrexc 抱怨的位置来找到要修改的位置。在代码中，我使用了一个不支持的列表，将其放入一个普通的 for 循环。这非常简单。我还将增量赋值从 counter+=1 修改为 counter=counter+1。

就这么多了。这就是我的第一个 Pyrex 模块。

测试速度

为了可以简单地测试要开发的模块的速度提高情况，我编写了一个简单的测试程序来运行不同版本的模块：
清单 3. 测试程序 hashcash_test.py

#!/usr/bin/env python2.3import time, sys, optparsehashcash = __import__(sys.argv[1])start = time.time()print hashcash.mint('mertz@gnosis.cx', bits=20)timer = time.time()-startsys.stderr.write("%0.4f seconds (%d hashes per second)" %    (timer, hashcash.tries[0]/timer))

登录后复制

令人兴奋的是，我决定来看一下只通过 Pyrex 编译可以怎样提高速度。注意在下面所有的例子中，真实的时间变化很大，都是随机的。我们要看的内容是“hashes per second”，它可以精确可靠地测量速度。因此比较一下纯粹的 Python 和 Pyrex：
清单 4. 纯 Python 和 “纯 Pyrex”的比较

$ ./hashcash_test.py hashcash1:20:041003:mertz@gnosis.cx::I+lyNUpV:167dca13.7879 seconds (106904 hashes per second)$ ./hashcash_test.py hashcash_pyx > /dev/null6.0695 seconds (89239 hashes per second)

登录后复制

噢！使用 Pyrex 几乎慢了 20%。这并不是我期望的。现在应该来分析一下代码可能加速的地方了。下面这个简短的函数会试图消耗所有的时间：
清单 5. hashcash.py 中的函数

def _mint(challenge, bits):  "Answer a 'generalized hashcash' challenge'"  counter = 0  hex_digits = int(ceil(bits/4.))  zeros = '0'*hex_digits  hash = sha  while 1:    digest = hash(challenge+hex(counter)[2:]).hexdigest()    if digest[:hex_digits] == zeros:      tries[0] = counter      return hex(counter)[2:]    counter += 1

登录后复制

我需要利用 Pyrex 变量声明的优点来进行加速。有些变量显然是整数，另外一些变量显然是字符串 —— 我们可以指定这些类型。在进行修改时，我将使用 Pyrex 的经过改进的 for 循环：
清单 6. 经过最低限度 Pyrex 改进的 mint 函数

cdef _mint(challenge, int bits): # Answer a 'generalized hashcash' challenge'" cdef int counter, hex_digits, i cdef char *digest hex_digits = int(ceil(bits/4.)) hash = sha for counter from 0

到现在为止一切都非常简单。我只声明了早已知道的一些变量类型，并使用最干净的 Pyrex counter 循环。一个小技巧是将 py_digest（一个 Python 字符串）赋值给 digest（一个 C/Pyrex 字符串），目的是确定其类型。经过实验，我还发现循环字符串比较操作速度都非常快。这些会带来什么好处呢？
清单 7. Pyrex 化 mint 函数的速度结果

$ ./hashcash_test.py hashcash_pyx2 >/dev/null20.3749 seconds (116636 hashes per second)

登录后复制

这下好多了。我已经对原有的 Python 进行了一些细微的改进，这可以稍微提高最初的 Pyrex 模块的速度。不过效果还不明显，仅仅提高了很少的百分比。
剖析

有些东西似乎不对。速度提高几个百分比和 Pyrex 主页（以及很多 Pyrex 用户）那样提高 40 倍有很大的差距。现在应该来看一下这个 Python _mint() 函数中哪些地方真正消耗了时间。有一个 quick 脚本（此处没有给出）可以分解复杂操作 sha(challenge+hex(counter)[2:]).hexdigest()：
清单 8. hashcash 的 mint 函数的时间消耗

1000000 empty loops:   0.559------------------------------1000000 sha()s:     2.3321000000 hex()[2:]s:   3.151  just hex()s:     1000000 concatenations: 0.8551000000 hexdigest()s:  3.742------------------------------Total:         10.079

登录后复制

显然，我并不能将这个循环从 _mint() 函数中删除。虽然 Pyrex 改进后的 for 循环可能有一点加速，但是整个函数主要是一个循环。我也不能删除对 sha() 的调用，除非要使用 Pyrex 重新实现 SHA-1（即使我要这样做，也没有自信自己可以比 Python 标准的 sha 模块的作者做得更好）。而且，如果我希望得到一个 sha.SHA 对象的 hash 值，就只能调用 .hexdigest() 或 .digest()；前者的速度更快。

现在真正要解决的是 hex() 对 counter 变量的转换，以及结果中时间片的消耗情况。我可能需要使用 Pyrex/C 的字符串连接操作，而不是 Python 的字符串对象。然而，我见过的惟一一种避免 hex() 转换的方法是手工在嵌套循环之外构建一个后缀。虽然这样做可以避免 int 到 char 类型的转换，但是需要生成更多代码：
清单 9. 完全 Pyrex 优化过的 mint 函数

cdef _mint(char *challenge, int bits): cdef int hex_digits, i0, i1, i2, i3, i4, i5 cdef char *ab, *digest, *trial, *suffix suffix = '******' ab = alphabet hex_digits = int(ceil(bits/4.)) hash = sha for i0 from 0

虽然这个 Pyrex 函数看起来仍然比对应的 C 函数更加简单易读，但是它实际上最初的纯 Python 的版本更为复杂。通过这种方式，在纯 Python 中展开后缀生成与最初的版本相比会对总体速度有些负面的影响。在 Pyrex 中，正如您期望的一样，这些嵌套的循环都是很少花费时间的，因而我节省了转换和分时调度的代价：
清单 10. mint 函数 Pyrex 化优化后的速度结果

$ ./hashcash_test.py hashcash_pyx3 >/dev/null13.2270 seconds (166125 hashes per second)

登录后复制

当然，这比我开始的时候好多了。但是速度提高也不过是两倍。大部分时间的问题是（此处也是）消耗了太多的时间在对 Python 库的调用上，而我并不能对这些调用编写代码来提高速度。
令人失望的比较

速度提高 50% 到 60% 似乎是值得的。达到这个目标我并没有编写多少代码。但是如果您认为是在原来的 Python 版本中添加两条语句 import psyco;psyco.bind(_mint)，那么这种加速方法就不会给您多深的印象：
清单 11. mint 函数 Psyco 化的加速结果

$ ./hashcash_test.py hashcash_psyco >/dev/null15.2300 seconds (157550 hashes per second)

登录后复制

换而言之，Psyco 之不过添加了两行通用的代码，就几乎能实现相同的目标。当然，Psyco 只能用于 x86 平台，而 Pyrex 可以在具有 C 编译器的所有环境上执行。但是对于这个特定的例子来说，os.popen('hashcash -m '+options) 的速度会比 Pyrex 和 Psyco 都快很多倍（当然，假设可以使用 C 工具 hashcash）。

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2294618.html

Python

0 0

关于作者

PHP中文网签约作者

285.6K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

详细探究Python中的字典容器

上一篇 2025年2月28日 02:43:55

PHP 设计模式：解锁编程潜力的秘密武器

下一篇 2025年2月19日 02:58:16

详细探究Python中的字典容器

dictionary 我们都曾经使用过语言词典来查找不认识的单词的定义。语言词典针对给定的单词（比如 python）提供一组标准的信息。这种系统将定义和其他信息与实际的单词关联（映射）起来。使用单词作为键定位器来寻找感兴趣的信息。这种概念延…

PHP中文网
编程技术 2025年2月28日
2000
Python中decorator使用实例

在我以前介绍 python 2.4 特性的blog中已经介绍过了decorator了，不过，那时是照猫画虎，现在再仔细描述一下它的使用。关于decorator的详细介绍在 Python 2.4中的What’s new中已经有介…

PHP中文网
编程技术 2025年2月28日
2000
Python中用Spark模块的使用教程

在日常的编程中，我经常需要标识存在于文本文档中的部件和结构，这些文档包括：日志文件、配置文件、定界的数据以及格式更自由的（但还是半结构化的）报表格式。所有这些文档都拥有它们自己的“小语言”，用于规定什么能够出现在文档内。我编写这些非正式解…

PHP中文网
编程技术 2025年2月28日
2000
Python中一些自然语言工具的使用的入门教程

NLTK 是使用 Python 教学以及实践计算语言学的极好工具。此外，计算语言学与人工智能、语言/专门语言识别、翻译以及语法检查等领域关系密切。NLTK 包括什么 NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上…

PHP中文网
编程技术 2025年2月28日
2000
Python遍历目录的4种方法实例介绍

1.os.popen运行shell列表命令复制代码代码如下:def traverseDirByShell(path): for f in os.popen(‘ls ‘ + path): pri…

PHP中文网
编程技术 2025年2月28日
2000
Python中的异常处理简明介绍

python异常处理机制和java类似,采用try-except-finally的结构. try-except检测异常格式复制代码代码如下:try: try_statementexcept (ErrorType1, ErrorT…

PHP中文网
编程技术 2025年2月28日
2000
Python命令行参数解析模块getopt使用实例

格式 getopt(args, options[, long_options]) 1.args表示要解析的参数. 2.options表示脚本要识别的字符.字符之间用”:”分隔,而且必须要以”:”后结尾,例如”a:b:c:”. 3.long_…

PHP中文网
编程技术 2025年2月28日
2000
python中的装饰器详解

在了解装饰器的之前一定要先了解函数作为参数传递, 什么是函数内嵌,请参考我之前写的博客函数简介因为在python里面,函数也是对象,也可以作为参数进行传递.python装饰器本质也是一种特殊函数,它接收的参数是函数对象,然后动态地函数参数…

PHP中文网
编程技术 2025年2月28日
2000
编程技术

Python日志模块logging简介

logging分为4个模块: loggers, handlers, filters, and formatters. ●loggers: 提供应用程序调用的接口●handlers: 把日志发送到指定的位置●filters: 过滤日志信息●f…

PHP中文网
2025年2月28日
2000
Python生成器（Generator）详解

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表…

PHP中文网
编程技术 2025年2月28日
2000

发表回复

登录后才能评论

使用Pyrex来扩展和加速Python程序的教程

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐