比较详细Python正则表达式操作指南

python 自1.5版本起增加了re 模块，它提供 perl 风格的正则表达式模式。python 1.5之前版本则是通过 regex 模块提供 emecs 风格的模式。emacs 风格模式可读性稍差些，而且功能也不强，因此编写新代码时尽量不要再使用 regex 模块，当然偶尔你还是可能在老代码里发现其踪影。

就其本质而言，正则表达式（或 RE）是一种小型的、高度专业化的编程语言，（在Python中）它内嵌在Python中，并通过 re 模块实现。使用这个小型语言，你可以为想要匹配的相应字符串集指定规则；该字符串集可能包含英文语句、e-mail地址、TeX命令或任何你想搞定的东西。然後你可以问诸如“这个字符串匹配该模式吗？”或“在这个字符串中是否有部分匹配该模式呢？”。你也可以使用 RE 以各种方式来修改或分割字符串。

正则表达式模式被编译成一系列的字节码，然後由用 C 编写的匹配引擎执行。在高级用法中，也许还要仔细留意引擎是如何执行给定 RE ，如何以特定方式编写 RE 以令生产的字节码运行速度更快。本文并不涉及优化，因为那要求你已充分掌握了匹配引擎的内部机制。

正则表达式语言相对小型和受限（功能有限），因此并非所有字符串处理都能用正则表达式完成。当然也有些任务可以用正则表达式完成，不过最终表达式会变得异常复杂。碰到这些情形时，编写 Python 代码进行处理可能反而更好；尽管 Python 代码比一个精巧的正则表达式要慢些，但它更易理解。

简单模式

我们将从最简单的正则表达式学习开始。由于正则表达式常用于字符串操作，那我们就从最常见的任务：字符匹配下手。

立即学习“Python免费学习笔记（深入）”；

有关正则表达式底层的计算机科学上的详细解释（确定性和非确定性有限自动机），你可以查阅编写编译器相关的任何教科书。

字符匹配

大多数字母和字符一般都会和自身匹配。例如，正则表达式 test 会和字符串“test”完全匹配。（你也可以使用大小写不敏感模式，它还能让这个 RE 匹配“Test”或“TEST”；稍後会有更多解释。）

这个规则当然会有例外；有些字符比较特殊，它们和自身并不匹配，而是会表明应和一些特殊的东西匹配，或者它们会影响到 RE 其它部分的重复次数。本文很大篇幅专门讨论了各种元字符及其作用。

这里有一个元字符的完整列表；其含义会在本指南馀下部分进行讨论。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>. ^ $ * + ? { [ ] | ( )

我们首先考察的元字符是”[” 和 “]”。它们常用来指定一个字符类别，所谓字符类别就是你想匹配的一个字符集。字符可以单个列出，也可以用“-”号分隔的两个给定字符来表示一个字符区间。例如，[abc] 将匹配”a”, “b”, 或 “c”中的任意一个字符；也可以用区间[a-c]来表示同一字符集，和前者效果一致。如果你只想匹配小写字母，那幺 RE 应写成 [a-z].

元字符在类别里并不起作用。例如，[akm$]将匹配字符”a”, “k”, “m”, 或 “$” 中的任意一个；”$”通常用作元字符，但在字符类别里，其特性被除去，恢复成普通字符。

你可以用补集来匹配不在区间范围内的字符。其做法是把”^”作为类别的首个字符；其它地方的”^”只会简单匹配 “^”字符本身。例如，[^5] 将匹配除 “5” 之外的任意字符。

也许最重要的元字符是反斜杠”””。做为 Python 中的字符串字母，反斜杠後面可以加不同的字符以表示不同特殊意义。它也可以用于取消所有的元字符，这样你就可以在模式中匹配它们了。举个例子，如果你需要匹配字符 “[” 或 “””，你可以在它们之前用反斜杠来取消它们的特殊意义： “[ 或 “”。

一些用 “”” 开始的特殊字符所表示的预定义字符集通常是很有用的，象数字集，字母集，或其它非空字符集。下列是可用的预设特殊字符：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>d 匹配任何十进制数；它相当于类 [0-9]。

D 匹配任何非数字字符；它相当于类 [^0-9]。

s 匹配任何空白字符；它相当于类 [ “t”n”r”f”v]。

S 匹配任何非空白字符；它相当于类 [^ “t”n”r”f”v]。

w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。

W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]。

这样特殊字符都可以包含在一个字符类中。如，[“s,.]字符类将匹配任何空白字符或”,”或”.”。

本节最後一个元字符是 . 。它匹配除了换行字符外的任何字符，在 alternate 模式（re.DOTALL）下它甚至可以匹配换行。”.” 通常被用于你想匹配“任何字符”的地方。

重复

正则表达式第一件能做的事是能够匹配不定长的字符集，而这是其它能作用在字符串上的方法所不能做到的。不过，如果那是正则表达式唯一的附加功能的话，那么它们也就不那么优秀了。它们的另一个功能就是你可以指定正则表达式的一部分的重复次数。

我们讨论的第一个重复功能的元字符是 *。* 并不匹配字母字符 “*”；相反，它指定前一个字符可以被匹配零次或更多次，而不是只有一次。

举个例子，ca*t 将匹配 “ct” (0 个 “a” 字符), “cat” (1 个 “a”), “caaat” (3 个 “a” 字符)等等。RE 引擎有各种来自 C 的整数类型大小的内部限制，以防止它匹配超过2亿个 “a” 字符；你也许没有足够的内存去建造那么大的字符串，所以将不会累计到那个限制。

象 * 这样地重复是“贪婪的”；当重复一个 RE 时，匹配引擎会试着重复尽可能多的次数。如果模式的後面部分没有被匹配，匹配引擎将退回并再次尝试更小的重复。

一步步的示例可以使它更加清晰。让我们考虑表达式 a[bcd]*b。它匹配字母 “a”，零个或更多个来自类 [bcd]中的字母，最後以 “b” 结尾。现在想一想该 RE 对字符串 “abcbd” 的匹配。

StepMatchedExplanation1aa 匹配模式2abcbd引擎匹配 [bcd]*，并尽其所能匹配到字符串的结尾3Failure引擎尝试匹配 b，但当前位置已经是字符的最後了，所以失败4abcb退回，[bcd]*尝试少匹配一个字符。5Failure再次尝次b，但在当前最後一位字符是”d”。6abc再次退回，[bcd]*只匹配 “bc”。7abcb再次尝试 b ，这次当前位上的字符正好是 “b”

RE 的结尾部分现在可以到达了，它匹配 “abcb”。这证明了匹配引擎一开始会尽其所能进行匹配，如果没有匹配然後就逐步退回并反复尝试 RE 剩下来的部分。直到它退回尝试匹配 [bcd] 到零次为止，如果随後还是失败，那么引擎就会认为该字符串根本无法匹配 RE 。

另一个重复元字符是 +，表示匹配一或更多次。请注意 * 和 + 之间的不同；＊匹配零或更多次，所以根本就可以不出现，而 + 则要求至少出现一次。用同一个例子，ca+t 就可以匹配 “cat” (1 个 “a”)， “caaat” (3 个 “a”)，但不能匹配 “ct”。

还有更多的限定符。问号 ? 匹配一次或零次；你可以认为它用于标识某事物是可选的。例如：home-?brew 匹配 “homebrew” 或 “home-brew”。

最复杂的重复限定符是 {m,n}，其中 m 和 n 是十进制整数。该限定符的意思是至少有 m 个重复，至多到 n 个重复。举个例子，a/{1,3}b 将匹配 “a/b”，”a//b” 和 “a///b”。它不能匹配 “ab” 因为没有斜杠，也不能匹配 “a////b” ，因为有四个。

你可以忽略 m 或 n；因为会为缺失的值假设一个合理的值。忽略 m 会认为下边界是 0，而忽略 n 的结果将是上边界为无穷大 — 实际上是先前我们提到的 2 兆，但这也许同无穷大一样。

细心的读者也许注意到其他三个限定符都可以用这样方式来表示。 {0,} 等同于 *，{1,} 等同于 +，而{0,1}则与 ? 相同。如果可以的话，最好使用 *，+，或?。很简单因为它们更短也再容易懂。

使用正则表达式

现在我们已经看了一些简单的正则表达式，那么我们实际在 Python 中是如何使用它们的呢？ re 模块提供了一个正则表达式引擎的接口，可以让你将 REs 编译成对象并用它们来进行匹配。

编译正则表达式

正则表达式被编译成 `RegexObject` 实例，可以为不同的操作提供方法，如模式匹配搜索或字符串替换。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> import re

>>> p = re.compile(‘ab*’)

>>> print p

re.RegexObject instance at 80b4150>

re.compile() 也接受可选的标志参数，常用来实现不同的特殊功能和语法变更。我们稍後将查看所有可用的设置，但现在只举一个例子：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> p = re.compile(‘ab*’, re.IGNORECASE)

RE 被做为一个字符串发送给 re.compile()。REs 被处理成字符串是因为正则表达式不是 Python 语言的核心部分，也没有为它创建特定的语法。（应用程序根本就不需要 REs，因此没必要包含它们去使语言说明变得臃肿不堪。）而 re 模块则只是以一个 C 扩展模块的形式来被 Python 包含，就象 socket 或 zlib 模块一样。

将 REs 作为字符串以保证 Python 语言的简洁，但这样带来的一个麻烦就是象下节标题所讲的。

反斜杠的麻烦

在早期规定中，正则表达式用反斜杠字符 (“””) 来表示特殊格式或允许使用特殊字符而不调用它的特殊用法。这就与 Python 在字符串中的那些起相同作用的相同字符产生了冲突。

让我们举例说明，你想写一个 RE 以匹配字符串 “”section”，可能是在一个 LATEX 文件查找。为了要在程序代码中判断，首先要写出想要匹配的字符串。接下来你需要在所有反斜杠和元字符前加反斜杠来取消其特殊意义。

字符阶段section要匹配的字符串\section为 re.compile 取消反斜杠的特殊意义”\\section”为字符串取消反斜杠

简单地说，为了匹配一个反斜杠，不得不在 RE 字符串中写 ‘\’，因为正则表达式中必须是 “\”，而每个反斜杠按 Python 字符串字母表示的常规必须表示成 “\”。在 REs 中反斜杠的这个重复特性会导致大量重复的反斜杠，而且所生成的字符串也很难懂。

解决的办法就是为正则表达式使用 Python 的 raw 字符串表示；在字符串前加个 “r” 反斜杠就不会被任何特殊方式处理，所以 r”” 就是包含”” 和 “n” 的两个字符，而 “” 则是一个字符，表示一个换行。正则表达式通常在 Python 代码中都是用这种 raw 字符串表示。

常规字符串Raw 字符串”ab*”r”ab*””\\section”r”\section””\w+\s+\1″r”w+s+”

执行匹配

一旦你有了已经编译了的正则表达式的对象，你要用它做什么呢？`RegexObject` 实例有一些方法和属性。这里只显示了最重要的几个，如果要看完整的列表请查阅 Python Library Reference

方法/属性作用match()决定 RE 是否在字符串刚开始的位置匹配search()扫描字符串，找到这个 RE 匹配的位置findall()找到 RE 匹配的所有子串，并把它们作为一个列表返回finditer()找到 RE 匹配的所有子串，并把它们作为一个迭代器返回

如果没有匹配到的话，match() 和 search() 将返回 None。如果成功的话，就会返回一个 `MatchObject` 实例，其中有这次匹配的信息：它是从哪里开始和结束，它所匹配的子串等等。

你可以用采用人机对话并用 re 模块实验的方式来学习它。如果你有 Tkinter 的话，你也许可以考虑参考一下 Tools/scripts/redemo.py，一个包含在 Python 发行版里的示范程序。

首先，运行 Python 解释器，导入 re 模块并编译一个 RE：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

Python 2.2.2 (#1, Feb 10 2003, 12:57:01)

>>> import re

>>> p = re.compile(‘[a-z]+’)

>>> p

_sre.SRE_Pattern object at 80c3c28>

现在，你可以试着用 RE 的 [a-z]+ 去匹配不同的字符串。一个空字符串将根本不能匹配，因为 + 的意思是 “一个或更多的重复次数”。在这种情况下 match() 将返回 None，因为它使解释器没有输出。你可以明确地打印出 match() 的结果来弄清这一点。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> p.match(“”)

>>> print p.match(“”)

None

现在，让我们试着用它来匹配一个字符串，如 “tempo”。这时，match() 将返回一个 MatchObject。因此你可以将结果保存在变量里以便后面使用。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> m = p.match( ‘tempo’)

>>> print m

_sre.SRE_Match object at 80c4f68>

现在你可以查询 `MatchObject` 关于匹配字符串的相关信息了。MatchObject 实例也有几个方法和属性；最重要的那些如下所示：

方法/属性作用group()返回被 RE 匹配的字符串start()返回匹配开始的位置end()返回匹配结束的位置span()返回一个元组包含匹配 (开始,结束) 的位置

试试这些方法不久就会清楚它们的作用了：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> m.group()

‘tempo’

>>> m.start(), m.end()

(0, 5)

>>> m.span()

(0, 5)

group() 返回 RE 匹配的子串。start() 和 end() 返回匹配开始和结束时的索引。span() 则用单个元组把开始和结束时的索引一起返回。因为匹配方法检查到如果 RE 在字符串开始处开始匹配，那么 start() 将总是为零。然而， `RegexObject` 实例的 search 方法扫描下面的字符串的话，在这种情况下，匹配开始的位置就也许不是零了。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> print p.match(‘::: message’)

None

>>> m = p.search(‘::: message’) ; print m

re.MatchObject instance at 80c9650>

>>> m.group()

‘message’

>>> m.span()

(4, 11)

在实际程序中，最常见的作法是将 `MatchObject` 保存在一个变量里，然后检查它是否为 None，通常如下所示：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

p = re.compile( )

m = p.match( ‘string goes here’ )

if m:

print ‘Match found: ‘, m.group()

else:

print ‘No match’

两个 `RegexObject` 方法返回所有匹配模式的子串。findall()返回一个匹配字符串行表：

#!python

>>> p = re.compile(‘”d+’)

>>> p.findall(’12 drummers drumming, 11 pipers piping, 10 lords a-leaping’)

[’12’, ’11’, ’10’]

findall() 在它返回结果时不得不创建一个列表。在 Python 2.2中，也可以用 finditer() 方法。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> iterator = p.finditer(’12 drummers drumming, 11
Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> print re.match(r’From”s+’, ‘Fromage amk’)

None

>>> re.match(r’From”s+’, ‘From amk Thu May 14 19:12:10 1998’)

re.MatchObject instance at 80c5978>

Under the hood, 这些函数简单地产生一个 RegexOject 并在其上调用相应的方法。它们也在缓存里保存编译後的对象，因此在将来调用用到相同 RE 时就会更快。

你将使用这些模块级函数，还是先得到一个 `RegexObject` 再调用它的方法呢？如何选择依赖于怎样用 RE 更有效率以及你个人编码风格。如果一个 RE 在代码中只做用一次的话，那么模块级函数也许更方便。如果程序包含很多的正则表达式，或在多处复用同一个的话，那么将全部定义放在一起，在一段代码中提前编译所有的 REs 更有用。从标准库中看一个例子，这是从 xmllib.py 文件中提取出来的：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

ref = re.compile( )

entityref = re.compile(
Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

charref = re.compile(r”””

&[[]] # Start of a numeric entity reference

(

[0-9]+[^0-9] # Decimal form

| 0[0-7]+[^0-7] # Octal form

| x[0-9a-fA-F]+[^0-9a-fA-F] # Hexadecimal form

)

“””, re.VERBOSE)

没有 verbose 设置， RE 会看起来象这样：

#!python

charref = re.compile(“([0-9]+[^0-9]”

“|0[0-7]+[^0-7]”

“|x[0-9a-fA-F]+[^0-9a-fA-F])”)

在上面的例子里，Python 的字符串自动连接可以用来将 RE 分成更小的部分，但它比用 re.VERBOSE 标志时更难懂。

>>> p = re.compile( ‘(blue|white|red)’)

>>> p.subn( ‘colour’, ‘blue socks and red shoes’)

(‘colour socks and colour shoes’, 2)

>>> p.subn( ‘colour’, ‘no colours at all’)

(‘no colours at all’, 0)

空匹配只有在它们没有紧挨着前一个匹配时才会被替换掉。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> p = re.compile(‘x*’)

>>> p.sub(‘-‘, ‘abxd’)

‘-a-b-d-‘

如果替换的是一个字符串，任何在其中的反斜杠都会被处理。””n” 将会被转换成一个换行符，””r”转换成回车等等。未知的转义如 “”j” 则保持原样。逆向引用，如 “”6″，被 RE 中相应的组匹配而被子串替换。这使你可以在替换後的字符串中插入原始文本的一部分。

这个例子匹配被 “{” 和 “}” 括起来的单词 “section”，并将 “section” 替换成 “subsection”。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> p = re.compile(‘section{ ( [^}]* ) }’, re.VERBOSE)

>>> p.sub(r’subsection{“1}’,’section{First} section{second}’)

‘subsection{First} subsection{second}’

还可以指定用 (?P…) 语法定义的命名组。””g” 将通过组名 “name” 用子串来匹配，并且 “”g” 使用相应的组号。所以 “”g” 等于 “”2″，但能在替换字符串里含义不清，如 “”g0″。（””20” 被解释成对组 20 的引用，而不是对後面跟着一个字母 “0” 的组 2 的引用。）

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> p = re.compile(‘section{ (?P [^}]* ) }’, re.VERBOSE)

>>> p.sub(r’subsection{“1}’,’section{First}’)

‘subsection{First}’

>>> p.sub(r’subsection{“g}’,’section{First}’)

‘subsection{First}’

>>> p.sub(r’subsection{“g}’,’section{First}’)

‘subsection{First}’

替换也可以是一个甚至给你更多控制的函数。如果替换是个函数，该函数将会被模式中每一个不重复的匹配所调用。在每个调用时，函数被作为 `MatchObject` 的匹配函属，并可以使用这个信息去计算预期的字符串并返回它。

在下面的例子里，替换函数将十进制翻译成十六进制：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> def hexrepl( match ):

“Return the hex string for a decimal number”

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> print re.match(‘super’, ‘superstition’).span()

(0, 5)

>>> print re.match(‘super’, ‘insuperable’)

None

另一方面，search() 将扫描整个字符串，并报告它找到的第一个匹配。

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> print re.search(‘super’, ‘superstition’).span()

(0, 5)

>>> print re.search(‘super’, ‘insuperable’).span()

(2, 7)

有时你可能倾向于使用 re.match()，只在RE的前面部分添加 .* 。请尽量不要这么做，最好采用 re.search() 代替之。正则表达式编译器会对 REs 做一些分析以便可以在查找匹配时提高处理速度。一个那样的分析机会指出匹配的第一个字符是什么；举个例子，模式 Crow 必须从 “C” 开始匹配。分析机可以让引擎快速扫描字符串以找到开始字符，并只在 “C” 被发现後才开始全部匹配。

添加 .* 会使这个优化失败，这就要扫描到字符串尾部，然後回溯以找到 RE 剩馀部分的匹配。使用 re.search() 代替。

贪婪 vs 不贪婪

当重复一个正则表达式时，如用 a*，操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符，如 HTML 标志中的尖括号时这个事实经常困扰你。匹配单个 HTML 标志的模式不能正常工作，因为 .* 的本质是“贪婪”的

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> s = ‘Title‘

>>> len(s)

>>> print re.match(‘‘, s).span()

(0, 32)

>>> print re.match(‘‘, s).group()

html>head>title>Titletitle>

RE 匹配在 “” 中的 ” 不能匹配在字符串结尾，因此正则表达式必须一个字符一个字符地回溯，直到它找到 > 的匹配。最终的匹配从 “” 中的 “>”,这并不是你所想要的结果。

在这种情况下，解决方案是使用不贪婪的限定符 *?、+?、?? 或 {m,n}?，尽可能匹配小的文本。在上面的例子里， “>” 在第一个 “”。这个处理将得到正确的结果：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

>>> print re.match(‘‘, s).group()

html>

注意用正则表达式分析 HTML 或 XML 是痛苦的。变化混乱的模式将处理常见情况，但 HTML 和 XML 则是明显会打破正则表达式的特殊情况；当你编写一个正则表达式去处理所有可能的情况时，模式将变得非常复杂。象这样的任务用 HTML 或 XML 解析器。

不用 re.VERBOSE

现在你可能注意到正则表达式的表示是十分紧凑，但它们非常不好读。中度复杂的 REs 可以变成反斜杠、圆括号和元字符的长长集合，以致于使它们很难读懂。

在这些 REs 中，当编译正则表达式时指定 re.VERBOSE 标志是有帮助的，因为它允许你可以编辑正则表达式的格式使之更清楚。

re.VERBOSE 标志有这么几个作用。在正则表达式中不在字符类中的空白符被忽略。这就意味着象 dog | cat 这样的表达式和可读性差的 dog|cat 相同，但 [a b] 将匹配字符 “a”、”b” 或空格。另外，你也可以把注释放到 RE 中；注释是从 “#” 到下一行。当使用三引号字符串时，可以使 REs 格式更加干净：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

pat = re.compile(r”””

“s* # Skip leading whitespace

(?P

[^:]+) # Header name

“s* : # Whitespace, and a colon

(?P.*?) # The header’s value — *? used to

# lose the following trailing whitespace

“s*$ # Trailing whitespace to end-of-line

“””, re.VERBOSE)

这个要难读得多：

<!–

Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/

–>#!python

pat = re.compile(r””s*(?Pheader>[^:]+)”s*:(?P.*?)”s*$”)

反馈

正则表达式是一个复杂的主题。本文能否有助于你理解呢？那些部分是否不清晰，或在这儿没有找到你所遇到的问题？如果是那样的话，请将建议发给作者以便改进。

描述正则表达式最全面的书非Jeffrey Friedl 写的《精通正则表达式》莫属，该书由O’Reilly 出版。可惜该书只专注于 Perl 和 Java 风格的正则表达式，不含任何 Python 材料，所以不足以用作Python编程时的参考。（第一版包含有 Python 现已过时的 regex 模块，自然用处不大）。

以上就是比较详细Python正则表达式操作指南的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2272405.html

比较详细Python正则表达式操作指南

简单模式

字符匹配

重复

使用正则表达式

编译正则表达式

反斜杠的麻烦

执行匹配

更多模式功能

更多的元字符

分组

无捕获组和命名组

前向界定符

修改字符串

将字符串分片

搜索和替换

贪婪 vs 不贪婪

不用 re.VERBOSE

反馈

关于作者

PHP中文网签约作者

发表回复

比较详细Python正则表达式操作指南

简单模式

字符匹配

重复

使用正则表达式

编译正则表达式

反斜杠的麻烦

执行匹配

更多模式功能

更多的元字符

分组

无捕获组和命名组

前向界定符

修改字符串

将字符串分片

搜索和替换

贪婪 vs 不贪婪

不用 re.VERBOSE

反馈

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐