C++正则规则
郑重声明:文中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用,如果您不同意请关闭该页面!任何人不得将其用于非法用途以及盈利等目的,否则后果自行承担!
常用的元字符:
.
: 匹配除\n
之外的任何单个字符,若要匹配包括\n
在内的任意字符,需使用诸如[\s\S]
之类的模式;
^
:匹配输入字符串的开始位置,不匹配任何字符,要匹配^
字符本身,需使用\^
;
$
:匹配输入字符串结尾的位置,不匹配任何字符,要匹配$
字符本身,需使用\$
;
*
: 零次或多次匹配前面的字符或子表达式,*
等效于{0,}
,如\^*b
可以匹配b
、^b
、^^b
、…;
+
: 一次或多次匹配前面的字符或子表达式,等效于{1,}
,如a+b
可以匹配ab
、aab
、aaab
、…;
?
: 零次或一次匹配前面的字符或子表达式,等效于{0,1}
,如a[cd]?
可以匹配a
、ac
、ad
; 当此字符紧随任何其他限定符*
、+
、?
、{n}
、{n,}
、{n,m}
之后时,匹配模式是非贪心的。非贪心的模式匹配搜索到的、尽可能短的字符串,而默认的贪心的模式匹配搜索到的、尽可能长的字符串。如,在字符串oooo
中,o+?
只匹配单个o
,而o+
匹配所有o
;
|
:将两个匹配条件进行逻辑或(Or)运算,如正则表达式(him|her)
匹配itbelongs to him
和it belongs to her
,但是不能匹配itbelongs to them.
;
\
: 将下一字符标记为特殊字符、文本、反向引用或八进制转义符,如,n
匹配字符n
,\n
匹配换行符,序列\\
匹配\
,\(
匹配(
;
\w
:匹配字母或数字或下划线,任意一个字母或数字或下划线,即A~Z,a~z,0~9,_中任意一个;
\W
:匹配任意不是字母、数字、下划线的字符;
\s
:匹配任意的空白符,包括空格、制表符、换页符等空白字符的其中任意一个,与[ \f\n\r\t\v]
等效;
\S
:匹配任意不是空白符的字符,与[^\f\n\r\t\v]
等效;
\d
:匹配数字,任意一个数字,0~9中的任意一个,等效于[0-9]
;
\D
:匹配任意非数字的字符,等效于[^0-9]
;
\b
: 匹配一个字边界,即字与空格间的位置,也就是单词和空格之间的位置,不匹配任何字符,如,er\b
匹配never
中的er
,但不匹配verb
中的er
;
\B
: 非字边界匹配,er\B
匹配verb
中的er
,但不匹配never
中的er
;
\f
:匹配一个换页符,等价于\x0c
和\cL
;
\n
:匹配一个换行符,等价于\x0a
和\cJ
;
\r
:匹配一个回车符,等价于\x0d
和\cM
;
\t
:匹配一个制表符,等价于\x09
和\cI
;
\v
:匹配一个垂直制表符,等价于\x0b
和\cK
;
\cx
:匹配x
指示的控制字符,如\cM
匹配Control-M
或回车符
,x
的值必须在A-Z
或a-z
之间,如果不是这样,则假定c就是c
字符本身;
{n}
:n
是非负整数,正好匹配n次,如,o{2}
与Bob
中的o
不匹配,但与food
中的两个o
匹配;
{n,}
:n
是非负整数,至少匹配n次,如,o{2,}
不匹配Bob
中的o
,而匹配foooood
中的所有o
,o{1,}
等效于o+
,o{0,}
等效于o*
;
{n,m}
:n
和m
是非负整数,其中n<=m,匹配至少n次,至多m次,如,o{1,3}
匹配fooooood
中的头三个o,o{0,1}
等效于o?
,注意,不能将空格插入逗号和数字之间;如ba{1,3}
可以匹配ba
或baa
或baaa
;
x|y
:匹配x
或y
,如,z|food
匹配z
或food
;(z|f)ood
匹配zood
或food
;
[xyz]
:字符集,匹配包含的任一字符,如,[abc]
匹配plain
中的a
;
[^xyz]
:反向字符集,匹配未包含的任何字符,匹配除了xyz
以外的任意字符,如,[^abc]
匹配plain
中的p
;
[a-z]
:字符范围,匹配指定范围内的任何字符,如,[a-z]
匹配a
到z
范围内的任何小写字母;
[^a-z]
:反向范围字符,匹配不在指定的范围内的任何字符,如,[^a-z]
匹配任何不在a
到z
范围内的任何字符;
( )
:将(
和)
之间的表达式定义为组
group,并且将匹配这个表达式的字符保存到一个临时区域,一个正则表达式中最多可以保存9个,它们可以用\1
到\9
的符号来引用;
(pattern)
:匹配pattern并捕获该匹配的子表达式,可以使用$0…$9属性从结果匹配集合中检索捕获的匹配;
(?:pattern)
:匹配pattern但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配,这对于用or
字符 (|)
组合模式部件的情况很有用, 如,industr(?:y|ies)
是比industry|industries
更简略的表达式;
(?=pattern)
: 非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。如,Windows(?=95|98|NT|2000)
能匹配Windows2000
中的Windows
,但不能匹配Windows3.1
中的Windows
。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始;
(?!pattern)
: 非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。如Windows(?!95|98|NT|2000)
能匹配Windows3.1
中的Windows
,但不能匹配Windows2000
中的Windows
;
要匹配某些特殊字符,需在此特殊字符前面加上\
,如要匹配字符^
、$
、()
、[]
、{}
、.
、?
、+
、*
、|
,需使用 \^
、 \$
、 \ (
、\)
、 \ [
、\]
、 \{
、\}
、 \.
、 \?
、 \+
、 \*
、 \|
。