2024年C C++最新C++标准库之std regex类的使用，字节跳动资深面试官亲述

日期：2024-12-26 作者：fscaidon 移动：http://3jjewl.riyuangf.com/mobile/quote/37545.html

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上C C++开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

如：
S+匹配不包含空白符的字符串。
<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

2.10 后向引用

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

后向引用用于重复搜索前面某个分组匹配的文本。例如，1代表分组1匹配的文本。难以理解？请看示例：

b(w+)bs+1b可以用来匹配重复的单词，像go go, 或者kitty kitty。这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(b(w+)b)，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符(s+)，最后是分组1中捕获的内容（也就是前面匹配的那个单词）(1)。

你也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?<Word>w+)(或者把尖括号换成’也行：(?‘Word’w+)),这样就把w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用k<Word>,所以上一个例子也可以写成这样：b(?<Word>w+)bs+k<Word>b。

使用小括号的时候，还有很多特定用途的语法。下面列出了最常用的一些：

2.11 零宽断言（对换行空格感觉很有帮助）

接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们像b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言。

(?=exp)也叫作零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如bw+(?=ingb)，匹配以ing结尾的单词的前面部分（除了ing以外的部分），如查找I’m singing while you’re dancing时，它会匹配sing和danc。

(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=bre)w+b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了)，你可以这样查找需要在前面和里面添加逗号的部分：((?<=d)d{3})*b，用它对1234567890进行查找时结果是234567890。

下面这个例子同时使用了这两种断言：(?<=s)d+(?=s)匹配以空白符间隔的数字(再次强调，不包括这些空白符)。

讲道理，在cpp的regex库中，只看见了两种书写方式：
1.(?=subpattern): 断言后面的字符必须与subpattern匹配，但是不消耗任何字符。即，断言括号内的字符（subpattern）作为匹配查找使用，但他们依旧会被写入pattern内，而不是被忽略掉。
2.(?!subpattern): 断言后面的字符不会与subpattern匹配，且不消耗任何字符。

2.12 贪婪与懒惰（解释了为什么会匹配到后面的东西）

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下尽可能多的字符）。考虑这个表达式：a.*b，它将匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号？。这样，.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

代码 /语法说明*？重复任意次，但尽可能少重复+？重复1次或更多次，但尽可能少重复??重复0次或1次，但尽可能少重复{n,m}?重复n到m次，但尽可能少重复{n,}?重复n次以上，但尽可能少重复

2.13 还有些什么东西没提到

代码 /语法说明a报警字符(打印它的效果是电脑嘀一声)b通常是单词分界位置，但如果在字符类里使用代表退格制表符，Tab 回车v竖向制表符f换页符换行符eEscape0nnASCII代码中八进制代码为nn的字符xnnASCII代码中十六进制代码为nn的字符ꪧUnicode代码中十六进制代码为nnnn的字符cNASCII控制字符。比如cC代表Ctrl+CA字符串开头(类似^，但不受处理多行选项的影响)Z字符串结尾或行尾(不受处理多行选项的影响)z字符串结尾(类似$，但不受处理多行选项的影响)G当前搜索的开头

Match: 将整个string拿来匹配某个regex.
Search: 查找某个string中与regex吻合的部分.
Replace: 将与正则表达式吻合的第一个（或者后续所有的）子序列替换掉.
Tokenize: 切分即通过指定来切分出来我们感兴趣的正则表达式匹配到的内容.

4.1 std::regex_search

std::regex_search: 搜素正则表达式参数，但它不要求整个字符序列完全匹配。而且它只进行单次搜索，搜索到即停止继续搜索，不进行重复多次搜索。
栗子：

栗子中需要注意的:

std::ios_base::boolalpha
std::ios_base::boolalpha: 将str流的boolalpha格式flag置为1。当此标志位被设置时，将根据其文本表示插入/提取bool值：true或false，而不是整数值。如果需要将标志位重新置为0，可以使用noboolalpha操作符。
Example：

输出为：

4.2 std::regex_constants::extended

std::regex_constants::extended：使用扩展的POSIX正则表达式语法。POSIX使用“最左最长”匹配规则（最长的匹配子序列被匹配，如果有几个这样的子序列，那么第一个就被匹配）
栗子-ECMAScript和POSIX正则表达式之间匹配算法的区别：

这里的输出应该为：

按理说，结果应该是这样。clang编译没问题，但是在GCC编译结果就很奇怪，会出现如两个均为zzxayy或者均为zzxa的结果

4.3 regex_match

regex_match是正则表达式匹配的函数
栗子：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行