Linux文本处理：正则表达式与grep、cut、sort、uniq实战指南

分享好友最新动态首页最新动态分类切换频道

Linux文本处理：正则表达式与grep、cut、sort、uniq实战指南

2024-12-26 17:55

正则表达式，又称规则表达式。（英语:Regular Expression)，在代码中常简写为regex、regexp
或RE，计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合以某个模式（规则)的文本。
正则表达式不只有一种，而且 linux中不同的程序可能会使用不同的正则表达式，如:工具:grep sed awk egrep
正则表达式—通常用于判断语句中，用来检查某一字符串是否满足某一格式正则表达式是由普通宁字符与元宁符组成
普通字符包括大小写字母、数字、标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式
LINUX 中常用的有两种正则表达式引擎

基础正则表达式:BRE
扩展正则表达式:ERE

正则表达式，又称正规表达式、常规表达式
使用字符串来描述、匹配一系列符合某个规则的字符串
正则表达式组成

普通字符
大小写字母、数字、标点符号及一些其他符号元字符
在正则表达式中具有特殊意义的专用字符

基础正则表达式
扩展正则表达式

grep
egrep
sed
awk

基础正则表达式是常用的正则表达式部分
除了普通字符外，常见到以下元字符

:转义字符， ! 、等
^ :匹配字符串开始的位置例: ^ a、^ the、^#
$ :匹配字符串结束的位置例: word$
. :匹配除之外的任意的一个字符例: go.d 、g…d

常见元字符（续)

* :匹配前面子表达式o次或者多次
例: goo*d、’ go.*d
[list]:匹配list列表中的一个字符
例: go[ola]d，[abc]、[a-z]、[a-zO-9]
[^list]:匹配任意不在list列表中的一个字符
例:[^a-z]、[^O-9]、[^A-Z0-9]
{n,m}:匹配前面的子表达式n到m次，有{n}、{n,}、{n,m}三种格式
例: go{2}d、go{2,3}d、go{2,}d

扩展正则表达式元字符
扩展正则表达式是对基础正则表达式的扩充深化扩展元字符

+:匹配前面子表达式1次以上
例: go+d，将匹配至少一个o
?:匹配前面子表达式0次或者1次
例: go?d，将匹配gd或god
():将括号中的字符串作为一个整体
例:(xyz)+，将匹配xyz整体1次以上，如xyzxyz
|:以或的方式匹配字条串
例1: good|food，将匹配good或者food
例2: g(oo|la)d，将匹配good或者glad

-E:开启扩展(Extend的正则表达式
-c : 计算找到”搜寻字符串“的次数
-i :忽略大小写的不同，所以大小写视为相同
-o :只显示被模式匹配到的字符串
-v﹔反向选择，亦即显示出没有‘搜寻字符串′内容的那一行!(反向查找，输出与查找条件不相符的行)
–color=auto :可以将找到的关键词部分加上颜色的显示喔!
-n :顺便输出行号
-c 只打印匹配的文本行的次数，不显示文本内容。
-h 当搜索多个文件，不显示匹配文件名前缀。
-l 只列出含义匹配的文本行的文件的文件名，不显示其具体匹配的内容
-s 不显示关于不存在或无法读取文件的错误信息
-w 匹配整个单词
-x 匹配整个文本行
-r 递归搜索，不仅搜索当前目录，还有各级子目录
–color=auto 可以将找到的关键词部分加上颜色的显示

2.1.1不区分大小写查找the所有的行

使用说明:cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数，cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一

常用选项

选项说明b按字节截取c按字符截取，常用于中文d指定以什么为分隔符截取，默认为制表符f通常和-d一起

sort 是一个以行为单位对文件内容进行排序的工具，也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样

格式
sort [选项] 参数

常用选项与说明

选项说明t指定分隔符，默认使用[Tab]吧键或空格分隔k指定排序区域，哪个区间排序n按照数字进行排序，默认是以文字形式排序u等同于 uniq，表示相同的数据仅显示一行，注意：如果行尾有空格去重就不成功r反向排序，默认是升序，-r就是降序o将排序后的结果转存至指定文件f忽略大小写，会将小写的字母都转换为大写字母来进行比较b忽略每行前面的空格

主要用于去除连续的重复行

注意：是连续的行，所以通常和sort结合使用先排序使之变成连续的行再执行去重操作，否则不连续的重复行他不能去重

格式
uniq 【选项】参数

常用选项说明

选项说明c对重复的行进行计数d仅显示重复行u仅显示出现一次的行

示例
[root@localhost ~]# cat shuiguo.txt | uniq -c ##统计重复行的次数，不连续的重复行他不算做重复行

比较实用的几个案例
[root@localhost ~]# who ##查看登陆用户
root pts/0 2022-05-06 14:32 (192.168.161.20)
[root@localhost ~]# who | awk ‘{print $ 1}’
root
[root@localhost ~]# who | awk ‘{print $ 1}’ |uniq
root
[root@localhost ~]# who | awk ‘{print $ 1}’ |sort |uniq|grep -v “^$” |grep -v wtmp ##查看登陆过系统的用户
root
[root@localhost ~]# ss -nt |tr -s " "|cut -d " " -f5 |cut -d “:” -f1 |sort |uniq -c ##查看登陆ip和使用者个数
1 192.168.161.20
1 Address
[root@localhost ~]# ss -nta |grep -v ‘State’|cut -d " " -f1 |sort |uniq -c ##查看客户端和监听服务端个数
1 ESTAB
3 LISTEN

它可以用一个字符来替换另一个字符，或者可以完全除去一些字符，也可以用它来除去重复字符

用法：
tr [选项]… SET1 [SET2]

从标准输入中替换、缩减和/或删除字符，并将结果写到标准输出。

常用选项

-d 删除字符

-s 删除所有重复出现的字符，只保留第一个

示例：