Python之Re库学习笔记

记录以备后用

正则表达式的使用

在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记
- re.I - re.IGNORECASE：忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
- re.M - re.MULTILINE：正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
- re.S - re.DOTALL：正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

从一个字符串的开始位置起匹配正则表达式，返回match对象

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记
- re.I - re.IGNORECASE：忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
- re.M - re.MULTILINE：正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
- re.S - re.DOTALL：正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

搜索字符串，以列表类型返回全部能匹配的子串

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记
- re.I - re.IGNORECASE：忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
- re.M - re.MULTILINE：正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
- re.S - re.DOTALL：正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
maxsplit：最大分割数，剩余部分作为最后一个元素输出
flags：正则表达式使用时的控制标记
- re.I - re.IGNORECASE：忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
- re.M - re.MULTILINE：正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
- re.S - re.DOTALL：正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记
- re.I - re.IGNORECASE：忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
- re.M - re.MULTILINE：正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
- re.S - re.DOTALL：正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

pattern：正则表达式的字符串或原生字符串表示
repl：替换匹配字符串的字符串
string：待匹配字符串
count：匹配的最大替换次数
flags：正则表达式使用时的控制标记
- re.I - re.IGNORECASE：忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
- re.M - re.MULTILINE：正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
- re.S - re.DOTALL：正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

regex = re.compile(pattern, flags=0)
将正则表达式的字符串形式编译成正则表达式对象

pattern：正则表达式的字符串或原生字符串表示
flags：正则表达式使用时的控制标记
- re.I - re.IGNORECASE：忽略正则表达式的大小写，[A‐Z]能够匹配小写字符
- re.M - re.MULTILINE：正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
- re.S - re.DOTALL：正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

函数	说明
regex.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
regex.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
regex.findall()	搜索字符串，以列表类型返回全部能匹配的子串
regex.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
regex.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
regex.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

Re库默认采用贪婪匹配，即输出匹配最长的子串

1
2
3

>>> match = re.search(r'PY.*N', 'PYANBNCNDN')
>>> match.group(0)
'PYANBNCNDN'

只要长度输出可能不同的，都可以通过在操作符后增加?变成最小匹配

输出最短的子串

1
2
3

>>> match = re.search(r'PY.*?N', 'PYANBNCNDN')
>>> match.group(0)
'PYAN'