正则表达式(regex)是一个强大的字符串处理工具。
正则表达式并不是python特有的,regex可以应用于任意语言
在python中,regex非常用于爬虫等网络字符串处理,当然也包括其他的一般应用场景,用的最多的仍然是“爬虫”
比如,要获取一个网页的所有图片, 可以直接匹配链接后缀,比如.jpg, .png等就可以快速获取图片链接。
快速入门regex
要求:判断字符串如”hello python, Hello Regex”,是否以hello,或Hello开头,如果是则输出匹配结果
1.导入模块
python中regex使用的模块为 re
2.基本匹配方法
这里使用 result = re.match(正则表达式, 待处理字符串),如果匹配到数据,会保存到 result 中,可以通过判断 result 确定是否存在结果
3.python代码
import re
def main():
mystery = "hello python, Hello Regex"
result = re.match(r"[hH]ello", mystery)
if result:
print(result.group())
if __name__ == "__main__":
main()
程序执行结果:
- hello
后续章节,我们将学习regex的
- 匹配单字符
- 匹配多字符
- 匹配转移字符
- 结果分组
- …