page contents

文本处理利器:Python正则表达式的9个实用案例

接下来我们介绍九个Python 正则表达式的示例,带您一步步探索正则表达式的魅力。从基础的字符串匹配到复杂的文本解析,每个案例都旨在帮助您在实践中掌握这项重要的技能,让您在处理文本时如虎添翼。

attachments-2024-07-8ITg9Scw668b845b767a4.jpg在软件开发或数据开发过程中,处理和分析文本数据是一项至关重要的技能。无论是数据清洗、信息提取还是日志分析,正则表达式(Regular Expression)都扮演着不可或缺的角色。它是一种强大的工具,通过简洁而优雅的模式匹配语言,可以有效地搜索、替换和解析文本。尽管正则表达式看似复杂,但一旦掌握,其应用将极大地提高工作效率,使复杂的文本处理任务变得轻松自如。

然而,要真正掌握正则表达式,仅仅了解其语法和基本规则是不够的。实践出真知,只有通过具体的实例操作,才能深入理解其强大之处并灵活运用。接下来我们介绍九个Python 正则表达式的示例,带您一步步探索正则表达式的魅力。从基础的字符串匹配到复杂的文本解析,每个案例都旨在帮助您在实践中掌握这项重要的技能,让您在处理文本时如虎添翼。

示例一:验证邮箱地址

验证邮箱地址的有效性是正则表达式的经典用例。以下是一个示例程序:

import re

def val_email(email):

    pattern = r"^[a-zA-Z0-9]+@[a-zA-Z0-9]+\.[a-zA-Z]{2,}$"

    if re.match(pattern, email):

        print("有效的email")

    else:

        print("无效的email!!")

val_email(email="snb@smartnotebook.tech")

val_email(email="snb/smartnotebook.tech")

val_email(email="snb@smartnotebook.t")

在这个例子中,使用了 Python 的 re 模块来编译一个匹配有效邮箱地址格式的正则表达式模式。然后,使用它的 match() 函数来检查 email 变量是否符合该模式。

在这个正则模式中,有几个关键点:

使用 [] 来表示一个范围。例如,[a-zA-Z0-9] 可以匹配 0 到 9 之间的数字,A 到 Z 之间的大写字母,或 a 到 z 之间的小写字母。

^ 表示行的开头。在这个的例子中,用它来确保文本必须以 [a-zA-Z0-9] 开头。

$ 表示行的结尾。

\ 用来转义特殊字符(允许在示例中匹配像 . 这样的字符)。

{n,m} 语法用来匹配前一个正则表达式的 n 到 m 次重复。使用了 {2,},这意味着前面的部分 [a-zA-Z] 应至少重复 2 次。这就是为什么 “snb@smartnotebook.t” 被识别为无效邮箱地址的原因。

+ 表示匹配前一个正则表达式的 1 次或多次重复。例如,ab+ 将匹配一个 a 后跟任意数量的 b。

这个经典例子展示了在 Python 中使用正则表达式的一些基本语法。实际上,Python 的 re 模块是一颗隐藏的宝石,可以从中使用许多更多的技巧。

示例二:从字符串中提取数字

要从一段长文本中找到一些特殊字符,最直接的想法是使用 for 循环遍历所有字符并找到需要的字符。但实际上并不需要使用任何循环。正则表达式天生就是作为过滤器使用的。

import re

def extract_numbers(text):

    pattern = r"\d+"

    return re.findall(pattern, text)

print(extract_numbers("There are over 1000 views of Snb's articles."))

如上所示,re.findall() 函数接收一个正则表达式和一个文本,可以方便地帮助找到所有需要的字符。\d 用于在正则表达式中匹配一个数字。

示例三:验证电话号码

以下示例也是利用 \d 来检查有效的电话号码:

import re

def is_valid_phone_number(phone_number):

    pattern = r"^\d{3}-\d{4}-\d{4}$"

    return bool(re.match(pattern, phone_number))

print(is_valid_phone_number("137-1234-5678"))

print(is_valid_phone_number("13712345678"))

除了 \d 外,还在正则表达式中使用了 ^、$ 和 {n} 语法来确保字符串是一个有效的电话号码。

示例四:将文本分割为单词

在日常编程中,将长文本分割为单独的单词是另一个常见的需求。借助于 re 模块的 split() 函数,我们可以轻松完成这个任务:

print(re.split(r'\s+', 'a b   c'))

print( re.split(r'[\s\,]+', 'a,b, c  d'))

print(re.split(r'[\s\,\;]+', 'a,b;; c  d'))

如上代码所示,使用 \s 来在正则表达式中匹配空格。

示例五:使用正则表达式查找并替换文本

在使用正则表达式从文本中找到特殊字符后,我们可能需要将它们替换为新的字符串。re 模块中的 sub() 函数使得这一过程非常顺畅:

import re

text = """SmartNotebook is a modern, 

          enterprise-grade notebook designed 

          for data analysis/data science platform."""

pattern = r"book"

replacement = "Book"

new_text = re.sub(pattern, replacement, text)

print(new_text)

如上所示,只需向 sub() 函数传递三个参数:模式(pattern)、替换字符串(replacement)和原始文本。执行后,它将返回一个新的文本。

示例六:重新编译 Python 中的正则表达式

在 Python 中使用正则表达式匹配字符串时,通常需要两个步骤:

编译正则表达式。

使用编译后的正则表达式来匹配字符串。

因此,如果一个正则表达式需要重复使用,每次都重新编译可能会造成资源浪费。为了避免这种情况,Python 允许我们预先编译一次正则表达式,然后在后续的匹配中重复使用已编译的对象。这样可以显著提高性能和效率。

import re

re_numbers = re.compile(r'^\d+$')

print(re_numbers.match('123'))

print(re_numbers.match('SmartNotebook'))

如上例所示,演示了如何使用 re 模块的 compile() 函数预先编译正则表达式,并在稍后使用它。只要字符串不能匹配正则表达式,match() 函数就会返回 None。

示例七:提取和操作文本的子内容

group() 方法是 Python re 模块中的一个函数,用于返回正则匹配对象的一个或多个匹配的子组。它非常方便用于提取文本的不同部分。

例如,以下代码展示了如何提取以“HH”格式表示的时间字符串的两个部分:

import re

time='18:05'

matched = re.match(r'^([0-1][0-9]|2[0-3])\:([0-5][0-9])$', time)

print(matched.groups())

print(matched.group())

print(matched.group(0)) 

print(matched.group(1))

print(matched.group(2))

如上所示,group(0) 返回原始字符串。然后 group(1) 和 group(2) 分别返回匹配字符串的第一部分和第二部分。

示例八:命名组用于提取子内容

当子组数量较多时,程序中的数字会使代码难以理解。因此,Python 提供了命名组的技巧来提取子内容:可以使用命名组捕获匹配字符串的特定部分,而无需使用编号捕获组。这样可以使代码更易读和维护。以下是一个示例:

import re

text = "SmartNotebook, age 2"

pattern = r"(?P<name>\w+),\sage\s(?P<age>\d+)"

match = re.search(pattern, text)

print(match.group("name"))  

print(match.group("age"))

如上所示,命名组的关键语法是 ?P<xxx>。它定义了相应组的名称,可以使用 group() 函数基于这个名称来提取内容。

示例九:使用 VERBOSE 标志使正则表达式更易读

在一些复杂的场景中,正则表达式可能变得越来越复杂和难以理解。肯定需要一种方法使其更整洁和清晰。这时就可以使用 re.VERBOSE 技巧。

import re

text = "SmartNotebook, wangxinyi@smartnotebook.tech, 198-2133-7583"

pattern = r"""

    (?P<name>\w+),\s

    (?P<email>\w+@\w+\.\w+),\s

    (?P<phone>\d{3}-\d{4}-\d{4})

"""

match = re.search(pattern, text, re.VERBOSE)

if match:

    print(match.group("name"))

    print(match.group("email"))

    print(match.group("phone"))

如上所示,可以将长的正则表达式拆分为多行,以提高可读性。只要在 re.search() 函数中有 re.VERBOSE 标志,它就可以像往常一样被正确识别。

在软件开发和数据处理中,文本数据的处理和分析是至关重要的技能。正则表达式在这一过程中扮演着不可或缺的角色,通过简洁的模式匹配语言,能够高效地搜索、替换和解析文本。掌握正则表达式不仅提升工作效率,还能使复杂的文本处理任务变得轻松。通过实例学习,从验证邮箱地址到提取和操作文本的子内容,每个示例都帮助深入理解并灵活运用这一强大工具。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

  • 发表于 2024-07-08 14:17
  • 阅读 ( 55 )
  • 分类:Python开发

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小柒
小柒

1312 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 1312 文章
  3. Pack 1135 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章