正则表达式03:流派

运维人生  ·  2020-11-25

正则表达式流派

正则表达式在不同编程语言和工具中有不同的实现,形成了几个主要的流派。了解这些流派之间的差异对于编写可移植的正则表达式非常重要。

1. 主要正则表达式流派

(1) POSIX 基本正则表达式(BRE)

  • 遵循 POSIX 标准的传统正则表达式
  • 特点:

    • 基本元字符:. [ ] * ^ $
    • 量词 { } 和分组 ( ) 需要转义:\{ \}, \( \)
    • 没有 +, ? 量词
    • 没有 \d, \w 等快捷方式
  • 使用场景:grep 的默认模式、sed、vi 等传统 Unix 工具

(2) POSIX 扩展正则表达式(ERE)

  • POSIX 标准的扩展版本
  • 特点:

    • 不需要转义量词和分组:{ }, ( )
    • 添加了 +, ? 量词
    • 添加了 | 选择操作符
    • 仍然没有 \d, \w 等快捷方式
  • 使用场景:grep -E, egrep, awk

(3) Perl 兼容正则表达式(PCRE)

  • 源自 Perl 语言的正则表达式实现
  • 特点:

    • 丰富的元字符集:\d, \w, \s
    • 强大的量词:*?, +?, ?? (非贪婪匹配)
    • 支持前瞻后顾等高级特性
    • 支持模式修饰符:i, m, s
  • 使用场景:Perl, PHP, Python, JavaScript, Java, .NET 等现代语言

(4) JavaScript 正则表达式

  • 基于 ECMAScript 规范
  • 特点:

    • 类似 PCRE 但功能稍弱
    • 缺少一些高级特性如后顾断言(ES2018 已添加)
    • 不支持原子分组、条件匹配等
    • 有自己的实现细节和限制

(5) .NET 正则表达式

  • Microsoft .NET 框架的实现
  • 特点:

    • 功能非常丰富,接近 PCRE
    • 支持平衡组等独特特性
    • 性能优化良好

2. 主要流派特性对比

特性BREEREPCREJavaScript.NET
基本元字符 . * ^ $
字符类 [ ]
+ 量词
? 量词
{ } 量词需转义
( ) 分组需转义
选择
\d, \w
非贪婪匹配
零宽断言部分
模式修饰符

3. 不同工具/语言的正则表达式实现

  • grep: 默认 BRE,-E 选项使用 ERE,-P 选项使用 PCRE(某些版本)
  • sed: 默认 BRE,-E-r 选项使用 ERE
  • awk: 使用 ERE
  • Perl: PCRE 的源头,功能最全
  • Python: re 模块使用 PCRE 风格
  • JavaScript: ECMAScript 规范实现,类似 PCRE 但功能较少
  • Java: java.util.regex 包使用 PCRE 风格
  • PHP: 使用 PCRE 库
  • .NET: 功能丰富的独立实现

4. 编写可移植正则表达式的建议

  1. 对于简单模式,使用最基本的特性(如 ., *, ^, $, [ ])
  2. 明确知道目标环境的正则表达式支持程度
  3. 使用在线测试工具时选择正确的语言/引擎
  4. 在跨平台脚本中,考虑使用最通用的子集
  5. 必要时添加注释说明正则表达式使用的特定特性

5. 各流派独特特性示例

PCRE/Perl 特有:

# 条件匹配
/(?(condition)yes-pattern|no-pattern)/

# 递归匹配
/(a|b(?R)c)/

.NET 特有:

// 平衡组匹配
(?<group-name>...)
(?'group-name'...)

JavaScript 限制:

// ES2018 之前不支持后顾断言
/(?<=a)b/  // 在旧版 JS 中无效

了解这些差异可以帮助你避免在不同环境中使用正则表达式时遇到的问题。

 
评论
Glab. All Rights Reserved. Theme Jasmine by Kent Liao.