利用正则表达式反向选择数据

最近有朋友问如何在文件中选择不包含诸如1900、1901、……1999字符串的行,目标文件中所有数据都是由数字字符组成。
如果使用 grep 这样的工具,只用写很一个非常简单的正则表达式就能解决问题:
grep -v '19/d/d' target_file
grep 的 -v 选项表示选择 target_file 中不匹配目标正则表达式的行。
对于诸如 Java 或者 Ruby 这样的程序设计语言,则没有提供类似的参数。我们需要直接使用正则表达式来匹配不包含以上字符串的行。解决这个问题的正则表达式如下:
^((?!19/d/d)/d)+$
其中 (?!19/d/d) 的作用是,一旦正则表达式引擎发现行内包含有符合 19/d/d 模式的数据,即判断该行不匹配此模式;如果一直没有发现符合 19/d/d 模式的数据,而且所有数据都是数字字符,则该行数据匹配此模式。这样就能选取到目标文件中所有不包含以上字符串的行。

正则表达式是处理文本时的一个强有力的工具。最初的正则表达式出现于理论计算机科学的自动控制理论和形式语言理论中。如果需要学习正则表达式,倘若只是从网络上摘抄一星半点的实例或者读一些30分钟速成教程,是无法真正掌握这个强大工具的。有关正则表达式方面的最好的书籍之一应该是 Jeffery Friedl 的 《Master Regular Expressions》,国内既有 第二版的影印版,也有 余晟翻译的 第三版译本。

你可能感兴趣的:(〖软件开发〗)