UltraEdit下的正则表达式

UE是我目前熟悉的最强大的文字编辑器(先别骂,抱歉,我还没有用熟VIM,还没有学习Emac的计划),
以下可能只适用于针对比较新的版本(估计10之后)。

UE下的Regex引擎:
1,UE的土特产
   使用^p替换回车, 使用*替换多个字符,?替换单个字符
2,Unix风格的正则表达式
3,Perl兼容的正则表达式
     引擎基于Boost C++库

UE的稳定性
    中文时,太长时可能NullPointer掉,支持unicode属性集合比如\p{Space},但不支持\p{InCJKUnifiedIdeographs}等

Perl兼容下的几个Tips
1,匹配多行,默认每次一行的,类似JAVA中的(?=i)或者MULTILINE模式
  
xml 代码
 
  1. <history>(?:.|\n|\r)*<!---->history>  

   匹配多行
xml 代码
 
  1. <history>  
  2.   <book>  
  3.     fdafeafw  
  4.   <!---->book>  
  5. <!---->history>  


2, 替换掉二进制串,
比如使用UE操作UTF8文件,经常会出现该死的字符顺序标记BOM
Unicode字符集UTF16编码格式有所谓的字节顺序标记(BOM),用来确定,一个字含多个字节时,高位在前还是在后。
UTF8编码格式没有这个问题,但是很多编辑工具还是会自动生成这个标记比如Notepad,UE。。。
有这个BOM标记之后,java文件可能不能被javac编译。
可以利用Regex替换来批量去除。
regex代码
  1. (\xEF\xBB\xBF)  

Byte Order Mark (BOM). U+FEFF

你可能感兴趣的:(xml,unix,正则表达式,perl,vim)