# 016.科普.正则表达式及文本编辑
不等不靠,有囧有料。终日乾乾,或跃在渊。
正则表达式(RegExp),是攻城狮标配技能,
本期视频,让各位狮友40分钟从精通到入门
@史荣久 / 2015-05-27 / CC-BY-SA-3.0
## 观看视频
* [优酷视频(被转720P)](http://v.youku.com/v_show/id_XOTY1MjUyMTcy.html)
* [腾讯视频(被转720P)](http://v.qq.com/page/j/d/o/j0154851jdo.html)
* [百度网盘(原始1080P)](http://pan.baidu.com/share/link?shareid=3935315343&uk=1380913564&fid=343945110651167)
## 内容摘要
■ 文本加工的例子(验证,提取,替换,分割):
* 12个月`(1[012]|[1-9])`,千分位数`\d{1,3}(,\d{3})*`。
* CSV文件(标准格式)的域`([^",]+|"(?:[^"]|"")+")`。
* 只正则,根据SQL生成JavaBean,带注释和注解。
* 不编码,统计spring-framework源码,达到以下目标:
* 一共有多少个开发者(distinct @author)?
* 每个开发者参与了多少行代码(粗略,有author就算)?
■ 正则表达式精要(基本上NFA各流派都适用):
* 两大流派:PCRE(Perl兼容),Posix(BRE和ERE)。
* 12+元字符`^$?+*.\{[(|)`,2+特殊字符`\^`+`[-]`。
* 2种选择结构:字符串`(X|Y|Z)`,字符`[xyz]`及否定`[^xyz]`。
* 字符串多选结构的否定式,需要用环视(零宽断言)`(?!X|Y|Z)`。
* 常用的字符组`dwsb`,`\p{punct}`,块转义`\Q\E`(QuotE)。
* 捕获组,反向引用,贪婪,非贪婪,量词,边界等。
* `.`不能匹配换行符,小技巧`[\s\S]*`,`[\d\D]*`。
* CRLF:`[\r\n]+`,`\r?\n` (记忆:return,n-r:a-d)。
* java的String.replaceAll,split要注意转义。
* java的replace时候,要注意替换字符串中的`$`。
* java的`\1`和`$1`,`\k
* java的命名组,反向引用,超过9个引用时。
■ 文本加工的命令(Unix哲学,组合,精专):
* 最牛的linux命令`alias cd='rm -rf'`,玩笑加姿势。
* 本期命令:`grep`,`find`,`xargs`,`sed`,`uniq`,`wc`。
* `ag` 超快的文本搜索命令,在700M代码用表达式不到3秒。
* linux下,各种转义的规律(ERE,双引号,单引号)。
* MS Window移植:`Cygwin`,`GnuWin32`,`unxutils`
## 参考资源
■ 正则参考资料(括号内,为推荐程度):
* [RegExp CheatSheet](http://www.cheatography.com/davechild/cheat-sheets/regular-expressions/)
* [CSDN 雁过无痕博客(强力推荐)](http://blog.csdn.net/lxcnn)
* [《精通正则表达式 (第3版)》(一般了解)](http://book.douban.com/subject/2154713)
* [《正则表达式经典实例》(一般了解)](http://book.douban.com/subject/4872186)
* [教学网站(例解语言差异)(随用随查)](http://www.regular-expressions.info)
* [Sublime 3 Docs PCRE](http://docs.sublimetext.info/en/latest/search_and_replace/search_and_replace_overview.html#regular-expressions)
* [Java 8 Pattern API](http://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html)
* [java 命名分组的引用](http://stackoverflow.com/questions/415580/regex-named-groups-in-java)
* [js RegExp资料 - w3school](http://www.w3school.com.cn/jsref/jsref_obj_regexp.asp)
* [js RegExp资料 - mozilla](https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/RegExp)
■ 命令参考资料(应该记住,或者经常man):
* [你见过的最牛逼的命令行程序是什么?](http://www.zhihu.com/question/29257300/answer/43814464)
* [`sed -E` 扩展正则表达式](https://www.gnu.org/software/sed/manual/html_node/Extended-regexps.html)
* [`sed` 基本正则表达式](https://www.gnu.org/software/sed/manual/html_node/Regular-Expressions.html)
* [`bash` 单双引号与转义](http://stackoverflow.com/questions/4870253)
* [`bash` 单双引号与转义(需科学上网)](http://wiki.bash-hackers.org/syntax/quoting)
* [`ag` 很快的文本搜索](https://github.com/ggreer/the_silver_searcher)
* [`awk`做sql的`sum`,`group`](http://www.unixcl.com/2008/09/sum-of-and-group-by-using-awk.html)
■ 其他参考资料(Win32移植很犀利,RFC不是KFC):
* [Linux/Unix工具与正则表达式的POSIX规范](http://www.infoq.com/cn/news/2011/07/regular-expressions-6-POSIX)
* [Unix命令的Window移植](http://www.cyberciti.biz/faq/unix-command-line-utilities-for-windows)
* [RFC5322 邮件地址](http://tools.ietf.org/html/rfc5322#section-3.4)
* [RFC4180 CSV格式定义](http://tools.ietf.org/html/rfc4180)
## 欢迎围观
if (you.accept(MoilionCircle.SPIRIT)) { if(you.haveADL()){ MoilionCircle we = you.search(MoilionCircle.SLOGAN); we.welcome(you); } if(you.share(this)){ We.thank(you); We.mayFind7Moilion(); } }
----
题图:正则表达式,古老的智慧,多用作文本验证和加工。它看起来迷糊,学起来简单,用起来神奇。
原文: http://www.moilioncircle.com/release/016.know.regexp-grep-sed.html