正则相关收藏

匹配href对应的内容

hrefs*=s*(?:"([^"]*)"|'([^']*)'|([^"'>s]+))

匹配网址:

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(?:\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?

  update by 2015-1-21 16:27:20

 

根据指定标签,匹配指定属性的两则正则

(?:<a|script|link)\s*(?:href|src)\s*=(['"])(.*?)\1[^>]*>

改良=》(?:<a|script|link)(?:\s\S*?)*\s*(?:href|src)\s*=(['"])(.*?)\1[^>]*>
<(?:a|link|script)(?:\s\S*?)*(?:src=['"](.*?)['"])?(?:href=['"](.*?)['"])?(?:\s\S*?)*>

改良=》<(?:a|link|script)(?:\s\S*?)+(?:\s*(?:src|href)\s*=\s*['"](.*?)['"]\s*)?(?:\s\S*?)*>

 

(?:  pattern)是非捕获型括号  匹配pattern,但不捕获匹配结果。

(pattern )是捕获型括号。  匹配pattern匹配pattern并捕获结果,自动获取组号
(?<name> pattern )  匹配pattern,  匹配pattern并捕获结果,设置name为组名 
    使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个捕获组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。 
    如果正则表达式中同时存在普通捕获组和命名捕获组,那么捕获组的编号就要特别注意,编号的规则是先对普通捕获组进行编号,再对命名捕获组进行编号。 
     为了避免括号太多使编号混乱,也为了避免无用的捕获提高效率,在不需要捕获只需要指定分组的地方就可以使用非捕获型括号。问题里的非捕获型括号就是为此使用的。

你可能感兴趣的:(正则)