用正则表达式切URL

String url = "http://www.iteye.com/news/6328-infoworld-ibm-is-negotiating-the-acquisition-of-sun";

Pattern pattern = Pattern.compile("^(?:(?:http|https)://)?(?:([\\w-\\.]+)\\.)?([\\w-]+)\\.(com|net|edu|org|com\\.cn|net\\.cn|edu\\.cn|org\\.cn)(?:/|/.+)?");
Matcher match = pattern.matcher(url);
System.out.println(match.toString());
if (match.matches()) {
	int len = match.groupCount();
	for (int i = 1; i <= len; i++) {
		System.out.print("[" + match.group(i) + "]");
	}
} else {
	System.out.println("0_0 wrong");
}

 

^

(?:(?:http|https)://)?

(?:([\w-\.]+)\.)?

([\w-]+)\.

(com|net|edu|org|com\.cn|net\.cn|edu\.cn|org\.cn)

(?:/|/.+)?

 

对直接的 .cn域名有问题

 

不要说 String类的 replace, splite方法对 |. 什么什么的字符不起作用,因为它们的参数是正则表达式,而不是字符或者字符串,|. 作为正则表达式都是具有特殊意义的。

 

对上面例子的捕获结果是 [www][javaeye][com]

 

java 的正则有个地方需要注意下

Matcher : groupCount()方法返回的那个数字 不包括group(0)

注意 i的最大值

 i <= match.groupCount()

 

 

刚搞明白一件事情,mathers是全匹配,find是查找匹配项。

groupCount()返回正则表达式里的捕获项的数量,也就是说它等于正则表达式里用于捕获的()的数量。group()和group(0)返回的是整个正则表达式的匹配内容,group(int group)参数大于0的时候,返回的是正则表达式内的捕获项。

 

String pattern = "<a(?: [^>]+)>(.+?)</a>";

String html = "<tr><td>1</td><td><div class=\"tbpd-shop\"><div class=\"imgdiv\"><a target=\"_blank\" href=\" http://shop34374066.taobao.com\"><img  src=\" http://logo.taobao.com/shop-logo/d6/b0/T1StN7XgJsXXb1upjX\"/></a></div><div class=\"tbpd-shopname\"><a class=\"tbpd-shopname-link\" target=\"_blank\" href=\" http://shop34374066.taobao.com\">卷毛小博士(每周六、周日上新,100%店主实拍)卷毛家韩版欧美风</a><br><a id=\"J_Trigger1\" class=\"J_Trigger\" href=\"javascript:void(0);\" data-popup=\"#J_Popup1\">查看店内热销宝贝</a></div></div></td><td><span class=\"index-up\">3693.57%</span></td></tr>";
// System.out.println(html);
// String result = html.replaceAll(pattern, "!!!");
// System.out.println(result);

Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(html);
while (m.find()) {	
	System.out.println(m.group());

	int count = m.groupCount();
	for (int i = 1; i <= count; i++) {
		System.out.println("\t" + m.group(i));
	}	
}
 

 

你可能感兴趣的:(.net,正则表达式,IBM,sun)