java通过正则表达式匹配获取链接地址

获取页面中字符串的url地址我们都会使用正则表达式来匹配获取了,下面我来给大家总结几个匹配获取链接地址示例。

1、正则表达式中Matcher中find()方法的应用。

2、String对象中的 replaceAll(String regex,String replacement) 方法的使用。通过这个方法去除了不必要的字符串,从而得到了需要的网址和链接文字

例.1超简单的

代码如下 复制代码

String content = "";
String pattern= "href="([^"]*)"";
Pattern p = Pattern.compile(pattern, 2 | Pattern.DOTALL);
Matcher m = p.matcher(content);

if(m.find()) {
System.out.println("url="+m.group(1));
}

例2.上

面只能获取带有双“号的a标题中的url,下面我们加以改进可以获取任何状态下的a标题url

代码如下 复制代码

package com.gong.example;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class Simple {

public static void main(String[] args){

String input="www.zjsyc.com" +

"www.163.com " +

"www.yahoo.com";

String patternString = "\s*(?i)href\s*=\s*("([^"]*")|'[^']*'|([^'">\s]+))"; //href

Pattern pattern = Pattern.compile(patternString,

Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher(input);

while (matcher.find()) {

String link=matcher.group();

System.out.println(link);

link=link.replaceAll("href\s*=\s*(['|"]*)", "");

System.out.println("--"+link);

link=link.replaceAll("['|"]", "");

System.out.println("---"+link);

}

}

}

例.3我们还可以利用它进行升级获取 获取网址和链接文字哦。

*
功能说明:分析字符串s,提取s里面的超链接和链接文字
2008年3月30日
程序人生博客
*/

代码如下 复制代码

import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegTest
{
public static void main(String[] args)
{


//String s="

 空间 |  String s="

企业推广 | 搜索风云榜 | 关于百度 | About Baidu

©2008 Baidu 使用百度前必读 京ICP证030173号

";

String regex="";
//String regex = "(.*)";
Pattern pt=Pattern.compile(regex);
Matcher mt=pt.matcher(s);
while(mt.find())
{
System.out.println(mt.group());
System.out.println();
String s2=">.*?";//标题部分
String s3="href=.*?>";

Pattern pt2=Pattern.compile(s2);
Matcher mt2=pt2.matcher(mt.group());
while(mt2.find())
{
System.out.println("标题:"+mt2.group().replaceAll(">|",""));
}

Pattern pt3=Pattern.compile(s3);
Matcher mt3=pt3.matcher(mt.group());
while(mt3.find())
{
System.out.println("网址:"+mt3.group().replaceAll("href=|>",""));
}
}
}
}


你可能感兴趣的:(java)