源HTML解析

1、通过基于Socket的HttpClient()获取源HTML:

CloseableHttpClient httpclient = HttpClients.createDefault();

try {

    HttpGet httpGet = new HttpGet("
http://www.qq.com
");

    CloseableHttpResponse response = httpclient.execute(httpGet);

   

    HttpEntity entity = response.getEntity();

    String body = EntityUtils.toString(entity);

    System.out.println(body);

   

    EntityUtils.consume(entity);

} finally {

    httpclient.close();

}

2、通过正则表达式先匹配出小片段的html;

3、对小片段的html通过Jsoup(http://jsoup.org/)构造DOM对象;

Jsoup.parse(content).getElementsByTag("td");

4、使用css选择器在DOM对象中查找元素操作属性;

你可能感兴趣的:(源HTML解析)