--第1步:获取http---第2步用正则表达式进行解析
第1步:
package com.yanshu.tools;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;
public class HttpUtility {
/**
* 向指定URL发送GET方法的请求
*
* @param taskurl
* 发送请求的URL
* @param param
* 请求参数,请求参数应该是 name1=value1&name2=value2 的形式。
* @return URL 所代表远程资源的响应结果
*/
public static String sendGet(Object taskurl, String param) {
String result = "";
BufferedReader in = null;
try {
String urlNameString = taskurl + "?" + param;
URL realUrl = new URL(urlNameString);
// 打开和URL之间的连接
URLConnection connection = realUrl.openConnection();
// 设置通用的请求属性
connection.setRequestProperty("accept", "*/*");
//connection.setRequestProperty("referer", "https://item.taobao.com/item.htm?spm=a219r.lm874.14.1.7FfR2G&id=531878100031&ns=1&abbucket=17");
// connection.setRequestProperty("referer", "https://www.taobao.com");
connection.setRequestProperty("Content-type", "text/html");
connection.setRequestProperty("upgrade-insecure-requests", "1");
//connection.setRequestProperty("projectId", "1318");
//connection.setRequestProperty("target", "_blank");
connection.setRequestProperty("Cookie", "UM_distinctid=15ce85940eeb6-0ededb7ab12ab7-714d2542-1fa400-15ce85940f03a3; thw=cn; l=AoeH71vtTJplFHodyW9Km6LWlzBRNFtu; ali_apache_id=11.131.220.163.150770215638.249204.2; miid=542152054597054537; _cc_=UtASsssmfA%3D%3D; tg=0; ali_ab=180.172.239.236.1504257044497.3; cna=qj6tEaUwR2gCAbSs7+wVMbzj; t=449d46ab83aeedc87c00dd3445b7c1a1; _m_h5_tk=9848cddbcb8e9e9fbcba777beaf178e3_1513319477951; _m_h5_tk_enc=098be3ca7eefbf0d0dc4ca8d4373a416; hng=CN%7Czh-CN%7CCNY%7C156; mt=ci=0_0; cookie2=2d568166cf6798789cb6dfe308656172; v=0; _tb_token_=55e8bbe9576ed; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; ctoken=lD359uPelBrHdgHqQMaXp4p-render; isg=Av7-BVfyKJPOGn86hKhLA9_JTxSAl8CtYYz2VqgGYcE8S58lEM0MyDpptyF8; JSESSIONID=47BB19E15ADB5FD76C986F288B1DA2BE");
// connection.setRequestProperty("Accept-Charset", "utf-8");
connection.setRequestProperty("Accept-Language", "zh-CN,zh;q=0.8");
connection.setRequestProperty("cache-control", "max-age=0");
connection.setRequestProperty("connection", "Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// connection
// .setRequestProperty(
// "user-agent",
// "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36");
// connection
// .setRequestProperty(
// "user-agent",
// "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0");
// 建立实际的连接
connection.connect();
// 获取所有响应头字段
Map
// 遍历所有的响应头字段
/* for (String key : map.keySet()) {
//System.out.println(key + "--->" + map.get(key));
}*/
// 定义 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
//System.out.println(line);
}
} catch (Exception e) {
System.out.println("发送GET请求出现异常!" + e);
e.printStackTrace();
}
// 使用finally块来关闭输入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
/**
* 向指定 URL 发送POST方法的请求
*
* @param url
* 发送请求的 URL
* @param param
* 请求参数,请求参数应该是 name1=value1&name2=value2 的形式。
* @return 所代表远程资源的响应结果
*/
public static String sendPost(String url, String param) {
PrintWriter out = null;
BufferedReader in = null;
String result = "";
try {
URL realUrl = new URL(url);
// 打开和URL之间的连接
URLConnection conn = realUrl.openConnection();
// 设置通用的请求属性
conn.setRequestProperty("accept", "*/*");
conn.setRequestProperty("connection", "Keep-Alive");
conn.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// 发送POST请求必须设置如下两行
conn.setDoOutput(true);
conn.setDoInput(true);
// 获取URLConnection对象对应的输出流
out = new PrintWriter(conn.getOutputStream());
// 发送请求参数
out.print(param);
// flush输出流的缓冲
out.flush();
// 定义BufferedReader输入流来读取URL的响应
in = new BufferedReader(
new InputStreamReader(conn.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
}
} catch (Exception e) {
System.out.println("发送 POST 请求出现异常!" + e);
e.printStackTrace();
}
// 使用finally块来关闭输出流、输入流
finally {
try {
if (out != null) {
out.close();
}
if (in != null) {
in.close();
}
} catch (IOException ex) {
ex.printStackTrace();
}
}
return result;
}
}
---第2步
package com.yanshu.tools;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexUtils2 {
/**
* 验证Email
*
* @param email
* email地址,格式:[email protected],[email protected],
* xxx代表邮件服务商
* @return 验证成功返回true,验证失败返回false
*/
public static boolean checkEmail(String email) {
String regex = "\\w+@\\w+\\.[a-z]+(\\.[a-z]+)?";
return Pattern.matches(regex, email);
}
/**
* 验证身份证号码
*
* @param idCard
* 居民身份证号码15位或18位,最后一位可能是数字或字母
* @return 验证成功返回true,验证失败返回false
*/
public static boolean checkIdCard(String idCard) {
String regex = "[1-9]\\d{13,16}[a-zA-Z0-9]{1}";
return Pattern.matches(regex, idCard);
}
/**
* 验证手机号码(支持国际格式,+86135xxxx...(中国内地),+00852137xxxx...(中国香港))
*
* @param mobile
* 移动、联通、电信运营商的号码段
*
* 移动的号段:134(0-8)、135、136、137、138、139、147(预计用于TD上网卡)
* 、150、151、152、157(TD专用)、158、159、187(未启用)、188(TD专用)
*
* 联通的号段:130、131、132、155、156(世界风专用)、185(未启用)、186(3g)
*
* 电信的号段:133、153、180(未启用)、189
*
* 国家(地区) 代码 :标识电话号码的国家(地区)的标准国家(地区)代码。它包含从 0 到 9
* 的一位或多位数字, 数字之后是空格分隔的国家(地区)代码。
*
* 区号(城市代码):这可能包含一个或多个从 0 到 9 的数字,地区或城市代码放在圆括号——
* 对不使用地区或城市代码的国家(地区),则省略该组件。
*
* 电话号码:这包含从 0 到 9 的一个或多个数字
*
* 获取网址 URL 的一级域
*
---第3步:测试
package com.yanshu.tools;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import com.alibaba.fastjson.JSON;
public class pageNum {
public static void main(String[] args) {
// String url = "https://s.taobao.com/search?spm=a230r.1.0.0.3d2936f0doEGnW&q=%E5%A5%B3%E8%A3%85%E5%A4%96%E5%A5%97%E5%86%AC&rs=up&rsclick=7&preq=%E5%A5%B3%E8%A3%852017%E6%96%B0%E6%AC%BE%E6%BD%AE&cps=yes&ppath=413%3A800000782%3B20000%3A123042686%3B122216562%3A47502";
String url = "http://api.s.m.taobao.com/search.json?m=shopitemsearch&sellerId=196993935&n=40&orderType=hotsell_desc&ajax=true";
// String url = "https://s.taobao.com/search?tab=all&ppath=20000:7043912&cat=54900006&q=FLAM&spma=1513693743";
String pageNum = HttpUtility.sendGet(url, null);
Map maps=(Map)JSON.parse(pageNum);
Map mapw=new HashMap<>();
Object key=null;
Object value=null;
Object proxystring=null;
for (Object map : maps.entrySet()){
key = ((Map.Entry)map).getKey();
value = ((Map.Entry)map).getValue();
mapw.put(key, value);
if( key =="totalPage"||key.equals("totalPage"))
{
proxystring=value;
}
}
System.out.println("-----"+proxystring);
/*String JsonStr = RegexUtils2.regexFirst(pageNum, "g_page_config = (.*?)\\}\\};")+"}}";
// String JsonStr = RegexUtils2.regexFirst(pageNum, "jsonp873\\((.*?)\\}\\}\\);")+"}}";
Object mods = JSON.parseObject(JsonStr).get("mods");
Object sortbar = JSON.parseObject(mods.toString()).get("sortbar");
Object data = JSON.parseObject(sortbar.toString()).get("data");
Object pager = JSON.parseObject(data.toString()).get("pager");
Object totalPage = JSON.parseObject(pager.toString()).get("totalPage");*/
System.out.println(pageNum);
}
}