深入了解Java爬虫的运用技术

<dependency> <groupId>org.apache.httpcomponentsgroupId> <artifactId>httpclientartifactId> <version>4.5.3version> dependency> <dependency> <groupId>org.jsoupgroupId> <artifactId>jsoupartifactId> <version>1.10.3version> dependency>

package com.yida.spider.httpclient; import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; public class HttpClientGet { public static void main(String[] args) throws Exception { //1.指定一个url String url = "https://www.tianyancha.com/"; //2.创建一个默认的httpclient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); //3.如果是get请求那就创建一个get对象 HttpGet httpGet = new HttpGet(url); httpGet.setHeader("user-agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"); //4.发起请求 CloseableHttpResponse execute = httpClient.execute(httpGet); //5.获取数据 HttpEntity entity = execute.getEntity(); //6.打印数据 String html = EntityUtils.toString(entity,"utf-8"); System.out.println(html); } }

package com.yida.spider.httpclient; import java.io.IOException; import java.util.ArrayList; import org.apache.http.HttpEntity; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.entity.UrlEncodedFormEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpPost; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.message.BasicNameValuePair; import org.apache.http.util.EntityUtils; public class HttpClientPost { public static void main(String[] args) throws Exception { //1.指定一个url String url = "https://www.tianyancha.com/login"; //2.创建一个默认的httpclient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); //3.如果是post请求那就创建一个post对象 HttpPost httpPost = new HttpPost(url); //set header httpPost.setHeader("user-agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"); ArrayList basicNameValuePairs = new ArrayList(); //设置参数（设置登录名和密码实现自动登录） basicNameValuePairs.add(new BasicNameValuePair("username", "zhoujie")); basicNameValuePairs.add(new BasicNameValuePair("password", "1314520")); httpPost.setEntity(new UrlEncodedFormEntity(basicNameValuePairs)); CloseableHttpResponse execute = httpClient.execute(httpPost); HttpEntity entity = execute.getEntity(); String html = EntityUtils.toString(entity,"utf-8"); System.out.println(html); } }

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0modelVersion> <groupId>com.yida.spidergroupId> <artifactId>spider_huxiuartifactId> <version>0.0.1-SNAPSHOTversion> <dependencies> <dependency> <groupId>org.apache.httpcomponentsgroupId> <artifactId>httpclientartifactId> <version>4.5.3version> dependency> <dependency> <groupId>org.jsoupgroupId> <artifactId>jsoupartifactId> <version>1.10.3version> dependency> <dependency> <groupId>org.springframeworkgroupId> <artifactId>spring-jdbcartifactId> <version>4.2.6.RELEASEversion> dependency> <dependency> <groupId>mysqlgroupId> <artifactId>mysql-connector-javaartifactId> <version>5.1.41version> dependency> <dependency> <groupId>c3p0groupId> <artifactId>c3p0artifactId> <version>0.9.1.2version> dependency> <dependency> <groupId>com.alibabagroupId> <artifactId>fastjsonartifactId> <version>1.2.31version> dependency> <dependency> <groupId>com.google.code.gsongroupId> <artifactId>gsonartifactId> <version>2.8.1version> dependency> dependencies> <build> <plugins> <plugin> <groupId>org.apache.maven.pluginsgroupId> <artifactId>maven-compiler-pluginartifactId> <version>3.1version> <configuration> <source>1.8source> <target>1.8target> <encoding>utf-8encoding> configuration> plugin> plugins> build> project>

package com.yida.spider.huxiu.pojo; public class Article { private String id; private String url; private String title; private String author; private String createTime; private String pl; private String zan; private String sc; private String content; public String getId() { return id; } public void setId(String id) { this.id = id; } public String getUrl() { return url; } public void setUrl(String url) { this.url = url; } public String getTitle() { return title; } public void setTitle(String title) { this.title = title; } public String getAuthor() { return author; } public void setAuthor(String author) { this.author = author; } public String getCreateTime() { return createTime; } public void setCreateTime(String createTime) { this.createTime = createTime; } public String getPl() { return pl; } public void setPl(String pl) { this.pl = pl; } public String getZan() { return zan; } public void setZan(String zan) { this.zan = zan; } public String getSc() { return sc; } public void setSc(String sc) { this.sc = sc; } public String getContent() { return content; } public void setContent(String content) { this.content = content; } @Override public String toString() { return "Article [url=" + url + ", title=" + title + ", author=" + author + ", createTime=" + createTime + ", pl=" + pl + ", zan=" + zan + ", sc=" + sc + ", content=" + content + "]"; } }

package com.yida.spider.huxiu.pojo; public class HuxiuPagingResponse { private String data; private String last_dateline; private String msg; private String result; private String total_page; public String getData() { return data; } public void setData(String data) { this.data = data; } public String getLast_dateline() { return last_dateline; } public void setLast_dateline(String last_dateline) { this.last_dateline = last_dateline; } public String getMsg() { return msg; } public void setMsg(String msg) { this.msg = msg; } public String getResult() { return result; } public void setResult(String result) { this.result = result; } public String getTotal_page() { return total_page; } public void setTotal_page(String total_page) { this.total_page = total_page; } @Override public String toString() { return "HuxiuPagingResponse [data=" + data + ", last_dateline=" + last_dateline + ", msg=" + msg + ", result=" + result + ", total_page=" + total_page + "]"; } }

package com.yida.spider.huxiu.Dao; import org.springframework.jdbc.core.JdbcTemplate; import com.mchange.v2.c3p0.ComboPooledDataSource; import com.yida.spider.huxiu.pojo.Article; /** * JdbcTemplate 指定数据源 * drivermanagersource 数据源bug * c3p0,druid * ComboPooledDataSource * @author zhoujie * */ public class ArticleDao extends JdbcTemplate{ //通过构造方法加载数据源 public ArticleDao() { // 创建C3P0的datasource 1.配置 2.代码 ComboPooledDataSource dataSource = new ComboPooledDataSource(); // 1.url // 2.driver // 3.username&password dataSource.setUser("root"); dataSource.setPassword("root"); dataSource.setJdbcUrl("jdbc:mysql://localhost:3306/spider?characterEncoding=utf-8"); setDataSource(dataSource); } public void save(Article article) { String sql = "INSERT INTO `spider`.`huxiu_article` (`id`, `title`, `author`, `createTime`, `zan`, `pl`, `sc`, `content`, `url` ) VALUES( ?,?,?,?,?,?,?,?,?)"; update(sql, article.getId(),article.getTitle(),article.getAuthor(),article.getCreateTime(),article.getZan(),article.getPl(),article.getSc(),article.getContent(),article.getUrl()); } }

package com.yida.spider.huxiu; import java.io.IOException; import java.util.ArrayList; import java.util.concurrent.ArrayBlockingQueue; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import org.apache.http.HttpEntity; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.entity.UrlEncodedFormEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.client.methods.HttpPost; import org.apache.http.client.methods.HttpRequestBase; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.message.BasicNameValuePair; import org.apache.http.util.EntityUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.google.gson.Gson; import com.yida.spider.huxiu.Dao.ArticleDao; import com.yida.spider.huxiu.pojo.Article; import com.yida.spider.huxiu.pojo.HuxiuPagingResponse; import com.yida.spider.huxiu.thread.ParseHtmlRunnable; import com.yida.spider.huxiu.thread.ProcessSinglePageRunnable; import com.yida.spider.huxiu.thread.SaveArticleRunnable; public class HuxiuSpiderThreadPool { // 保存数据 public static ArticleDao articleDao = new ArticleDao(); //创建固定线程池 private static ExecutorService threadPool = Executors.newFixedThreadPool(30); // dataline用来做分页的请求 private static String dateLine = null; //队列---从首页和分页解析出来的文章url，存放在这个队列中 public static ArrayBlockingQueue urlQueue = new ArrayBlockingQueue(1000); //队列---每个文章解析出来的html文档，放在这个队列中 public static ArrayBlockingQueue articleHtmlQueue = new ArrayBlockingQueue<>(1000); //队列---每个文章的内容，也就是article对象，存放这个队列中 public static ArrayBlockingQueue

articleContentQueue = new ArrayBlockingQueue

(1000); public static void main(String[] args) { //提交线程用来针对每个文章的url ----进行网络请求 for(int i = 1;i<=10;i++){ threadPool.execute(new ProcessSinglePageRunnable()); } //解析页面 for(int i = 1;i<=10;i++){ threadPool.execute(new ParseHtmlRunnable()); } //保存数据到数据库 for(int i =1;i<=5;i++){ threadPool.execute(new SaveArticleRunnable()); } //解析首页的url获取aid processIndexHtml(); //解析分页的url processPageHtml(); } /** * 解析分页的url */ private static void processPageHtml() { for(int page = 2;page<=1615;page++){ //编写分页 String pageUrl = "https://www.huxiu.com/v2_action/article_list"; System.out.println(page); //发送一个post请求 HttpPost httpPost = new HttpPost(pageUrl); //设置参数 ArrayList parameters = new ArrayList(); parameters.add(new BasicNameValuePair("huxiu_hash_code","2d9f6e6435e2b71a449ac39a46afe24d")); parameters.add(new BasicNameValuePair("page", page+"")); parameters.add(new BasicNameValuePair("last_dateline", dateLine)); try { httpPost.setEntity(new UrlEncodedFormEntity(parameters)); String jsonText = getHtmlByRequest(httpPost); //将json转换为对象 Gson gson = new Gson(); HuxiuPagingResponse huxiuPagingResponse = gson.fromJson(jsonText, HuxiuPagingResponse.class); // 每一次请求，都需要解析出新的dataLine dateLine = huxiuPagingResponse.getLast_dateline(); // 获取数据 String htmlData = huxiuPagingResponse.getData(); Document doc = Jsoup.parse(htmlData); // 解析出div的某个属性data-id Elements aidElements = doc.select("div[data-aid]"); // 依次得到每个新闻的aid for (Element element : aidElements) { String aid = element.attr("data-aid"); urlQueue.put(aid); } } catch (Exception e) { System.out.println("出错的页码是："+page); e.printStackTrace(); } } } /** * 执行post或者get请求的方法 * @author zhoujie * @param httpPost * @throws IOException * @throws ClientProtocolException */ public static String getHtmlByRequest(HttpRequestBase request) throws ClientProtocolException, IOException { //创建httpclient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); //设置user-agent request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"); CloseableHttpResponse closeableHttpResponse = httpClient.execute(request); String html = null; if(closeableHttpResponse.getStatusLine().getStatusCode() == 200){ //得到服务端返回的二进制数据 HttpEntity entity = closeableHttpResponse.getEntity(); //将二进制数据转化成字符串 html = EntityUtils.toString(entity,"utf-8"); return html; } return html; } /** * 解析首页的url获取aid */ private static void processIndexHtml() { //准备一个url String url = "https://www.huxiu.com/"; //创建httpclient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); //发送一个get请求 HttpGet httpGet = new HttpGet(url); //设置user-agent //User-Agent: httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"); String html = null; try { //执行get请求 CloseableHttpResponse closeableHttpResponse = httpClient.execute(httpGet); //得到服务端返回的二进制数据 HttpEntity response = closeableHttpResponse.getEntity(); //将二进制数据转化成字符串 html = EntityUtils.toString(response); } catch (Exception e) { e.printStackTrace(); } //使jsoup解析html文档 Document document = Jsoup.parse(html); //获取data_line dateLine = document.select("[data-last_dateline]").get(0).attr("data-last_dateline"); System.out.println("第一次的分页参数dateline为："+dateLine); Elements elements = document.select("div[data-aid]"); for (Element e: elements){ try { urlQueue.put(e.attr("data-aid")); } catch (InterruptedException e1) { System.out.println("添加 aid 到urlQueue异常" + e); } } } }

package com.yida.spider.huxiu.thread; import org.apache.http.client.methods.HttpGet; import com.yida.spider.huxiu.HuxiuSpiderThreadPool; public class ProcessSinglePageRunnable implements Runnable{ @Override public void run() { while(true){ try { //解析每个url processSingleUrl(); Thread.sleep(2000); } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } /** * 解析每个url * @author zhoujie */ private void processSingleUrl() { try { String aid = HuxiuSpiderThreadPool.urlQueue.take(); //得到每个url String url = "https://www.huxiu.com/article/"+aid+".html"; //创建get请求 HttpGet httpGet = new HttpGet(url); //解析url得到html文档 String htmlByRequest = HuxiuSpiderThreadPool.getHtmlByRequest(httpGet); //将得到的html文档加入到articleHtmlQueue队列中 HuxiuSpiderThreadPool.articleHtmlQueue.put(htmlByRequest); } catch (Exception e) { e.printStackTrace(); } } }

package com.yida.spider.huxiu.thread; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import com.yida.spider.huxiu.HuxiuSpiderThreadPool; import com.yida.spider.huxiu.pojo.Article; public class ParseHtmlRunnable implements Runnable{ @Override public void run() { while(true){ parseSingleHtml(); } } private void parseSingleHtml() { try { //从articleHtmlQueue队列里得到html文档 String html = HuxiuSpiderThreadPool.articleHtmlQueue.take(); //准备封装article的对象 Article article = new Article(); //解析html Document document = Jsoup.parse(html); //解析文章的id String id = document.select("ul[data-id]").get(0).attr("data-id"); article.setId(id); //解析文章的url(直接拼接就可以了) String url = "https://www.huxiu.com/article/"+id+".html"; article.setUrl(url); //解析文章的title String title = document.select("title").get(0).text(); article.setTitle(title); System.out.println(title); // 解析文章author author-name Elements names = document.select(".author-name"); String name = names.get(0).text(); article.setAuthor(name); // 解析文章发布时间 Elements dates = document.select("[class^=article-time]"); String date = dates.get(0).text(); article.setCreateTime(date); // 解析文章评论数 Elements pls = document.select("[class^=article-pl]"); String pl = pls.get(0).text(); article.setPl(pl); // 解析文章点赞数 num Elements nums = document.select(".num"); String num = nums.get(0).text(); article.setZan(num); // 解析文章收藏数 Elements shares = document.select("[class^=article-share]"); String share = shares.get(0).text(); article.setSc(share); // 解析文章正文内容 article-content-wrap Elements content = document.select(".article-content-wrap p"); String contentText = content.text(); article.setContent(contentText); //解析完了后吧article对象放到articleContentQueue队列中 HuxiuSpiderThreadPool.articleContentQueue.put(article); } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }

package com.yida.spider.huxiu.thread; import com.yida.spider.huxiu.HuxiuSpiderThreadPool; import com.yida.spider.huxiu.Dao.ArticleDao; import com.yida.spider.huxiu.pojo.Article; public class SaveArticleRunnable implements Runnable{ @Override public void run() { while(true){ try { // 从articleContentQueue队列取出article对象放到数据库中 Article article = HuxiuSpiderThreadPool.articleContentQueue.take(); HuxiuSpiderThreadPool.articleDao.save(article); } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } }

深入了解Java爬虫的运用技术

你可能感兴趣的:(java爬虫)