kkndme神贴爬虫(java)···

前言

前不久拜读了kk大神的帖子《2010年的房地产调控,我们收获了什么?写在房价暴涨前》。。。全程目瞪狗呆······ 观后感就不说了,主要还是说说java。这个帖子几百页上万的回复,其中不乏一些毫无营养的路人回复内容,让我感到不舒服。身为程序猿的我是不是可以让自己“舒服点”呢?于是决定搞一搞爬虫(虽然我也不确定自己写的算不算爬虫,但至少满足了我的需求)。嘻嘻,leedcode好像好久没刷了。。。

准备工作

先找规律:

  • 路径的规律:
    http://bbs.tianya.cn/post-house-252774-1.shtml
    http://bbs.tianya.cn/post-house-252774-2.shtml
    很容易看出帖子的url分三个部分:
    前缀(http://bbs.tianya.cn/post-house-252774-) + 页码 + 后缀(.shtml)

  • kk的回复dom 元素规律:
    稍微会一点前端就可以看的出,天涯是通过自定义属性_host来标记回复人的。如图:

    image.png

    那我们可以通过获取_host=kkndmediv来获取kk的回复。当然,还要过滤调回复的回复,这个很简单,我们只要取当前回复的第一个回复体就好,具体回复体有哪些特点相信我不说大家也能发现。

  • 要爬取的来源和元素我们都清楚了,接下来就是找一个合适的工具,java里原生jar并没有什么对解析html支持特别好的工具,我这里使用的是jsoup,在java里操作dom就像用js一样自如。

万事具备,只差编码。我们的思路是循环请求帖子的每一页,然后按上述过滤方式将每一页的结果输出到文件。

编码环节:

按照上述思路结合jsoup文档,很快就写出了代码,毕竟比较基础就不粘贴了,大家请想象,for each 请求写文件。一百多页的帖子大概爬了85秒。很慢(虽然浏览器直接访问,加载也很慢),但还是很多地方可以优化,比如请求页面的时候,可以多个线程同时请求不同的页面。放到线程池后爬取时间大概是55秒。爬下来的帖子读起来比较困难,这个时候就需要css的润色。

结论:

这次并没有详细的写过程代码,主要讲解思路哈哈哈,毕竟我自己的代码我自己都嫌弃。

还是贴一下主要代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import thread.ThreadFactoryBuilder;

import java.io.BufferedWriter;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.concurrent.*;
import java.util.concurrent.atomic.AtomicInteger;

/**
 * @author 尚晓琼
 * @version V1.0
 * @since 2018/12/19
 */
public class RobotDom {
    private static int pageStart = 1;
    private static int pageEnd = 131;
    private static String baseUrl = "http://bbs.tianya.cn/post-house-252774-";
    private static String suffix = ".shtml";
    private static String first = "\n" +
            "\n" +
            "\n" +
            "    \n" +
            "    Title\n" +
            "\n" +
            "\n" + "";
    private static String last = "\n" +
            "";
    private static String divS = "
\n"; private static String divE = "\n
\n"; private static AtomicInteger total = new AtomicInteger(0); private static String[] contents = new String[pageEnd]; private static CountDownLatch latch = new CountDownLatch(pageEnd); public static void main(String[] args) { String attr = "_host"; String value = "kkndme"; String[]temp=baseUrl.split("/"); String fileName=temp[temp.length-1]+value+".html"; Path path = Paths.get("F:/robot/"+fileName); BufferedWriter writer = null; ThreadFactory threadFactory = new ThreadFactoryBuilder().build(); int corePoolSize=16; int maximumPoolSize=200; long keepAliveTime=0L; int capacity=1024; BlockingQueue blockingQueue=new LinkedBlockingQueue<>(capacity); ExecutorService workers = new ThreadPoolExecutor(corePoolSize, maximumPoolSize, keepAliveTime, TimeUnit.MICROSECONDS, blockingQueue, threadFactory); try { long startTime=System.currentTimeMillis(); writer = Files.newBufferedWriter(path); writer.write(first); for (int i = pageStart; i <= pageEnd; i++) { final int pageIndex = i; workers.submit(() -> doRobot(pageIndex, attr, value)); } latch.await(); System.out.println("爬取完成,输出文件ing。。。"); for (String content : contents) { if (content != null) { writer.write(content); } } workers.shutdown(); writer.write(last); long endTime=System.currentTimeMillis(); System.out.println("输出文件成功,耗时:"+(endTime-startTime)); } catch (Exception e) { e.printStackTrace(); } finally { if (writer != null) { try { writer.close(); } catch (IOException e) { e.printStackTrace(); } } } } private static void doRobot(int i, String arr, String value) { String url = baseUrl + i + suffix; Document document = null; try { document = Jsoup.connect(url).timeout(0).get(); Elements elements = document.getElementsByAttributeValue(arr, value); int size = elements.size(); final int index = i; StringBuilder contentsInPage = new StringBuilder(); elements.forEach(element -> { contentsInPage.append(divS); Element dateTime = element.select(".atl-info").select("span").last(); contentsInPage.append("\n
"); if (dateTime != null) { contentsInPage.append(dateTime.html()); } contentsInPage.append(" page:").append(index).append("").append("\n
\n"); Elements content = element.select(".bbs-content"); contentsInPage.append(content.html()); contentsInPage.append(divE); }); contents[i] = contentsInPage.toString(); total.addAndGet(size); System.out.println("第" + i + "页爬取完成,爬取:" + size + ",累计:" + total); } catch (IOException e) { System.out.println("第" + i + "页爬取失败,累计:" + total); e.printStackTrace(); } finally { latch.countDown(); System.out.println("未爬取页数:" + latch.getCount()); System.out.println("当前线程:" + Thread.currentThread().getName()); } } }

爬取效果还不错:


image.png

各位再见,我继续拜读了!!!

爬取结果
提取码:anar

你可能感兴趣的:(kkndme神贴爬虫(java)···)