java爬虫-利用jsoup爬取小说(最简)

1、从心 我永远喜欢那啥对吧

2、写呗

3、参考资料:jsoup开发指南,jsoup中文使用手册,jsoup中文文档(百度)

详情页(含章节链接)

章节页(含正文)

 

java爬虫-利用jsoup爬取小说(最简)_第1张图片

源码解析(不敢放网址)

java爬虫-利用jsoup爬取小说(最简)_第2张图片

java爬虫-利用jsoup爬取小说(最简)_第3张图片

 思路:获取需要的所有章节链接-->获取章节内容

    //获取链接
    public void getUrlTest(){
        String url = "http://******************/5626/";
        Document doc = getDocument(url);
        
        //选择下面的那个
    ,顺便吐槽下这网站 Element element = doc.select("ul.chapters").last(); //选择带有href的a标签 Elements elements = element.select("a[href]"); for(Element e:elements){ //选择href的值---也就是我们需要的url(你们可以保存到List里) System.out.println("url:" + e.attr("href")); } } //获取doc public Document getDocument (String url){ try { return Jsoup.connect(url).get(); } catch (IOException e) { e.printStackTrace(); } return null; }

获取链接测试结果: 

 java爬虫-利用jsoup爬取小说(最简)_第4张图片

 

    public void getContentTest(){
        String url = "http://********************/5626/4939363.html";
        Document doc = getDocument(url);
        //你可以把它打印出来瞅瞅
        //System.out.println(doc);
        
        //标题(章节名) 
Element element = doc.select("div.title").first(); //
第一章 我是魔教教主?
输出标签中间的内容 String title = element.html(); System.out.println("title:" + title); //正文
Element element1 = doc.select("div.content").first(); String content = element1.html(); //只去除了部分 content = content.replaceAll(" "," "); content = content.replaceAll("
",""); System.out.println("content:" + content); }

获取章节内容测试结果:

java爬虫-利用jsoup爬取小说(最简)_第5张图片

 

相信有了这些核心,什么字符串保存到txt文件啦,都难不倒你们的。不会的,不是还有百度嘛

 

最后:从心

免责声明: 本程序仅作为学习交流使用,不得用于任何商业途径。使用不当所造成的后果,本人概不负责。

 

你可能感兴趣的:(java爬虫-利用jsoup爬取小说(最简))