爬虫简单实现

server.js

var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");

http.get("http://www.ss.pku.edu.cn/index.php/newscenter/news",function(res){
    var html="";//保存抓取的数据
    var news=[];//保存解析后的数据
    res.setEncoding("utf-8");

    //获取抓取的数据
    res.on('data',function(chunk){
        html+=chunk;
    });
    //监听内容获取完毕
    res.on('end',function(){
        var $=cheerio.load(html);
        $('#info-list-ul li').each(function(index,item){
            console.log(index+":"+item)
            var news_item={
                title:$(".info-title",this).text(),//获取新闻的标题业
                time:$('.time',this).text(),//获取新闻的事件
                link:'http://www.sspku.edu.cn'+$('a',this).attr('href')//获取新闻详情页连接
            };
            news.push(news_item);
        });
        saveData('data/data.json',news);
        readData('data/data.json');
    })
}).on('error',function(err){
    console.log(err)
});

function saveData(path,news){

    fs.writeFile(path,JSON.stringify(news,null,4),function(err){
        if(err){
            console.log(err);
        } else {
            console.log('Data saved');
        }
    });
}
function readData(path){
    fs.readFile(path,{encoding:'utf-8'},function(err,bytesRead){
        if(err){
            console.log(err);
        } else {
            var data=JSON.parse(bytesRead);
            console.log(data);
            console.log('read data success');
        }
    });
}

httpGet.js

"use strict"
var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");

var length=0;
var links=[];//存储发件人
var news=[];//存储新闻内容
function sendHttps(slinks){
        links=slinks;
        length=links.length;
        console.log(length);
    for(var i=0;i=length)  { saveData('images/content.json',news); return;}
    http.get(link,function(res){
        var html="";//保存抓取的数据
        res.setEncoding("utf-8");
        //获取抓取的数据
        res.on('data',function(chunk){
            html+=chunk;
        });
        //监听内容获取完毕
        res.on('end',function(){
            var $=cheerio.load(html);
            //取得图片和文章段落内容
            //{type:title,content,content}
            var content={};
            var sections=[];
            $(".article-content p").each(function(index,item){
                var type='';
                if($(this).find('img').length>0){//是图片
                    type="img";
                    var imgPath="http://www.ss.pku.edu.cn/"+$(this).find('img').attr('src');
                    var localPath="images/"+imgPath.substring(imgPath.lastIndexOf('/'));
                    saveImage(imgPath,localPath);
                    sections.push({'type':type,'content':localPath});

                } else if($(this).children('strong').length>0){//是标题
                    type="title";
                    sections.push({'type':type,'content':$(this).children('strong').text()});
                } else {
                    type="content";
                    sections.push({'type':type,'content':$(this).text()});
                }
            });
            news.push({'link':link,sections:sections});//保存文章内容
            $('a[title="供稿"]').each(function(index,item){
                var link=$(this).text().trim().substring(3);
                console.log(link);//取得发稿人
            //  gonggaos.push(link);
            });
            saveData('images/content.json',news);
        //  send(links[i+1],i+1);
        });
    });
}
function saveData(path,news){

    fs.writeFile(path,JSON.stringify(news,null,4),function(err){
        if(err){
            console.log(err);
        } else {
            console.log('Data saved');
        }
    });
}
function saveImage(imgPath,localPath){
    http.get(imgPath, function(res) {
        var imgData = "";
        res.setEncoding("binary"); //一定要设置response的编码为binary否则会下载下来的图片打不开
        res.on("data", function (chunk) {
            imgData += chunk;
        });
        res.on("end", function () {
            fs.writeFile(localPath, imgData, "binary", function (err) {
                if (err) {
                    console.log("down fail");
                }
                console.log("down success");
            });
        });
    });
}
exports.sendHttps=sendHttps;

gonggao.js

"use strict"
var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");
var httpGet=require("./httpGet");

var news_link=[];//保存解析后的数据
function getLinks(link){
    http.get(link,function(res){
        var html="";//保存抓取的数据
        res.setEncoding("utf-8");
        //获取抓取的数据
        res.on('data',function(chunk){
            html+=chunk;
        });
        //监听内容获取完毕
        res.on('end',function(){
            var $=cheerio.load(html);
            $('#info-list-ul li').each(function(index,item){
                var link='http://www.ss.pku.edu.cn'+$('a',this).attr('href');
                news_link.push(encodeURI(link));
            });
            if($('a[title="下页"]').length==0){
                httpGet.sendHttps(news_link);//获取所有的供稿单位
            } else {
                getLinks('http://www.ss.pku.edu.cn' + $('a[title="下页"]').attr('href'));
                console.log( 'http://www.ss.pku.edu.cn' + $('a[title="下页"]').attr('href'));
            }
        })
    }).on('error',function(err){
        console.log(err)
    });
}
//请求首页
getLinks("http://www.ss.pku.edu.cn/index.php/newscenter/news");

你可能感兴趣的:(爬虫简单实现)