server.js
var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");
http.get("http://www.ss.pku.edu.cn/index.php/newscenter/news",function(res){
var html="";//保存抓取的数据
var news=[];//保存解析后的数据
res.setEncoding("utf-8");
//获取抓取的数据
res.on('data',function(chunk){
html+=chunk;
});
//监听内容获取完毕
res.on('end',function(){
var $=cheerio.load(html);
$('#info-list-ul li').each(function(index,item){
console.log(index+":"+item)
var news_item={
title:$(".info-title",this).text(),//获取新闻的标题业
time:$('.time',this).text(),//获取新闻的事件
link:'http://www.sspku.edu.cn'+$('a',this).attr('href')//获取新闻详情页连接
};
news.push(news_item);
});
saveData('data/data.json',news);
readData('data/data.json');
})
}).on('error',function(err){
console.log(err)
});
function saveData(path,news){
fs.writeFile(path,JSON.stringify(news,null,4),function(err){
if(err){
console.log(err);
} else {
console.log('Data saved');
}
});
}
function readData(path){
fs.readFile(path,{encoding:'utf-8'},function(err,bytesRead){
if(err){
console.log(err);
} else {
var data=JSON.parse(bytesRead);
console.log(data);
console.log('read data success');
}
});
}
httpGet.js
"use strict"
var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");
var length=0;
var links=[];//存储发件人
var news=[];//存储新闻内容
function sendHttps(slinks){
links=slinks;
length=links.length;
console.log(length);
for(var i=0;i=length) { saveData('images/content.json',news); return;}
http.get(link,function(res){
var html="";//保存抓取的数据
res.setEncoding("utf-8");
//获取抓取的数据
res.on('data',function(chunk){
html+=chunk;
});
//监听内容获取完毕
res.on('end',function(){
var $=cheerio.load(html);
//取得图片和文章段落内容
//{type:title,content,content}
var content={};
var sections=[];
$(".article-content p").each(function(index,item){
var type='';
if($(this).find('img').length>0){//是图片
type="img";
var imgPath="http://www.ss.pku.edu.cn/"+$(this).find('img').attr('src');
var localPath="images/"+imgPath.substring(imgPath.lastIndexOf('/'));
saveImage(imgPath,localPath);
sections.push({'type':type,'content':localPath});
} else if($(this).children('strong').length>0){//是标题
type="title";
sections.push({'type':type,'content':$(this).children('strong').text()});
} else {
type="content";
sections.push({'type':type,'content':$(this).text()});
}
});
news.push({'link':link,sections:sections});//保存文章内容
$('a[title="供稿"]').each(function(index,item){
var link=$(this).text().trim().substring(3);
console.log(link);//取得发稿人
// gonggaos.push(link);
});
saveData('images/content.json',news);
// send(links[i+1],i+1);
});
});
}
function saveData(path,news){
fs.writeFile(path,JSON.stringify(news,null,4),function(err){
if(err){
console.log(err);
} else {
console.log('Data saved');
}
});
}
function saveImage(imgPath,localPath){
http.get(imgPath, function(res) {
var imgData = "";
res.setEncoding("binary"); //一定要设置response的编码为binary否则会下载下来的图片打不开
res.on("data", function (chunk) {
imgData += chunk;
});
res.on("end", function () {
fs.writeFile(localPath, imgData, "binary", function (err) {
if (err) {
console.log("down fail");
}
console.log("down success");
});
});
});
}
exports.sendHttps=sendHttps;
gonggao.js
"use strict"
var http=require("http");
var fs=require("fs");
var cheerio=require("cheerio");
var httpGet=require("./httpGet");
var news_link=[];//保存解析后的数据
function getLinks(link){
http.get(link,function(res){
var html="";//保存抓取的数据
res.setEncoding("utf-8");
//获取抓取的数据
res.on('data',function(chunk){
html+=chunk;
});
//监听内容获取完毕
res.on('end',function(){
var $=cheerio.load(html);
$('#info-list-ul li').each(function(index,item){
var link='http://www.ss.pku.edu.cn'+$('a',this).attr('href');
news_link.push(encodeURI(link));
});
if($('a[title="下页"]').length==0){
httpGet.sendHttps(news_link);//获取所有的供稿单位
} else {
getLinks('http://www.ss.pku.edu.cn' + $('a[title="下页"]').attr('href'));
console.log( 'http://www.ss.pku.edu.cn' + $('a[title="下页"]').attr('href'));
}
})
}).on('error',function(err){
console.log(err)
});
}
//请求首页
getLinks("http://www.ss.pku.edu.cn/index.php/newscenter/news");