一周内从0到1掌握Node爬虫技巧(二)

上篇文章介绍了爬虫的基本概念和基本原理,这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。

在下面爬虫的栗子中,我们使用nodejs来作为我们的运行环境(我是前端工程师哦)!

一、准备环境

1、nodejs环境安装可以点击这里nodejs中文网下载安装包哦!

二、创建项目

1、安装好nodejs后,运行cmd切换到你想要创建的目录;

2、mkdir myspider(创建myspider文件夹);

3、cd 到myspider目录下;

4、命令行输入npm init(初始化该小项目):

此时需要填写一些项目信息,你可以根据情况填写,当然也可以一路回车哦。

一周内从0到1掌握Node爬虫技巧(二)_第1张图片
初始化过程中会产生这些选项

执行完成后会有一个packge.json配置文件:

一周内从0到1掌握Node爬虫技巧(二)_第2张图片
里面包含我们这个项目的一些信息

5、安装第三方包库

这些包库在程序中引入会自动加载的哦。这些包库的使用不仅会大大减少我们的代码量,而且还会使我们的代码更优雅、更好维护哦。

我们的所有第三方库都是依赖于npm(node package manager)node包管理器来下载,只需要运行npm install xxx --save来安装,了解更多关于npm点击这里查看。(我觉得这就是nodejs发展异常迅速的原因之一)

1)、express(npm install express --save)

express库为我们提供了一系列便捷的方法,让我们管理和构建大型项目变的非常简单;小项目就更不必说了。更多关于express可以点击这里查看。

2)、cheerio(npm install express --save)

cherrio 是为服务器特别定制的,快速、灵活、实施的jQuery核心实现。通过cherrio,我们就可以将抓取到的内容,像使用jquery的方式来使用了。可以点击这里查看。

简单示例如下:

varcheerio = require('cheerio');

$= cheerio.load('Hello world');

$('h2.title').text('Hello there!');

3)、superagent(npm install superagent --save)

superagent模块让http请求变的更加简单,了解更多点击这里查看。最简单的一个示例如下:

var request = require('superagent');

request.get('http://example.com/search').end(function(res){});

有些模块是nodejs中的内置模块不需要使用npm来下载的,还有其他第三方模块会在后续文章中陆续介绍。

三、开始你的表演。。。

安装完上面的包,我们就可以开始简单的实践喽!在myspider文件加下创建app.js。如下图 :

var express=require('express');

var cheerio=require('cheerio');

var request=require('superagent');

var app=express();

app.get('/',function(req,res){

    console.log('hello man!');

});

app.listen(function(req,res) {

    console.log('server is running at port 3000!');

});

    然后在命令行运行 node app.js,如图:

运行node app.js

接着在浏览器地址栏输入localhost:3000/,回车,如图:

一周内从0到1掌握Node爬虫技巧(二)_第3张图片
地址栏输入localhost:3000

这样一个简单的本地服务器模拟就实现了哦!

接下来我们就看看在服务器中使用request向我们的目标网站发起http请求,将原来代码改为:

app.get('/',function(req,res){

    request.get('http://www.dytt8.net').end(function(err,ress) {

    if(!err) {

          res.send('请求成功喽!');

     }

    });

});

我们这样就可以进入我们要爬取网站了!

我们引入cheerio包帮我们实现我们想要爬取的内容,将app.js代码改一下:

var express=require('express');

var cheerio=require('cheerio');

var charset=require('superagent-charset');//解决网页编码问题

var request=require('superagent');

var app=express();

charset(request);

app.get('/',function(req,res){

    request.get('http://www.dytt8.net').charset('gb2312').end(function(err,ress) {

//错误处理

if(err){

    console.log(err);

}else{

    var $=cheerio.load(ress.text);//$和jquery中的选择器类似,可以选择网页中所有的元素

    var  navText=$('#menu .contain ul li a').text();

    res.end(navText);

}

});

});

app.listen(3000,function(req,res) {

    console.log('server is running at port 3000!');

});

浏览器运行结果如下:


爬取的结果

到此一个最简单的爬虫程序就基本实践成功了,后续会逐步实现更为复杂的爬虫程序,希望对大家有所帮助。错误难免,敬请斧正!

你可能感兴趣的:(一周内从0到1掌握Node爬虫技巧(二))