刚刚在网上看到Cheerio,为服务器特别定制的,快速、灵活、实施的jQuery核心实现,适合各种Web爬虫程序。
看了下,cheerio 是nodejs的抓取页面模块
于是决定先学习下nodejs了
Node.js采用的Javascript引擎是来自Google Chrome的V8
安装
去Node.js 中文网 下载 Windows (x64) v5.3.0,点击下载后的文件安装
检测nodejs是否安装成功。打开cmd命令行 输入 node - v 显示当前版本号
检查npm是否安装。使用cmd命令行中键入 npm -v
新建文件test.js
var http = require("http"); http.createServer(function(request, response) { response.writeHead(200, {"Content-Type": "text/plain"}); response.write("test nodjs"); response.end(); }).listen(8899,"127.0.0.1"); console.log("nodejs start listen 8899 port!");
创建一个 HTTP 服务器,侦听来自客户端的请求,匿名参数中的request和response分别代表请求对象和响应对象
a. 全局方法require()是用来导入模块的
b. http.createServer 是模块的方法,创建并返回一个新的web server对象
c. 通过 http.listen() 方法,让该 HTTP 服务器在特定端口监听
(1)运行Node服务器,执行hello.js代码
进入node.js command prompt命令窗口
用cd命令进入test.js所在的目录
输入命令node test.js
这个窗口要一直打开
(2)打开浏览器输入127.0.0.1:8899
注意:设置端口要保证端口没有被占用
使用 Node.js 时,不仅在实现一个应用,还实现了整个 HTTP 服务器
Node.js 应用的组成:
(1)引入 required 模块
(2)创建服务器
(3)接收请求与响应请求