node 写爬虫

1. 爬虫 ---- 小公司数据采集之必备

node 写爬虫的优势

  • 你只需要一个前端工程师 (最重要的一点)
  • 你不需要重新学习一门语言
  • node 的异步很适合处理IO密集型应用场景
  • node 有很多npm包帮助你更加轻松的完成爬虫业务

爬虫的基本操作

  • 怎么去爬取网页的内容(爬虫的hello world)

环境搭建 (具体搭建方法请自行google)

    node 建议安装 8.4 以上 支持async await --- 贼爽 
    chrome 浏览器 
    vscode 贼好用的编辑器
    postman 模拟http请求
    charles 抓包工具 (app应用的http请求抓取)

爬虫之hello world

   mkdir spider //创建spider目录
   cd spider //切到spider目录下
   npm init //用npm初始化项目 会产生一个package.json文件
   npm i  cheerio node-fetch --save // 安装依赖
   touch index.js //创建一个index.js文件 
   vim index.js //用vim 进行编辑  按 I 进入编辑模式
   进入编辑模式后
   输入代码:
    console.log('hello word --- 之爬虫');
    const fetch = require('node-fetch');
    fetch('https://www.baidu.com',{
        method:'GET'
    }).then(async res=>{
          let html = await res.text(); //url是html
          // let json = await res.json();//url 是json文件
          console.log(html);
    })
    按ESC 退出编辑模式 按 SHIFT +  : 输入wq! 回车 保存代码退出vim编辑器
    然后用node index.js 运行代码.在终端你就可以看到百度的源码HTML 的文本了
    

爬虫就是这么简单

你可能感兴趣的:(node 写爬虫)