node异步编程async/await/promise

最近在用node写一个小爬虫学习node,但是遇到一个不大不小的坑,就是如何将异步的node程序串行执行。下面就我遇到的坑和解决方法简单记录一下。

1.问题介绍

首先,我想通过request去访问小木虫网站,获得文章的列表,首先写了一个getList函数:

var request = require('request');
var iconv = require('iconv-lite');

const urlStart = "http://muchong.com/bbs/journal_cn.php?tag=%BC%C6%CB%E3%BB%FA%D3%A6%D3%C3%BC%BC%CA%F5"
const regExp = /\s+(.{4,20})<\/a>/ig;


function getList() {
    console.log('start get list ...');
    var link_array = [];
    // request visit muchong.com
    request({
        url: urlStart,
        encoding: null
    }, function (err, res, body) {
        if (err) {
            console.log('getList err:' + err);
        } else {
            var html = iconv.decode(body, 'GBK');
            let regRes;
            while ((regRes = regExp.exec(html)) !== null) {
                link_array.push({
                    link: regRes[1],
                    name: regRes[2]
                })
            }
            console.log(link_array);
            return link_array;
        }
    })
}
exports.getList = getList;

整个代码如上,简单的对结果进行了正则,返回一个文章列表,给外部暴露getList()这个函数。然后我再通过文件index.js调用该模块:

var getList = require('./src/getList');

(function(){
    const temp_array = getList.getList();
    console.log('temp_array is:'+JSON.stringify(temp_array));
})()

然后执行该程序,结果返回temp_array is:undefined。跟预想的结果不同。

2.问题分析

单独调试getList结果正常,那么问题应该就是index.js出问题了。很快我就发现,这里一定是因为getList()没有执行完毕,就调用下一句console.log了,因此需要程序等待getList()。网上查资料,发现可以通过async/await完成该功能,于是我就修改index.js为:

var getList = require('./src/getList');

(async function(){
    const temp_array = await getList.getList();
    console.log('temp_array is:'+JSON.stringify(temp_array));
})()

So easy!加个类似修饰器之类的async/await就可以啦,再执行,结果还是undefined。这又是为何呢?为了解决问题,继续google,通过查询API和用法才知道,node的异步API都是通过一个叫Promise的东东封装成异步函数的,await的操作对象也应该是Promise对象,否则会马上返回。因此我们需要重新修改getList,使用Promise来封装:

var request = require('request');
var iconv = require('iconv-lite');

const urlStart = "http://muchong.com/bbs/journal_cn.php?tag=%BC%C6%CB%E3%BB%FA%D3%A6%D3%C3%BC%BC%CA%F5"
const regExp = /\s+(.{4,20})<\/a>/ig;


async function getList() {
    return new Promise(function(resolve, reject){
        console.log('start get list...');
        var link_array = [];
        request({
            url:urlStart,
            encoding: null
        }, function(err, res, body){
            if(err){
                console.log('getList err:'+err);
                reject(err);
            }else{
                var html = iconv.decode(body, 'GBK');
                let regRes;
                while((regRes = regExp.exec(html)) !==null){
                    link_array.push({
                        link:regRes[1],
                        name:regRes[2]
                    })
                }
                console.log('Get list OK..');
                resolve(link_array);
            }
        })
    })
}
exports.getList = getList;

上面getList返回的是一个Promise对象,这样await就会等待Promise返回值,而Promise通过resolve(成功时)reject(失败时)这两个参数传递数据。

再次执行index.js得到正常的结果。值得注意的是,必须使用node7.1以后的版本才能使用async/await,另外await必须在async修饰的函数内使用,多一层嵌套都不能使用await(除非嵌套的函数也是async修饰)这是我练习时踩的坑!都是泪

你可能感兴趣的:(node异步编程async/await/promise)