使用MongoDB的MapReduce进行查询和数据组织

Date: 2016-03-09
Summary: 在实际应用中,用MongoDB做了数据库查询之后返回的数据量很大,想要做一些比较复杂的统计和聚合操作做花费的时间超过了数据库操作耗时,尝试用MongoDB中的MapReduce机制进行了实现,速度提升还是很明显的!

使用MongoDB的MapReduce进行查询和数据组织

MapReduce是MongoDB中最复杂的查询机制之一。它通过两个JavaScript函数实现查询:map和reduce。这两个函数完全由用户自定义,并且能够提供及其强大的灵活性!实际应用中遇到的问题无法直接使用MongoDB的聚合框架实现,才考虑到使用MapReduce。下面将通过一个简短的例子演示如何使用MapReduce。该例子的原型来自于实际的问题,由于数据的保密性,我采用MongoDB官方对外发布的Zip Code数据集进行举例。

问题描述

目前的流程是这样的,首先按照一定的条件对collection进行查询,在查询结果中想要统计每一个key的loc属性(地理经纬度),并把所有的loc加入到一个数组,然后返回。刚开始统计的部分是在程序中进行的,由于数据量很大,查询的部分并不慢,主要是统计的部分形成了瓶颈。想到用MongoDB的聚合框架来解决问题,研究了一下,发现功能有限。看到了MapReduce非常灵活,感觉肯定可以解决,所以决定尝试一下,最后比较一下性能有多大的提升。

数据集导入

首先下载zips.json文件,放到当前目录下,然后使用mongoimport工具进行导入:

$mongoimport -d test -c zipcodes < zips.json

然后看下是否已经导入成功了:

use test
db.zipcodes.find()

有数据则导入成功!

{ "_id" : "01002", "city" : "CUSHMAN", "loc" : [ -72.51565, 42.377017 ], "pop" : 36963, "state" : "MA" }
{ "_id" : "01001", "city" : "AGAWAM", "loc" : [ -72.622739, 42.070206 ], "pop" : 15338, "state" : "MA" }
{ "_id" : "01005", "city" : "BARRE", "loc" : [ -72.108354, 42.409698 ], "pop" : 4546, "state" : "MA" }
{ "_id" : "01007", "city" : "BELCHERTOWN", "loc" : [ -72.410953, 42.275103 ], "pop" : 10579, "state" : "MA" }
{ "_id" : "01008", "city" : "BLANDFORD", "loc" : [ -72.936114, 42.182949 ], "pop" : 1240, "state" : "MA" }

下面我们就以state为key,来返回collection中全部loc的数组。

解决方法1:使用传递字符串的方法

根据参考3页面的问题回复来看,"Currently, the return value from a reduce function cannot be an array (it's typically an object or a number)." ****目前reduce函数的返回值还不能是数组!可以是数字和对象!如果直接返回数组会报错:"reduce -> multiple not supported yet",参考3中介绍了这个错误的解决方法。下面的一位大神提出了一个最简单的方法:把返回值转换成一个字符串返回不就行了。js中的字符串也是对象啊。这样的话,在外面再对字符串进行解析,也是一个不错的方法。那么就先来试一下:

//solution 1 使用传字符串的方法
var map = function() {
    emit(this.state, this.loc);
};

var reduce = function(key, values) {
    //print(values);
    return values.toString();
};

db.zipcodes.mapReduce(
    map,
    reduce,
    {
        query:{state:"NY"},
        out:{inline:1}
    }
)

在map函数中把state作为key,loc作为value发送到reduce函数。reduce函数中把接收到的每个key的汇总值直接转成字符串返回。在控制台中的运行结果如下:

{
"results" : [
    {
        "_id" : "NY",
        "value" : "-72.017834,41.263934,-73.996705,40.74838,-73.987681,40.715231, 
        .......
        -73.981328,40.737476,-73.99963,40.740225,-78.242958,43.332563"
    }
],
"timeMillis" : 121,
"counts" : {
    "input" : 1595,
    "emit" : 1595,
    "reduce" : 16,
    "output" : 1
},
"ok" : 1
}

数据太长了只能省略了中间的部分,从结果来看这种方法是可行的!

对了,代码中注释掉的print那一行是用来调试mapreduce的输出信息的,它会把结果输出到mongodb的日志文件中,打开日志文件就能看到,这样很方便,更容易理解这个过程。具体可以参考4,5,6进行了解和学习。

解决方法2:使用传递对象的方法

下面使用传递对象的方法来返回我们需要的数组,简单起见,我们先把每个state的pop装到一个数组里。具体实现代码如下:

//solution 2 : population example 传对象的方法传pop数组
var map = function() {
    emit(this.state, {p:[this.pop]});
};

var reduce = function(key, values) {
    var ret = {p:[]};
    for(var i = 0; i < values.length; i++){
        ret.p.push(values[i].p[0]);
    }
    return ret;
};

db.zipcodes.mapReduce(
    map,
    reduce,
    {
        query:{state:"NY"},
        out:"NYpop"
    }
)

这里的有几点是需要注意的,最重要的一点就是:The value from the map function needs to have the same shape as the return from reduce. 所以map函数中value是什么样,reduce函数中的返回值就要是什么样!不然会有很多问题,返回是null或者undefined都是很常见的。还有一点就是输出模式out和上面的例子不一样,这种是输出成了一个collection,上面是直接输出在控制台了,自己体会一下就好。输出结果如下:

{
    "result" : "NYpop",
    "timeMillis" : 178,
    "counts" : {
        "input" : 1595,
        "emit" : 1595,
        "reduce" : 16,
        "output" : 1
    },
    "ok" : 1
}

好的,下面实现最后一步,就要达到目标了。我们要把每个state的loc装到一个数组里,loc本身由经纬度两个字段组成,也是一个数组,也就是说,返回的结果是数组的数组。具体mapreduce函数如下:

//solution 3 统计loc
var map = function() {
    emit(this.state, {locs:[this.loc]});
};

var reduce = function(key, values) {
    var ret = {locs:[]}
    for(var i = 0; i < values.length; i++){
        ret.locs.push(values[i].locs[0]);
    }
    return ret;    
};

db.zipcodes.mapReduce(
    map,
    reduce,
    {
        query:{state:"NY"},
        out:{inline:1}
    }
)

输出结果如下:

{
    "results" : [
        {
            "_id" : "NEW YORK",
            "value" : {
                "locs" : [
                    [
                        -73.996705,
                        40.74838
                    ],
                    [
                        -73.987681,
                        40.715231
                    ],
                    ......
                    [
                        -74.016323,
                        40.710537
                    ]
                ]
            }
        }
    ],
    "timeMillis" : 77,
    "counts" : {
        "input" : 40,
        "emit" : 40,
        "reduce" : 1,
        "output" : 1
    },
    "ok" : 1
}

整个流程走通还是不太容易的,遇到了很多问题,其中一个就是嵌套数组的问题,参考7中解释了嵌套数组的形成原因,并给出了解决方法,已经加到代码中。

参考

  1. MongoDB官方文档https://docs.mongodb.org/manual/core/map-reduce/ 解释很详细,图片到位,简单易懂
  2. http://thejackalofjavascript.com/mapreduce-in-mongodb/ MapReduce使用的例子
  3. http://stackoverflow.com/questions/8175015/mongodb-mapreduce-reduce-multiple-not-supported-yethttp://stackoverflow.com/questions/8175015/mongodb-mapreduce-reduce-multiple-not-supported-yet
  4. http://stackoverflow.com/questions/13963483/how-to-get-print-output-for-debugging-map-reduce-in-mongoid
  5. http://www.cnblogs.com/yuechaotian/archive/2013/02/26/2933455.html
  6. http://stackoverflow.com/questions/7527126/mongodb-how-to-debug-map-reduce-on-mongodb-shell
  7. http://stackoverflow.com/questions/8099991/rejoining-split-mapreduce-arrays-in-mongohttp://stackoverflow.com/questions/8099991/rejoining-split-mapreduce-arrays-in-mongo

你可能感兴趣的:(使用MongoDB的MapReduce进行查询和数据组织)