上篇博文讲述了排序规则collations的操作和设置方式。顺带介绍了一部分聚合aggregation的设置方式。本文继续介绍聚合操作。

聚合框架的操作处理完数据记录后在返回计算结果。集合操作将来源于多个文档的值归类到一起,这样就可疑在被归类的数据上进行多种操作,然后返回一个单独的结果

1 聚合管道

   聚合管道是用于数据聚合的一个框架,是以数据处理管道概念为原型。将文档输入一个多级管道后,可疑将文档转换为聚合的结果。下面以restaurants作为数据集,通过将餐馆类归类,我们就可以使用聚合管道在集合上找到5星级餐厅的总数量。

client=Mongo::Client.new(['127.0.0.1:27017'],:database=>'test')
coll=client[:restaurants]
aggregation=coll.aggregate([
                          {'$match'=>{'stars'=>5}},
                          {'$unwind'=>'$categories'},
                          {'$group'=>{'_id'=>'$categories','fiveStars'=>{'$num'=>1}}}
                          ])
aggregation.each do |doc|
    p doc
 end

上面的程序中,在aggregate方法内部,第一个参数从所有的文档中过滤出stars字段为5的文档。第二个参数unwind表明展开categories字段域,该字段是一个数组,该参数会将数组中的条目作为分开的文档。第三个参数将文档按照categories进行归类,然后统计出五星级饭店的数目。

聚合框架会有最大使用内存限制。所以为了处理大数据集合,需要将allowDiskUse参数设置为true,从而确保可以将数据写到永久性的文件中。

aggregation=coll.aggregate([ 
  

或者你可以给aggregate方法传递参数

aggregation=coll.aggregate([],:allow_disk_use=>true)

2. 简单目的聚合操作

  MongoDB为一些聚合函数提供了支持,包含count和distinct

2.1 count

    下面的实例为我们展示了如何在集合中紧缺找出categories域包含数据['Chinese','Seafood']集合的文档总数量。

client=Mongo::CLient.new(['127.0.0.1:27017'],:database=>'test')
coll=client[:restaurants]
aggregation =coll.count({'categories':['Chinese','Seafood']})

count=coll.count({'categories'=>['Chinese','Seafood']})

2.2 distinct

   distinct方法用于去除结果数据集中的重复数据,为每个记录返回一个单独的值。下面的实例是在集合restaurants上找出categories字段域的所有不重复数据。

client=Mongo::Client.new(['127.0.0.1:27017'],:database=>'test')
coll=client[:restaurants]
aggregation=coll.distinct('categories')

aggregation.each do |doc|
  p doc
 end

关于MongoDB中聚合操作的讲解到此结束