Solr高效利用：Solr实现SQL的查询与统计[转]

转自：http://www.aboutyun.com/thread-7742-1-1.html
Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala，只要熟悉SQL，就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。下面，我们设计一个表，通过该表中的数据，来将SQL查询与统计的语句，使用Solr查询的方式来与SQL查询对应。这个翻译的过程，是非常有趣的，你可以看到Solr一些很不错的功能。用来示例的表结构设计，如图所示：

表结构

下面，我们通过给出一些SQL查询统计语句，然后对应翻译成Solr查询语句，然后对比结果查询对比

条件组合查询

SQL查询语句：

SELECT log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1 AND area_id = 10304 AND time_type = 1 AND time_id >= 20130801 AND time_id <= 20130815
ORDER BY log_id LIMIT 10;

查询结果如下图：

查询结果

Solr查询URL

http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=prov_id:1 AND net_type:1 AND area_id:10304 AND time_type:1 AND time_id:[20130801 TO 20130815]&sort=log_id asc&start=0&rows=10

查询结果，如下所示：
忽略。

对比上面结果，除了根据idt_id排序方式不同以外（Impala是升序，Solr是降序），其他是相同的。

2.分组查询

SELECT prov_id, SUM(cnt) AS sum_cnt, AVG(cnt) AS avg_cnt, MAX(cnt) AS max_cnt, MIN(cnt) AS min_cnt, COUNT(cnt) AS count_cnt
FROM v_i_event
GROUP BY prov_id;

查询结果如下图：

分组查询

Solr 分组查询

http://slave1:8888/solr-cloud/i_event/select?q=*:*&stats=true&stats.field=cnt&rows=0&indent=true

查询结果，如下所示：
忽略。
对比查询结果，Solr提供了更多的统计项，如标准差（stddev）等，与SQL查询结果是一致的。

3.IN条件查询

SELECT log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_typ
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1 ANDcity_id IN(106,103) AND idt_id IN(12011,5004,6051,6056,8002) AND time_type = 1AND time_id >= 20130801 AND time_id <= 20130815
ORDER BY log_id, start_time DESC LIMIT 10;

In 查询结果

Solr查询URL：

http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id, cnt,net_type&fq=prov_id:1 AND net_type:1 AND (city_id:106 OR city_id:103) AND (idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002) AND time_type:1 AND time_id:[20130801 TO 20130815]&sort=log_id asc ,start_time desc&start=0&rows=10

或

http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id, cnt ,net_type&fq=prov_id:1&fq=net_type:1&fq=(city_id:106 OR city_id:103)&fq=(idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002)&fq=time_type:1&fq=time_id:[20130801 TO 20130815]&sort=log_id asc,start_time desc&start=0&rows=10

查询结果，如下所示：
忽略。

4.开区间范围条件查询

SQL查询

SELECTlog_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type
FROM v_i_event
WHERE net_type = 1 AND idt_id IN(12011,5004,6051,6056,8002) AND time_type = 1 AND start_time >= 1373598465 AND start_time < 1374055254
ORDER BY log_id, start_time, idt_id DESCLIMIT 30;

查询结果：

开区间查询

SOLR 查询

http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=net_type:1 AND (idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002) AND time_type:1 AND start_time:[1373598465 TO 1374055254]&fq =-start_time:1374055254&sort=log_id asc,start_time asc,idt_id desc&start=0&rows=30

或

http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=net_type:1 AND (idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002) AND time_type:1 AND start_time:[1373598465 TO 1374055254] AND -start_time:1374055254&sort=log_id asc,start_time asc,idt_id desc&start=0&rows=30

或

http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=net_type:1&fq=idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002&fq =time_type:1&fq=start_time:[1373598465 TO 1374055254]&fq =-start_time:1374055254&sort=log_id asc,start_time asc,idt_id desc&start=0&rows=30

5.多个字段分组统计（只支持count函数）

SQL查询语句：

SELECT city_id, area_id, COUNT(cnt) AScount_cnt
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1
GROUP BY city_id, area_id;

查询结果：

多字段分组查询

Solr查询语句：

http://slave1:8888/solr-cloud/i_event/select?q=*:*&facet=true&facet.pivot=city_id,area_id&fq=prov_id:1 AND net_type:1&rows=0&indent=true

对比上面结果，Solr查询结果，需要从上面的各组中进行合并，得到最终的统计结果，结果和SQL结果是一致的。

6.多个字段分组统计

（支持count、sum、max、min等函数）
一次对多个字段进行独立分组统计，Solr可以很好的支持。这相当于执行两个带有GROUP BY子句的SQL，这两个GROUP BY分别只对一个字段进行汇总统计。

SQL查询

SELECT city_id, area_id, COUNT(cnt) AS count_cnt
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1
GROUP BY city_id;

SELECT city_id, area_id, COUNT(cnt) AS count_cnt
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1
GROUP BY area_id;

Solr查询语句

http://slave1:8888/solr-cloud/i_event/select?q=*:*&stats=true&stats.field=cnt&f.cnt.stats.facet=city_id&&f.cnt.stats.facet=area_id&fq=prov_id:1 AND net_type:1&rows=0&indent=true

结果:

7.多个字段联合分组统计

支持count、sum、max、min等函数
SQL查询语句:

SELECT city_id, area_id, SUM(cnt) ASsum_cnt, AVG(cnt) AS avg_cnt, MAX(cnt) AS max_cnt, MIN(cnt) AS min_cnt,COUNT(cnt) AS count_cnt
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1
GROUP BY city_id, area_id;

查询结果：

Paste_Image.png

Solr目前不能简单的支持这种查询，如果想要满足这种查询统计，需要在schema的设计上，将一个字段设置为多值，然后通过多个值进行分组统计。如果应用中查询统计分析的模式比较固定，预先知道哪些字段会用于联合分组统计，完全可以在设计的时候，考虑设置多值字段来满足这种需求。

说明： "facet.limit"设置为-1，不然得不到facet所有结果。

Solr高效利用：Solr实现SQL的查询与统计[转]

条件组合查询

2.分组查询

3.IN条件查询

4.开区间范围条件查询

5.多个字段分组统计（只支持count函数）

6.多个字段分组统计

7.多个字段联合分组统计

你可能感兴趣的:(Solr高效利用：Solr实现SQL的查询与统计[转])