mysql——逗号分割字段情况

一、前言


由于历史原因、个人技术原因和各种坑爹项目原因,很多情况下我们会在一个字段中添加好多数据用逗号隔开,违反了第一范式原则。

对于这种情况下的查询等处理方法就不能用普通的方法进行处理,这个时候会出现众多业务需求,下面介绍了一下我遇到的情况供大家参考。



二、处理方法


1、find_in_set函数处理


有个文章表里面有个type字段,它存储的是文章类型,有 1头条、2推荐、3热点、4图文...1,12,13 等等 。

现在有篇文章他既是 头条,又是热点,还是图文,

type中以 1,3,4 的格式存储。

那我们如何用sql查找所有type中有4图文标准的文章呢??

这就要我们的 find_in_set 出马的时候到了。

以下为引用的内容:

 代码如下 复制代码

select * from article where FIND_IN_SET('4',type)

----------------------------------------------------------

MySQL手册中find_in_set函数的语法:

 代码如下 复制代码

FIND_IN_SET(str,strlist)

假如字符串str 在由N 子链组成的字符串列表strlist 中,则返回值的范围在 1 到 N 之间。

一个字符串列表就是一个由一些被 ‘,’ 符号分开的子链组成的字符串。如果第一个参数是一个常数字符串,而第二个是type SET列,则   FIND_IN_SET() 函数被优化,使用比特计算。

如果str不在strlist 或strlist 为空字符串,则返回值为 0 。如任意一个参数为NULL,则返回值为 NULL。这个函数在第一个参数包含一个逗号(‘,’)时将无法正常运行。

 代码如下 复制代码

mysql> SELECT FIND_IN_SET('b', 'a,b,c,d');

-> 2 因为b 在strlist集合中放在2的位置 从1开始

--------------------------------------------------------

select FIND_IN_SET('1', '1');  返回 就是1 这时候的strlist集合有点特殊 只有一个字符串 其实就是要求前一个字符串 一定要在后一个字符串集合中 才返回 大于0的数

 代码如下 复制代码

select FIND_IN_SET('2', '1,2'); 返回2

select FIND_IN_SET('6', '1');  返回0

----------------------------------------------------------

注意:

 代码如下 复制代码

select * from treenodes where FIND_IN_SET(id, '1,2,3,4,5');

使用find_in_set函数一次返回多条记录

id 是一个表的字段,然后每条记录分别是id等于1,2,3,4,5的时候

有点类似in (集合)

 代码如下 复制代码

select * from treenodes where id in (1,2,3,4,5);


弄个测试表来说明两者的区别

 代码如下 复制代码

CREATE TABLE `test` (
  `id` int(8) NOT NULL auto_increment,
  `name` varchar(255) NOT NULL,
  `list` varchar(255) NOT NULL,
  PRIMARY KEY  (`id`)
)


INSERT INTO `test` VALUES (1, 'name', 'daodao,www.111cn.net,xiaoqin');
INSERT INTO `test` VALUES (2, 'name2', 'xiaohu,daodao,xiaoqin');
INSERT INTO `test` VALUES (3, 'name3', 'xiaoqin,daodao,www.111cn.net');


原来以为MySQL可以进行这样的查询:

 代码如下 复制代码
select id, list, name from table where 'daodao' IN (list);

(一)

实际上这样是不行的,这样只有当name是list中的第一个元素时,查询才有效,否则都得不到结果,即使'daodao'真的在list中。

再来看看这个:

 代码如下 复制代码
select id, list, name from table where 'daodao' IN ('libk', 'zyfon', 'daodao');

(二)

这样是可以的。

----------------------------------------------------------------

这两条到底有什么区别呢?为什么第一条不能取得正确的结果,而第二条却能取得结果。

原因其实是(一)中 (list) list是变量, 而(二)中 ('libk', 'zyfon', 'daodao')是常量。

所以如果要让(一)能正确工作,需要用find_in_set():

 代码如下 复制代码
select id, list, name from table where find_in_set('daodao',list);



2、行列转换处理


表数据:

ID Value
1 tiny,small,big
2 small,medium
3 tiny,big

期望得到结果:

ID Value
1 tiny
1 small
1 big
2 small
2 medium
3 tiny
3 big

正文:


#需要处理的表
create table tbl_name (ID int ,mSize varchar(100));
insert into tbl_name values (1,'tiny,small,big');
insert into tbl_name values (2,'small,medium');
insert into tbl_name values (3,'tiny,big');

#用于循环的自增表
create table incre_table (AutoIncreID int);
insert into incre_table values (1);
insert into incre_table values (2);
insert into incre_table values (3);


#需要处理的表
create table tbl_name (ID int ,mSize varchar(100));
insert into tbl_name values (1,'tiny,small,big');
insert into tbl_name values (2,'small,medium');
insert into tbl_name values (3,'tiny,big');

#用于循环的自增表
create table incre_table (AutoIncreID int);
insert into incre_table values (1);
insert into incre_table values (2);
insert into incre_table values (3);


select a.ID,substring_index(substring_index(a.mSize,',',b.AutoIncreID),',',-1) 
from 
tbl_name a
join
incre_table b
on b.AutoIncreID <= (length(a.mSize) - length(replace(a.mSize,',',''))+1)
order by a.ID;



原理分析:

这个join最基本原理是笛卡尔积。通过这个方式来实现循环。

以下是具体问题分析:

length(a.Size) - length(replace(a.mSize,',',''))+1  表示了,按照逗号分割后,改列拥有的数值数量,下面简称n

join过程的伪代码:

根据ID进行循环

{

判断:i 是否 <= n

{

获取最靠近第 i 个逗号之前的数据, 即 substring_index(substring_index(a.mSize,',',b.ID),',',-1)

i = i +1 

}

ID = ID +1 

}

 

总结:

这种方法的缺点在于,我们需要一个拥有连续数列的独立表(这里是incre_table)。并且连续数列的最大值一定要大于符合分割的值的个数。

例如有一行的mSize 有100个逗号分割的值,那么我们的incre_table 就需要有至少100个连续行。

当然,mysql内部也有现成的连续数列表可用。如mysql.help_topic: help_topic_id 共有504个数值,一般能满足于大部分需求了。

改写后如下:


select a.ID,substring_index(substring_index(a.mSize,',',b.help_topic_id+1),',',-1) 
from 
tbl_name a
join
mysql.help_topic b
on b.help_topic_id < (length(a.mSize) - length(replace(a.mSize,',',''))+1)
order by a.ID;




三、总结


  • 一个字段中出现多个字符串用逗号隔开问题出现原因;
  • 使用find_in_set函数判断字段中是否有某个字符串;
  • 行列转换


你可能感兴趣的:(SQL)