一种优化mysql select like %%的方法

问题:mysql like %XXX%使得数据库引擎不能使用索引,而导致select查询缓慢。200M的表select like需要1s左右,这是实时性要求高的服务器承受不了的。

解决方法:首先google一通发现,都在说like很难优化,一般都是采用开源插件分词+全文索引。然后再搜索,又搜索到了clucene,研究了下clucene,发现用它的人都是重新实现的分词模块,这样如果不实现中文分词模块,clucene的作用也不大。如果搜索的字符串长度不大的话,比如是搜索文章标题,那么自己来实现分词模块也不是很难。下面的方法就是针对这类需求而实现的。

基本原理是:把mysql配置文件中的ft_min_word_len=3改为1。(没有这项就直接添加),然后新建一个字段来保持分词结果,给这个字段建立全文索引。然后实现一个分词模块,把词语“大家好”拆分为“大 大家 大家好 家 家好 好”。然后用match .. against 来代替like %%,查询出来的结果跟like的结果基本相同(如果分词合理的话),但是效率比like高至少10倍以上。

具体实现见http://www.xiaoyatou.net/gitweb/?p=libyt.git;a=blob;f=luaTest/SplitWords.h;h=8d10daf10484b48d0534547ec15c295d82de2a79;hb=HEAD

http://www.xiaoyatou.net/gitweb/?p=libyt.git;a=blob;f=luaTest/SplitWords.cpp;h=b3cfe13b8952eda7819bf012779e10e9ff45a12c

你可能感兴趣的:(数据库)