细探baidu 搜索提示框

阅读更多
   我记得我在上大学的第一堂数据库的时候,老师告诉我们,索引在数据库里面是一个非常重要的东西,用好了数据库索引,会让觉得事半功倍的效果,用不好数据索引,往往是吃力不讨好。所以在出来工作的三四年的时间里面,一直都在关键的字段上面建索引来提高查找速度,当然这个也得看情况,如果是需要快速插入的地方,建立索引的过程又往往是性能消耗很大。但是又一次的一个项目,确让引发了我对索引的重新理解。
具体的要求是这样,对某个字段进行模糊查询,数据类型为vchar2(100),数据量在100W左右,要求查询相关记录的时间为1秒左右,当时我觉得这个是一个很好做的事情,我就想提高速度那我就在这个字段上面建立索引吧,这样速度应该就会很快的。很快索引建立起来,程序写好了,当时当真正测试的时候,发现速度根本就没有我想象的那么快,是不是索引用的不对,按照常理,100W的数据,用索引查找应该就在1秒之内完成呀。后来查看了mysql的官网才知道 ,在对整形数据建立索引,速度是超快的,对vchar2建立索引,如果你采用%##%来进行查询,索引是不起作用的,也就是全表遍历。只是在##%的查询的时候,索引才有效的。 后来把搜索条件该为##%,果然速度超快。
   在这里突然想到,百度的搜索提示框,当你在百度搜索框里面输入某个字符的时候,你可以看到出来的下拉框提示信息都是以你输入的这个字符开头的,为什么会这样,这样符合逻辑吗? 其实不然。但是没有办法,如果出现不是这个字符开头的话,那么你必须采用%##%来进行查找,这样相当于全表扫描,速度肯定是无法接接受,所你看百度的提示搜索框都是以你输入的那个字符为开头的提示信息,就是可以用##%为搜索条件,来进行索引查询的。
    那么有没有%##%这样查找的解决方案呢?Lucene就是专门应对这样的情况,我在建立自己的网站 bushere.com的时候,开始的时候也是采用mysq4.0l的%##%来进行搜索条件,发现速度根本就没有办法接受,因为有100W的数据,你在里这么多数据集查找某个线路的信息,速度肯定无法接受,后来采用lucene来改进,当然也花费了不少的时间来学习,效果不错。100W的数据 在查找起点和终点的线路信息时候,基本是在1秒之内,速度很快。当然用户体验也就自然上去了。
所以我想说。有的时候,正理也会有不适合的场景,是自己的理解错误还是其他的,需要自己实践才能知晓。困难时时都会遇到,但是肯定有解决之道。

你可能感兴趣的:(100w,lucene,bushere.com)