oracle 全文检索示例


感谢作者,原文地址:http://www.iteye.com/topic/1118055

大致内容:

一、创建分析器

basic_lexer:只能根据空格和标点来进行拆分。比如“中国重庆”,只能拆分为“中国重庆”一个词组
chinese_vgram_lexer:专门的汉语分析器,按字单元进行拆分,比如“中国重庆”,可以拆分为“中”、“中国“、”国重”、“重庆”、“庆”五个词组。这种方式的好处是能够将所有有可能的词组全部保存进索引表,使得数据不会遗漏。
chinese_lexer:一种新的汉语分析器,能够认识大部分常用的汉语词汇,并按常用词汇进行拆分存储。比如“中国重庆”,只会被拆分为“中国”、“重庆”两个词组。

例子:ctx_ddl.create_preference ('my_lexer', 'chinese_lexer'); 

二、创建过滤词组

   意思就是,创建了一个名为“my_stoplist”的过滤词组,“有限公司”、“股份有限公司”这两个词组不会被创建为索引

例子:
   ctx_ddl.create_stoplist('my_stoplist');

   ctx_ddl.add_stopword('my_stoplist','有限公司');
   ctx_ddl.add_stopword('my_stoplist','股份有限公司');

三、创建索引
    create index YU_TEST_INDEX on YU_TEST(name) indextype is CTXSYS.CONTEXT parameters('lexer my_lexer stoplist my_stoplist');

四、使用索引
    select * from YU_TEST where contains(name,'重庆')>0;

五、索引优化
    当我们需要修改YU_TEST表中的数据,比如添加、删除、更新等操作时,YU_TEST_INDEX索引是不会同步更新数据的,需要我们在程序中手动的更新,可以写一个oracle的触发器,当添加、删除、修改操作时,进行索引更新。也可以定时进行更新。

    ctx_ddl.sync_index('yu_test_index')
    ctx_ddl.optimize_index('yu_test_index','full')

    CTX_DDL.CREATE_POLICY('MY_POLICY', LEXER => 'my_lexer');


至于性能待有机会再验证。

你可能感兴趣的:(oracle)