coreseek检索时全角字符对全文检索质量的影响

近来试用一段时间后,发现一些全角字符,尤其是双引号,书名号对英文的影响有些严重.

比如搜索PHP时,出来的前几条中都没有PHP词样.经过一段时间观察,发现这些出现异常的内容里,都带有这些全角符号.

李沫南说其它应用网站未发现这个状态.但我这儿两台测试机都已发生此现象.

详细内容还得观察一段时间.目前只能暂时将全角符号在数据源上做转换.(亦可用pythone数据源在提供给sphinx时做转换).

如有相同故障的同学亦可暂时试用此法.

附,另有一法.可以设置stopwords,在停用词表中加入符号字符

另.coreseek的B2版,API中Setweidht有故障无法使用,需升级到B3或B4.

你可能感兴趣的:(PHP,全文检索)