百度和谷歌分词的差异【上】

这些天,我将陆续写一些关于百度和谷歌在分词上的差异化现象及个人见解。当然由于百度和谷歌搜索引擎分词算法都是各自的绝密技术,并且算法都是相当的复杂。我们只能从一些搜索结果对比中,去猜测和揣摩。文章仅供大家参考

1.符号检索差异

百度把大部分符号都默认设置为stop words了,假设你只是提交一个”@“符号进行查询,那么百度会返回一条”抱歉,您输入的内容“@”不在查询范围内。“的信息!

接下来再看google是如何处理符号的呢,同样,我们查询上面的”@“符号,你会发现,谷歌返回了 267,000,000 条结果,并且谷歌将@符号理解成了"at sign"翻译成中文就是 ”在符号“ ;

我们在从百度输入一个"+"号进行查询,同样,百度也返回了”抱歉,您输入的内容“+”不在查询范围内“。的结果,但我们同样在谷歌中输入”+“号查询,你会发现,返回的结果里即包括了标题带 ”+“的页面,也包括了 ”Plus sign“(加符号)的页面。

通过笔者的反复测试,发现百度能识别"?"号,且只返回一条来自百度听的结果,标题”陈奕迅的最新专辑《?》独家首发 免费在线试听“ 链接是:

ting.baidu.com/event/1111/eason?fr=ald 2012-3-17 。至于为啥只会出现这一条结果,笔者百思不得其解。只能做如下猜测:由于百度听是百度自家的产品,因此,对这个符号没有设置为stop words。到底是不是这样呢?还得请广大网友多测试分享下经验。


从上面看,谷歌已经能够把大部分符号转义成相应的英文词进行检索(谷歌不能识别”*“号、”?“号),而百度这在方面功力稍弱。


2. 拼音检索

百度和谷歌对拼音的检索一般会返回标题带有该拼音,或与拼音的相近的中文词组,更确切的说是高频率的词组。

举例:我们在百度中提交"baidu" 这个拼音,会返回一个”百度“中文词的相关页面,同样在谷歌中也是如此。

同样,我们在百度中提交”pinyin“会返回标题带pinyin和拼音相关的结果,谷歌也是如此。

我们再来输入”fuqin“ "muqin"等拼音,百度和谷歌都会将中文词”父亲“,”母亲“关联起来。


从上面看,百度和谷歌在拼音的检索方面似乎难分伯仲。

3. 英文缩略词检索差异

汉语水平考试的缩写是 HSK,我们在百度提交HSK这个词,百度会返回什么呢?它不但返回了HSK, 你会发现在结果页面” 汉语水平考试“也飘红了,百度的数据库里已经有了HSK 和 汉语水平考试的 对照数据,将 汉语水平考试也做为关键词;

来看看谷歌的表现,提交HSK关键词后,你会发现谷歌会把HSK理解成"hanyu shuiping kaoshi",即汉语水平考试的拼音进行输出了。


从上面看能说明什么呢?是不是百度更懂中文呢?我想最合理的解释应该是百度专门针对中英文缩写的对照数据库词典比谷歌更加丰富。


那么谷歌呢,从上面的结果看,我想可以理解成谷歌更聪明,他能将缩略词,从庞大的词典中非常精准的匹配成这么长的拼音,真的不简单。

 

 

转自:http://blog.sina.com.cn/s/blog_8b6b9f700100xlcx.html

你可能感兴趣的:(分词算法,百度,数据库,算法,搜索引擎,测试,google)