关于手机等品牌型号搜索与采集的中文分词分离

http://www.cnblogs.com/cyq1162/archive/2010/04/18/1349062.html

 

很久以前,写过一个手机的搜索查询,这里要涉及到手机类型和型号的分离。

很久之后前,有人问起这个问题,于是,写点说明就把这函数的草稿发布了,并写下了这一些说明。

函数说明,如搜索输入:诺基亚N95,将被拆分成品牌:诺基亚 型号:N95

对于手机数据采集,也可以用这函数分离出品牌和型号。

SetSearchKey( " 诺基亚N95 " , out  诺基亚, out  N95);

 

函数代码如下:

 

protected  void  SetSearchKey( string  keyword,  out  string  goodsName,  out  string  goodsModel)
        {
            keyword 
=  keyword.ToLower().Trim();
            
if  (keyword.Contains( "  " )) // 带空格,分离
            {
                goodsName 
=  keyword.Split( '  ' )[ 0 ].Trim();
                goodsModel 
=  keyword.Split( '  ' )[ 1 ].Trim();
            }
            
else  if  (Regex.Match(keyword,  @" ^[\u4E00-\u9FA5]+[\w\d]+ " ).Success) // 以中文开头,包含英文,分离
            {
                goodsName 
=  Regex.Match(keyword,  @" ^([\u4E00-\u9FA5]+)[\w\d]+ " ).Groups[ 1 ].Value;
                goodsModel 
=  keyword.Replace(goodsName,  string .Empty);
            }
            
else
            {
                
string [] keys  =  new  string [] {  " nec " " lg " " vk " " cect "  };
                
for  ( int  i  =  0 ; i  <  keys.Length; i ++ )
                {
                    
if  (keyword.IndexOf(keys[i])  ==  0 )
                    {
                        goodsName 
=  keys[i];
                        goodsModel 
=  goodsModel  =  keyword.Replace(goodsName,  string .Empty);
                        
return ;
                    }
                }
                goodsName 
=  keyword;
                goodsModel 
=  keyword;

            }
        }

 

 

你可能感兴趣的:(中文分词)