中文分词一席谈之分词难点分析
[email protected]
http://langiner.blog.51cto.com
 
什么是分词?
          分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理”

分词作用
         互联网绝大多数应用都需要分词,典型应用实例 
         汉字处理:拼音输入法、手写识别、简繁转换 …
         信息检索:Google 、Baidu …
         内容分析:机器翻译、广告推荐、内容监控 …
         语音处理:语音识别、语音合成 …
          …
分词难点
         歧义无处不在 
         交叉歧义(多种切分交织在一起)  
         内塔内亚胡说的/确实/在理
         组合歧义(不同情况下切分不同) 
         这个人/手上有痣 
         我们公司人手  
        真歧义(几种切分都可以) 
        乒乓球拍/卖/完了
        乒乓球/拍卖/完了
       
       新词层出不穷
        人名、地名、机构名
        刘德华 长坂坡 耀华路
        网名
        你是我的谁 旺仔小馒头
       公司名、产品名
        摩托罗拉  谷歌  爱国者 腾讯  网易   新浪 诺基亚C5  尼康D700
 
        普通词与新词互用
        高明表演真好(演员)/他的表演很高明
        ×××(广东省长)到深圳检查工作/洞庭湖一片×××
        普通词与新词交织在一起
        克林顿对内塔尼亚胡说
         ×××听取龚学平等同志的汇报
   
         需求多种多样
         切分速度:搜索引擎VS单机版语音合成
         结果呈现:
                  切分粒度要求不同:机器翻译VS搜索引擎
                  分词重点要求不同:语音合成VS搜索引擎
                   唯一结果VS多结果:语音合成VS搜索引擎 
          新词敏感度不同:语音合成VS搜索引擎
          处理对象:书面文本(规范/非规范)VS口语文本
          硬件平台:嵌入式VS单机版VS服务器版