自然语言表达处理笔记01—— 1.正则表达式 2.文本标记化 3.词干提取和词形还原 4.中文分词
正则表达式正则表达式使用某种预定义的模式匹配具有共同特征的字符串;主要用于处理字符串。完成复杂的查找、替换等要求对字符串和特殊字符操作的逻辑公式单个字符串描述匹配一系列复合某个句法规则的字符串搜索过程拿出表达式和文本中字符比较,若每个字符可成功匹配,则返回成功,反之返回失败。存在多个匹配项则按照搜索设定返回全部或部分返回。可以使用python中的re模块来进行操作功能importrea=re.fi