2022-03-17

自然语言处理实验演示 - 05. 文本标准化 (Text Normalization)

文本标准化也叫文本正则化。英语中有些单词的拼写、发音和表达方式都不同,Mumbai 和 Bombay(孟买)虽然不同,但指的是同一件事。还有一些不同形式的单词需要转换为基本形式。does 和 doing 等词转换为基本形式时就变成了 do。文本标准化是将不同文本变体转换为标准形式的过程。本实验主要进行词语替换操作,英语中有很多简写,可以使用替换操作,将这些意思一样,但写法不同的词汇进行统一。


#知识# #校园学习# #NLP# #AI# #自然语言处理# #人工智能专业建设# #文本数据标准化# #文本正则化# #实验视频# #Python# #文本挖掘# #人工智能实验室#

个人用户获取相关代码及数据集,请访问企业网站 (www.080910t.com),扫描【知识微店(个人用户)】二维码关注或订阅。注:全部实验演示视频、代码、数据集仅授权予个人用户学习与实验使用,禁止用于二次销售、课堂教学及培训用途。

视频原创制作:广州跨象乘云软件技术有限公司

企业网站:https://www.080910t.com

Bilibili 官方主站:https://space.bilibili.com/189064479

你可能感兴趣的:(2022-03-17)