文本预处理

·文本预处理及其作用:

        ·文本预料在输送给模型前一半需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量,规范张量的尺寸等,而且科学的文本预处理环节将有效指导模型超参数的选择,提升模型的评估指标。

·文本预处理中包含的主要环节:

        ·文本处理的基本方法

        ·文本张量表示方法

        ·文本语料的数据分析

        ·文本特征处理

        ·数据增强方法

·文本处理的基本方法

        ·分词

        ·词性标注

        ·命名实体识别

·文本张量表示方法:

        ·one-hot编码

        ·Word2vec

        ·Word Embedding

·文本预料的数据分析:

        ·标签数量分布

        ·句子长度分布

        ·词频统计与关键词词云

·文本特征处理:

        ·添加n-gram特征

        ·文本长度规范

·数据增强方法:

        ·回译数据增强法

·重要说明:

        ·在实际生产应用中,我们最长使用的两种语言是中文和英文,因此,文本预处理部分的内容都将针对这两种语言进行处理

你可能感兴趣的:(NLP,自然语言处理,人工智能,nlp)