网易主观题-答案记录

根据要求对文本进行分类
(1)分类主要是运用机器学习或着深度学习技术根据不同类别数据的定义将数据分到不同的类别中。它可以解决人工标记数据的繁琐,也可以在信息检索、精确推荐等领域为社会带来便利。
(2)数据获取-》数据预处理-》特征工程-》数据集划分-》模型选择-》模型评估
(3)模型选择。文本分类较少使用传统的机器学习算法,因为需要人工从文本中提取特征,一方面人工提取到的特征较少,另一方面人工提取到的大部分是统计特征,不具有语义信息,所以大部分使用深度学习来进行建模。常用的深度学习模型有CNN、RNN、LSTM以及最近较流行的transformer等。一般对于类别区分较明显的数据可以使用CNN进行建模,且模型不需要太复杂;对于分类的类别数较多或者需要进行细粒度分类的数据,需要模型提取到更多的语义信息才会有较好的效果,所以一般使用多层的RNN及其变体,但RNN是一种序列模型,训练只能顺序进行,所以往往需要较长的训练时间,此外,虽然理论上RNN可以保留距离较远处的信息,但当文本较长时,RNN效果并不好。解决的方法,目前基于“Attention Is All You Need”这篇论文,许多学者研究出了self-attention机制,从而避免使用RNN,且可以更好的提取到文本语义信息。

你可能感兴趣的:(网易主观题-答案记录)