sklearn中transform和fit_transform的区别(解决中文向量化特征不一致问题)

产生问题的原因:

本人在做一个自己的情感分析评测模型,但是在使用sklearn的TfidfVectorizer将分词好的文本转化为向量的时候出现了问题,将分词中文转为词向量后其实他的特征是一定了的也就是固定的,如果现在有新的一句话进来使用刚保存好的tfidf模型转化向量的列也就是特征是和训练的数据不一致的,原因是你可能使用了fit_transform对新的中文列表(分词好的)进行向量化。

解决办法:

解决办法很简单,就是使用sklearn的transform进行词向量的生成,它是在原来特征基础上进行构建向量,所以在后期进行predict的时候就不会出现维度不一致的报错!

总结:

如果想仔细了解学习两者之间的区别请到下面的博主进行学习。

https://www.wandouip.com/t5i96455/

https://blog.csdn.net/tristan_tian/article/details/100132775

你可能感兴趣的:(机器学习)