豆瓣评分预测

中文分词

中文分词包jieba,用jieba对原始文本做分词。

文本预处理

1. 去掉无用的字符

2. 去掉停用词

3. 去掉低频词

文本特征提取

1. 把文本分为训练集和测试集

2. 把文本转换为向量的形式:tf-idf向量、word2vec(CBoW,SkipGram)、bert

模型搭建与模型训练、评估

1. 搭建模型

2. 训练模型(并做交叉验证):找最好参数-训练模型-在测试集上的准确率&F1-score

3. 输出最好的结果

你可能感兴趣的:(豆瓣评分预测)