python机器学习--文本分类三级项目总结

我们组的题目是中文新闻文本标题分类。我用的模型有多项式朴素贝叶斯、逻辑回归、SVM、岭回归、决策树、神经网络。就是一般的机器学习模型,都试了一试。最高分81.4。隔壁组用深度学习最高分88.8。但是冯老师说word分词的话能达到95,俺也不知道,俺还没试。
文本分类的一般步骤都是:数据预处理-分词-词向量特征提取-模型训练-预测
冯老师是干自然语言处理的,在他面前答辩,就跟小鸡仔一样···如果说用一般的机器学习模型,就要根据具体的题目寻找能够处理这个问题的模型,把模型的算法步骤用流程图展示,再自己改动一些算法,能够贴切的处理这个问题,调参只是其中的一小部分;如果用深度学习,可以进行调参工作。
机器学习模型,首先要仔细研究训练数据,写处理这个问题的算法,最后适当调参。如果套用模型或者模型不适用,效果会很不好。深度学习调参无可厚非。
模型:jieba分词、TF-IDF词向量特征提取、机器学习模型
套用模型的代码就两行,整个项目也没几行,我就不写了,等我研究一下模型原理和算法流程;还有深度学习的95···

你可能感兴趣的:(数据分析和机器学习)