A100-文本分类比赛

训练集格式:类别 文本

测试集格式:索引 文本

提交结果格式:索引 类别

思路:

1、文本向量化

     (方法:前期用TFIDF,后期用word2vec)

2、分类方法:

     方法: SVM  

                 fasttext


主要步骤:

1、生成词典

2、生成tfidf向量

3、生成lsi向量

4、分类器参数训练

5、对新文本进行分类。

前4个步骤可以看做是分类器的训练过程,而第五个阶段,则是使用训练得到的参数对新文本进行分类。


问题一、如何构建文本向量。如何用IFIDF将文本向量化,每一个文本的向量长度是否相同?

http://palydawn.blog.163.com/blog/static/18296905620124171155256/

http://blog.csdn.net/orlandowww/article/details/52966608?locationNum=2&fps=1


A100数据竞赛第一天结果:线性核 linear

A100-文本分类比赛_第1张图片

你可能感兴趣的:(A100-文本分类比赛)