达观杯比赛复盘专题

达观杯

比赛简介

特征工程

1.构建特征

  1. countvectororizer
  2. TfidfVectorizer
  3. Doc2Vec
  4. HashingVectorizer
  5. length
  6. 降维lsa 和 lda
  7. SelectFromModel

2.组合特征

  1. tfidf(word+article)
  2. tfidf(word+article)+lsa
  3. tfidf(word+article+length)
  4. linearsvm-tfidf(word)+lr-tfidf(article)
  5. countvector(w)+doc(w)+hash(w)

构建模型

  1. linearSVM
  2. 逻辑回归
  3. lightGBM
  4. 贝叶斯

模型融合

  1. 概率融合
  2. 分类融合

你可能感兴趣的:(达观杯nlp算法比赛总结)