文本分类/聚类



预处理

删除标点符号

python进行删除标点符号


text=u'''职位描述 乐视招聘android自动化测试工程师 岗位职责:1、负责android超级电视TV设备的自动化方案设计、自动化测试与工具开发; 2、根据项目特点研究稳定性测试技术,完成相关工具的开发以及测试; 技能要求:1、有移动终端自动化工具架构设计与开发者优先,熟悉Android自动化工具Uiautomator、Monkey、MonkeyRunner 2、有实际用过JAVA/Python语言写过自动化测试脚本来测试项目的经验; 3、有Android自动化测试/稳定性测试经验,熟练掌握白盒测试工具JUnit、Instrumentation等; 4、熟悉linux命令,我们的工作环境是ubuntu操作系统 5、熟练使用git/svn等版本控制工具; 6、本科及以上学历(在职或者自考的本科可能暂时不考虑,HR要求的,特别优秀的除外); PS:java/python编程开发基础扎实优先,有uiautomator实际项目经验者优先 个性能力要求:1. 主动思考、积极向上,有较强的逻辑分析能力和学习能力。 2. 工作细心、耐心、有责任心。 3. 具有良好的沟通能力和团队合作精神。 福利:转正后全员持股、年底奖金、带薪年假、餐补、交通补、通讯补等。'''
import re

print ' '.join(re.findall(u'[\u4e00-\u9fff]+', text))(保留中文字符的方法)

汉字繁简转换

https://github.com/berniey/hanziconv



中文文本聚类

基本文本聚类方法 

转发: python进行中文文本聚类(切词以及Kmeans聚类)

python进行中文文本聚类实例(TFIDF计算、词袋构建)

[python] 基于k-means和tfidf的文本聚类代码简单实现





bag of words

基于libsvm的中文文本分类原型

文本分类 特征选取之CHI开方检验

文本分类与聚类(text categorization and clustering)


NLP系列(2)_用朴素贝叶斯进行文本分类(上) 

NLP系列(3)_用朴素贝叶斯进行文本分类(下)

bayes文本分类


基于 AC 自动机和贝叶斯方法的垃圾内容识别


文本分类实验总结

classify-text

Classifying text with bag-of-words: a tutorial


蛙蛙推荐:蛙蛙教你文本聚类

文本特征属性选择


自然语言处理第一番之文本分类器

深度学习在文本分类中的应用


深度学习在文本分类中的应用1

tensorflow实现基于LSTM的文本分类方法




知乎“看山杯”文本分类比赛思路和代码


2017知乎看山杯总结(多标签文本分类)

第一名解决方案

https://zhuanlan.zhihu.com/p/28923961

https://github.com/chenyuntc/PyTorchText



知乎看山杯 第二名 解决方案

https://zhuanlan.zhihu.com/p/29020616

https://github.com/Magic-Bubble/Zhihu


第三名

https://github.com/HouJP/zhihu-machine-learning-challenge-2017

https://bitbucket.org/niuox/zhihu-competition


[2017知乎看山杯 多标签 文本分类] ye组(第六名) 解题方案

https://biendata.com/competition/zhihu/
https://github.com/yongyehuang/zhihu-text-classification


第九名解决方案
大规模文本分类实践-知乎看山杯总结
https://github.com/coderSkyChen/zhihu_kanshan_cup_2017


第21名解决方案
https://github.com/zhaoyu87/zhihu


https://github.com/xyx323/ZhiHuKanShan

利用word2vecv

特征提取:首先采用Google的Word2Vec工具,从海量的文本(本文)中,使用神经网络学习得到词典中每个词的向量表示。然后根据向量,对词典中的每个词进行聚类,例如聚类成500类(新的“词典”)。而后,使用工具对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的类别。这样类似向量空间模型(VSM),每个文档都可以用过关键词词频表示成一个500维的向量,这个向量就是这个文档的“特征向量”。 

分类器训练:常用的分类器有K-Nearest Neighbor(K近邻,KNN)、决策树(Decision Tree,DT)、支持矢量机(Support Vector Machine, SVM)、人工神经网络(Artificial Neural Network,ANN)等。训练分类器时,每个文档除用一个特征向量表示之外,还需要提供类别标签(即监督信息),训练集已经提供人工标注的标签。 

分类测试:训练好分类器后,一个新的不知道类别的文档(无类别标注),首先经过相同的特征提取步骤,得到特征向量,然后送入分类器,得到分类结果。然后统计分类正确率,进行效果分析。


https://github.com/wabyking/TextClassificationBenchmarkInPytorch


fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择

https://github.com/brightmart/text_classification



fasttext

fastText原理及应用

如何评价Word2Vec作者提出的fastText算法?深度学习是否在文本分类等简单任务上没有优势?

专栏 | fastText原理及实践

NLP︱高级词向量表达(二)——FastText(简述、学习笔记)

FastText总结,fastText 源码分析


text cnn

Convolutional Neural Networks for Sentence Classification

基于卷积神经网络(CNN)的中文垃圾邮件检测

https://github.com/epcilon/zh_cnn_text_classify

https://github.com/dennybritz/cnn-text-classification-tf


你可能感兴趣的:(nlp)