预处理
删除标点符号
python进行删除标点符号
text=u'''职位描述 乐视招聘android自动化测试工程师 岗位职责:1、负责android超级电视TV设备的自动化方案设计、自动化测试与工具开发; 2、根据项目特点研究稳定性测试技术,完成相关工具的开发以及测试; 技能要求:1、有移动终端自动化工具架构设计与开发者优先,熟悉Android自动化工具Uiautomator、Monkey、MonkeyRunner 2、有实际用过JAVA/Python语言写过自动化测试脚本来测试项目的经验; 3、有Android自动化测试/稳定性测试经验,熟练掌握白盒测试工具JUnit、Instrumentation等; 4、熟悉linux命令,我们的工作环境是ubuntu操作系统 5、熟练使用git/svn等版本控制工具; 6、本科及以上学历(在职或者自考的本科可能暂时不考虑,HR要求的,特别优秀的除外); PS:java/python编程开发基础扎实优先,有uiautomator实际项目经验者优先 个性能力要求:1. 主动思考、积极向上,有较强的逻辑分析能力和学习能力。 2. 工作细心、耐心、有责任心。 3. 具有良好的沟通能力和团队合作精神。 福利:转正后全员持股、年底奖金、带薪年假、餐补、交通补、通讯补等。'''
import re
print ' '.join(re.findall(u'[\u4e00-\u9fff]+', text))(保留中文字符的方法)
汉字繁简转换
https://github.com/berniey/hanziconv
中文文本聚类
基本文本聚类方法
转发: python进行中文文本聚类(切词以及Kmeans聚类)
python进行中文文本聚类实例(TFIDF计算、词袋构建)
[python] 基于k-means和tfidf的文本聚类代码简单实现
bag of words
基于libsvm的中文文本分类原型
文本分类 特征选取之CHI开方检验
文本分类与聚类(text categorization and clustering)
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
bayes文本分类
基于 AC 自动机和贝叶斯方法的垃圾内容识别
文本分类实验总结
classify-text
Classifying text with bag-of-words: a tutorial
蛙蛙推荐:蛙蛙教你文本聚类
文本特征属性选择
自然语言处理第一番之文本分类器
深度学习在文本分类中的应用
深度学习在文本分类中的应用1
tensorflow实现基于LSTM的文本分类方法
知乎“看山杯”文本分类比赛思路和代码
2017知乎看山杯总结(多标签文本分类)
第一名解决方案
https://zhuanlan.zhihu.com/p/28923961
https://github.com/chenyuntc/PyTorchText
知乎看山杯 第二名 解决方案
https://zhuanlan.zhihu.com/p/29020616
https://github.com/Magic-Bubble/Zhihu
第三名
https://github.com/HouJP/zhihu-machine-learning-challenge-2017
https://bitbucket.org/niuox/zhihu-competition
[2017知乎看山杯 多标签 文本分类] ye组(第六名) 解题方案
https://biendata.com/competition/zhihu/
https://github.com/yongyehuang/zhihu-text-classification
特征提取:首先采用Google的Word2Vec工具,从海量的文本(本文)中,使用神经网络学习得到词典中每个词的向量表示。然后根据向量,对词典中的每个词进行聚类,例如聚类成500类(新的“词典”)。而后,使用工具对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的类别。这样类似向量空间模型(VSM),每个文档都可以用过关键词词频表示成一个500维的向量,这个向量就是这个文档的“特征向量”。
分类器训练:常用的分类器有K-Nearest Neighbor(K近邻,KNN)、决策树(Decision Tree,DT)、支持矢量机(Support Vector Machine, SVM)、人工神经网络(Artificial Neural Network,ANN)等。训练分类器时,每个文档除用一个特征向量表示之外,还需要提供类别标签(即监督信息),训练集已经提供人工标注的标签。
https://github.com/wabyking/TextClassificationBenchmarkInPytorch
fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
https://github.com/brightmart/text_classification
fastText原理及应用
如何评价Word2Vec作者提出的fastText算法?深度学习是否在文本分类等简单任务上没有优势?
专栏 | fastText原理及实践
NLP︱高级词向量表达(二)——FastText(简述、学习笔记)
FastText总结,fastText 源码分析
Convolutional Neural Networks for Sentence Classification
基于卷积神经网络(CNN)的中文垃圾邮件检测
https://github.com/epcilon/zh_cnn_text_classify
https://github.com/dennybritz/cnn-text-classification-tf