文本分类 —

1、分词：http://bigdata.hylanda.com/smartCenter2018/index

2、NLP研究进度：https://baijiahao.baidu.com/s?id=1619193829009842342&wfr=spider&for=pc

3、bert资源汇总：https://zhuanlan.zhihu.com/p/50717786

4、垃圾邮件区分训练：https://www.sohu.com/a/273256419_787107

5、中文文本分类（达观）：https://www.sohu.com/a/271534609_383123

6、聚类算法：https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/79332295

7、Flair（基于pytorch）:https://zhuanlan.zhihu.com/p/54422156?utm_source=wechat_session&utm_medium=social&utm_oi=815709694965477376

8、HMM模型：
https://www.cnblogs.com/skyme/p/4651331.html

9、TFIDF vs TextRank 提取关键词：https://blog.csdn.net/gzt940726/article/details/80256011

10、实例：https://blog.csdn.net/liuchonge/article/details/72614524

11、研究NLP的博主：【CSDN】https://me.csdn.net/liuchonge

【文本聚类】
pre一、分词
结巴分词：关键词分配VS关键词抽取
https://www.cnblogs.com/zhbzz2007/p/6177832.html

李哥还是聪明的啊…….png

一、词向量
12、【word2vec】:
【doc2vec+kmeans】https://blog.csdn.net/juanjuan1314/article/details/75461180
https://www.zhihu.com/question/29978268
https://cloud.tencent.com/developer/article/1061949

13、【fasttext】
https://pypi.org/project/pyfasttext/
【gensim-models-fasttext】
https://radimrehurek.com/gensim/models/fasttext.html

句向量的有监督/无监督？？.png

二、聚类算法
短文本聚类：https://patents.google.com/patent/CN104281653A/zh

【sklearn聚类的方法】：https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering

14、Kmeans：
K值选取：http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html
minibatchKmeans VS Kmeans:https://www.dataivy.cn/blog/%E9%80%82%E5%90%88%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9A%84%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95mini-batch-k-means/
minibatchKmeans VS Kmeans 参数说明（中文）+plt看聚类效果：
https://www.cnblogs.com/pinard/p/6169370.html
主成分分析（降维作图）+pivot_table（好复杂。。之后研究一下）：
http://python.jobbole.com/83498/
主成分分析PCA的用法：https://www.cnblogs.com/roygood/articles/10404472.html
http://www.cnblogs.com/wuchuanying/p/6218486.html
千万级高维数据用Kmeans：http://ramsey16.net/%E8%81%9A%E7%B1%BB%EF%BC%88%E5%9B%9B%EF%BC%89%E9%9D%A2%E5%90%91%E9%AB%98%E7%BB%B4%E7%A9%BA%E9%97%B4/
大数据量Kmeans好费时间VS minibatchKmeans：https://blog.csdn.net/cht5600/article/details/76014573
Kmeans详解：https://blog.csdn.net/weixin_33928467/article/details/86260378

——【k值怎么确定】

ps:每个类称为簇，则簇的直径：簇内任意两点间的最大距离，簇的半径：簇内点到簇质心的最大距离

给定一个合适的簇指标，可以是簇平均半径、簇平均直径、或者平均质心距离的加权平均值（权重可以为簇内点的个数）

分别取k值在1,2,4,8,16....

基本会符合下图，当簇个数低于真实个数时，簇指标会随簇个数的增长快速下降，当簇个数高于真实个数时，簇指标会趋于平稳

找到图中所示转折点，先确定k的大致范围，再通过二分查找确定k的值

image

——【K-means距离的定义】：
目前各种机器学习开源库，对于k-means的实现，都是基于欧式距离。如果想自定义距离，比如说用余弦相似度，那么k-means就必须要重新推导，也即需要重新实现k-means。
下面，从k-means的推导中，可以发现，在k-means当中，计算类的中心，跟距离的定义是紧密相关的。

k-means推导.png

——【sklearn中的kmeans用的欧氏距离】

sklearn-欧几里得距离1.png

sklearn-欧几里得距离2.png

计算得到上步得到聚类中每一聚类观测值的均值作为新的质心。这里体现的思想是这样的：因为我们是无监督学习，对于待分类的样本集群我们没有任何的先验知识，完全不知道该怎么分类，那么我们就暴力地、勇敢地、随机地踏出第一步，然后不断地去修正我们的分类器，不得不说，这和人生的很多的做人做事的道理是类似的

https://www.cnblogs.com/LittleHann/p/6595148.html#_label3_1_1_2

——sklearn Kmeans模型的保存

应该将模型保存下来，后续给向量就可以直接预测了，蠢啊！！！.png

https://cloud.tencent.com/developer/article/1010876

15、Birch
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.Birch.html
层次聚类：http://bluewhale.cc/2016-04-19/hierarchical-clustering.html

Birch或MiniBatchKMeans？

-Birch不能很好地扩展到高维数据。根据经验，如果 n_features大于20，通常使用MiniBatchKMeans会更好。
-如果需要减少数据实例的数量，或者如果想要将大量子群集作为预处理步骤或其他方式，则Birch比MiniBatchKMeans更有用。

三、聚类后的情感分析
斯坦福-Speech and Language Processing：https://web.stanford.edu/~jurafsky/slp3/
百度、腾讯、阿里的自然语言接口对比分析：https://ptorch.com/news/178.html
BosonNLP:https://blog.csdn.net/m0_37952030/article/details/78304088
BosonNLP:免费账户，每天词性分析文章限制数：500
BAIDU：调用免费
https://console.bce.baidu.com

百度API接口调用说明.png

百度Senta-基于语义和大数据的情感分类：https://www.jiqizhixin.com/articles/2018-08-24-18

朴素贝叶斯：
https://zhuanlan.zhihu.com/p/26865159
https://blog.csdn.net/tanhongguang1/article/details/45016421#fn:footnote

四、聚类后，新数据分类

最近的质心分类器
Rocchio算法

16、Data-mining 在线资料：https://www-users.cs.umn.edu/~kumar001/dmbook/index.php

五、百度NLP接口
链接：https://cloud.baidu.com/doc/NLP/s/Wjwvylgot/

【文章分类】
1）注意：传入数据字节限制，不只是文章的字节限制，还有标题的字节限制
一个汉字四个字节，标题不超过20个字（80字节），文章不超过16384个字（65535字节）

image.png

2）一级分类有26个主题，分别为：1、国际 2、体育 3、娱乐 4、社会 5、财经 6、时事 7、科技 8、情感 9、汽车 10、教育 11、时尚 12、游戏 13、军事 14、旅游 15、美食 16、文化 17、健康养生 18、搞笑 19、家居 20、动漫 21、宠物 22、母婴育儿 23、星座运势 24、历史 25、音乐 26、综合
二级分类不明

【新闻摘要】
-入参：
title：可选，200个字符数（400个字节）以内
content：必选，3000个字符数（6000个字节）以内

【情绪倾向】
-入参：
text：文本内容，最大2048字节

文本分类 —— NLP

你可能感兴趣的:(文本分类 —— NLP)