文本分类 —— NLP

1、分词:http://bigdata.hylanda.com/smartCenter2018/index

2、NLP研究进度:https://baijiahao.baidu.com/s?id=1619193829009842342&wfr=spider&for=pc

3、bert资源汇总:https://zhuanlan.zhihu.com/p/50717786

4、垃圾邮件区分训练:https://www.sohu.com/a/273256419_787107

5、中文文本分类(达观):https://www.sohu.com/a/271534609_383123

6、聚类算法:https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/79332295

7、Flair(基于pytorch):https://zhuanlan.zhihu.com/p/54422156?utm_source=wechat_session&utm_medium=social&utm_oi=815709694965477376

8、HMM模型:
https://www.cnblogs.com/skyme/p/4651331.html

9、TFIDF vs TextRank 提取关键词:https://blog.csdn.net/gzt940726/article/details/80256011

10、实例:https://blog.csdn.net/liuchonge/article/details/72614524

11、研究NLP的博主:【CSDN】https://me.csdn.net/liuchonge

【文本聚类】
pre一、分词
结巴分词:关键词分配VS关键词抽取
https://www.cnblogs.com/zhbzz2007/p/6177832.html

李哥还是聪明的啊…….png

一、词向量
12、【word2vec】:
【doc2vec+kmeans】https://blog.csdn.net/juanjuan1314/article/details/75461180
https://www.zhihu.com/question/29978268
https://cloud.tencent.com/developer/article/1061949

13、【fasttext】
https://pypi.org/project/pyfasttext/
【gensim-models-fasttext】
https://radimrehurek.com/gensim/models/fasttext.html

句向量的有监督/无监督??.png

二、聚类算法
短文本聚类:https://patents.google.com/patent/CN104281653A/zh

【sklearn聚类的方法】:https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering

14、Kmeans:
K值选取:http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html
minibatchKmeans VS Kmeans:https://www.dataivy.cn/blog/%E9%80%82%E5%90%88%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9A%84%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95mini-batch-k-means/
minibatchKmeans VS Kmeans 参数说明(中文)+plt看聚类效果:
https://www.cnblogs.com/pinard/p/6169370.html
主成分分析(降维作图)+pivot_table(好复杂。。之后研究一下):
http://python.jobbole.com/83498/
主成分分析PCA的用法:https://www.cnblogs.com/roygood/articles/10404472.html
http://www.cnblogs.com/wuchuanying/p/6218486.html
千万级高维数据用Kmeans:http://ramsey16.net/%E8%81%9A%E7%B1%BB%EF%BC%88%E5%9B%9B%EF%BC%89%E9%9D%A2%E5%90%91%E9%AB%98%E7%BB%B4%E7%A9%BA%E9%97%B4/
大数据量Kmeans好费时间VS minibatchKmeans:https://blog.csdn.net/cht5600/article/details/76014573
Kmeans详解:https://blog.csdn.net/weixin_33928467/article/details/86260378

——【k值怎么确定】

ps:每个类称为簇,则簇的直径:簇内任意两点间的最大距离,簇的半径:簇内点到簇质心的最大距离

给定一个合适的簇指标,可以是簇平均半径、簇平均直径、或者平均质心距离的加权平均值(权重可以为簇内点的个数)

分别取k值在1,2,4,8,16....

基本会符合下图,当簇个数低于真实个数时,簇指标会随簇个数的增长快速下降,当簇个数高于真实个数时,簇指标会趋于平稳

找到图中所示转折点,先确定k的大致范围,再通过二分查找确定k的值

image

——【K-means距离的定义】
目前各种机器学习开源库,对于k-means的实现,都是基于欧式距离。如果想自定义距离,比如说用余弦相似度,那么k-means就必须要重新推导,也即需要重新实现k-means。
下面,从k-means的推导中,可以发现,在k-means当中,计算类的中心,跟距离的定义是紧密相关的。

k-means推导.png

——【sklearn中的kmeans用的欧氏距离】

sklearn-欧几里得距离1.png

sklearn-欧几里得距离2.png

计算得到上步得到聚类中每一聚类观测值的均值作为新的质心。这里体现的思想是这样的:因为我们是无监督学习,对于待分类的样本集群我们没有任何的先验知识,完全不知道该怎么分类,那么我们就暴力地、勇敢地、随机地踏出第一步,然后不断地去修正我们的分类器,不得不说,这和人生的很多的做人做事的道理是类似的

https://www.cnblogs.com/LittleHann/p/6595148.html#_label3_1_1_2

——sklearn Kmeans模型的保存


应该将模型保存下来,后续给向量就可以直接预测了,蠢啊!!!.png

https://cloud.tencent.com/developer/article/1010876

15、Birch
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.Birch.html
层次聚类:http://bluewhale.cc/2016-04-19/hierarchical-clustering.html

Birch或MiniBatchKMeans?

-Birch不能很好地扩展到高维数据。根据经验,如果 n_features大于20,通常使用MiniBatchKMeans会更好。
-如果需要减少数据实例的数量,或者如果想要将大量子群集作为预处理步骤或其他方式,则Birch比MiniBatchKMeans更有用。

三、聚类后的情感分析
斯坦福-Speech and Language Processing:https://web.stanford.edu/~jurafsky/slp3/
百度、腾讯、阿里的自然语言接口对比分析:https://ptorch.com/news/178.html
BosonNLP:https://blog.csdn.net/m0_37952030/article/details/78304088
BosonNLP:免费账户,每天词性分析文章限制数:500
BAIDU:调用免费
https://console.bce.baidu.com

百度API接口调用说明.png

百度Senta-基于语义和大数据的情感分类:https://www.jiqizhixin.com/articles/2018-08-24-18

朴素贝叶斯:
https://zhuanlan.zhihu.com/p/26865159
https://blog.csdn.net/tanhongguang1/article/details/45016421#fn:footnote

四、聚类后,新数据分类

最近的质心分类器
Rocchio算法

16、Data-mining 在线资料:https://www-users.cs.umn.edu/~kumar001/dmbook/index.php

五、百度NLP接口
链接:https://cloud.baidu.com/doc/NLP/s/Wjwvylgot/

【文章分类】
1) 注意:传入数据字节限制,不只是文章的字节限制,还有标题的字节限制
一个汉字四个字节,标题不超过20个字(80字节),文章不超过16384个字(65535字节)

image.png

2) 一级分类有26个主题,分别为:1、国际 2、体育 3、娱乐 4、社会 5、财经 6、时事 7、科技 8、情感 9、汽车 10、教育 11、时尚 12、游戏 13、军事 14、旅游 15、美食 16、文化 17、健康养生 18、搞笑 19、家居 20、动漫 21、宠物 22、母婴育儿 23、星座运势 24、历史 25、音乐 26、综合
二级分类不明

【新闻摘要】
-入参:
title:可选,200个字符数(400个字节)以内
content:必选,3000个字符数(6000个字节)以内

【情绪倾向】
-入参:
text:文本内容,最大2048字节

你可能感兴趣的:(文本分类 —— NLP)