tfidf

NLP的应用范围:情感分析,文本相似度计算,文本分类。

问题的关键在于,如何把文本表示成计算机能懂的数据形式?

1.最原始的方法有两个,一个是one hot表示法 ,一个是频率表示法。但是这么表示太简单粗暴

2.tfidf不仅考虑了单词出现的频率,而且考虑了单词在整个文本中的重要度。

参考博客

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html


python程序如下

结果:


用KERAS做DNN:

https://www.cnblogs.com/zhangbojiangfeng/p/6362936.html

input dim是输入矩阵的列数。

问题:DNN中dense的层数怎么确定?

你可能感兴趣的:(tfidf)