自然语言处理爬过的坑:基于爬虫抓取的语料,使用gensim建设dictionary、corpus、tfidf_model并保存成文件
#生成字典和向量语料dictionary=corpora.Dictionary([corpora_documents])#print(dictionary)#print'dfs:',dictionary.dfs#字典词频,{单词id,在多少文档中出现}print'num_docs:',dictionary.num_docs#文档数目print'num_pos:',dictionary.num_po