分词(jieba)_词向量&词袋(doc2bow_tfidf_)_主题模型(lda_lsi)的使用规范
分词:1、读入待处理的中文样本数据,正则匹配,清洗数据data.content=data.content.str.replace("[^\u4e00-\u9fa50-9]","")#[\u4e00-\u9fa5]正则匹配所有中文[0-9]正则匹配所有数字#[\u4e00-\u9fa50-9]匹配所有中文和所有数字#[^\u4e00-\u9fa50-9]匹配非中文和数字的所有字符,^代表非2、停用词