一、所用技术
Python语言+Django框架+sqlite/mysql数据库+jieba分词+scikit_learn机器学习+情感分析 snownlp
SnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的,而中文没有空格分割特征词,Python做中文文本挖掘较难,后续开发了一些针对中文处理的库,例如SnowNLP、Jieba、BosonNLP等。注意SnowNLP处理的是unicode编码,所以使用时请自行decode成unicode。
2、项目技术栈
Python3.x语言+Django框架+mysql数据库+scrapy爬虫框架
Pandas、jieba、scikit_learn机器学习(聚类算法)、echarts可视化、Pillow
情感分析 snownlp
SnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的,而中文没有空格分割特征词,Python做中文文本挖掘较难,后续开发了一些针对中文处理的库,例如SnowNLP、Jieba、BosonNLP等。注意SnowNLP处理的是unicode编码,所以使用时请自行decode成unicode。
二、运行截图
三、补充说明
1、项目技术栈
Python3.x语言+Django框架+mysql数据库+scrapy爬虫框架
Pandas、jieba、scikit_learn机器学习(聚类算法)、echarts可视化、Pillow
情感分析 snownlp
SnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的,而中文没有空格分割特征词,Python做中文文本挖掘较难,后续开发了一些针对中文处理的库,例如SnowNLP、Jieba、BosonNLP等。注意SnowNLP处理的是unicode编码,所以使用时请自行decode成unicode。
Snownlp主要功能包括:
中文分词(算法是Character-Based Generative Model)
词性标注(原理是TnT、3-gram 隐马)
情感分析
文本分类(原理是朴素贝叶斯)
转换拼音、繁体转简体
提取文本关键词(原理是TextRank)
提取摘要(原理是TextRank)、分割句子
文本相似(原理是BM25)
2、文件说明:
|-- 项目
|-- db.sqlite3 数据库相关 重要 想看数据,可以用navicat打开
|-- requirements.txt 项目依赖库,可以理解为部分技术栈之类的
|-- 运行说明.txt 如何运行
|-- 配置相关命令.txt 没啥大卵用
|-- data 原始数据文件
|-- stopwords 停用词 分词用的
|-- app 主要代码文件夹
| |-- models.py django的model 不懂百度一下即可 这个有点重要
| |-- views.py 后端主要代码 重点 重点 重点 重点 重点 重点
|-- meteorological
| |-- settings.py 配置文件
| |-- urls.py 路由 这个有点重要
|-- static 静态文件夹 js css img这些文件
|-- templates 模板 你也可以理解为网页,但是他是django处理好数据后和他结合,就形成了最终的网页
2、Python依赖的包:
jieba==0.39
Django==2.2.13
snownlp==0.12.3
PyMySQL==1.0.2
pandas==1.1.4
tqdm==4.52.0
scikit_learn==1.0.2
3、运行说明:
进入到项目目录路径下,在teminal终端输入启动命令:python manage.py runserver
然后点击出现的链接,浏览器打开访问即可(或者复制链接到想要的浏览器访问)
http://127.0.0.1:8000/
账号:admins 密码:admins
4、爬虫运行说明:
进入weibo-search/weibo/打开setting.py文件,第17行修改自己的新浪微博cookie
进入weibo-search/weibo/spider目录下,执行命令:scrapy crawl search