开发软件:Pycharm 开发环境: Python3.6
开发技术:Requests,Pandas,numpy,csv,Matplotlib,SnowNLP,seaborn
(1)getData爬取数据部分:
Fansdata ---存放每个股票的粉丝数
Pricedata ---每个股票的价格、成交额等信息
Reviewdata –每个股票的评论
Score –评论经过情感分析后的得分,通过snowNlp实现,分为消极积极中等
Getfans –爬取粉丝数代码
GetReview –爬取评论代码
Login –模拟登陆
Price --爬取价格成交额等信息
由于300只股票中有部分代号不为SH开头,所以当遍历到的代号在下图中时,头为SZ。在将股票代号名称带入到网址中进行爬虫。
爬评论:爬取前100页(在查看数据后,便于数据的统一手动将top5数据筛选到3.22-4.23号)。
爬价格:由于爬取价格需要登陆,不登陆无法得到价格。所以需要先进行登陆。
登录之后,根据日k线数据,找到网址爬取部分数据。
(2)managedata数据分析部分:
Anapriceandturover:为价格与成交量折线图
Anareview:价格与三种情感之间的关系。选出top5的股票代码、价格;根据评论里的日期,遍历得到所有评论的日期区间;根据评论的得分,统计消极积极中立各自数量;最后将所有数据画成折线图,评论数量的坐标在左,价格在右
Heatmap:价格与成交额的热力图
Nlp:通过snownlp对每一条评论进行情感分析,保存成csv文件