【python-机器学习-毕业设计】基于机器学习的敏感话题数据分析系统设计与实现

摘  要

近年来,随着网络的不断发展,公众参与公共事务的程度越来越高,但在突发事件发生后,公众传达的言论中可能会掺杂着谣言,这对舆论态势是非常不利的,所以媒体要做好相应的舆论引导。微博作为政务新媒体的重要组成部分,是公开信息发布的重要渠道。分析微博上舆情文本的情感走向,对于了解重要时刻人民群众的实时情绪、人心所向具有重要指导意义,可用于发现敏感话题,探究原因并疏导情绪,同时也能为政府部门制定相应措施提供方向。

为了达到对敏感话题识别检测系统的视线,本次研究结合了网络爬虫、机器学习、Django等技术,实现了数据的爬取、处理、情感分析、敏感话题模型、可视化展示等。研究首先利用网络爬虫技术,爬取了微博疫情文本相关数据。其次从微博的文本特征出发进行数据预处理并进行精确分词,使用K-Means等聚类算法对文本数据聚类分析。再次使用词云图分析和贝叶斯分类模型进行可视化,绘制情感动态变化图。另外通过收集敏感话题对应的数据集,通过贝叶斯算法进行模型训练,达成了敏感话题识别检测的功能。最后使用前后端技术对数据集进行管理,并对分析结果的大数据可视化展示。

关键词:微博;机器学习;敏感话题;数据可视化

ABSTRACT

In recent years, with the continuous development of the Internet, the public participation in public affairs has become higher and higher. However, after the occurrence of emergencies, the comments conveyed by the public may be mixed with rumors, which is very unfavorable to the situation of public opinion, so the media should do a good job of corresponding public opinion guidance. As an important part of the new media for government affairs, microblog is an important channel for public information release. Analyzing the emotional trend of public opinion texts on Weibo is of important guiding significance for understanding the real-time emotions and popular feelings of the people at important moments. It can be used to find sensitive topics, explore the reasons and channel emotions, and at the same time, it can provide direction for government departments to formulate corresponding measures.

In order to achieve the line of sight of the sensitive topic identification and detection system, this research combines web crawler, machine learning, Django and other technologies to realize the data climbing, processing, emotion analysis, sensitive topic model, visual display, etc. The research first used the web crawler technology to crawl the relevant data of the microblog epidemic text. Secondly, the data pre-processing was carried out from the text characteristics of microblog and the accurate word segmentation, and K-Means and other clustering algorithms were used to analyze the text data clustering. Again, word cloud map analysis and Bayesian classification model were used to map the changes of emotion dynamics. In addition, by collecting data sets corresponding to sensitive topics and conducting model training through Bayesian algorithm, the function of sensitive topic identification and detection is achieved. Finally, the front and back end technology is used to manage the data set and visualized the big data of the analyzed results.

Key words: Weibo; machine learning; sensitive topics; data visualization

目  录

1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状分析

1.2.1 国内研究现状

1.2.2国外研究现状

1.3 研究目标

第2章 相关技术介绍

2.1 贝叶斯介绍

2.2 Python爬虫技术

2.3 情感分析

2.4 Django框架

2.5本章小结

第3章 系统需求分析

3.1 整体需求

3.2 功能需求分析

3.4 非功能需求分析

3.5 本章小结

第4章 系统设计

4.1 系统整体设计

4.2 实施方案设计

4.2.1 数据爬取模块

4.2.2 数据分析模块

4.3数据库设计

第5章 系统实现

5.1 数据爬取实现

5.2 数据分析实现

5.2.1 K-mean聚类模块

5.2.2 情感分析模块

5.2.3 敏感话题分析模块

5.3数据分词

5.4 数据可视化实现

5.5 Web管理实现

5.5.1 登录注册模块

5.5.2 前台展示模块

5.5.3 后台信息管理模块

5.6 本章小结

总结

参考文献

致    谢

第1章 绪论

1.1 研究背景及意义

舆论引导在这个信息十分发达的时代占据着举足轻重的地位,传播信息的速度加快,公众发布消息越发便捷,舆论的力量也不可忽视。尤其是在突发性公共卫生事件中,因其涉及到社会的整体利益,并有可能危及公众健康,所以在此类事件中,舆论引导的作用就越发明显。

微博作为活跃人数最多的互联网平台之一,是人们发表意见、关注新闻、分享观点的一个重要信息工具。微博社区内有大量活跃的用户,这些用户每天会产生海量的文本数据。这些数据充分反应了我国网民的舆情态势,具有很高的研究价值。对这些数据进行分析,可以得到用户对某一政策的支持度、某一热点新闻的看法、某一产品的喜爱程度等等。对微博内容进行情感分析,了解网民的观点态度和情感行为特征,对政策研究、舆情把握、产品改进都有重要的参考价值。针对社交软件的情感分析已经成为国内外情感处理方向的热门研究领域。微博不同于QQ、微信等中文常用社交软件,前者是开放式的,后者多用于私人通信。微博也不同于其他视频网站,视频的传播往往不具有大众性,大部分人都是观看者而不是创作者,不能反映网民普遍的情感倾向;而微博的内容载体基本以文字为主,人们作为创作者更容易发出自己的声音。因此,微博作为反应网络舆情的平台,具有天然的优势,因此也成为了中文情感分析领域的重点研究对象之一。此外,网络舆情安全也是我国国家安全的重要组成之一。以本次新冠肺炎来说,疫情相关的微博舆论随着疫情的持续发展而呈指数型增长,迅速成为社会关注的焦点。许多民众的正常生活,由于疫情下紧张的网络舆论而受到影响。关注微博舆情,对维持社会稳定、人民正常生活有着极其重要的作用。对微博文本进行敏感话题识别检测,分析网民的情感倾向,有利于引导网络舆论朝着良性的方向发展。  

第3章 系统需求分析

3.1 整体需求

新浪微博已成为我国第一大开放式的网络社交平台,基于我国庞大的互联网用户群体,每天都有大量的中文文本在这个平台上生成。这是不同于新闻数据、书籍这类常用的中文文本库,而是一线互联用户产生的文字信息,在中文文本处理领域有着极高的研究价值。本次研究是敏感话题识别检测系统的设计与实现,因此整体需求包括:能够实现疫情相关文本数据的获取,实现对数据的处理、敏感话题识别、情感分析和数据可视化处理。

整体业务流程如下:
 

【python-机器学习-毕业设计】基于机器学习的敏感话题数据分析系统设计与实现_第1张图片

图3.1 整体业务流程图

5.5 Web管理实现

5.5.1 登录注册模块

前端先判断管理员输入的账户名和密码格式是否正确,正确传到前端,错误则提示管理员输入正确的账户名和密码,后端获取从前端传过来的账户名和密码,通过对比用户输入的管理员账户名和密码和数据库中的管理员账户名和密码是否匹配。若两者匹配成功,则进入主界面,失败则弹出账号或密码错误,请重新输入。如图5-8和5-9分别为登录界面和注册界面。

               【python-机器学习-毕业设计】基于机器学习的敏感话题数据分析系统设计与实现_第2张图片           【python-机器学习-毕业设计】基于机器学习的敏感话题数据分析系统设计与实现_第3张图片

            

图5-8登录界面                            图5-9注册界面

【python-机器学习-毕业设计】基于机器学习的敏感话题数据分析系统设计与实现_第4张图片【python-机器学习-毕业设计】基于机器学习的敏感话题数据分析系统设计与实现_第5张图片

5.6 本章小结

在本设计章节中,完成了系统数据爬取模块、数据分析模块、数据可视化模块和Web管理模块的具体实现效果。

总结

本系统通过对Python和可视化等技术,实现了对疫情相关文本数据的爬取,并对爬取的数据进行处理、分析和可视化展示。本文结论及研究成果如下:实现了敏感话题识别检测系统的设计与实现研究,通过本次信息爬虫与展示系统的研究与实现,我最大的收获就是,了解了一个系统完整的开发流程,首先要进行需求分析,通过分析进行系统的设计,最后通过设计来进行系统的实现,然后进行测试。而且我发现理论知识和真正的实践有很大差距。要真正做到理论联系实际,还需多实践多练习。由于在此之前对于Python、爬虫、深度学习等知识了解的不够深入,所以在开始的时候,遇到了很多的困难,例如数据库连接有问题及无法实现参数的传递等等,不过通过在网上寻找有关资料以及同学的帮助下最后都得到了解决。

在此过程中,我不仅学到了很多知识,也提高了自己解决问题的能力,我不断的提高了自己,也得到了宝贵的经验,我相信这些对我以后的发展都会有很大帮助。

目前疫情情况在国家的统一方针下持续向好,对疫情相关的舆情分析研究未来可能终止,但是对于其他方面的舆情文本分析,一样可以按照本次研究的思路进行。因此在后续的编程中,要不断完善自己的思路和想法,通过实践来掌握相关理论,在以后的工作和学习中,继续学习相关理论知识,结合其他系统的优点特性,来对本系统进行完善和补足。  

你可能感兴趣的:(python,机器学习,课程设计)