大数据毕业设计hadoop+spark+hive微博舆情情感分析 知识图谱微博推荐系统

(一)Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集;

(二)使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;

(三)使用hive数仓技术建表建库,导入.csv数据集;

(四)离线分析采用hive_sql完成,实时分析利用Spark之Scala完成;

(五)统计指标使用sqoop导入mysql数据库;

(六)使用Flask+echarts进行可视化大屏开发;

(七)使用机器学习、深度学习的算法进行个性化微博推荐;

(八)使用卷积神经网络KNN、CNN实现热搜话题流量预测;

(九)搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、话题流量预测界面、知识图谱等实现;

大数据毕业设计hadoop+spark+hive微博舆情情感分析 知识图谱微博推荐系统_第1张图片

你可能感兴趣的:(javaweb,大数据,hadoop,课程设计)