计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统 医生数据分析可视化大屏 医生爬虫 医疗可视化 医生大数据 机器学习 大数据毕业设计
流程:1.Python爬虫采集中华健康网约10万医生数据,最终存入mysql数据库;2.使用pandas+numpy/hadoop+mapreduce对mysql中的医生数据进行数据分析,使用高德地图解析地理位置,并将结果转入.csv文件同时上传到hdfs文件系统;3.使用hive建库建表,导入.csv数据集;4.一半指标使用离线数仓hive_sql分析,一半指标使用实时数仓实时计算Spark之S