【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩】 https://b23.tv/zKOtd3L
目 录
一 引言1
二 系统分析2
2.1 必要性和可行性分析2
2.2 技术分析2
三 总体设计4
3.1 可视化界面设计4
3.2 数据库设计4
3.3 网页设计5
四 实验实现6
4.1 大数据实验环境的搭建6
4.1.1 Linux系统及相关软件的配置6
4.1.2 JDK的安装7
4.1.3 Scala的安装8
4.1.4 Hadoop的安装9
4.1.5 Spark的安装11
4.1.6 MySQL数据库的安装11
4.1.7 安装Tomcat12
4.2 IDEA开发工具的安装13
4.2.1 启动IDEA13
4.2.2 为IDEA安装Scala插件13
4.2.3 配置项目的JDK14
4.2.4 使用IDEA开发WordCount程序15
4.3 电信用户行为分析实现过程20
4.3.1 本地数据集上传到HDFS21
4.3.2 在MySQL中创建数据库21
4.3.3 开发Spark程序分析用户行为24
4.3.4 使用Spring MVC框架进行数据可视化分析27
4.3.5把网页应用部署到Tomcat服务器中35
五 结论38
电信用户行为分析
(安阳师范学院 软件学院,河南 安阳 455002)
摘 要: 电信用户行为分析是对用户登录电信公司网站的数据集加载到分布式文件系统HDFS中,对数据集进行用户行为分析把分析结果写入到MySQL数据库中,最后通过Spring MVC框架进行可视化分析。网站公司可以根据用户渠道趋势的分析、用户请求方式对比情况以及显示用户的具体信息预测未来网民行为的变化方式,进一步扩展公司的业务。本文介绍了整个项目的系统分析,技术分析以及整个项目的总体设计。
关键词:电信用户行为分析;分布式文件系统;Spring MVC框架;MySQL数据库
一 引言
近些年来,随着移动通信网络和互联网技术的融合与发展,移动互联网己经渗入到人们日常工作和生活的各个领域,成为不可或缺的一部分,人们可以非常便捷地使用终端接入通信网络来访问互联网。网络技术的发展为用户提供了多样化、高速率的网络服务;同时,用户更加期待更加具有差异化与个性化的服务。挖掘发现用户上网的共性及个性特征,对用户的行为偏好进行深入洞察,实现精准用户定位和精细化运营,就成为了在移动互联网时代制胜的关键法宝。本次项目主要是针对一些省市的用户登录电信公司网站的数据进行分析和可视化,由此可以清晰地反映出用户登录渠道的变化趋势;用户通过PC机、平板电脑和手机这三种渠道登录网页的分布状况和所占比例;以及查看各用户的具体信息。
二 系统分析
2.1 必要性和可行性分析
电信用户行为分析中根据浙江省丽水市、福建省南平市和福建省福州市三个地方的用户登录电信网站的数据进行分析,主要对用户登录网站渠道趋势的分析、用户登录网站时的请求方式以及显示用户的具体信息。尽管是网络技术发展快速,但是很少有人去透彻的分析网民的具体行为信息,在一定程度上制约了其发展的速度;网站公司也可以通过对用户行为的分析得到未来用户行为的发展趋向,从而可以进一步的扩大网民的数量,进而提高网站公司的发展速度。除此之外电信用户行为分析过程中先通过安装系统,为后边的实验配置好环境,而且各软件的安装步骤和注意事项都是我们之前学过以及安装练习过的,有一定理论基础和经验,安装过程也不会因此而难住。系统安装成功后对电信行业用户行为的数据集进行可视化分析,我们之前也系统的学习过如何对数据进行可视化分析,除此之外我们也可以根据林子雨老师的步骤进行操作,整个实验过程中所用到技术大多都是我们之前系统的学习过的,因此具有相应技术的理论基础。
2.2 技术分析
(1)Linux系统:Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。本次实验的所有步骤都是在Linux系统下进行的,他是整个实验的基础环境。
(2)MySQL:MySQL是一个真正的多用户、多线程SQL数据库服务器。SQL(结构化查询语言)是世界上最流行的和标准化的数据库语言,它使得存储、更新和存取信息更加容易。MySQL是一个客户机/服务器结构的实现,它由一个服务器守护程序mysqld和许多不同的客户程序以及数据库组成的。MySQL是最好的关系数据库管理系统应用软件之一。也是现阶段我们所学的用于存储数据的数据库,他所使用的语言我们相对比较熟悉;我们在实验中主要是用它存储用户行为分析的结果。
(3)Hadoop:Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。本次实验主要是利用Hadoop中的组件HDFS对电信用户行为数据集进行存储和管理。
(4)Tomcat: Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。本次实验主要利用它来响应HTML页面的访问请求,以此用来呈现数据挖掘和分析的结果,提供网页服务。
(5)Spring: Spring是一个开放源代码的设计层面框架,他解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。Spring是一个轻量级的Java 开发框架。本次实验主要是利用Spring、Spring MVC框架和MyBatis框架三者组合开发网页应用,对数据分析结果进行可视化展现。
(6)IntelliJ IDEA:是Java语言开发的集成开发环境,在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、 创新的GUI设计等方面的功能可以说是超常的,具有非常好的特性。本实验主要是采用IDEA进行程序开发,对程序进行打包,生成应用程序JAR包。
(7)Spark:Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点,本次实验主要是对数据进行计算处理。
三 总体设计
电信用户行为分析主要是以linux操作系统为环境基础,在其基础上配置以Hadoop为主的大数据技术体系。配置MySQL关系型数据库,在MySQL中创建相应的数据库、表和视图,用户分析的结果都会被写入到数据库中。在linux环境中配置网页服务器Tomcat,通过IDEA工具把程序生成应用程序JAR包,把Spring MVC框架中生成的文件复制到Tomcat中,把网页应用部署到Tomcat中,为两者建立相应的连接,然后再打开浏览器,输入相应的地址,就可以看到相应的数据图表。
3.1 可视化界面设计
本文所得到的可视化实现的页面主要包括:用户渠道分析的折线图、用户请求方式对比情况柱状图、用户渠道的饼图和现实用户的具体信息这几个可视化页面。
3.2 数据库设计
数据库主要是在MySQL中建立,本次实验需要在MySQL中创建相应的数据库、表和视图。创建一个新的数据库spark_web用于存储后面创建的表和视图,在数据库spark_web创建一个数据汇总表sum记录关于用户登录电信公司网站的汇总数据(包含:用户编号、登陆次数和在线时长等等);创建数据明细表detail记录关于用户登录电信公司网站的时间信息(包含:用户编号、首次登陆时间和在线时长等等);创建数据原始明细表cleanMap记录用户登录电信公司网站的细节信息(包含: 用户编号、登陆时间、登陆IP地址、登陆区域、请求类型和渠道等);创建区域维表t_dim_area记录区域编码所对应的城市名称;创建渠道维表t_dim_channel记录渠道编码所对应的渠道名称;创建请求类型表t_dim_requesttype记录请求类型编码所对应的请求类型名称。在数据库中也要建立五个相应的视图来作为网页可视化分析的数据源。用户行为分析的结果会被写入到数据库创建的相应的表中,数据库中的视图作为网页可视化分析的数据源;以上便是对数据库的设计。
3.3 网页设计
由于实验的前期以及把数据集分析的结果存入到了MySQL数据库中,通过使用Spring、SpringMVC、MyBatis框架和可视化图表ECharts编写