目标:DataIDE完成数据处理,QuickBI完成数据前台展示
教育平台功能:在线视频观看,作业提交,形成性考核
分析:要了解学生学习情况和学习状态。分析学习行为,展现学习情况
数据分析维度:
平台健康度:每日登陆人数(用户登陆信息表),活跃度
用户习惯分析:分时段学习人数(当日人均登录时常表),学习次数,平均学习时长(当日人均登录时常表)
课程质量评估:用户活跃度(登录且学习,测验了),学习行为次数(用户学习活跃情况表),平均学习时长(看多久腻)
阿里云数据库RDS:基于Mysql
阿里云大数据计算(存储)服务MaxCompute:大规模数据存储(100G以上,最大EB)
数据开发平台DataIDE:可视化开发平台。拖拽式工作流开发,在线代码编辑,调度,预警,多任务类型
MaxComputeStudio:直接看数据,相当于navicate
在“我的实验资源”中点击“前往控制台”,使用账号和密码登录后,进入阿里云的控制台中。
根据控制台url输入网址。登录,子用户名@企业别名 或者 子用户名@默认域名
选择“云数据库RDS”进入到云数据库管理界面,找到自己的云数据库。
进入数据库后选择“账号管理”,创建一个数据库账号。
然后选择“数据库管理”,创建一个新的数据库,并授权给之前的用户
创建完成后,选择“登录数据库”,进入数据库登录界面,输入之前“账户管理”中创建好的用户名和密码,登录到数据库中。
登录时需要输入网络地址和端口,该信息可以在数据库的“基本信息”界面中看到
登录时输入这个 内网地址:端口 即可。
登录成功后选择“数据方案”中的“导入功能”
然后选择“新增任务”,将附件中的SQL导入到数据库中,完成数据表的初始化。
全部导入成功后会看到所有的5张表
这样表示导入成功
选择新增数据源,将之前的RDS服务器中的数据作为数据源导入
需要点“测试连通性”来测试是否可以连通,如果提示错误,那么需要进行白名单配置。
在RDS数据库的“基本信息”界面中,选择设置白名单,将错误提示中的 IP 地址拷贝到白名单中,再重新测试即可。
白名单中放入以下IP地址:
10.46.67.156,10.153.136.0/24,10.117.28.203,120.27.160.81,10.27.63.15,10.27.63.41,118.178.59.233,10.117.39.238,10.46.64.81, 118.178.142.154,10.152.69.0/24,118.178.56.228,10.27.63.60,100.64.0.0/8,121.43.112.137,118.178.84.74,10.143.32.0/24,121.43.110.160,120.27.160 .26,10.27.63.38 |
准备好SQL语句后,就可以在Dataworks中建立工作流任务完成数据同步和复杂查询工作。这里以“每日活跃情况分析”举例。
在控制台中点击“大数据计算服务dataworks”,并进入工作区
选择“数据开发”菜单下的“新建”-> 业务流程 建立,并输入任务名称
然后分别加入“数据同步”和“ODPS SQL”两个节点,分别输入节点名称,并连线
然后分别加入“数据同步”和“ODPS SQL”两个节点,分别输入节点名称,并连线
双击“同步数据”节点,配置导入数据源中的数据。选择需要用到的表,并导入到ODPS中。
这里默认是没有表的,所以先要点击里面的“一键生成目标表”来建立好表
然后在里面根据RDS中来源表建立对应的表
对应的建表语句如下:
CREATE TABLE IF NOT EXISTS zt_stu_study_schedule (
user_id BIGINT COMMENT '',
class_id BIGINT COMMENT '',
content_type STRING COMMENT '',
updated_date STRING COMMENT ''
)
COMMENT '学生学习日程表'
PARTITIONED BY (pt STRING);
分区信息为:
${bdp.system.bizdate}
在右侧调度中设置根节点
最后“保存”即可。
然后双击“执行查询”的ODPS SQL节点,将数据分析的SQL语句填写进去。
点击保存
SQL语句如下:
SELECT updated_date, COUNT(user_id),pt
FROM (
SELECT user_id, updated_date,pt, COUNT(*) AS study_times
FROM zt_stu_study_schedule
GROUP BY user_id,
updated_date,
pt
) tmp_table
WHERE study_times >= 3 AND pt = ${bdp.system.bizdate}
GROUP BY updated_date,
pt;
之后点击“提交”将任务保存并提交到系统中,即可使用。
首先申请免费30天试用的标准版Quick BI组件,并进入Quick BI 的工作区。
然后在里面选择建立新的数据源,可以选择直接通过MySQL版的RDS数据库来建立或通过MaxCompute来建立。
先来看通过RDS数据库的方式
根据需要设置数据源中相关的数据信息。
配置好后,点“连接测试”,如果测试通过,表示连接配置成功。
然后通过右边的自定义SQL来建立数据集
在这里编写之前分析过程中使用的SQL语句,并保存即可使用。
但是加入子查询的SQL语句是不支持的,所以一些复杂的数据库分析就必须通过MaxCompute来完成。
同样根据提示输入相关信息,并进行“连接测试”。测试通过后可以使用MaxCompute来进行操作。
但是这里由于需要在MaxCompute中应用到另一张表zt_stu_study_time_beihang,所以还需要将这张表也同步到MaxCompute中。为了方便,我们这里将所有表一起进行同步。
选择MaxCompute 中的“数据集成”选项,进入里面的“数据源”选项中。(可以参考 第2章 第3小节)
然后找到之前建立好的数据源,选择整库迁移选项。
在这里选择好所有的表,并切换成为“每日全量”和“整批上传”,点“提交任务”即可完成同步,然后回到Quick BI中继续完成基于MaxCompute数据源的“自定义SQL”。(存在的表则不需要迁移)
同样基于数据源建立“自定义SQL”,并进行SQL语句的加入和保存即可。SQL语句如下
SELECT updated_date, COUNT(user_id),pt
FROM (
SELECT user_id, updated_date,pt, COUNT(*) AS study_times
FROM zt_stu_study_schedule
GROUP BY user_id,
updated_date,
pt
) tmp_table
WHERE study_times >= 3 AND pt = <实时日期的前一天>
GROUP BY updated_date,
pt;
最后,在“仪表板”界面中建立新的仪表板来进行可视化数据显示操作。
选择了新建“仪表板”后,会进入到图表的编辑界面,根据业务需要选择图表样式,这里选择使用线型图来展示,同时在右侧“数据集”中选择之前建立好的数据集,并将查询出的字段作为“维度”和“度量”值加入到图表对应的选项中,点“更新”按钮后即可自动展示出图表。
最后选择将此图表保存即可将此图表保存下来,应用到业务系统中。
整个实验就到此结束了