okbin1991

大数据项目实战之在线教育（01数仓需求）

第1章数据仓库概念

数据仓库是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

数据仓库是出于分析报告和决策支持目的而创建的，为需要业务智能的企业，提供指导业务流程改进、监控时间、成本、质量以及控制。

第2章项目需求及架构设计

2.1 项目需求分析

一、数据采集平台搭建

二、实现数据仓库分层的搭建

三、实现数据清洗、聚合、计算等操作

四、统计各指标，如统计通过各地址跳转注册的用户人数、统计各平台的用户人数、统计支付金额topN的用户

2.2 项目框架

2.2.1 技术选型

一、数据存储：Hdfs

二、数据处理：Hive、Spark

三、任务调度：Azkaban

2.2.2 流程设计

2.2.3 框架版本选型

第3章用户注册模块需求

3.1原始数据格式及字段含义

1.baseadlog 广告基础表原始json数据

{

"adid": "0", //基础广告表广告id

"adname": "注册弹窗广告0", //广告详情名称

"dn": "webA" //网站分区

}

basewebsitelog 网站基础表原始json数据

{

"createtime": "2000-01-01",

"creator": "admin",

"delete": "0",

"dn": "webC", //网站分区

"siteid": "2", //网站id

"sitename": "114", //网站名称

"siteurl": "www.114.com/webC" //网站地址

}

memberRegtype 用户跳转地址注册表

{

"appkey": "-",

"appregurl": "http:www.webA.com/product/register/index.html", //注册时跳转地址

"bdp_uuid": "-",

"createtime": "2015-05-11",

"dt":"20190722", //日期分区

"dn": "webA", //网站分区

"domain": "-",

"isranreg": "-",

"regsource": "4", //所属平台 1.PC 2.MOBILE 3.APP 4.WECHAT

"uid": "0", //用户id

"websiteid": "0" //对应basewebsitelog 下的siteid网站

}

pcentermempaymoneylog 用户支付金额表

{

"dn": "webA", //网站分区

"paymoney": "162.54", //支付金额

"siteid": "1", //网站id对应对应basewebsitelog 下的siteid网站

"dt":"20190722", //日期分区

"uid": "4376695", //用户id

"vip_id": "0" //对应pcentermemviplevellog vip_id

}

pcentermemviplevellog用户vip等级基础表

{

"discountval": "-",

"dn": "webA", //网站分区

"end_time": "2019-01-01", //vip结束时间

"last_modify_time": "2019-01-01",

"max_free": "-",

"min_free": "-",

"next_level": "-",

"operator": "update",

"start_time": "2015-02-07", //vip开始时间

"vip_id": "2", //vip id

"vip_level": "银卡" //vip级别名称

}

memberlog 用户基本信息表

{

"ad_id": "0", //广告id

"birthday": "1981-08-14", //出生日期

"dt":"20190722", //日期分区

"dn": "webA", //网站分区

"email": "[email protected]",

"fullname": "王69239", //用户姓名

"iconurl": "-",

"lastlogin": "-",

"mailaddr": "-",

"memberlevel": "6", //用户级别

"password": "123456", //密码

"paymoney": "-",

"phone": "13711235451", //手机号

"qq": "10000",

"register": "2016-08-15", //注册时间

"regupdatetime": "-",

"uid": "69239", //用户id

"unitname": "-",

"userip": "123.235.75.48", //ip地址

"zipcode": "-"

}

其余字段为非统计项直接使用默认值“-”存储即可

3.2数据分层

在hadoop集群上创建 ods目录

hadoop dfs -mkdir -p /user/atguigu/ods

在hive里分别建立三个库，dwd、dws、ads 分别用于存储etl清洗后的数据、宽表和拉链表数据、各报表层统计指标数据。

create database dwd;

create database dws;

create database ads;

各层级 ods 存放原始数据

dwd 结构与原始表结构保持一致，对ods层数据进行清洗

dws 以dwd为基础进行轻度汇总

ads 报表层，为各种统计报表提供数据

各层建表语句：

表模型：

dwd层 6张基础表

dws层宽表和拉链表

宽表

拉链表

报表层各统计表

3.3模拟数据采集上传数据

模拟数据采集将日志文件数据直接上传到hadoop集群上，

3.4 ETL数据清洗

需求1：必须使用Spark进行数据清洗，对用户名、手机号、密码进行脱敏处理，并使用Spark将数据导入到dwd层hive表中

清洗规则用户名：王XX 手机号：137*****789 密码直接替换成******

3.5基于dwd层表合成dws层的宽表

需求2：对dwd层的6张表进行合并，生成一张宽表，先使用Spark Sql实现。有时间的同学需要使用DataFrame api实现功能,并对join进行优化。

3.6拉链表

需求3：针对dws层宽表的支付金额(paymoney)和vip等级(vip_level)这两个会变动的字段生成一张拉链表，需要一天进行一次更新

3.7报表层各指标统计

需求4：使用Spark DataFrame Api统计通过各注册跳转地址(appregurl)进行注册的用户数

需求5：使用Spark DataFrame Api统计各所属网站(sitename)的用户数

需求6：使用Spark DataFrame Api统计各所属平台的(regsourcename)用户数

需求7：使用Spark DataFrame Api统计通过各广告跳转(adname)的用户数

需求8：使用Spark DataFrame Api统计各用户级别(memberlevel)的用户数

需求9：使用Spark DataFrame Api统计各vip等级人数

需求10：使用Spark DataFrame Api统计各分区网站、用户级别下(website、memberlevel)的top3用户

第4章用户做题模块需求

4.1原始数据格式及字段含义

QzWebsite.log 做题网站日志数据

{

"createtime": "2019-07-22 11:47:18", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"domain": "-",

"dt": "20190722", //日期分区

"multicastgateway": "-",

"multicastport": "-",

"multicastserver": "-",

"sequence": "-",

"siteid": 0, //网站id

"sitename": "sitename0", //网站名称

"status": "-",

"templateserver": "-"

}

QzSiteCourse.log 网站课程日志数据

{

"boardid": 64, //课程模板id

"coursechapter": "-",

"courseid": 66, //课程id

"createtime": "2019-07-22 11:43:32", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"helpparperstatus": "-",

"sequence": "-",

"servertype": "-",

"showstatus": "-",

"sitecourseid": 2, //网站课程id

"sitecoursename": "sitecoursename2", //网站课程名称

"siteid": 77, //网站id

"status": "-"

}

QzQuestionType.log 题目类型数据

{

"createtime": "2019-07-22 10:42:47", //创建时间

"creator": "admin", //创建者

"description": "-",

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"papertypename": "-",

"questypeid": 0, //做题类型id

"quesviewtype": 0,

"remark": "-",

"sequence": "-",

"splitscoretype": "-",

"status": "-",

"viewtypename": "viewtypename0"

}

QzQuestion.log 做题日志数据

{

"analysis": "-",

"answer": "-",

"attanswer": "-",

"content": "-",

"createtime": "2019-07-22 11:33:46", //创建时间

"creator": "admin", //创建者

"difficulty": "-",

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"lecture": "-",

"limitminute": "-",

"modifystatus": "-",

"optnum": 8,

"parentid": 57,

"quesskill": "-",

"questag": "-",

"questionid": 0, //题id

"questypeid": 57, //题目类型id

"quesviewtype": 44,

"score": 24.124501582742543, //题的分数

"splitscore": 0.0,

"status": "-",

"vanalysisaddr": "-",

"vdeoaddr": "-"

}

QzPointQuestion.log 做题知识点关联数据

{

"createtime": "2019-07-22 09:16:46", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"pointid": 0, //知识点id

"questionid": 0, //题id

"questype": 0

}

QzPoint.log 知识点数据日志

{

"chapter": "-", //所属章节

"chapterid": 0, //章节id

"courseid": 0, //课程id

"createtime": "2019-07-22 09:08:52", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"excisenum": 73,

"modifystatus": "-",

"pointdescribe": "-",

"pointid": 0, //知识点id

"pointlevel": "9", //知识点级别

"pointlist": "-",

"pointlistid": 82, //知识点列表id

"pointname": "pointname0", //知识点名称

"pointnamelist": "-",

"pointyear": "2019", //知识点所属年份

"remid": "-",

"score": 83.86880766562163, //知识点分数

"sequece": "-",

"status": "-",

"thought": "-",

"typelist": "-"

}

QzPaperView.log 试卷视图数据

{

"contesttime": "2019-07-22 19:02:19",

"contesttimelimit": "-",

"createtime": "2019-07-22 19:02:19", //创建时间

"creator": "admin", //创建者

"dayiid": 94,

"description": "-",

"dn": "webA", //网站分区

"downurl": "-",

"dt": "20190722", //日期分区

"explainurl": "-",

"iscontest": "-",

"modifystatus": "-",

"openstatus": "-",

"paperdifficult": "-",

"paperid": 83, //试卷id

"paperparam": "-",

"papertype": "-",

"paperuse": "-",

"paperuseshow": "-",

"paperviewcatid": 1,

"paperviewid": 0, //试卷视图id

"paperviewname": "paperviewname0", //试卷视图名称

"testreport": "-"

}

QzPaper.log 做题试卷日志数据

{

"chapter": "-", //章节

"chapterid": 33, //章节id

"chapterlistid": 69, //所属章节列表id

"courseid": 72, //课程id

"createtime": "2019-07-22 19:14:27", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"papercatid": 92,

"paperid": 0, //试卷id

"papername": "papername0", //试卷名称

"paperyear": "2019", //试卷所属年份

"status": "-",

"suitnum": "-",

"totalscore": 93.16710017696484 //试卷总分

}

QzMemberPaperQuestion.log 学员做题详情数据

{

"chapterid": 33, //章节id

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"istrue": "-",

"lasttime": "2019-07-22 11:02:30",

"majorid": 77, //主修id

"opertype": "-",

"paperid": 91,//试卷id

"paperviewid": 37, //试卷视图id

"question_answer": 1, //做题结果(0错误 1正确)

"questionid": 94, //题id

"score": 76.6941793631127, //学员成绩分数

"sitecourseid": 1, //网站课程id

"spendtime": 4823, //所用时间单位(秒)

"useranswer": "-",

"userid": 0 //用户id

}

QzMajor.log 主修数据

{

"businessid": 41, //主修行业id

"columm_sitetype": "-",

"createtime": "2019-07-22 11:10:20", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"majorid": 1, //主修id

"majorname": "majorname1", //主修名称

"sequence": "-",

"shortname": "-",

"siteid": 24, //网站id

"status": "-"

}

QzCourseEduSubject.log 课程辅导数据

{

"courseeduid": 0, //课程辅导id

"courseid": 0, //课程id

"createtime": "2019-07-22 11:14:43", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"edusubjectid": 44, //辅导科目id

"majorid": 38 //主修id

}

QzCourse.log 题库课程数据

{

"chapterlistid": 45, //章节列表id

"courseid": 0, //课程id

"coursename": "coursename0", //课程名称

"createtime": "2019-07-22 11:08:15", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"isadvc": "-",

"majorid": 39, //主修id

"pointlistid": 92, //知识点列表id

"sequence": "8128f2c6-2430-42c7-9cb4-787e52da2d98",

"status": "-"

}

QzChapterList.log 章节列表数据

{

"chapterallnum": 0, //章节总个数

"chapterlistid": 0, //章节列表id

"chapterlistname": "chapterlistname0", //章节列表名称

"courseid": 71, //课程id

"createtime": "2019-07-22 16:22:19", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"status": "-"

}

QzChapter.log 章节数据

{

"chapterid": 0, //章节id

"chapterlistid": 0, //所属章节列表id

"chaptername": "chaptername0", //章节名称

"chapternum": 10, //章节个数

"courseid": 61, //课程id

"createtime": "2019-07-22 16:37:24", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"outchapterid": 0,

"sequence": "-",

"showstatus": "-",

"status": "-"

}

QzCenterPaper.log 试卷主题关联数据

{

"centerid": 55, //主题id

"createtime": "2019-07-22 10:48:30", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"openstatus": "-",

"paperviewid": 2, //视图id

"sequence": "-"

}

QzCenter.log 主题数据

{

"centerid": 0, //主题id

"centername": "centername0", //主题名称

"centerparam": "-",

"centertype": "3", //主题类型

"centerviewtype": "-",

"centeryear": "2019", //主题年份

"createtime": "2019-07-22 19:13:09", //创建时间

"creator": "-",

"description": "-",

"dn": "webA",

"dt": "20190722", //日期分区

"openstatus": "1",

"provideuser": "-",

"sequence": "-",

"stage": "-"

}

Centerid:主题id centername:主题名称 centertype:主题类型 centeryear:主题年份

createtime:创建时间 dn:网站分区 dt:日期分区

QzBusiness.log 所属行业数据

{

"businessid": 0, //行业id

"businessname": "bsname0", //行业名称

"createtime": "2019-07-22 10:40:54", //创建时间

"creator": "admin", //创建者

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"sequence": "-",

"siteid": 1, //所属网站id

"status": "-"

}

4.2模拟数据采集上传数据

4.3解析数据

需求1：使用spark解析ods层数据，将数据存入到对应的hive表中,要求对所有score 分数字段进行保留1位小数并且四舍五入。

4.4维度退化

需求2：基于dwd层基础表数据，需要对表进行维度退化进行表聚合，聚合成dws.dws_qz_chapter(章节维度表)，dws.dws_qz_course(课程维度表)，dws.dws_qz_major(主修维度表)，dws.dws_qz_paper(试卷维度表)，dws.dws_qz_question(题目维度表)，使用spark sql和dataframe api操作

dws.dws_qz_chapte : 4张表join dwd.dwd_qz_chapter inner join dwd.qz_chapter_list join条件：chapterlistid和dn ，inner join dwd.dwd_qz_point join条件：chapterid和dn, inner join dwd.dwd_qz_point_question join条件：pointid和dn

dws.dws_qz_course:3张表join dwd.dwd_qz_site_course inner join dwd.qz_course join条件：courseid和dn , inner join dwd.qz_course_edusubject join条件:courseid和dn

dws.dws_qz_major:3张表join dwd.dwd_qz_major inner join dwd.dwd_qz_website join条件：siteid和dn , inner join dwd.dwd_qz_business join条件：businessid和dn

dws.dws_qz_paper: 4张表join qz_paperview left join qz_center join 条件：paperviewid和dn,

left join qz_center join 条件：centerid和dn, inner join qz_paper join条件：paperid和dn

dws.dws_qz_question:2表join qz_quesiton inner join qz_questiontype join条件:

questypeid 和dn

4.5宽表合成

需求3：基于dws.dws_qz_chapter、dws.dws_qz_course、dws.dws_qz_major、dws.dws_qz_paper、dws.dws_qz_question、dwd.dwd_qz_member_paper_question 合成宽表dw.user_paper_detail,使用spark sql和dataframe api操作

dws.user_paper_detail:dwd_qz_member_paper_question inner join dws_qz_chapter join条件:chapterid 和dn ,inner join dws_qz_course join条件:sitecourseid和dn , inner join dws_qz_major join条件majorid和dn, inner join dws_qz_paper 条件paperviewid和dn , inner join dws_qz_question 条件questionid和

4.6报表层各指标统计

需求4：基于宽表统计各试卷平均耗时、平均分，先使用Spark Sql 完成指标统计，再使用Spark DataFrame Api。

需求5：统计各试卷最高分、最低分，先使用Spark Sql 完成指标统计，再使用Spark DataFrame Api。

需求6：按试卷分组统计每份试卷的前三用户详情，先使用Spark Sql 完成指标统计，再使用Spark DataFrame Api。

需求7：按试卷分组统计每份试卷的倒数前三的用户详情，先使用Spark Sql 完成指标统计，再使用Spark DataFrame Api。

需求8：统计各试卷各分段的用户id，分段有0-20,20-40,40-60，60-80,80-100

需求9：统计试卷未及格的人数，及格的人数，试卷的及格率及格分数60

需求10：统计各题的错误数，正确数，错题率

4.7将数据导入mysql

需求11：统计指标数据导入到ads层后，通过datax将ads层数据导入到mysql中

第5章售课模块

5.1原始数据格式及字段含义

1.salecourse.log 售课基本数据

{

"chapterid": 2, //章节id

"chaptername": "chaptername2", //章节名称

"courseid": 0, //课程id

"coursemanager": "admin", //课程管理员

"coursename": "coursename0", //课程名称

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"edusubjectid": 7, //辅导科目id

"edusubjectname": "edusubjectname7", //辅导科目名称

"majorid": 9, //主修id

"majorname": "majorname9", //主修名称

"money": "100", //课程价格

"pointlistid": 9, //知识点列表id

"status": "-", //状态

"teacherid": 8, //老师id

"teachername": "teachername8" //老师名称

}

courseshoppingcart.log 课程购物车信息

{

"courseid": 9830, //课程id

"coursename": "coursename9830", //课程名称

"createtime": "2019-07-22 00:00:00", //创建时间

"discount": "8", //折扣

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"orderid": "odid-0", //订单id

"sellmoney": "80" //购物车金额

}

3.coursepay.log 课程支付订单信息

{

"createitme": "2019-07-22 00:00:00", //创建时间

"discount": "8", //支付折扣

"dn": "webA", //网站分区

"dt": "20190722", //日期分区

"orderid": "odid-0", //订单id

"paymoney": "80" //支付金额

}

5.2模拟数据采集上传数据

Hadoop dfs -put salecourse.log /user/atguigu/ods

Hadoop dfs -put coursepay.log /user/atguigu/ods

Hadoop dfs -put courseshoppingcart.log /user/atguigu/ods

5.3解析数据导入到对应hive表中

5.4关联join聚合表

dwd.dwd_sale_course 与dwd.dwd_course_shopping_cart join条件：courseid、dn、dt

dwd.dwd_course_shopping_cart 与dwd.dwd_course_pay join条件：orderid、dn、dt

不允许丢数据，关联不上的字段为null,join之后导入dws层的表

5.5要求

1：通过Spark UI观察每个task的运行情况、数据量

2：解决数据倾斜问题

第6章思考

(1)第一层表哪些用overwrite合适，哪些用append合适

(2)数据过滤后，重组成需要的数据进行插入表的时候如何控制分区个数，即如何解决小文件过多问题。

(3)合成宽表时一个用户会对应多条明细支付金额数据，如何合并

(4)分区的场景和作用，为什么需要分区

代码例子

def etlBaseWebSiteLog(ssc: SparkContext, sparkSession: SparkSession) = { import sparkSession.implicits._ //隐式转换 ssc.textFile("/user/atguigu/ods/baswewebsite.log").mapPartitions(partition => { partition.map(item => { val jsonObject = ParseJsonData.getJsonData(item) val siteid = jsonObject.getIntValue("siteid") val sitename = jsonObject.getString("sitename") val siteurl = jsonObject.getString("siteurl") val delete = jsonObject.getIntValue("delete") val createtime = jsonObject.getString("createtime") val creator = jsonObject.getString("creator") val dn = jsonObject.getString("dn") (siteid, sitename, siteurl, delete, createtime, creator, dn) }) }).toDF().coalesce(1).write.mode(SaveMode.Overwrite).insertInto("dwd.dwd_base_website")}

你可能感兴趣的:(大数据,数据仓库)

大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
面试经验分享-回忆版某小公司兔子宇航员0301 数据开发面经分享面试经验分享职场和发展
说说你项目中数据仓库是怎么分层的，为什么要分层？首先是ODS层，连接数据源和数据仓库，数据会进行简单的ETL操作，数据来源通常是业务数据库，用户日志文件或者来自消息队列的数据等中间是核心的数据仓库层，可以细分为DWD，DIM，DWS层。首先是DWD层主要负责对数据进行进一步测清洗规范化的操作，但是应该尽可能保持和ODS层相同的数据粒度，可以通过维度退化等方式，将维度表退化为事实表例如下单表，减少关
一文读懂数据仓库构建流程（超详细）嗨皮一会吧数仓构建数据仓库
相信大家都知道数仓分层架构（ods、dwd、dim、dws等）。但是面对一个从0开始的数仓，我们难免会有一个疑问，应该如何去构建各层，以及数仓规划中要有哪些事实表和维度表，这个理论依据从何而来呢，相信大家看完本篇文章，可以在搭建数仓的时候有一个理论依据。1、数仓构建整体流程数仓构建核心图：我们可以发现其实数据开发占比整个数仓构建流程只是很小的部分，只要我们将前期的数据调研，各种数仓模型设计好，剩下
火星数据电竞数据，世界杯数据接口api，足球数据资料库 Tina0898 数据分析
电竞数据包含的内容有很多，比如说基础数据（实时比分，关键事件，赛后数据等等），统计数据（阵容分析，选手分析，地图分析等），还有资料库数据（赛事战队，赛程赛果，赛况榜单等等），众多的数据组合而成形成如今的电竞大数据。在当今电竞世界中，电子竞技的大数据可以用在多个方面，从自身来说：可以用来分析自己的强势点，可以分析对手的弱点，从而运用更好的策略来战胜对手。通过电竞大数据也可以更好地了解游戏，了解当下游
【学习总结|DAY026】MySQL基础 123yhy传奇学习 mysql 数据库
在Web后端开发中，数据库扮演着至关重要的角色，它是存储和管理数据的核心组件。近期学习了数据库相关知识，在此分享学习过程中的重点内容，涵盖数据库基础概念、MySQL操作以及SQL语句的详细使用等方面。一、数据库基础概念数据库（DataBase-DB）：形象地说，它就像是一个大型的数据仓库，专门用于高效地存储和管理海量数据。例如，在金融领域，同花顺的数据中心需要存储海量的股票、基金等金融数据，包括股
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
Databricks:打造数据国度的“金砖四国” weixin_33832340 大数据
Databricks，一个并不算熟悉的名字，是大数据国度的后起之星。成立不够一年，但却阵容强大，创始人都是开源圈子里面的重要级人物，值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks（金砖四国）。不知道，在数据国度里Databricks是否具有“金砖四国”的发展前景呢？可以先从公司的创始背景谈起，打开Databricks官网，“We'reworkingto
一文详解大厂数据中台架构 isNotNullX 架构大数据性能优化
在大数据发展的黄金期，几乎所有的高科技企业都在思考一个问题：海量数据作为大多数企业发展不可避免的一个趋势之后，企业该怎么去应用这部分数据资产，会对其商业产生什么影响，如何使数据对企业产生正面的推动而不是成为企业的负担。作为国内的主要大数据玩家，阿里在2015年提出了“大中台、小前台”的战略，奠定了其内部发展数据中台的基础。2018年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。至此，关于“
大数据公司 Databricks 详解 Bj陈默大数据
Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark大数据处理系统的多位创始人联合创立，包括AliGhodsi、AndyKonwinski、IonStoica、PatrickWendell、ReynoldXin、MateiZaharia、A
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
hive小文件合并机制_hive小文件的问题弊端以及合并做生活的创作者 hive小文件合并机制
小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map数，造成GC频繁，浪费集群资源；3、现在大数据平台文件总数超过30亿，单个NS文件数超过4亿的时候，读写性能会急剧下降，影响到所有读写该NS的任务性能；4、如果队列限制最大map数是20000，
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
2024年网络安全最全CTF —— 网络安全大赛_ctf网络安全大赛网安墨雨 web安全安全
前言随着大数据、人工智能的发展，人们步入了新的时代，逐渐走上科技的巅峰。\⚔科技是一把双刃剑，网络安全不容忽视，人们的隐私在大数据面前暴露无遗，账户被盗、资金损失、网络诈骗、隐私泄露，种种迹象表明，随着互联网的发展，网络安全需要引起人们的重视。\互联网安全从其本质上来讲就是互联网上的信息安全。从广义来说，凡是涉及到互联网上信息的保密性、完整性、可用性、真实性和可控性的相关技术和理论都是网络安全的研
基于Python大数据的王者荣耀战队数据分析及可视化系统计算机学姐大数据精选实战项目源码 Python精选实战项目源码 Vue源码 1024程序员节 python 大数据数据分析数据挖掘 django vue.js
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于大数据+大屏可视化+Python+D
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
基于微信小程序的健身房预约管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot vue.js java mysql 后端
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话（十）青云交大数据新视界 Java 大视界大数据文本分析自然语言处理文本挖掘机器翻译智能对话智能客服 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据物联网应用：数据处理与设备管理（八）青云交大数据新视界 Java 大视界大数据物联网数据处理设备管理车联网智能家居预测性维护 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据分布式缓存：提升数据访问性能（五）青云交大数据新视界 Java 大视界大数据分布式缓存数据访问性能 Redis Memcached 缓存一致性缓存击穿 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 微服务架构在大数据应用中的实践：服务拆分与数据交互（一）青云交大数据新视界 Java 大视界 Java 微服务架构大数据应用服务拆分数据交互性能优化安全考量分布式事务处理 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 驱动大数据流处理：Storm 与 Flink 入门（六）青云交大数据新视界 Java 大视界 Flink Storm 大数据流处理实时数据处理架构实时监控数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据仓库设计的优化原则（2 - 16 - 4）青云交大数据新视界 #Hive 之道 Hive 数据仓库优化原则数据分区存储格式查询优化 B 树索引查询性能大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Impala 性能优化：基于数据特征的存储格式选择（上）（19/30）青云交大数据新视界 #Impala 之道大数据 Impala 存储格式选择数据特征性能优化社交媒体数据金融数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之 Hudi 数据湖框架性能提升：高效处理大数据变更青云交 Hudi 之道大数据新视界大数据 Hudi 数据湖框架大数据变更数据版本控制性能提升数据存储优化
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
【Delete 删除数据语法合集】.NET开源ORM框架 SqlSugar 系列 Microi风闲【ORM】‌SqlSugar .net 开源微软技术后端 sqlsugar orm
系列文章目录.NET开源ORM框架SqlSugar系列文章目录系列文章目录前言一、根据实体删除1.1强类型实体2.2无主键实体删除2.3Object、接口、抽象类删除二、根据主键三、根据主键数组四、根据表达式五、联表删除六、无实体删除七、全局过滤器八、逻辑删除8.1逻辑删除方式1：8.2逻辑删除方式2：九、初始化表十、导航删除十一、常用案例11.1除最新N条清空11.2N到N条删除11.3大数据删
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

大数据项目实战之在线教育（01数仓需求）

第1章 数据仓库概念

第2章 项目需求及架构设计

2.1 项目需求分析

2.2 项目框架

2.2.1 技术选型

2.2.2 流程设计

2.2.3 框架版本选型

第3章 用户注册模块需求

3.1原始数据格式及字段含义

3.2数据分层

3.3模拟数据采集上传数据

3.4 ETL数据清洗

3.5基于dwd层表合成dws层的宽表

3.6拉链表

3.7报表层各指标统计

第4章 用户做题模块需求

4.1原始数据格式及字段含义

4.2模拟数据采集上传数据

4.3解析数据

4.4维度退化

4.5宽表合成

4.6报表层各指标统计

4.7将数据导入mysql

第5章 售课模块

5.1原始数据格式及字段含义

5.2模拟数据采集上传数据

5.3解析数据导入到对应hive表中

5.4关联join聚合表

5.5要求

第6章 思考

代码例子

你可能感兴趣的:(大数据,数据仓库)

第1章数据仓库概念

第2章项目需求及架构设计

第3章用户注册模块需求

第4章用户做题模块需求

第5章售课模块

第6章思考