cai-4

实训笔记8.31

8.31笔记
- 一、项目开发流程一共分为七个阶段
- - 1.1 数据产生阶段
  - 1.2 数据采集存储阶段
  - 1.3 数据清洗预处理阶段
  - 1.4 数据统计分析阶段
  - 1.5 数据迁移导出阶段
  - 1.6 数据可视化阶段
- 二、项目数据清洗预处理的实现
- - 2.1 清洗预处理规则
  - 2.2 代码实现
- 三、项目的数据统计分析阶段
- - 3.1 概念和技术选项
  - 3.2 Hive数据仓库进行统计分析时两个核心概念
  - - 3.1.1 数据仓库分层
    - 3.2.2 数据仓库建模
  - 3.3 数据统计分析的实现（最好把所有的HQL代码写到一个SQL文件中，最后统一执行运行）统计分析必须启动HDFS和YARN
  - - 3.3.1 构建ODS层
    - 3.3.2 构建DWD层
    - 3.3.3 构建ADS层
  - 3.4 统计分析部署和运行
- 四、项目的数据迁移导出阶段
- - 4.1 概念
  - 4.2 数据迁移导出的技术选型
- 五、项目的数据可视化阶段
- 六、【项目补充点】
- - 6.1 模拟其他年份，其他月份，其他日期的数据
- 七、相关代码
- - 7.1 导出
  - 7.2 生成
  - 7.3 收集
  - 7.4 清理
  - 7.5 分析

8.31笔记

一、项目开发流程一共分为七个阶段

1.1 数据产生阶段

1.2 数据采集存储阶段

1.3 数据清洗预处理阶段

1.4 数据统计分析阶段

1.5 数据迁移导出阶段

1.2~1.5：大数据开发阶段

1.3~1.5：周期性调度执行，三个阶段需要通过azkaban任务调度工具进行自动化周期调度执行，
（项目的第7个阶段，任务调度阶段）

1.6 数据可视化阶段

二、项目数据清洗预处理的实现

2.1 清洗预处理规则

数据清洗规则

一条用户行为数据如果字段个数不足16，那么数据不完整，舍弃
一条用户行为数据中如果响应状态码大于等于400的，那么数据访问错误，舍弃
一条用户行为数据中省份纬度经度年龄以-填充的，那么代表数据缺失，舍弃

数据预处理规则
预处理规则：清洗完成的数据中最后在输出时，有很多的字段我们不需要的，因此我们需要对部分数据进行舍弃，对需要保留的字段数据以\001特殊字符分割输出

技术选项：MapReduce技术

2.2 代码实现

【注意】

因为我们只需要做数据的清洗预处理操作，不涉及到聚合操作，因此我们只需要一个Mapper阶段即可，不需要reduce阶段

MapReduce数据清洗预处理是周期性调度执行的，一天执行一次，第二天处理前一天采集存储的数据，前一天采集存储的数据是以时间为基准的动态目录下存放，因此MR程序处理数据时，输入数据的目录必须得是昨天时间的目录。 【注意】会在第二天处理前一天的数据，一般会在第二天的凌晨去处理第一天采集存储的数据。（任务调度的事情）

MR程序处理完成的数据输出到HDFS上，但是数据清洗预处理完成的数据给Hive做统计分析的，Hive我们也是一天执行一次，Hive是在数据清洗预处理完成之后执行的。 MR程序处理完成的数据输出到HDFS上时，也必须以基于时间的动态目录存放

创建Maven项目，引入MR的编程依赖
编写MR程序的Mapper程序和Driver驱动程序
在本地测试运行无问题之后，需要将代码打成jar包上传到大数据环境中在YARN上运行必须启动YARN

三、项目的数据统计分析阶段

3.1 概念和技术选项

统计分析就是基于我们清洗预处理完成的高质量，从不同的数据纬度聚合数据，或者对数据进行计算得到我们感兴趣的一些指标或者是对网站运营发展有关的一些指标。

统计分析进行数据计算时，可能涉及到大量的聚合操作以及一些排名、排序等等操作，而这些操作也都是数据计算，那么我们就可以使用大数据计算框架完成，而大数据计算框架MapReduce如果要聚合、排序、分组等操作，MR代码就会非常的复杂。因此我们一般做统计分析时有一个想法，既能计算大量的数据，还能快速简单的进行数据的聚合、排名、分组等操作。就可以使用Hive数据仓库技术完成。

【注意】基本上到现在为止，如果我们要做大数据统计分析，不是直接使用大数据计算框架（MapReduce、Spark、Flink），因为大数据统计分析涉及到大量的聚合、排序、分组等等操作，操作如果直接使用大数据计算框架代码会非常的复杂。基本上都是使用类SQL（表面上写的是类SQL语句，底层还是大数据计算框架）的方式进行大数据统计分析的。

Hadoop—Hive

Spark—Spark SQL

Flink—Flink SQL

3.2 Hive数据仓库进行统计分析时两个核心概念

3.1.1 数据仓库分层

数据仓库建模是用来梳理表和表之间的关系的，便于我们后期进行统计分析。数据仓库分层是我们使用数据仓库进行统计分析的开发流程。

数据仓库分层从最底层开始到最高层主要有如下三层（不同的公司基于三层更加细致的分层）

ODS层（数据贴源层）

如果我们要使用Hive数据仓库做统计分析，首先我们需要把清洗预处理完成的数据导入到Hive中加载成为一个数据表，ODS层指的就是把清洗预处理完成的数据原模原样的导入到Hive中，导入进来之后这些表组成了ODS层

DW层（数据仓库层）–Hive统计分析的核心数据仓库建模的阶段
1. DWD层（明细宽表层）
  1. 把ODS层的数据表可以再次处理一下构建成为一个明细宽表、
  2. 明细宽表一般会把ODS层的字段拆分成更加细粒度的字段，便于我们后期好做统计分析（时间字段）
2. DIM层（纬表层）

纬度表如果比较多，那么纬度表单独划分到DW的DIM层

ADS层（数据应用层）

将统计分析的结果以指标表的形式存储到ADS层

3.2.2 数据仓库建模

建模的目的是为了方便我们后期统计分析

在使用Hive进行数据统计分析时，首先必须先把清洗预处理完成的数据加载到Hive中成为数据表，而且一般在真实的企业项目中，清洗预处理完成数据不止一个，各种各样的数据，数据和数据之间都是有关系的。

所谓的数据仓库建模就是我们在对数据进行清洗预处理的时候，清洗预处理完成之后的多个数据之间的关系梳理建模

数据仓库建模的名词解释
1. 事实表：一张表中基本全都是外键，如果我们需要查询数据，需要将这个表和各个对应的其它数据表进行关联查询才能得到我们想要的数据订单表
2. 维度表：事实表中外键对应的详细信息存储的表，而且他也是我们统计分析时纬度信息用户表商品表
数据仓库模型建立有很多种方式的，主要分为
1. 3NF数据仓库建模
2. 纬度建模
  1. 星型模型
    
    事实表直接与纬度表关联，而且只有一级关联
  2. 雪花模型
    
    事实表直接与维度表关联，纬度表拆分出更加细致的一些纬度表
  3. 星座模型
    
    在一个数仓中，事实表有多个，每一个事实表都有它自己对应的纬度表，纬度表还有它的二级纬度表

如何完成建模？数据清洗预处理的时候，把数据处理成为合适的模型结构

3.3 数据统计分析的实现（最好把所有的HQL代码写到一个SQL文件中，最后统一执行运行）统计分析必须启动HDFS和YARN

3.3.1 构建ODS层

ODS层指的是我们把清洗预处理完成的数据不加以任何的处理，直接原模原样的在Hive中构建与之对应的表格，并且把数据装载到表格当中

清洗预处理完成的数据格式以\001特殊字符分割的，这样的话可以避免分隔符和字段的中一些符号冲突，导致装载数据到Hive出现串行的问题。

Hive中数据表有很多分类的：内部表、外部表、分区表、分桶表

考虑：数据统计分析一天执行一次，也就意味着我们每天处理完成的数据都需要往Hive的ODS层的数据表导入一份，如何区分ODS层导入的数据是哪一天？需要构建一个分区表（基于时间的）。外部表

3.3.2 构建DWD层

DWD明细宽表层就是把ODS层的数据表字段拆分成为更加细粒度的字段，便于我们后期的统计分析。 DWD层说白了就是在ODS的数据表基础之上在多增加一些冗余字段，但是方便我们后期操作了

ODS层的字段如下：

可以拆分的字段主要有两个
1. 时间字段：后期需要基于细粒度的时间做统计分析
  
  年
  
  月
  
  日
  
  时
2. 来源URL字段：后期统计站内站外的流量占比，站内站外的对比是基于HOST主机名/域名——HOST

DWD层这个数据表就属于我们Hive的自有表了，因此明细宽表我们构建成为内部分区表即可

明细宽表中没有数据，明细宽表中的数据从什么地方来？因为DWD层是基于ODS层建立的，因此DWD层的数据需要从ODS层查询获得。需要从ODS层对应的数据表中查询指定的数据添加到DWD层当中（注意一下分区的问题）。

3.3.3 构建ADS层

ADS层其实就是我们基于DW数据仓库库构建的DWD和DIM层的数据表，进行查询，通过聚合、分组、排序等等操作统计相关的指标，得到指标数据，然后将指标数据存储到一个Hive数据表中。

基于时间纬度的指标
1. 统计网站每年的用户的流量
  
  网站每天都会产生数据，每一天数据一增加，那么当前年份的用户访问量必然增加一天的数据
  
  思路：不是针对明细宽表某一个分区的数据进行统计分析，而是针对于明细宽表中整体数据集进行统计分析（所有的分区进行操作）
  
  实现：因为在明细宽表中已经拆分除了visit_year字段，因此我们只需要根据visit_year分区聚合数据即可得到，每一年的用户访问量
  
  select visit_year,count(*) from dwd_user_behavior_detail group by visit_year;
2. 统计网站每一年不同月份的用户流量
  1. 实现同上
  2. 区别：分组时，需要根据年和月来分组
3. 统计网站每一年不同月份下每天用户的访问量
  1. 实现同上
  2. 区别：分组的时候，需要根据年、月、日三个字段来分组
4. 统计网站每一年不同月份下每天的每小时用户的访问量
  1. 实现同上
  2. 区别：分组的时候，需要根据年、月、日、时四个字段来分组
5. 统计网站每一年每一个月的流量相比于上个月的比例：开窗函数（上边界和下边界），针对每一年不同月份的用户流量指标的二次分析结果
```
select 
	temp.*,
	concat(round(temp.flow/temp.before_month_flow,1)*100,"%") as rate
from  (
	select 
	  * ,
	  first_value(flow) over(partition by visit_year order by visit_month asc rows between 1 PRECEDING and CURRENT ROW) as before_month_flow
	 from ads_month_flow
) as temp
```
基于地理纬度的指标
1. 统计网站不同省份每天用户的流量
  1. 数据统计分析每天执行一次，每天都要统计不同省份在当天的用户流量占比情况
  2. 统计两种方式
    1. 针对明细宽表的数据集整体进行聚合统计
      1. 上面这种方式不太友好，8.31号我要统计，按道理来说只需要统计8.30号采集的数据即可，8.29号的数据不需要统计了
      2. 但是如果针对数据集整体统计的话，8.29号的结果会重新计算一遍
      3. 指标表添加数据时需要覆盖添加
    2. 只针对当前时间分区的数据进行统计
      1. 节省资源
      2. 指标表的数据需要追加添加即可
2. 统计网站不同省份每月/每年用户流量
  
  针对的就是数据集整体而非某一个分区
3. 每天访问量TOP10的省份
  
  针对的不是明细宽表而是我们的前面统计不同省份每天用户流量指标（二次分析），指标统计出来之后需要覆盖添加
  
  需要使用排名函数
  
  ads_province_day_flow
```
select  temp.date_time, temp.province, temp.flow from{ select    *, row_number() over(partition by data_time order by flow desc) as rank_num from ads_province_day_flow } as temp where temp.rank_num <=10;
```
基于用户纬度的指标
1. 统计网站不同年龄段用户的流量
  
  明细宽表当中，存在一个字段代表的是用户的年龄，而用户年龄都是大于等于18岁，小于100岁。
  
  基于年龄这个字段，我想查看一下网站不同年龄段的用户情况
  
  用户年龄段
  1. 青年：18-44
  2. 中年：45-59
  3. 中老年：60-79
  4. 老年：80岁以上
  【注意】案例针对是数据集整体，不参杂时间的纬度概念，指标需要覆盖添加的
  
  需要用到hive中的分支函数
2. 统计网站每年/每月/每天的不同年龄段的用户访问量
3. 统计每天网站的独立访客数
  1. 独立访客数其实就是IP地址，一个IP算一个独立访客，只需要把每天的ip地址去重之后求一个总数，得到每天的独立访客数
  2. 针对某一个分区的，指标数据就是追加
4. 统计网站每月、每年的独立访问数
  
  针对数据集整体了
基于终端纬度的指标
1. 统计网站用户使用的不同浏览器的占比情况
  1. 用户行为数据中有一个字段user_agent，user_agent当中就包含着我们用户使用的浏览器信息情况，基于这个字段统计统计网站不同浏览器的占比情况
  2. 不统计所有的浏览器，我们只统计一些常见的浏览器的占比 IE、淘宝、火狐、欧朋、QQ浏览器 Safari苹果
  3. 不同年龄段用户访问量指标是类似的
2. 统计网站不同时间段下的不同浏览器的占比情况
基于来源纬度的指标
1. 统计网站每天站内和站外的流量占比
  1. 用户行为数据中有一个字段referer_url字段，字段代表的是用户访问网站的来源，来源可能是站内的，可能是站外的，现在统计网站站内和站外的来源流量
  2. 区分站内和站外来源，主要看referer_url中referer_host字段，字段代表来源的域名，如果域名是www.bailongma.com那么代表来源是站内的如果域名不是白龙马那么代表来源是站外的针对的是数据集整体，覆盖
2. 统计网站不同时间段的站内和站外的流量占比
3. 统计网站不同来源网站的占比
指标有很多，可以进行各种自由扩展

3.4 统计分析部署和运行

我们统计分析也是每天执行一次，我们总不能每天运行统计分析，指标代码我们自己手动挨着运行

我们统计分析需要把所有统计分析代码封装到一个xxx.sql文件中，然后到时候统计分析需要执行，我们直接使用hive -f xxx.sql --hiveconf xxx=xxxx

四、项目的数据迁移导出阶段

4.1 概念

现在我们通过Hive数据仓库做的统计分析指标都是在Hive的ADS层存储着。统计的指标的主要目的是为了指导网站的发展和运营的，因此统计完成的数据其中可以做很多操作：基于统计分析的结果进行二次统计分析；基于统计分析的指标结合相关大数据算法做一些数据预测或者数据的深度挖掘；基于统计分析的结果进行可视化大屏的制作。

我们项目中最终需要把统计分析的结果以图表的形式进行可视化展示。

目前现有的可视化技术基本都不太支持从Hive中直接读取数据然后进行可视化展示，但是这些技术支持从RDBMS（MySQL）中读取数据进行可视化展示。

因此我们做可视化大屏之前，需要把Hive数据仓库中ADS层的数据迁移导出到RDBMS关系型数据库当中，然后再借助大数据技术+RDBMS实现数据可视化展示即可

4.2 数据迁移导出的技术选型

我们就是想把Hive数据仓库中数据导出到RDBMS中，目前只学了SQOOP技术

当然除了Sqoop技术以外，还有一个技术DataX（阿里云提供的数据传输工具）

数据迁移导出的开发实现

要把Hive的数据迁移到MySQL中，SQOOP既可以实现把RDBMS数据迁移到大数据环境（导入），同时也支持把大数据环境数据迁移到RDBMS中（导出）

只需要编写针对性的SQOOP导出数据的命令即可，导出的时候需要注意两个问题：

MySQL中的必须提前存在和导出的指标表一致的数据表结构
导出数据时，有些指标数据追加到MySQL中（针对于分区的指标统计）–sqoop默认导出就是追加的，但是有些指标需要覆盖原先的MySQL数据表（针对整体数据集的指标统计）–sqoop支持不良好，可以通过sqoop把原始MySQL数据表清空，然后再导出

【注意】：后期的话我们做数据可视化，我们需要连接MySQL，我们本次只讲第三方工具的可视化，工具可视化基本上都是支持公网数据库，我们的自己的局域网数据库不支持的。如何获取带有一个公网IP的MySQL数据库：

我们购买一个云服务器，然后在云服务器上自己安装一个MySQL即可。

我们直接购买一个云MySQL数据库。

五、项目的数据可视化阶段

白龙马大屏

六、【项目补充点】

6.1 模拟其他年份，其他月份，其他日期的数据

只需要通过date -s “时间” 系统时间改成我们想要模拟数据的日期即可

把以前产生的userBehavior.log文件删除了

然后启动采集程序启动数据模拟程序

处理数据，只需要再把系统时间往后调整一天

【注意】：数据清洗预处理和数据统计分析，底层需要用到MR程序，一定一定要注意MR程序的Map任务的个数和reduce任务的个数，以及每一个map任务和reduce任务占用的内存。

七、相关代码

7.1 导出

# shell脚本中需要封装所有和数据导出相关的sqoop命令
# 导出每年用户的流量指标，指标针对的是数据集的整体，所以为了防止数据重复，导出的时候需要覆盖导出
# sqoop对覆盖导出适用还是有点问题，折中的方式：先通过sqoop命令把mysql对应的指标表的数据先清空 再导出
echo "======================导出ads_year_flow指标开始======================"
sqoop eval --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://gz-cdb-8yj5rfsd.sql.tencentcdb.com:63506/project?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8' --username root --password admin777rmrf --query 'truncate year_flow'

sqoop export --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://gz-cdb-8yj5rfsd.sql.tencentcdb.com:63506/project?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8' --username root --password admin777rmrf --table 'year_flow' --columns visit_year,flow --export-dir /user/hive/warehouse/project.db/ads_year_flow --input-fields-terminated-by '\001' -m 1

echo "===================== 导出ads_year_flow指标成功======================"

# 导出省份每天的流量 针对的分区数据统计 因此这个指标需要追加导出而非覆盖导出
echo "======================导出ads_province_day_flow指标开始======================"

sqoop export --driver com.mysql.cj.jdbc.Driver --connect 'jdbc:mysql://gz-cdb-8yj5rfsd.sql.tencentcdb.com:63506/project?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8' --username root --password admin777rmrf --table 'province_day_flow' --columns data_time,province,latitude,longitude,flow --export-dir /user/hive/warehouse/project.db/ads_province_day_flow --input-fields-terminated-by '\001' -m 1

echo "===================== 导出ads_province_day_flow指标成功======================"

7.2 生成

7.3 收集

# 1、给Flume进程agent起名别  source  channel sink组件起别名
project.sources=s1
project.channels=c1
project.sinks=k1

# 2、配置source关联的数据源  记录用户行为数据的日志文件/root/project/data-gen/userBehavior.log
project.sources.s1.type=exec
project.sources.s1.command=tail -F /root/project/data-gen/userBehavior.log

# 3、配置channel管道  基于内存的
project.channels.c1.type=memory
project.channels.c1.capacity=20000
project.channels.c1.transactionCapacity=10000
project.channels.c1.byteCapacity=104857600

# 4、配置sink关联的目的地 HDFS  HDFS的目的地是一个基于时间的动态目录
project.sinks.k1.type=hdfs
project.sinks.k1.hdfs.path=hdfs://single:9000/dataCollect/%Y-%m-%d
project.sinks.k1.hdfs.round=true
project.sinks.k1.hdfs.roundValue=24
project.sinks.k1.hdfs.roundUnit=hour
project.sinks.k1.hdfs.filePrefix=data
project.sinks.k1.hdfs.fileSuffix=.log
project.sinks.k1.hdfs.useLocalTimeStamp=true
# 文件滚动设置只基于文件的大小的滚动 不基于event滚动、时间滚动
project.sinks.k1.hdfs.rollInterval=0
project.sinks.k1.hdfs.rollCount=0
project.sinks.k1.hdfs.rollSize=134217728
project.sinks.k1.hdfs.fileType=DataStream

# 5、关联agent的各个组件
project.sources.s1.channels=c1
project.sinks.k1.channel=c1

7.4 清理

#!/bin/bash
hadoop jar /root/project/data-clean/project-clean-pre.jar com.sxuek.DataCleanDriver

7.5 分析

#!/bin/bash
yes=`date -d 'yesterday' +%Y-%m-%d`
echo $yes
hive -f /root/project/data-analy/data_analy.sql --hiveconf yesterday=$yes

-- 0、创建一个项目专属的数据库
create database if not exists project;
use project;
-- 1、构建ODS层的数据表，数据表和清洗预处理完成的数据格式一致的表格 而且ODS层的表格是外部分区表
create external table if not exists ods_user_behavior_origin(
   ip_addr string, --ip地址
   visit_time string,-- 浏览时间
   request_url string,-- 行为触发之后的请求网址
   referer_url string,-- 来源网址
   user_agent string,-- 用户使用的浏览器信息
   province string, --省份
   latitude string, -- 纬度
   longitude string, -- 经度
   age int --年龄
)partitioned by(data_gen_time string)
row format delimited fields terminated by '\001'; 

-- 2、需要将清洗预处理完成的昨天的数据（/dataClean/yyyy-MM-dd）导入到ods层的昨天时间分区中。
load data inpath '/dataClean/${hiveconf:yesterday}' into table ods_user_behavior_origin partition(data_gen_time='${hiveconf:yesterday}');

-- 3、构建DWD明细宽表层  就是在ods数据表基础之上增加了五列字段 visit_year  visit_month  visit_day  visit_hour referer_host
create  table if not exists dwd_user_behavior_detail(
   ip_addr string, --ip地址
   visit_time string,-- 浏览时间
   visit_year string, --拆分的浏览年份
   visit_month string,----拆分的浏览月份
   visit_day string,---拆分的浏览天
   visit_hour string,---拆分的浏览时
   request_url string,-- 行为触发之后的请求网址
   referer_url string,-- 来源网址
   referer_host string, -- 来源网址的域名
   user_agent string,-- 用户使用的浏览器信息
   province string, --省份
   latitude string, -- 纬度
   longitude string, -- 经度
   age int --年龄
)partitioned by(data_gen_time string)
row format delimited fields terminated by '\001'; 

-- 4、从贴源数据表查询明细宽表所需的数据，然后把数据增加到明细宽表的昨天的时间分区中
insert overwrite table dwd_user_behavior_detail partition(data_gen_time='${hiveconf:yesterday}')
select 
	ip_addr,
	visit_time,
	date_format(visit_time,'yyyy') as visit_year,
	date_format(visit_time,'MM') as visit_month,
	date_format(visit_time,'dd') as visit_day,
	date_format(visit_time,'HH') as visit_hour,
	request_url,
	referer_url,
	parse_url(referer_url,'HOST') as referer_host,
	user_agent,
	province,
	latitude,
	longitude,
	age
from ods_user_behavior_origin 
where data_gen_time='${hiveconf:yesterday}';

-- 5、构建数据应用层 统计各种各样的指标数据，并且把指标数据保存到Hive对应的指标表中 指标表的结构必须和我们查询的指标数据一致的
--（1）基于时间纬度--统计网站每年用户的流量
create table if not exists ads_year_flow(
   visit_year string,
   flow bigint
)row format delimited fields terminated by '\001';

-- 将统计的结果覆盖添加到基于年份的指标表中 防止年份流量数据重复
insert overwrite table ads_year_flow
select  visit_year,count(*)  from dwd_user_behavior_detail group by visit_year;


-- （2）统计网站每一年不同月份的用户流量
create table if not exists ads_month_flow(
   visit_year string,
   visit_month string,
   flow bigint
)row format delimited fields terminated by '\001';

insert overwrite table ads_month_flow
select  visit_year,visit_month,count(*)  from dwd_user_behavior_detail group by visit_year,visit_month;


-- （3）基于地理纬度的指标--统计网站不同省份每天用户的流量  针对分区的方式完成
create table if not exists ads_province_day_flow(
   data_time string,
   province string,
   latitude string,
   longitude string,
   flow bigint
)row format delimited fields terminated by '\001';

-- 因为这个指标是针对某一个分区的数据进行的 不用担心和以前统计出来的结果冲突 所以追加即可
insert into table  ads_province_day_flow
select data_gen_time,province,latitude,longitude,count(*) from dwd_user_behavior_detail where data_gen_time='${hiveconf:yesterday}'  group by data_gen_time,province,latitude,longitude;


-- （4）统计网站不同年龄段的用户访问量
create table if not exists ads_age_range_flow(
   youth bigint,
   middle_age bigint,
   middle_elderly_age bigint,
   old_age bigint
)row format delimited fields terminated by '\001';


-- 针对的是数据集整体 每天要执行一次  因此这个指标覆盖添加
insert overwrite table ads_age_range_flow
select 
	sum(if(age>=18 and age <=44,1,0)),
	sum(if(age>=45 and age <=59,1,0)),
	sum(if(age>=60 and age <=79,1,0)),
	sum(if(age>=80,1,0))
FROM dwd_user_behavior_detail;


-- （5）基于用户纬度--统计网站每天的独立访客数
create table if not exists ads_day_uv(
   date_time string,
   num bigint
)row format delimited fields terminated by '\001';


insert into table ads_day_uv
select 
	data_gen_time ,
	count(DISTINCT(ip_addr))
FROM dwd_user_behavior_detail WHERE data_gen_time ="${hiveconf:yesterday}" group by data_gen_time;



-- （6）基于终端纬度--统计网站不同浏览器的使用占比
create table if not exists ads_user_agent_flow(
   user_agent string,
   flow bigint
)row format delimited fields terminated by '\001';


insert overwrite table ads_user_agent_flow
select "IE",count(1) from dwd_user_behavior_detail where user_agent like '%MSIE%'
UNION 
select "Firefox",count(1) from dwd_user_behavior_detail where user_agent like '%Firefox%'
UNION 
select "Opera",count(1) from dwd_user_behavior_detail where user_agent like '%Opera%'
UNION 
select  "Safari",count(1) from dwd_user_behavior_detail where user_agent like '%Safari%'
UNION 
select "QQBrowser",count(1) from dwd_user_behavior_detail where user_agent like '%QQBrowser%'
UNION 
select  "TaoBrowser",count(1) from dwd_user_behavior_detail where user_agent like '%TaoBrowser%';


-- （7）基于来源纬度的指标--统计网站站内和站外的流量情况
create table if not exists ads_flow_referer(
   referer string,
   flow bigint
)row format delimited fields terminated by '\001';


insert overwrite table ads_flow_referer
select "站内",count(1) from dwd_user_behavior_detail where referer_host = "www.bailongma.com"
UNION 
select "站外",count(1) from dwd_user_behavior_detail where referer_host != "www.bailongma.com";

你可能感兴趣的:(实训,笔记,大数据)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

实训笔记8.31