啊策策

日志分析大数据平台项目、Hive高阶函数、数仓建模模型

1. 日志点击流整体框架

2. 日志点击流大数据平台分析系统

2.1 表模型

page作为点, 根据sessionId就可以将用户在该网站的访问情况绘制成一条线, 就可以分析用户的访问轨迹
表模型
- 原始数据通过flume采集得到的input数据
- 原始访问日志表
  - mr数据清洗原始数据. 过滤脏数据,得到weblog_origin
  - 通过load方式, 加载到hive的ods层, 源数据
- pageview表(重视每一次的访问, 一个用户访问一次就记录一次, 并且标记session和每个session中访问了多少个页面)
  - mr处理, input是weblog_origin, k2为ip—> 得到ouput就是pageView
  - load的方式, 加载到hive的ods层
- visit表模型(重视每一次会话的情况, 标记每一个session起始时间)
  - mr处理, input是pageView, k2为session–> output就是visit
  - load的方式, 加载到hive的ods层

2.2 分析手段

高收益一定伴随高风险：一般的开公司的回报率大概在 10% - 20%
网站分析常见的一些手段：
- 流量的质量分析：竞价排名 —>魏则西事件莆田医院
- 网站流量多维度分析：从各个方面可以分析我们的网站的访问情况
- 网站内容及导航分析：分析我们网站的浏览情况，以及我们流量的导流情况—>网络刷手，改评论
- 漏斗转化模型的分析：每一步相对一第一访问人员比例, 每一步相对于上一步访问比例
流量分析常见的指标：
- 骨灰级的指标：
  
  IP：网站每日访问不重复的ip的个数。不重复的ip的个数越多，说明我这个网站访问的独立的人越多
  
  Page View：PV值，访问一个页面算作一次PV
  
  Unique Page View： UV值一天之内访问网站不重复的用户数。不重复的用户越多，说明我这个网址访问的人数越多。使用cookie来进行区分不同的用户
  
  基础级指标:
```
访问次数：session级别的次数

网站停留时间：可以统计每个人再网站停留多长时间

页面停留时间：页面停留时间，每个页面停留多长时间
```
- 复合级指标：
  
  人均浏览页数：平均一个人看了几个页面总的页面浏览次数/去重的人数
  
  跳出率：只访问了一个页面就跑了的人数/总的访问的人数
  
  退出率：只访问了一次（session会话级别）就跑了的人数/总的访问人数
- 基础分析指标：
  
  趋势分析：网站流量的走势
  
  对比分析：同比与环比
  
  当前在线：当前网站有多少个人在线进行访问
  
  访问明细：访问用户的一些详情信息
  
  来源分析：主要就是分析我们网站访问的各种流量都是从哪里来的
  
  受访分析：网站受到访问的一些分析情况
  
  访客分析：分析来我们网站访问的用户，都是哪一类人
```
   * 大数据杀熟

   * 滴滴打车

   * 转化路径分析
```
通过ip地址可以确定我们一个人的大致范围

友盟大数据统计

https://solution.umeng.com/?spm=a211g2.182260.0.0.650d9761zdqr58
数据导入导出的工具：canal streamset flume 采集mysql数据得要下去了解

实际采集mysql数据库的数据

2.3 离线处理框架

离线阶段框架梳理：

zookeeper + hadoop + hive + flume + azkaban+ sqoop + impala + oozie + hue

基础框架 zookeeper + hadoop

数据采集： flume
离线处理第一套框架：azkaban + hive + sqoop 已经比较陈旧了
离线处理第二套框架： oozie + impala + hue + sqoop 来处理我们离线的任务。我们可以通过托拉拽的方式，实现我们离线任务的执行以及离线任务定时执行

基于已有的伪分布式环境，如何转换成HA的环境，并且保证hdfs上面的数据不丢失

为了解决我们所有的大数据软件的安装的烦恼，我们可以使用CM图形化的界面的工具来安装管理我们的集群

以后安装大数据软件，直接在页面上点一点就行了

3. 完整技术流程详解

3.1 flume集数据

source Taildir监控某个目录, TailSource可以同时监控tail多个目录中的文件

a1.sources = r1
a1.sources.r1.type = TAILDIR
a1.sources.r1.channels = c1
a1.sources.r1.positionFile = /var/log/flume/taildir_position.json
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 = /var/log/test1/example.log
a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.*

3.2 数据清洗, mr过滤不合规的数据(转为结构化数据)

视频数据属于非结构化数据

3.2.1 作用

得到结构化的数据
方便load到hive的ods层
处理最原始的数据,也就是flume采集过来的数据, 得到weblog_origin
处理weblog_origin, 得到pageView数据, k2 就是weblog_origin的ip
处理pageView数据, 得到visit数据, k2就是pageView中标记的session

3.3 数据仓库设计

3.3.1 概述: 数据仓库建模

维度表: 主键(不同的维度标识),比方说是时间, 地域,部门,产品
事实表:有外键约束(维度表的主键), 一件完整的事情.
- 事实表是主表,维度表是从表, 事实表中有的数据,维度表中可以没有,但是事实表没有的数据,维度表一定不可以有.
- 事实表和维度表的关系是一对多.
数仓建模的方式
- 星型模型

* 雪花模型

* 星座模型

3.3.2 本项目采用的建模方式

星型模型
事实表
- 原始数据表: ods_weblog_origin =>对应mr清洗完之后的数据
- 访问日志明细宽表：ods_weblog_detail=>对应ods事实表的精细化拆分
  - 将time_local 拆分成时,日,月
  - 将http_referer 拆分成 host,来源的路径, 来源参数,来源参数值,agent
    
    UDTF,parse_url_tuple一行进多行出的高阶行数
维度表
- 时间维度
- 访客地域维度
- 终端类型维度
- 网站栏目维度

3.4 ETL(ods层导入源数据)

Extrol, Transform, Load 抽取,转换,加载: 就是从各个数据源提取数据, 对数据进行转换, 并最终加载填充数据到数据仓库维度建模后的表中.

3.4.1 ods层表结构

ods_weblog_origin
ods_click_pageviews(重视每一次访问的情况)
ods_click_stream_visit(重视每一次session的会话情况,每次seession什么时候来的,什么时候走的)

ods_weblog_detail(对weblog_origin的细化)

insert into table ods_weblog_detail partition(datestr='20130918')
select 
c.valid,
c.remote_addr,
c.remote_user,
c.time_local,
substring(c.time_local,0,10) as daystr,
substring(c.time_local,12) as tmstr,
substring(c.time_local,6,2) as month,
substring(c.time_local,9,2) as day,
substring(c.time_local,11,3) as hour,
c.request,
c.status,
c.body_bytes_sent,
c.http_referer,
c.ref_host,
c.ref_path,
c.ref_query,
c.ref_query_id,
c.http_user_agent
from
(SELECT 
 a.valid,
 a.remote_addr,
 a.remote_user,
 a.time_local,
 a.request,
 a.status,
 a.body_bytes_sent,
 a.http_referer,
 a.http_user_agent,
 b.ref_host,
 b.ref_path,
 b.ref_query,
 b.ref_query_id 
 FROM ods_weblog_origin a 
 LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST','PATH','QUERY',  'QUERY:id') b as
 ref_host, 
 ref_path, 
 ref_query,
 ref_query_id) c;

3.5 ods构建明细宽表之Hive高阶函数详解

3.5.1 url解析函数 lateral view parse_url_tuple()

lateral view parse_usr_tuple(fullurl,‘HOST’,‘PATH’,‘QUERY’,‘QUERY:id’) b as host,path,query,query_id. UDTF一行进多行出的函数, 解析url

案例

select b.* from src lateral view parse_usr_tuple(fullurl,'HOST','PATH','QUERY','QUERY:id') b as host,path,query,query_id.

b 就是多行出的一个临时表, 每一行的字段asxxx, 然后再b.*查出来
解析后的结果如下

http://www.baidu.com/hello/world?username=zhangsan
- HOST:www.baidu.com
- PATH:/hello/world
- QUERY:username
- QUERY_id:zhangsan

3.5.2 替换函数 regexp_replace()

regexp_replace(xxx, “被替换的字符”,“要替换为的字符”)

UDF 一行进,一行出. 用来替换字符串中的某个字符
案例 desc function extended regexp_replace 可以查看案例
```
lateral view parse_url_tuple(regexp_replace(http_referer,"\"", "")) 
```
- 第一个参数是被替换的, 引号
- 第二个参数是要替换为的字符,是一个空值

3.5.3 截取函数 substring()

substring(从第几个开始截取,截几个)截取函数–>注意和java中的函数区分, java中的(内部指的是索引)
- (截取字符串的某一部分,作为一个新字段) 是UDF一行进一行出的函数
- substring(xxx,n) 从头开始截取,截取n个字符
- substring(xxx,m,n) 从第m个字符开始截取,截取n个字符
案例把ods_weblog_detail中的time_local拆分成5个字段访问日期,访问时间,访问月,访问日,访问时

3.6 模块开发–统计分析

一流量分析

1.1 时间/referer/host维度

时间维度: 计算每小时/每天的pvs, 访问一次就计算一次pv

drop table if exists dw_pvs_everyhour_oneday;
create table if not exists dw_pvs_everyhour_oneday(month string,day string,hour string,pvs bigint) partitioned by(datestr string);
insert  into table dw_pvs_everyhour_oneday partition(datestr='20130918')
select a.month as month,a.day as day,a.hour as hour,count(*) as pvs from ods_weblog_detail a
where  a.datestr='20130918' group by a.month,a.day,a.hour;

create table if not  exists dw_pvs_everyday(pvs bigint,month string,day string);
insert into table dw_pvs_everyday
select count(*) as pvs,a.month as month,a.day as day from ods_weblog_detail a
group by a.month,a.day;

按照referer维度: 统计每小时各来访url产生的pv量，查询结果存入

drop table if exists dw_pvs_referer_everyhour;
create table if not exists dw_pvs_referer_everyhour
(referer_url string,referer_host string,month string,day string,
hour string,pv_referer_cnt bigint) partitioned by(datestr string);

insert into table dw_pvs_referer_everyhour partition(datestr='20130918')
select 
http_referer,
ref_host,
month,
day,
hour,
count(1) as pv_referer_cnt
from 
ods_weblog_detail 
group by http_referer,ref_host,month,day,hour 
having ref_host is not null
order by hour asc,day asc,month asc,pv_referer_cnt desc;

按referer维度: 统计每小时各来访host的产生的pv数并排序

drop table dw_pvs_refererhost_everyhour;
create table dw_pvs_refererhost_everyhour(ref_host string,month string,day string,hour string,ref_host_cnts bigint) partitioned by(datestr string);

insert into table dw_pvs_refererhost_everyhour partition(datestr='20130918')
select 
ref_host,
month,
day,
hour,
count(1) as ref_host_cnts
from ods_weblog_detail 
group by ref_host,month,day,hour 
having ref_host is not null
order by hour asc,day asc,month asc,ref_host_cnts desc;

1.2 字符串拼接函数concat()

contact(xx,yy,zz) as cts UDAF 多行进一行出, 字符串拼接
案例 concat(month,day, hour)

1.3 dw层hive函数: 分组求topN

案例:

id name sal
1   a   10
2   a   12
3   b   13
4   b   12
5   a   14
6   a   15
7   a   13
8   b   11
9   a   16
10  b   17
11  a   14
-- 需求, 按照各部门对薪水进行排序并求TopN
-- 1.1 按照name分区,sal排序,并且每个分区中都为排好序的数据打上标号
select 
id,
name,
sal,
rank() over(partition by name order by sal desc ) rp,
dense_rank() over(partition by name order by sal desc ) drp,
row_number()over(partition by name order by sal desc) rmp
from f_test
-- 1.2 打好标号的结果
id  name  rp   drp   rmp 
a    16    1    1    1
a    15    2    2    2
a    14    3    3    3
a    14    3    3    4
a    13    5    4    5
a    12    6    5    6
a    10    7    6    7
b    17    1    1    1
b    13    2    2    2
b    12    3    3    3
b    11    4    4    4
-- 1.3 三种开窗函数的区别
rank() over(partition by name order by sql desc) as rp   1,1,3顺序排,总序号不变
dense_rank over(partition by name order by sal desc) as drp 1,1,2  并列排序,总序号会减少
row_number() over(partition by name order by sql desc) as rmp 1,2,3 并列排序,总序号不变

-- 2. 按照name分组,求每个组中前3名
select 
	*
from 
	(select 
		id,
		name,
		sal,
		rank() over(partition by name order by sal desc ) rp,
		dense_rank() over(partition by name order by sal desc ) drp,
		row_number() over(partition by name order by sal desc) rmp
		from f_test) temp
where temp.rmp <= 3;

需求描述：按照时间维度，统计一天内各小时产生最多pvs的来访的topN

(查询dw_pvs_refererhost_everyhour表)

select 
	ref_host,
	ref_host_cnts,
	concat(month,day,hour),
	row_number() over (partition by concat(month,day,hour) order by 	ref_host_cnts desc) as od 
from dw_pvs_refererhost_everyhour;

--综上可以得出
drop table dw_pvs_refhost_topn_everyhour;
create table dw_pvs_refhost_topn_everyhour(
hour string,
toporder string,
ref_host string,
ref_host_cnts string
)partitioned by(datestr string);
-- 每一个子查询语句，都是可以独立运行的
insert into table dw_pvs_refhost_topn_everyhour partition(datestr='20130918')
select 
	t.hour,
	t.od,
	t.ref_host,
	t.ref_host_cnts 
from
	(select 
		ref_host,
		ref_host_cnts,
		concat(month,day,hour) as hour,
		row_number() over (partition by concat(month,day,hour) order by ref_host_cnts desc)          as od 
		from dw_pvs_refererhost_everyhour) t 
where od<=3;

1.4 人均浏览页数

需求描述：统计今日所有来访者平均请求的页面数。

总页面请求数/去重总人数

drop table dw_avgpv_user_everyday;
create table dw_avgpv_user_everyday(
day string,
avgpv string);
-- 添加数据
insert into table dw_avgpv_user_everyday
select 
	'20130918', 
	sum(b.pvs) / count(b.remote_addr)
from
	(select
		remote_addr,
		count(1) as pvs
	from 
     	osd_weblog_detail 
	where datestr='20130918'
	group by remote_addr) b;

二受访分析

页面受到的访问, ods_weblog_detail中的request字段(要访问的页面,这个页面就是受到访问的页面)

1.1 各页面访问统计

select
	request as request,
	count(1) as cts
from 
	ods_weblog_detail
group by request 
having request is not null
order by cts 
limit 20;

1.2 热门页面统计

统计20130918这个分区里面的受访页面的top10

drop table dw_hotpages_everyday;
create table dw_hotpages_everyday(day string,url string,pvs string);
-- ETL从ods层查询数据抽取到dw层
insert into table dw_hotpages_ervery
select 
	'20130918',
	request,
	count(1) as cts
from 
	ods_weblog_detail
where request is not null
group by request
order by cts desc
limit 10;

统计每日最热门页面的top10(分组求topN)

select
	temp.*
from
	(select
		concat(month,day) as day,
		request,
		count(1) as cts,
		row_number() over(partition by day order by cts desc) as rmp
	from 
     	ods_weblog_detail 
	where request is not null) temp
where temp.rmp >= 10;

三访客分析

1.1 独立访客

需求: 每小时独立访客及其产生的pv(也就是一个用户访问了多少个页面)

安装小时,remote_addr进行分组,然后再count(1)

drop table dw_user_dstc_ip_h;
create table dw_user_dstc_ip_h(
remote_addr string,
pvs      bigint,
hour     string);

-- 插入数据
select
	remote_addr,
	count(1) as pvs,
	concat(month,day,hour) as hour
from 
	ods_weblog_detail
where datestr = '20130918'
group by hour,remote_addr;

1.2 每日新访客

历史表
每日访客表就是ods_weblog_detail
nrewIp left join hist on newIp.remote_addr = hist.ip where hist.ip is null ==>就是每日新访客表

得到的新访客需要追加到历史表中

--历史去重访客累积表
drop table dw_user_dsct_history;
create table dw_user_dsct_history(
day string,
ip string)
partitioned by(datestr string);

--每日新访客表
drop table dw_user_new_d;
create table dw_user_new_d (
day string,
ip string) 
partitioned by(datestr string);

--每日新用户插入新访客表
insert into table dw_user_new_d partition(datestr='20130918')
select 
	tmp.day as day,
	tmp.remote_addr as new_ip 
from
	(select 
		a.day, 
		a.remote_addr,
	from 
   		(select   
    		remote_addr,
    		'20130918' as day 
		from 
         	ods_weblog_detail newIp
		where datestr ='20130918'
		group by remote_addr
		) a 
	left join 
     	dw_user_dsct_history hist
	on a.remote_addr = hist.ip
	where hist.ip is null) temp;
	
--每日新用户追加到历史累计表
insert into table dw_user_dsct_history partition(datestr='20130918')
select day,ip from dw_user_new_d where datestr='20130918';

1.4 访客Visit分析(点击流模型)

回头访客及其访问的次数

drop table dw_user_returning;
create table dw_user_returning(
day string,
remote_addr string,
acc_cnt string)
partitioned by (datestr string);
-- 插入数据
insert overwrite table dw_user_returning partition(datestr='20130918')
select
	'20130918' as day,
	remote_addr,
	count(1) as acc_cnt
from 
	ods_click_stream_visit
group by remote_addr
having acc_cnt > 1;

人均访问的频次，频次表示我们来了多少个session
次数都是使用session来进行区分，一个session就是表示一次

select 
	sum(groupuser) / count(1)
from 
	(select
		count(1) as groupuser
	from ods_click_stream_visit
	where datestr = '20130918' 
	group by remote_addr);

人均页面浏览量总的pagevisits / 总的去重人数

select sum(pagevisits)/count(distinct remote_addr) from ods_click_stream_visit where datestr='20130918';

四关键路径转化率分析(漏斗模型)

1.1 hive当做级联求和(inner join自关联)

-- t_salary_detail
username month salary
A,2015-01,5
A,2015-01,15
B,2015-01,5
A,2015-01,8
B,2015-01,25
A,2015-01,5
A,2015-02,4
A,2015-02,6
B,2015-02,10
B,2015-02,5
A,2015-03,7
A,2015-03,9
B,2015-03,11
B,2015-03,6
-- 需求1. 求每个用户每个月总共获得多少消费
select
t.month,
t.username,
sum(salary) as salSum
from t_salary_detail
group by t.username,t.month;
+----------+-------------+---------+--+
| t.month  | t.username  | salsum  |
+----------+-------------+---------+--+
| 2015-01  | A           | 33      | 
| 2015-02  | A           | 10      | 
| 2015-03  | A           | 16      | 
| 2015-01  | B           | 30      | 
| 2015-02  | B           | 15      | 
| 2015-03  | B           | 17      | 
+----------+-------------+---------+--+
-- 需求2. 求每个用户每个月累计小费
-- 第一步: 求每个用户每个月的消费总和
select
t.month,
t.username,
sum(salary) as salSum
from t_salary_detail
group by t.username,t.month;
-- 第二步: 使用inner join 实现自己连接自己(inner join并不以谁为基准, 而是两张表的交集)
select
	a.*,
	b.*
from
	(select
		t.month, 
		t.username,
		sum(salSum) as salSum
	from
    	t_salary_detail t
	group by t.username,t.month) a
inner join 
	(select
		t.month,
		t.username,
		sum(salSum) as salSum
		from 
     	t_salary_detail t
    	group by t.username,t.month) b
on a.username = b.username;
+----------+-------------+-----------+----------+-------------+-----------+--+
| a.month  | a.username  | a.salsum  | b.month  | b.username  | b.salsum  |
+----------+-------------+-----------+----------+-------------+-----------+--+
取这一个作为一组
| 2015-01  | A           | 33        | 2015-01  | A           | 33        |

| 2015-01  | A           | 33        | 2015-02  | A           | 10        |
| 2015-01  | A           | 33        | 2015-03  | A           | 16        |
取这两个作为一组
| 2015-02  | A           | 10        | 2015-01  | A           | 33        |
| 2015-02  | A           | 10        | 2015-02  | A           | 10        |

| 2015-02  | A           | 10        | 2015-03  | A           | 16        |
取这三个作为一组
| 2015-03  | A           | 16        | 2015-01  | A           | 33        |
| 2015-03  | A           | 16        | 2015-02  | A           | 10        |
| 2015-03  | A           | 16        | 2015-03  | A           | 16        |


| 2015-01  | B           | 30        | 2015-01  | B           | 30        |

| 2015-01  | B           | 30        | 2015-02  | B           | 15        |
| 2015-01  | B           | 30        | 2015-03  | B           | 17        |

| 2015-02  | B           | 15        | 2015-01  | B           | 30        |
| 2015-02  | B           | 15        | 2015-02  | B           | 15        |

| 2015-02  | B           | 15        | 2015-03  | B           | 17        |

| 2015-03  | B           | 17        | 2015-01  | B           | 30        |
| 2015-03  | B           | 17        | 2015-02  | B           | 15        |
| 2015-03  | B           | 17        | 2015-03  | B           | 17        |
+----------+-------------+-----------+----------+-------------+-----------+--+
-- 加参数继续变形 条件就是b.month <= a.month 
select
	a.*,
	b.*
from
	(select
		t.month, 
		t.username,
		sum(salSum) as salSum
		from 
     		t_salary_detail t
		group by t.username,t.month) a
inner join 
(select
		t.month, 
		t.username,
		sum(salSum) as salSum
		from 
     		t_salary_detail t
		group by t.username,t.month) b
on a.username = b.username
where b.month <= a.month;
+----------+-------------+-----------+----------+-------------+-----------+--+
| a.month  | a.username  | a.salsum  | b.month  | b.username  | b.salsum  |
+----------+-------------+-----------+----------+-------------+-----------+--+
| 2015-01  | A           | 33        | 2015-01  | A           | 33        |   33

| 2015-02  | A           | 10        | 2015-01  | A           | 33        |   43
| 2015-02  | A           | 10        | 2015-02  | A           | 10        |

| 2015-03  | A           | 16        | 2015-01  | A           | 33        |   59
| 2015-03  | A           | 16        | 2015-02  | A           | 10        |
| 2015-03  | A           | 16        | 2015-03  | A           | 16        |

| 2015-01  | B           | 30        | 2015-01  | B           | 30        |   30

| 2015-02  | B           | 15        | 2015-01  | B           | 30        |   45
| 2015-02  | B           | 15        | 2015-02  | B           | 15        |

| 2015-03  | B           | 17        | 2015-01  | B           | 30        |   62
| 2015-03  | B           | 17        | 2015-02  | B           | 15        |
| 2015-03  | B           | 17        | 2015-03  | B           | 17        |
+----------+-------------+-----------+----------+-------------+-----------+--+
-- 第三步: 从第二步的结果中继续对a.month,a.username进行分组,并对分组后的b.salSum进行sum
select
    temp.username,
    temp.month,
    max(asalSum),
    sum(bsalSum)
from
	(select
  		a.username as ausername,
  		a.month as amonth,
  		a.salSum as asalSum, 
  		b.salSum as bsalSum
 	from
 		(select
            t.month, 
            t.username,
            sum(salSum) as salSum
 		from 
    		t_salary_detail t
 		group by t.username,t.month) a
 	inner join 
 		(select
 			t.month,
  			t.username,
  			sum(salSum) as salSum
 		from 
         	t_salary_detail t) b
 	on a.username = b.username
 	where b.month <= a.month;
) temp
order by temp.username,a.month;

1.2 漏斗模型

第一个指标: 每一步现对于第一步的转化率

第二个指标: 每一步相对于上一步的转化率

1.2.1 查询每一步骤的总访问人数

create table dw_oute_numbs as
select 
	'step1' as step, 
	count(distinct remote_addr) as numbs 
	from
		ods_click_pageviews
where datestr = '20130918'
and request like '/item%'
union all
select 
	'step2' as step, 
	count(distinct remote_addr) as numbs 
	from
		ods_click_pageviews
where datestr = '20130918'
and request like '/category%'
select 
	'step3' as step, 
	count(distinct remote_addr) as numbs 
	from
		ods_click_pageviews
where datestr = '20130918'
and request like '/order%'
select 
	'step4' as step, 
	count(distinct remote_addr) as numbs 
	from
		ods_click_pageviews
where datestr = '20130918'
and request like '/index%'
+---------------------+----------------------+--+
| dw_oute_numbs.step  | dw_oute_numbs.numbs  |
+---------------------+----------------------+--+
| step1               | 1029                 |
| step2               | 1029                 |
| step3               | 1028                 |
| step4               | 1018                 |
+---------------------+----------------------+--+

1.2.2 查询每一步骤相对于路径起点人数的比例(级联查询,自己跟自己join)

-- 1. 先自关联得到总表, 这时候自关联就没有on条件了,
select
	a.step as astep,
	a.numbs as anumbs,
	b.step as bstep,
	b.numbs as bnumbs
from 
	dw_oute_numbs a
inner join
	dw_oute_numbs b;
+---------+----------+---------+----------+--+
| a.step  | a.numbs  | b.step  | b.numbs  |
+---------+----------+---------+----------+--+
| step1   | 1029     | step1   | 1029     |

| step2   | 1029     | step1   | 1029     |
| step3   | 1028     | step1   | 1029     |
| step4   | 1018     | step1   | 1029     |

| step1   | 1029     | step2   | 1029     |

| step2   | 1029     | step2   | 1029     |
| step3   | 1028     | step2   | 1029     |
| step4   | 1018     | step2   | 1029     |

| step1   | 1029     | step3   | 1028     |
| step2   | 1029     | step3   | 1028     |
| step3   | 1028     | step3   | 1028     |
| step4   | 1018     | step3   | 1028     |

| step1   | 1029     | step4   | 1018     |
| step2   | 1029     | step4   | 1018     |
| step3   | 1028     | step4   | 1018     |
| step4   | 1018     | step4   | 1018     |
+---------+----------+---------+----------+--+	
-- 2. 加条件 只取 a表的step1
select
	a.step as astep,
	a.numbs as anumbs,
	b.step as bstep,
	b.numbs as bnumbs
from 
	dw_oute_numbs a
inner join
	dw_oute_numbs b
where a.step = 'step1';	
+---------+----------+---------+----------+--+
| a.step  | a.numbs  | b.step  | b.numbs  |
+---------+----------+---------+----------+--+
| step1   | 1029     | step1   | 1029     |
| step1   | 1029     | step2   | 1029     |
| step1   | 1029     | step3   | 1028     |
| step1   | 1029     | step4   | 1018     |
+---------+----------+---------+----------+--+	
-- 3. 求比率
select 
	temp.bnumbs/temp.anumbs as otherToFirstRation
from
	(select
        a.step as astep,
        a.numbs as anumbs,
        b.step as bstep,
        b.numbs as bnumbs
	from 
		dw_oute_numbs a
	inner join
		dw_oute_numbs b
	where a.step = 'step1';	
    ) temp;
+---------+
| otherToFirstRation  |
+---------+
| 1.0   			 |
| 1.0   			 |
| 0.9990  			 |
| 0.9893              |
+---------+

1.2.3 每一步相对于上衣布的转化率 secondToFirstRation==>cast(被转换的数据, 要转换的类型)

hive中的函数 cast(),转换函数
- UDF 将string类型转为int类型
- cast(substr(xxx,5,1) as int) 将截取后的字符串转为int类型
- casr(‘2013-09-18’, date) 转换为日期类型
需求: 每一步相对于上一步的转化率

-- 先过滤出条件
select
	a.step as astep,
	a.numbs as anumbs,
	b.step as bstep,
	b.numbs as bnumbs
from
	dw_oute_numbs a
inner join 
dw_oute_numbs b
where cast(substr(a.step, 5, 1), int) = cast(substr(b.step, 5, 1), int) - 1;
+---------+----------+---------+----------+--+
| a.step  | a.numbs  | b.step  | b.numbs  |
+---------+----------+---------+----------+--+
| step1   | 1029     | step2   | 1029     |
| step2   | 1029     | step3   | 1028     |
| step3   | 1028     | step4   | 1018     |
+---------+----------+---------+----------+--+	
-- 再求比率
select
	temp.bnumbs/temp.anumbs as secondToFirstRation
from 
	(select
        a.step as astep,
        a.numbs as anumbs,
        b.step as bstep,
        b.numbs as bnumbs
	from
		dw_oute_numbs a
	inner join 
	dw_oute_numbs b
	where cast(substr(a.step, 5, 1), int) = cast(substr(b.step, 5, 1), int) - 1
    ) temp;
+---------+
| secondToFirstRation  |
+---------+
| 1.0   |
| 0.9990   |
| 0.9983   |
+---------+

3.7 hive到出到mysql中

先在mysql中创建库,创建表

sqoop找到hive在hdfs存储位置,默认user/root/warehouse/weblog/表文件夹

/export/servers/sqoop-xxx/bin/sqoop export \
--connect jdbc:mysql://192.168.137.188:3306/weblog \
--username root --passwrod root \
--m 1	\
--export-dir /user/root/warehouse/weblog/xxx \
--table mysql中的表名  \
--input-fields-terminated-by '\001'

3.8 azkaban调度

3.8.1 大体的轮廓

flume一直在运行, 唯一要做的就是要监控十分正常运行

数据的清洗三个mr程序需要运行
hive当中表数据的加载
ETL开发
将结果数据到出

3.8.2 小记忆

date -d ‘-1 day’ + %Y%m%d

3.9 echarts数据可视化

4 面试总结

一天数据 50G-100G 2-3个人维护
集群数量30台左右每台硬盘配置12T-24T 内存最少64GB CM搭建运行环境
首先要确定你要运行哪些框架？

zookeeper hadoop hive flume sqoop

zookeeper:奇数台，7-9台都行
hadoop HA: namenode 2 个 datanode 26个 journalenode 7-9个
zkfc 与namenode同在
resourceManager 2 个 nodeManager 26个
hive：随便找一个datanode装上就行了
sqoop：随便找一个datanode装上就行了

集群的服务的规划：主节点彻底分开，不要与其他的节点混淆

如需原始日志资料请添加qq:1943228490 备注CSDN

你可能感兴趣的:(大数据项目)

Flink生态与未来 weixin_30394333 大数据人工智能数据库
本文为《Flink大数据项目实战》学习笔记，想通过视频系统学习Flink这个最火爆的大数据计算框架的同学，推荐学习课程：Flink大数据项目实战：http://t.cn/EJtKhaz核心组件栈Flink发展越来越成熟，已经拥有了自己的丰富的核心组件栈，如下图所示。从上图可以看出Flink的底层是Deploy，Flink可以Local模式运行，启动单个JVM。Flink也可以Standalone集
Python招聘信息爬虫+数据分析+可视化系统+薪资预测+岗位推荐（大数据项目）计算机毕业设计源码下载计算机毕业设计指导
boss直聘招聘信息爬虫+数据分析+可视化系统+薪资预测+岗位推荐（大数据项目）计算机毕业设计源码下载一、开发技术pycharm、MySQL数据库/sqlite3数据库、Python3.x版本、Flask框架、Scrapy框架、词云、echartsanconda3、chrome_driver1、开发框架前端htmlcssajax后端flaskrequestspandas数据库mysql二、功能招聘
医药零售企业运营BI解决方案连锁药房大数据解决方案药店大数据解决方案 Data-Miner 零售大数据
一、项目背景连锁药店大数据项目建设的背景可以从以下几个方面进行分析：行业趋势：随着医药行业的快速发展，连锁药店已成为药品零售的主要渠道。然而，随着市场竞争的加剧，连锁药店需要寻找新的竞争优势。通过大数据技术，连锁药店可以更好地了解消费者需求，提供个性化的服务，并优化供应链管理，提高运营效率。技术发展：近年来，大数据技术和人工智能的应用越来越广泛，为企业提供了更多的数据分析和决策支持工具。这些技术可
以内存为核心的开源分布式存储系统这次靠你了大数据 Tachyon hdfs 大数据
是一个以内存为核心的开源分布式存储系统，也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。此外，Tachyon还能够整合众多现有的存储系统（如AmazonS3,ApacheHDFS,RedHatGlusterFS,OpenStackSwift等），为用
互联网加竞赛大数据分析：基于时间序列的股票预测于分析 Mr.D学长 python java
1简介Hi，大家好，这里是丹成学长，今天向大家介绍一个大数据项目大数据分析：基于时间序列的股票预测于分析2时间序列的由来提到时间序列分析技术，就不得不说到其中的AR/MA/ARMA/ARIMA分析模型。这四种分析方法的共同特点都是跳出变动成分的分析角度，从时间序列本身出发，力求得出前期数据与后期数据的量化关系，从而建立前期数据为自变量，后期数据为因变量的模型，达到预测的目的。来个通俗的比喻，大前天
安利十个顶级大数据软件应用程序千锋大数据
近年来大数据的研发环境逐年变好，企业对大数据人才的需求不断增长，千锋在与企业的对接中发现大数据人才的企业需求呈现多样化的态势，对于人才的培养方向也是做了一定的调整。此外，千锋小编还整理了十个专业从事大数据企业的应用程序清单，安利一下！1.MongoDBMongoDB已成为各行业大数据项目的首选数据库。它的NoSQL支持适合大数据经常使用的非结构化数据。其灵活性、对JSON和JavaScript的支
python毕设选题 - 基于时间序列的股票预测于分析 DanCheng-studio 毕业设计 python 毕设
文章目录1简介2时间序列的由来2.1四种模型的名称：3数据预览4理论公式4.1协方差4.2相关系数4.3scikit-learn计算相关性5金融数据的时序分析5.1数据概况5.2序列变化情况计算最后1简介Hi，大家好，今天向大家介绍一个大数据项目大数据分析：基于时间序列的股票预测于分析2时间序列的由来提到时间序列分析技术，就不得不说到其中的AR/MA/ARMA/ARIMA分析模型。这四种分析方法的
如何基于Java实现一套特色民宿平台系统？ qq_469603589 网站平台类项目 Java项目实战 java 开发语言民宿管理系统 java民宿
作者简介：全栈开发工程，从事Java、Python、前端、小程序方面的开发和研究，对大数据应用与开发比较感兴趣，主要内容：Java项目、前端项目、Python项目、小程序开发、大数据项目、单片机收藏点赞不迷路关注作者有好处文末获取源码感谢您的关注，请收藏以免忘记，点赞以示鼓励，评论给以建议，爱你哟项目编号：BS-PT-095目录一，环境介绍二，项目简介三，系统展示3.1系统前台界面的实现3.1.1
基于JavaWeb实现洋酒销售平台的设计与实现 qq_469603589 商城类项目 Java项目实战洋酒销售系统红酒销售系统酒店销售商城
作者简介：全栈开发工程，从事Java、Python、前端、小程序方面的开发和研究，对大数据应用与开发比较感兴趣，主要内容：Java项目、前端项目、Python项目、小程序开发、大数据项目、单片机收藏点赞不迷路关注作者有好处文末获取源码感谢您的关注，请收藏以免忘记，点赞以示鼓励，评论给以建议，爱你哟项目编号：BS-PT-057前言：随着洋酒与中国市场的相互适应以及电子商务和网上商店的普及，洋酒类商品
基于Springboot+Vue医院挂号及信息化管理系统 qq_469603589 Java项目实战医疗类项目医院挂号系统前后端分离医疗 Vue前端
作者简介：全栈开发工程，从事Java、Python、前端、小程序方面的开发和研究，对大数据应用与开发比较感兴趣，主要内容：Java项目、前端项目、Python项目、小程序开发、大数据项目、单片机收藏点赞不迷路关注作者有好处文末获取源码感谢您的关注，请收藏以免忘记，点赞以示鼓励，评论给以建议，爱你哟项目编号：BS-YL-024一，环境介绍语言环境：Java:jdk1.8数据库：Mysql:mysql
思政教育平台|学院网站|基于JavaWeb的高校思政教育平台的设计与实现 qq_469603589 网站平台类项目 Java项目实战学校网站思政教育平台思想教育平台 JAVA平台网站
作者简介：全栈开发工程，从事Java、Python、前端、小程序方面的开发和研究，对大数据应用与开发比较感兴趣，主要内容：Java项目、前端项目、Python项目、小程序开发、大数据项目、单片机收藏点赞不迷路关注作者有好处文末获取源码感谢您的关注，请收藏以免忘记，点赞以示鼓励，评论给以建议，爱你哟项目编号：BS-PT-096目录一，环境介绍二，项目简介三，系统展示四，核心代码展示五，相关作品展示一
相册管理系统|基于Springboot+Vue实现前后端分离的相册管理系统 qq_469603589 网站平台类项目 Java项目实战 spring boot 后端 java 相册管理个人相册管理
作者简介：全栈开发工程，从事Java、Python、前端、小程序方面的开发和研究，对大数据应用与开发比较感兴趣，主要内容：Java项目、前端项目、Python项目、小程序开发、大数据项目、单片机收藏点赞不迷路关注作者有好处文末获取源码感谢您的关注，请收藏以免忘记，点赞以示鼓励，评论给以建议，爱你哟项目编号：BS-PT-100一，环境介绍语言环境：Java:jdk1.8数据库：Mysql:mysql
5分钟实现大屏数据可视化，这个 Python 项目真香呆鸟的简书
废话不说，先上动图，有点大，大家耐心等待下大数据可视化展板通用模板全国企业大数据厦门招聘大数据项目简介项目名称：big_screen项目地址：https://github.com/TurboWay/big_screen应用环境（呆鸟实测可用）：Python3.8.8flask1.1.2echarts项目基本架构项目基本架构安装点击上面的项目地址，在GitHub上把项目克隆到本地，以下几种方式都可以
如何接手一个大数据项目 Mmj666 大数据
作为一个数据开发小白，如何接手公司内的大数据系统呢？以下是个人的一些思考总结：了解一个大数据系统，我认为需要从以下几个方面入手：宏观方面：1.了解系统的整体架构和技术栈：需要了解系统中使用的技术栈，包括各种大数据组件和工具，例如Hadoop、Spark、Hive、Flink、Kafka等等。同时还需要了解系统中各个组件之间的协作关系，以及数据流的流向。2.了解数据来源和数据去向：需要了解数据来源的
我们的大数据平台项目之所以很实惠是因为有套路可循 UI设计前端开发一线员工大数据
hello宝子们...我们是艾斯视觉擅长ui设计和前端开发10年+经验！希望我的分享能帮助到您！如需帮助可以评论关注私信我们一起探讨！致敬感谢感恩！我们的大数据平台项目之所以很实惠是因为有套路可循大数据已经成为企业决策的关键因素。然而，许多企业在实施大数据项目时，常常面临成本高昂、技术复杂等挑战。我们的大数据平台项目却能够以实惠的价格提供高质量的服务，这其中的奥秘就在于我们有一套独特的“套路”。我
【大数据项目学习】第十章：HBase分布式集群部署与设计学不会K8S不改ID 大数据项目学习分布式 hadoop linux java 大数据
第十章：HBase分布式集群部署与设计一个初学者的大数据学习过程文章目录第十章：HBase分布式集群部署与设计1.HBase安装前须知1.1必备条件1.1.1硬件1.1.2软件1.2运行模式2.HBase安装部署2.1集群规划2.1.1主机规划2.1.2软件规划2.1.3用户规划2.1.4目录规划2.2HBase安装步骤2.2.1下载2.2.1解压2.2.1创建软连接2.2.1修改配置文件2.2.
2024大数据主要方向及岗位职责（二）泰迪智能科技大数据大数据
根据大数据技术体系及对人才的需求，本标准围绕数据预处理、数据标注、数据分析、产品开发、项目实施与运维、平台建设、数据安全、数据管理、运营与应用、咨询服务等10个方向对人才的岗位能力进行说明。本篇内容将围绕：项目实施与运维、平台建设、数据安全、数据管理、运营与应用、咨询服务等方向向大家做简单说明。一、项目实施与运维大数据解决方案工程师：负责大数据项目售前技术方案的编写，协同制定项目整体实施方案数据实
竞赛保研大数据分析：基于时间序列的股票预测于分析 iuerfee python
1简介Hi，大家好，这里是丹成学长，今天向大家介绍一个大数据项目大数据分析：基于时间序列的股票预测于分析2时间序列的由来提到时间序列分析技术，就不得不说到其中的AR/MA/ARMA/ARIMA分析模型。这四种分析方法的共同特点都是跳出变动成分的分析角度，从时间序列本身出发，力求得出前期数据与后期数据的量化关系，从而建立前期数据为自变量，后期数据为因变量的模型，达到预测的目的。来个通俗的比喻，大前天
数据/大数据项目实施贾庆华大数据
（一）近期分享内容11月底到现在，陆续和大家分享了一些内容，主要包括数据分析/大数据项目分析、数据建模及可视化、数据治理相关的平台、知识、示例。知识有继承的成分，但其他的均为原创，是的，平台是自研的，知识是自己总结的，示例也是自己整理的。主要内容见最近文章，供大家参考。以上的内容，主要源于我和我的小伙伴儿们的经历。（二）团队的经验/经历软件项目是团队作战，不是单独斗。我不是一个独行侠，技术的领域里
企业级大数据项目【4】数仓-业务域ODS-DWD-ADS开发篇江湖人称涛哥
1概要说明业务域的数据来自业务系统的数据库通过sqoop（或datax）抽取到数仓的ods层在ods层对有需要的表进行增量合并，字段选择，反范式话，形成dwd明细层表在明细层基础上，进行各类主题的数据统计、分析课程中，主要分析的主题有：交易域分析营销域分析会员域分析物流域分析仓储域分析供应域分析…什么是业务系统：公司向用户提供业务功能的系统，比如京东：京东商城！头条：头条网站这一类系统，通常都是w
新一代大数据管家 DataSophon 1.2 重磅发版 Datavane 大数据
在大数据领域，现在普遍认为是后Hadoop时代，CDH的停更和闭源导致传统的Hadoop体系组件栈没有一个称手好用的管理工具，越来越多新一代的大数据项目也在层出不穷,同样也需要管理，并且需要适配云原生的能力。不管技术如何演进都面临组件栈管理和运维的难题，鉴于此DataSophon作为Datavane开源组织的推荐项目重磅开源。新一代大数据管家DataSophonDataSophon是一个国产开源的
淘宝数据采集分析可视化系统商品销量数据分析计算机毕业设计大数据项目 python（附源码+文档）✅ q_3548885153 biyesheji0001 biyesheji0002 毕业设计数据分析课程设计大数据 python 爬虫淘宝淘宝数据
毕业设计：2023-2024年计算机专业毕业设计选题汇总（建议收藏）毕业设计：2023-2024年最新最全计算机专业毕设选题推荐汇总感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。1、项目介绍项目技术：python语言、Flask框架、淘宝商品数据、selenium网络爬虫、MySQL数据库、数据分析、Echarts可
毕业设计：基于python淘宝数据采集分析可视化系统商品销量数据分析大数据项目（附源码+文档）✅ q_3548885153 biyesheji0001 biyesheji0002 毕业设计课程设计 python 数据分析毕业设计大数据数据可视化
博主介绍：✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久，选择我们就是选择放心、选择安心毕业✌感兴趣的可以先收藏起来，点赞、关注不迷路✌毕业设计：2023-2024年计算机专业毕业设计选题汇总（建议收藏）毕业设计：2023-2024年最新最全计算机专业毕设选题推荐汇总1、项目介绍项目技术：python语言、Flask框架、淘宝商品数据
大数据项目 for_syq 个人感悟大数据
项目说明：利用scrapy爬取中华英才网和前程无忧上面有关’数据分析师’,‘大数据开发工程师’,'数据采集’的数据并保存到mongodb。然后再上传到hive中处理数据，再将处理好的数据保存到mysql，最后将保存的数据进行数据可视化。注：如果有不会scrapy的可以参照我的这几个scrapy项目1、利用scrapy爬取链家网小区数据2、scrapy爬取京东图书的数据3、scrapycrawl爬取
2018年最强干货！年薪80万+的大数据开发【教程】都在这儿！ yoku酱
事实上，大数据工作者可以施展拳脚的领域非常广泛，从国防部、互联网创业公司到金融机构，到处需要大数据项目来做创新驱动。其实JAVA工程师转型大数据有着天然优势，不仅仅是前景和薪资等。技术层面来说，大数据使用的Hadoop(在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法)需要JAVASE基础，即使你没有学过JAVAEE上手Hadoop也是可以的。面对如此光明而诱人的前景，大批JAVA工
毕业设计：基于python淘宝数据采集分析可视化系统商品销量数据分析大数据项目（附源码+文档）✅ q_3375686806 biyesheji0002 毕业设计 biyesheji0001 课程设计 python 数据分析大数据毕业设计淘宝爬虫
毕业设计：2023-2024年计算机专业毕业设计选题汇总（建议收藏）毕业设计：2023-2024年最新最全计算机专业毕设选题推荐汇总感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。1、项目介绍项目技术：python语言、Flask框架、淘宝商品数据、selenium网络爬虫、MySQL数据库、数据分析、Echarts可
电商数据分析-02-电商业务介绍及表结构 IT从业者张某某数据分析入门到进阶数据分析
参考电商业务简介大数据项目之电商数仓、电商业务简介、电商业务流程、电商常识、业务数据介绍、电商业务表、后台管理系统可以把excel复制为markdown的网站举个例子:1.1电商业务流程电商的业务流程可以以一个普通用户的浏览足迹为例进行说明，用户点开电商首页开始浏览，可能会通过分类查询也可能通过全文搜索寻找自己中意的商品，这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品，可能会
2023尚硅谷大数据项目之数据治理考评平台软希源码软希网源码下载大数据大数据项目之数据治理考评平台
教程下载：https://download.csdn.net/download/m0_66047725/88655186【资源目录】:├──1.笔记|├──课堂随笔.pptx288.70kb|├──尚硅谷大数据技术之数据治理考评平台完整V1.2.0.docx1.87M|├──数据治理总结.mmap133.77kb|├──自测题1.txt3.85kb|└──自测题2.txt2.28kb├──2.资料
数据与抽样分布究竟在讲什么？一文为你详解「上」卢敬宜与林高兴
在本篇章「上」中主要会讲解数据的抽样方法，「下」将会详解数据的抽样分布。对于学习数据分析的我们，在大规模、全样本的数据基础下，已经可以涵盖所有维度的全数据，究竟有没有必要学习和了解抽样？答：非常有必要。我们以为大数据意味着抽样的终结，其实不然。事实上，抽样能帮助我们有效地操作一组数据，并且最小化偏差。在大数据项目中，也经常会使用抽样生成并导出预测模型（用小规模样本测试模型，达到预期后再尝试用大规模
【大数据项目】基于大数据分析的全国信息教育平台极客的Code [IT源码社]Python项目大数据数据分析数据挖掘课程设计毕业设计
前言：我是IT源码社，从事计算机开发行业数年，专注Java领域，专业提供程序设计开发、源码分享、技术指导讲解、定制和毕业设计服务IT源码社-SpringBoot优质案例推荐IT源码社-小程序优质案例推荐IT源码社-Python优质案例推荐文末获取源码项目名基于大数据分析的全国信息教育平台技术栈Python+Django+Spark+Hive+Hadoop文章目录一、全国信息教育平台-环境介绍1.1
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$