あずにゃん

网站/APP 流量分析、用户访问分析

日萌社

人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新）

数据仓库设计
网站/APP 流量分析、用户访问分析
网站/APP 流量分析、点击流分析、用户访问分析
网站埋点+网站日志自定义采集系统+nginx的相关安装

2.本项目中数据仓库的设计（注：采用星型模型）
	1.事实表设计

	2.维度表设计

	注意： 
		维度表的数据一般要结合业务情况自己写脚本按照规则生成，也可以使用工具生成，方便后续的关联分析。 
		比如一般会事前生成时间维度表中的数据，跨度从业务需要的日期到当前日期即可，具体根据你的分析粒度，
		可以生成年、季、月、周、天、时等相关信息，用于分析。



3.模块开发----ETL
	ETL 工作的实质就是从各个数据源提取数据，对数据进行转换，并最终加载填充数据到数据仓库维度建模后的表中。
	只有当这些维度/事实表被填充好，ETL工作才算完成。 
	本项目的数据分析过程在 hadoop 集群上实现，主要应用 hive 数据仓库工具，因此，采集并经过预处理后的数据，需要加载到 hive 数据仓库中，以进行后续的分析过程。
	
	1.创建 ODS 层数据表 
		1.原始日志数据表 
			1.drop table if exists ods_weblog_origin; 
			2.create table ods_weblog_origin( 
				valid string, 
				remote_addr string, 
				remote_user string, 
				time_local string, 
				request string, 
				status string, 
				body_bytes_sent string, 
				http_referer string, 
				http_user_agent string) 
			  partitioned by (datestr string) 
			  row format delimited fields terminated by '\001'; 

		2.点击流模型 pageviews 模型表 
			1.drop table if exists ods_click_pageviews; 
			2.create table ods_click_pageviews( 
				session string, 
				remote_addr string, 
				remote_user string, 
				time_local string, 
				request string, 
				visit_step string, 
				page_staylong string, 
				http_referer string, 
				http_user_agent string, 
				body_bytes_sent string, 
				status string) 
			  partitioned by (datestr string) 
			  row format delimited fields terminated by '\001'; 

		3.点击流模型 visit 模型表 
			1.drop table if exist ods_click_stream_visit; 
			2.create table ods_click_stream_visit( 
				session     string, 
				remote_addr string, 
				inTime      string, 
				outTime     string, 
				inPage      string, 
				outPage     string, 
				referal     string, 
				pageVisits  int) 
			  partitioned by (datestr string) 
			  row format delimited fields terminated by '\001'; 

	2.导入 ODS 层数据 
		1.数据导入：load data inpath '/weblog/preprocessed/' overwrite into table ods_weblog_origin partition(datestr='20130918'); 	
		2.查看分区：show partitions ods_weblog_origin;  
		3.统计导入的数据总数：select count(*) from ods_weblog_origin; 
		4.点击流模型的两张表（pageviews、visit 模型表）数据导入操作同上。 
		5.注：生产环境中应该将数据 load 命令，写在脚本中，然后配置在 azkaban 中定时运行，注意运行的时间点，应该在预处理数据完成之后。 
	
	3.生成 ODS 层明细宽表 
		1.需求实现 
			整个数据分析的过程是按照数据仓库的层次分层进行的，总体来说，是从 ODS 原始数据中整理出一些中间表
			（比如，为后续分析方便，将原始数据中的时间、url 等非结构化数据作结构化抽取，将各种字段信息进行细化，形成明细表），
			然后再在中间表的基础之上统计出各种指标数据。

		2.ETL 实现：建明细表 ods_weblog_detail  
			1.drop table ods_weblog_detail; 
			2.create table ods_weblog_detail( 
				valid string, --有效标识 
				remote_addr     string, # 来源 IP 
				remote_user     string, # 用户标识 
				time_local      string, # 访问完整时间 
				daystr          string, # 访问日期 
				timestr         string, # 访问时间 
				month           string, # 访问月 
				day             string, # 访问日 
				hour            string, # 访问时 
				request         string, # 请求的 url 
				status          string, # 响应码 
				body_bytes_sent string, # 传输字节数 
				http_referer    string, # 来源 url 
				ref_host        string, # 来源的 host 
				ref_path        string, # 来源的路径 
				ref_query       string, # 来源参数 query 
				ref_query_id    string, # 来源参数 query 的值 
				http_user_agent string) # 客户终端标识 
			  partitioned by(datestr string); 

			3.通过查询插入数据到明细宽表 ods_weblog_detail 中 
				1.抽取 refer_url 到中间表 t_ods_tmp_referurl，也就是将来访 url 分离出 host、path、query、query id。 
				2.drop table if exists t_ods_tmp_referurl; 
				3.create table t_ods_tmp_referurl as 
				  SELECT a.*,b.* 
				  FROM ods_weblog_origin a  
				  LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b 
				  as host, path, query, query_id; 
				4.LATERAL VIEW 用于和 split, Explode 等 UDTF 一起使用，它能够将一列数据拆成 多行数据。 
				5.UDTF(User-Defined Table-Generating Functions) ：
					用来解决 输入一行 输出多行(On-to-many maping) 的需求。
					Explode 也是拆列函数，比如 Explode (ARRAY) ，array 中的每个元素生成一行。 

			4.抽取转换 time_local 字段到中间表明细表 t_ods_tmp_detail 
				1.drop table if exists t_ods_tmp_detail; 
				2.create table t_ods_tmp_detail as  
				  select b.*,substring(time_local,0,10) as daystr, 
					substring(time_local,12) as tmstr, 
					substring(time_local,6,2) as month, 
					substring(time_local,9,2) as day, 
					substring(time_local,11,3) as hour 
				  from t_ods_tmp_referurl b; 

			5.以上语句可以合成一个总的语句 
				insert into table shizhan.ods_weblog_detail partition(datestr='2013-09-18') 
				select c.valid,c.remote_addr,c.remote_user,c.time_local, 
					substring(c.time_local,0,10) as daystr, 
					substring(c.time_local,12) as tmstr, 
					substring(c.time_local,6,2) as month, 
					substring(c.time_local,9,2) as day, 
					substring(c.time_local,11,3) as hour, 
					c.request,c.status,c.body_bytes_sent,c.http_referer,c.ref_host,c.ref_path,c.ref_query,c.ref_query_id,c.http_user_agent 
				from (SELECT a.valid,a.remote_addr,a.remote_user,a.time_local, a.request,a.status,a.body_bytes_sent,a.http_referer,
					    a.http_user_agent,b.ref_host,b.ref_path,b.ref_query,b.ref_query_id  
				       FROM shizhan.ods_weblog_origin a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 
					    'PATH','QUERY', 'QUERY:id') b as ref_host, ref_path, ref_query, ref_query_id) c; 


4.模块开发----统计分析 
	数据仓库建设好以后，用户就可以编写 Hive SQL 语句对其进行访问并对其中数据进行分析。 
	在实际生产中，究竟需要哪些统计指标通常由数据需求相关部门人员提出，而且会不断有新的统计需求产生，以下为网站流量分析中的一些典型指标示例。  
	注：每一种统计指标都可以跟各维度表进行钻取。

	1.流量分析 
		1.多维度统计 PV 总量
			1.按时间维度 
				1.计算每小时 pvs，注意 gruop by 语法 
				  select count(*) as pvs,month,day,hour from ods_weblog_detail group by month,day,hour; 
		
				2.方式一：直接在 ods_weblog_detail 单表上进行查询 
					1.计算该处理批次（一天）中的各小时 pvs 
						1.drop table dw_pvs_everyhour_oneday; 
						2.create table dw_pvs_everyhour_oneday(month string,day string,hour string,pvs bigint) 
						  partitioned by(datestr string); 
						3.insert into table dw_pvs_everyhour_oneday partition(datestr='20130918') 
						  select a.month as month,a.day as day,a.hour as hour,count(*) as pvs from ods_weblog_detail a 
						  where  a.datestr='20130918' group by a.month,a.day,a.hour; 
 
					2.计算每天的 pvs 
						1.drop table dw_pvs_everyday; 
						2.create table dw_pvs_everyday(pvs bigint,month string,day string); 
						3.insert into table dw_pvs_everyday 
						  select count(*) as pvs,a.month as month,a.day as day from ods_weblog_detail a 
						  group by a.month,a.day; 

				3.方式二：与时间维表关联查询 
					1.维度：日 
						1.drop table dw_pvs_everyday; 
						2.create table dw_pvs_everyday(pvs bigint,month string,day string); 
						3.insert into table dw_pvs_everyday 
						  select count(*) as pvs,a.month as month,a.day as day from (select distinct month, day from t_dim_time) a 
						  join ods_weblog_detail b  
						  on a.month=b.month and a.day=b.day 
						  group by a.month,a.day; 
 
					2.维度：月 
						1.drop table dw_pvs_everymonth; 
						2.create table dw_pvs_everymonth (pvs bigint,month string); 
						3.insert into table dw_pvs_everymonth 
						4.select count(*) as pvs,a.month from (select distinct month from t_dim_time) a 
						  join ods_weblog_detail b on a.month=b.month group by a.month; 
 
					3.另外，也可以直接利用之前的计算结果。比如从之前算好的小时结果中统计每一天的 
						insert into table dw_pvs_everyday 
						select sum(pvs) as pvs,month,day from dw_pvs_everyhour_oneday group by month,day having day='18';

			2.按终端维度 
				1.数据中能够反映出用户终端信息的字段是 http_user_agent。 
				2.User Agent 也简称 UA。
					1.它是一个特殊字符串头，是一种向访问网站提供所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。
					2.例如：User-Agent,Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
					        Chrome/58.0.3029.276 Safari/537.36 
					3.上述 UA 信息就可以提取出以下的信息： 
						chrome 58.0、浏览器 chrome、浏览器版本 58.0、系统平台 windows、浏览器内核 webkit 
				3.可以用下面的语句进行试探性统计，当然这样的准确度不是很高。 
					select distinct(http_user_agent) from ods_weblog_detail where http_user_agent like '%Chrome%' limit 200; 

			3.按栏目维度 
				网站栏目可以理解为网站中内容相关的主题集中。 
				体现在域名上来看就是不同的栏目会有不同的二级目录。
				比如某网站网址为 www.xxxx.cn，旗下栏目可以通过如下方式访问： 
					栏目维度：../job 
					栏目维度：../news 
					栏目维度：../sports 
					栏目维度：../technology 
				那么根据用户请求 url 就可以解析出访问栏目，然后按照栏目进行统计分析。 
			

			4.按 referer 维度
				1.统计每小时各来访 url 产生的 pv 量 
					1.drop table dw_pvs_referer_everyhour; 
					2.create table dw_pvs_referer_everyhour(
						referer_url string,referer_host string,month string,day string,hour string,pv_referer_cnt bigint) 
					  partitioned by(datestr string); 
					3.insert into table dw_pvs_referer_everyhour partition(datestr='20130918') 
					  select http_referer,ref_host,month,day,hour,count(1) as pv_referer_cnt 
					  from ods_weblog_detail  
					  group by http_referer,ref_host,month,day,hour  
					  having ref_host is not null 
					  order by hour asc,day asc,month asc,pv_referer_cnt desc; 

				2.统计每小时各来访 host 的产生的 pv 数并排序 
					1.drop table dw_pvs_refererhost_everyhour; 
					2.create table dw_pvs_refererhost_everyhour(
						ref_host string,month string,day string,hour string,ref_host_cnts bigint) 
					  partitioned by(datestr string); 
					3.insert into table dw_pvs_refererhost_everyhour partition(datestr='20130918') 
					  select ref_host,month,day,hour,count(1) as ref_host_cnts 
					  from ods_weblog_detail 
					  group by ref_host,month,day,hour  
					  having ref_host is not null 
					  order by hour asc,day asc,month asc,ref_host_cnts desc; 

 				3.注：还可以按来源地域维度、访客终端维度等计算

		2.人均浏览量 
			1.需求描述：统计今日所有来访者平均请求的页面数。 
			2.人均浏览量也称作人均浏览页数，该指标可以说明网站对用户的粘性。 
			  人均页面浏览量表示用户某一时段平均浏览页面的次数。 
			  计算方式：总页面请求数/去重总人数 
			  remote_addr表示不同的用户。 
			  可以先统计出不同 remote_addr 的 pv量， 然后累加（sum）所有 pv 作为总的页面请求数，再 count 所有 remote_addr 作为总的去重总人数。 
			3.总页面请求数/去重总人数 
				1.drop table dw_avgpv_user_everyday; 
				2.create table dw_avgpv_user_everyday(day string, avgpv string); 
 				3.insert into table dw_avgpv_user_everyday 
				  select '20130918',sum(b.pvs)/count(b.remote_addr) from 
				  (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr='20130918' group by remote_addr) b; 

		3.统计 pv 总量最大的来源 TOPN (分组 TOP) 
			1.需求描述：统计每小时各来访 host 的产生的 pvs 数最多的前 N 个（topN） 。 
			2.row_number()函数 
				1.语法：row_number() over (partition by xxx order by xxx) rank。
				2.rank 为分组的别名，相当于新增一个字段为 rank。 
				3.partition by 用于分组，比方说依照 sex 字段分组 
				4.order by 用于分组内排序，比方说依照 sex 分组，组内按照 age 排序 
				5.排好序之后，为每个分组内每一条分组记录从 1 开始返回一个数字 
				6.取组内某个数据，可以使用 “where 表名.rank > x” 之类的语法去取 
			3.以下语句对每个小时内的来访 host 次数倒序排序(从大到小)标号: 
				select ref_host,ref_host_cnts,concat(month,day,hour), 
				row_number() over (partition by concat(month,day,hour) order by ref_host_cnts desc) as od 
				from dw_pvs_refererhost_everyhour; 
			4.效果如下：

	2.受访分析（从页面的角度分析） 
		1.各页面访问统计 
			主要是针对数据中的 request 进行统计分析，比如各页面 PV ，各页面 UV 等。 
			以上指标无非就是根据页面的字段 group by。
			例如：统计各页面 pv 
				select request as request,count(request) as request_counts from ods_weblog_detail 
				group by request having request is not null order by request_counts desc limit 20;

		2.热门页面统计 
			统计每日最热门的页面 top10 
				1.drop table dw_hotpages_everyday; 
				2.create table dw_hotpages_everyday(day string,url string,pvs string); 
				3.insert into table dw_hotpages_everyday 
				  select '20130918',a.request,a.request_counts from 
				  (
					select request as request,count(request) as request_counts from ods_weblog_detail where datestr='20130918' 
					group by request having request is not null
				  ) a order by a.request_counts desc limit 10;  

	3.访客分析 
		1.独立访客 
			1.需求描述：按照时间维度，比如：小时来统计独立访客及其产生的 pv。 
			2.对于独立访客的识别，如果在原始日志中有用户标识，则根据用户标识即很好实现；
			  此处，由于原始日志中并没有用户标识，以访客 IP 来模拟，技术上是一样的，只是精确度相对较低。 
			3.时间维度：时 
				1.drop table dw_user_dstc_ip_h; 
				2.create table dw_user_dstc_ip_h(remote_addr string, pvs bigint, hour string); 
				3.insert into table dw_user_dstc_ip_h  
				  select remote_addr,count(1) as pvs,concat(month,day,hour) as hour from ods_weblog_detail 
				  Where datestr='20130918' 
				  group by concat(month,day,hour),remote_addr; 
				4.在此结果表之上，可以进一步统计，如每小时独立访客总数： 
					select count(1) as dstc_ip_cnts,hour from dw_user_dstc_ip_h group by hour; 
			4.时间维度：日 
				select remote_addr,count(1) as counts,concat(month,day) as day 
				from ods_weblog_detail 
				Where datestr='20130918' 
				group by concat(month,day),remote_addr; 

			5.时间维度：月 
				select remote_addr,count(1) as counts,month  
				from ods_weblog_detail 
				group by month,remote_addr;

	4.每日新访客 
		1.需求：将每天的新访客统计出来。 
		2.实现思路：创建一个去重访客累积表，然后将每日访客对比累积表。

		3.历日去重访客累积表 
			1.drop table dw_user_dsct_history; 
			2.create table dw_user_dsct_history(day string, ip string)  
			  partitioned by(datestr string); 

		4.每日新访客表 
			1.drop table dw_user_new_d; 
			2.create table dw_user_new_d (day string, ip string)  
			  partitioned by(datestr string); 
 
		5.每日新用户插入新访客表 
			1.insert into table dw_user_new_d partition(datestr='20130918') 
			  select tmp.day as day,tmp.today_addr as new_ip 
			  from(
				select today.day as day,today.remote_addr as today_addr,old.ip as old_addr 
			         from (
					select distinct remote_addr as remote_addr,"20130918" as day 
				      	from ods_weblog_detail where datestr="20130918"
				      ) today left outer join dw_user_dsct_history old on today.remote_addr=old.ip
			       ) tmp 
			  where tmp.old_addr is null;  
 
		6.每日新用户追加到累计表 
			insert into table dw_user_dsct_history partition(datestr='20130918') 
			select day,ip from dw_user_new_d where datestr='20130918'; 

		7.验证查看： 
			select count(distinct remote_addr) from ods_weblog_detail; 
			select count(1) from dw_user_dsct_history where datestr='20130918'; 
			select count(1) from dw_user_new_d where datestr='20130918'; 

		8.注：还可以按来源地域维度、访客终端维度等计算 

	5.访客 Visit 分析（点击流模型） 
		1.回头/单次访客统计 
			1.需求：查询今日所有回头访客及其访问次数。

			2.实现思路：上表中 “出现次数 > 1” 的访客，即回头访客；反之，则为单次访客。 
				1.drop table dw_user_returning; 
				2.create table dw_user_returning(day string, remote_addr string, acc_cnt string) 
				  partitioned by (datestr string); 
				3.insert overwrite table dw_user_returning partition(datestr='20130918') 
				  select tmp.day,tmp.remote_addr,tmp.acc_cnt 
				  from (select '20130918' as day,remote_addr,count(session) as acc_cnt from ods_click_stream_visit group by remote_addr) tmp 
				  where tmp.acc_cnt > 1; 

		2.人均访问频次 
			1.需求：统计出每天所有用户访问网站的平均次数（visit） 
			2.总 visit 数/去重总用户数 
				select sum(pagevisits)/count(distinct remote_addr) from ods_click_stream_visit where datestr='20130918'; 

	6.关键路径转化率分析（漏斗模型） 
		1.需求分析 
			转化：在一条指定的业务流程中，各个步骤的完成人数及相对上一个步骤的百分比。

		2.模型设计 
			定义好业务流程中的页面标识，下例中的步骤为： 
				Step1、  /item 
				Step2、  /category 
				Step3、  /index 
				Step4、  /order

		3.开发实现 
			1.查询每一个步骤的总访问人数：查询每一步人数存入 dw_oute_numbs 
				1.create table dw_oute_numbs as  
				  select 'step1' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews 
				  where datestr='20130920' and request like '/item%' 
				  union 
				  select 'step2' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews 
				  where datestr='20130920' and request like '/category%' 
				  union 
				  select 'step3' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews 
				  where datestr='20130920' and request like '/order%' 
				  union 
				  select 'step4' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews 
				  where datestr='20130920' and request like '/index%'; 
			  注：UNION 将多个 SELECT 语句的结果集合并为一个独立的结果集。

			2.查询每一步骤相对于路径起点人数的比例 
			  思路：级联查询，利用自 join 
				1.dw_oute_numbs 跟自己 join 
					select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  
					from dw_oute_numbs rn inner join dw_oute_numbs rr; 

				2.每一步的人数/第一步的人数==每一步相对起点人数比例 
					select tmp.rnstep,tmp.rnnumbs/tmp.rrnumbs as ratio 
					from ( 
						select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs
						from dw_oute_numbs rn inner join dw_oute_numbs rr
					     ) tmp where tmp.rrstep='step1'; 

			3.查询每一步骤相对于上一步骤的漏出率：自 join 表过滤出每一步跟上一步的记录 
				1.select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  
				  from dw_oute_numbs rn inner join dw_oute_numbs rr 
				  where cast(substr(rn.step,5,1) as int)=cast(substr(rr.step,5,1) as int)-1; 

				2.select tmp.rrstep as step,tmp.rrnumbs/tmp.rnnumbs as leakage_rate 
				  from ( 
					select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  
					from dw_oute_numbs rn inner join dw_oute_numbs rr
				        ) tmp where cast(substr(tmp.rnstep,5,1) as int)=cast(substr(tmp.rrstep,5,1) as int)-1; 

			4.汇总以上两种指标 
				select abs.step,abs.numbs,abs.rate as abs_ratio,rel.rate as leakage_rate 
				from ( 
					select tmp.rnstep as step,tmp.rnnumbs as numbs,tmp.rnnumbs/tmp.rrnumbs as rate 
					from ( 
						select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs 
						from dw_oute_numbs rn inner join  dw_oute_numbs rr
					      ) tmp where tmp.rrstep='step1' 
				      ) 
				abs left outer join 
				( 
					select tmp.rrstep as step,tmp.rrnumbs/tmp.rnnumbs as rate 
					from ( 
						select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  
						from dw_oute_numbs rn inner join dw_oute_numbs rr
					      ) tmp where cast(substr(tmp.rnstep,5,1) as int)=cast(substr(tmp.rrstep,5,1) as int)-1 
				) rel on abs.step=rel.step;

网站流量日志分析--模块开发--ETL--创建ODS层表

1.时间同步命令：ntpdate ntp6.aliyun.com
2.启动 mysql 版的 Hive，本地路径下启动hive
  	1.本地连接方式：
		cd /root/hive/bin
		./hive
	2.外部Linux连接访问当前Linux下的hive：（注意使用外部连接方式时必须先启动hiveserver2服务器）
		1.后台模式启动hiveserver2服务器：
			cd /root/hive/bin
			nohup ./hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err & 
			然后会返回hiveserver2服务器的进程号
		2.外部Linux连接访问当前Linux下的hive
			cd /root/hive/bin
			./beeline -u jdbc:hive2://NODE1:10000 -n root 
			然后输入NODE1所在linux的用户名和密码

3.本地模式：
	# 设置本地模式(仅需当前机器)执行查询语句，不设置的话则需要使用yarn集群(多台集群的机器)执行查询语句
	# 本地模式只推荐在开发环境开启，以便提高查询效率，但在生产上线环境下应重新设置为使用yarm集群模式
	set hive.exec.mode.local.auto=true;

4.创建数据库：
	create database itheima;
	use itheima;

5.创建表：
	1.原始数据表：对应mr清洗完之后的数据，而不是原始日志数据
		1.drop table if exists ods_weblog_origin;
		2.create table ods_weblog_origin(
			valid string,
			remote_addr string,
			remote_user string,
			time_local string,
			request string,
			status string,
			body_bytes_sent string,
			http_referer string,
			http_user_agent string)
		  partitioned by (datestr string)
		  row format delimited fields terminated by '\001';

	2.点击流pageview表
		1.drop table if exists ods_click_pageviews;
		2.create table ods_click_pageviews(
			session string,
			remote_addr string,
			remote_user string,
			time_local string,
			request string,
			visit_step string,
			page_staylong string,
			http_referer string,
			http_user_agent string,
			body_bytes_sent string,
			status string)
		  partitioned by (datestr string)
		  row format delimited fields terminated by '\001';

	3.点击流visit表
		1.drop table if exists ods_click_stream_visit;
		2.create table ods_click_stream_visit(
			session     string,
			remote_addr string,
			inTime      string,
			outTime     string,
			inPage      string,
			outPage     string,
			referal     string,
			pageVisits  int)
			partitioned by (datestr string)
			row format delimited fields terminated by '\001';

	4.维度表示例：
		1.drop table if exists t_dim_time;
		2.create table t_dim_time(date_key int,year string,month string,day string,hour string) row format delimited fields terminated by ',';

	5.show tables;

网站流量日志分析--模块开发--ETL--导入ODS层数据

1.hdfs中创建指定目录，准备用于存储数据文件
	hdfs dfs -mkdir -p /weblog/preprocessed
	hdfs dfs -mkdir -p /weblog/clickstream/pageviews
	hdfs dfs -mkdir -p /weblog/clickstream/visits
	hdfs dfs -mkdir -p /weblog/dim_time

2.浏览器查看hdfs文件系统：192.168.25.100:50070

3.把要导入的数据文件先上传到指定位置
	hdfs dfs -put /root/hivedata/weblog/output/part-m-00000 /weblog/preprocessed
	hdfs dfs -put /root/hivedata/weblog/pageviews/part-r-00000 /weblog/clickstream/pageviews
	hdfs dfs -put /root/hivedata/weblog/visitout/part-r-00000 /weblog/clickstream/visits
	hdfs dfs -put /root/hivedata/weblog/dim_time_dat.txt /weblog/dim_time

4.把hdfs文件系统路径下的数据文件导入到hive数据库表中：
	1.把 清洗结果数据 导入到 源数据表ods_weblog_origin 
		load data inpath '/weblog/preprocessed/' overwrite into table ods_weblog_origin partition(datestr='20130918');
		show partitions ods_weblog_origin; # 显示结果 datestr=20130918 
		select count(*) from ods_weblog_origin; # 显示结果 13770

	2.把 点击流模型pageviews数据 导入到 ods_click_pageviews表
		load data inpath '/weblog/clickstream/pageviews' overwrite into table ods_click_pageviews partition(datestr='20130918');
		select count(*) from ods_click_pageviews; # 显示结果 76 

	3.把 点击流模型visit数据 导入到 ods_click_stream_visit表
		load data inpath '/weblog/clickstream/visits' overwrite into table ods_click_stream_visit partition(datestr='20130918');
		select count(*) from ods_click_stream_visit; # 显示结果 57  

	4.把 dim_time_dat.txt 导入到 时间维度表 
		load data inpath '/weblog/dim_time' overwrite into table t_dim_time;
		select count(*) from t_dim_time; # 显示结果 29

网站流量日志分析--模块开发--ETL--ODS明细宽表

1.创建表明细宽表 ods_weblog_detail
	1.drop table ods_weblog_detail;
	2.create table ods_weblog_detail(
		valid           string, --有效标识
		remote_addr     string, --来源IP
		remote_user     string, --用户标识
		time_local      string, --访问完整时间
		daystr          string, --访问日期
		timestr         string, --访问时间
		month           string, --访问月
		day             string, --访问日
		hour            string, --访问时
		request         string, --请求的url
		status          string, --响应码
		body_bytes_sent string, --传输字节数
		http_referer    string, --来源url
		ref_host        string, --来源的host
		ref_path        string, --来源的路径
		ref_query       string, --来源参数query
		ref_query_id    string, --来源参数query的值
		http_user_agent string --客户终端标识
	  )partitioned by(datestr string);

2.抽取refer_url到中间表  t_ods_tmp_referurl
	1.drop table if exists t_ods_tmp_referurl;
	2.create table t_ods_tmp_referurl as
		SELECT a.*,b.*
		FROM ods_weblog_origin a 
		LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b as host, path, query, query_id; 
	3.解析：
		regexp_replace(字段名, "\"", "")：把双引号 替换为 空字符串
		parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id')：将来访url值分离出四列值：host、path、query、query_id

3.创建中间表明细表 t_ods_tmp_detail，并且抽取转换time_local字段到中间表明细表 t_ods_tmp_detail
	1.drop table if exists t_ods_tmp_detail;
	2.create table t_ods_tmp_detail as 
	  select b.*,substring(time_local,0,10) as daystr,
		substring(time_local,12) as tmstr,
		substring(time_local,6,2) as month,
		substring(time_local,9,2) as day,
		substring(time_local,11,3) as hour
	  From t_ods_tmp_referurl b;

4.把查询数据 插入到明细宽表ods_weblog_detail中
	insert into table ods_weblog_detail partition(datestr='20130918')
	select c.valid,c.remote_addr,c.remote_user,c.time_local,
		substring(c.time_local,0,10) as daystr,
		substring(c.time_local,12) as tmstr,
		substring(c.time_local,6,2) as month,
		substring(c.time_local,9,2) as day,
		substring(c.time_local,11,3) as hour,
		c.request,c.status,c.body_bytes_sent,c.http_referer,c.ref_host,c.ref_path,c.ref_query,c.ref_query_id,c.http_user_agent
	from
	(SELECT a.valid,a.remote_addr,a.remote_user,a.time_local,
		a.request,a.status,a.body_bytes_sent,a.http_referer,a.http_user_agent,b.ref_host,b.ref_path,b.ref_query,b.ref_query_id 
		FROM ods_weblog_origin a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b 
		as ref_host, ref_path, ref_query, ref_query_id) c;

网站流量日志分析--模块开发--统计分析--时间&来访维度统计pvs

1.流量分析
	1.计算每小时pvs，注意gruop by语句的语法
		select count(*) as pvs,month,day,hour from ods_weblog_detail group by month,day,hour;

	2.多维度统计PV总量
		1.第一种方式：直接在ods_weblog_detail单表上进行查询
			1.计算该处理批次（一天）中的各小时pvs
				1.drop table dw_pvs_everyhour_oneday;
				2.create table dw_pvs_everyhour_oneday(month string,day string,hour string,pvs bigint) partitioned by(datestr string);
				3.insert into table dw_pvs_everyhour_oneday partition(datestr='20130918')
			  	  select a.month as month,a.day as day,a.hour as hour,count(*) as pvs from ods_weblog_detail a


			2.计算每天的pvs
				1.drop table dw_pvs_everyday;
				2.create table dw_pvs_everyday(pvs bigint,month string,day string);
				3.insert into table dw_pvs_everyday
		  	  	  select count(*) as pvs,a.month as month,a.day as day from ods_weblog_detail a
		  	  	  group by a.month,a.day;

		2.第二种方式：与时间维表关联查询
			1.维度：日
				1.drop table dw_pvs_everyday;
				2.create table dw_pvs_everyday(pvs bigint,month string,day string);
				3.insert into table dw_pvs_everyday
				  select count(*) as pvs,a.month as month,a.day as day from (select distinct month, day from t_dim_time) a
				  join ods_weblog_detail b 
				  on a.month=b.month and a.day=b.day
				  group by a.month,a.day;

			2.维度：月
				1.drop table dw_pvs_everymonth;
				2.create table dw_pvs_everymonth (pvs bigint,month string);
				3.insert into table dw_pvs_everymonth
				  select count(*) as pvs,a.month from (select distinct month from t_dim_time) a
				  join ods_weblog_detail b on a.month=b.month group by a.month;

		3.另外，也可以直接利用之前的计算结果。比如从之前算好的小时结果中统计每一天的
			insert into table dw_pvs_everyday
			select sum(pvs) as pvs,month,day from dw_pvs_everyhour_oneday group by month,day having day='18';

网站流量日志分析--模块开发--统计分析--了解其他维度&人均浏览量

1.按照来访维度统计pv
	1.统计每小时各来访url产生的pv量，查询结果存入：( "dw_pvs_referer_everyhour" )
		1.drop table dw_pvs_referer_everyhour;
		2.create table dw_pvs_referer_everyhour(referer_url string,referer_host string,month string,day string,hour string,pv_referer_cnt bigint) partitioned by(datestr string);
		3.insert into table dw_pvs_referer_everyhour partition(datestr='20130918')
		  select http_referer,ref_host,month,day,hour,count(1) as pv_referer_cnt
		  from ods_weblog_detail 
		  group by http_referer,ref_host,month,day,hour 
		  having ref_host is not null
		  order by hour asc,day asc,month asc,pv_referer_cnt desc;

+-------------------------------------------------------------+----------------------------------------+---------------------------------+-------------------------------+--------------------------------+------------------------------------------+-----------------------------------+--+
|            dw_pvs_referer_everyhour.referer_url             | dw_pvs_referer_everyhour.referer_host  | dw_pvs_referer_everyhour.month  | dw_pvs_referer_everyhour.day  | dw_pvs_referer_everyhour.hour  | dw_pvs_referer_everyhour.pv_referer_cnt  | dw_pvs_referer_everyhour.datestr  |
+-------------------------------------------------------------+----------------------------------------+---------------------------------+-------------------------------+--------------------------------+------------------------------------------+-----------------------------------+--+
| "http://blog.fens.me/r-density/"                            | blog.fens.me                           | 09                              | 19                            |  00                            | 26                                       | 20130918                          |
| "http://blog.fens.me/r-json-rjson/"                         | blog.fens.me                           | 09                              | 19                            |  00                            | 21                                       | 20130918                          |
| "http://blog.fens.me/-pptp-client-ubuntu/"               | blog.fens.me                           | 09                              | 19                            |  00                            | 20                                       | 20130918                          |
| "http://blog.fens.me/hadoop-mahout-roadmap/"                | blog.fens.me                           | 09                              | 19                            |  00                            | 20                                       | 20130918                          |
| "http://blog.fens.me/hadoop-zookeeper-intro/"               | blog.fens.me                           | 09                              | 19                            |  00                            | 20                                       | 20130918                          |
| "http://www.fens.me/"                                       | www.fens.me                            | 09                              | 19                            |  00                            | 12                                       | 20130918                          |
| "http://h2w.iask.cn/jump.php?url=http%3A%2F%2Fwww.fens.me"  | h2w.iask.cn                            | 09                              | 19                            |  00                            | 5                                        | 20130918                          |
| "https://www.google.com.hk/"                                | www.google.com.hk                      | 09                              | 19                            |  00                            | 3                                        | 20130918                          |
| "http://angularjs.cn/A0eQ"                                  | angularjs.cn                           | 09                              | 19                            |  00                            | 2                                        | 20130918                          |
| "http://blog.fens.me/about/"                                | blog.fens.me                           | 09                              | 19                            |  00                            | 2                                        | 20130918                          |
+-------------------------------------------------------------+----------------------------------------+---------------------------------+-------------------------------+--------------------------------+------------------------------------------+-----------------------------------+--+


	2.统计每小时各来访host的产生的pv数并排序
		1.drop table dw_pvs_refererhost_everyhour;
		2.create table dw_pvs_refererhost_everyhour(ref_host string,month string,day string,hour string,ref_host_cnts bigint) partitioned by(datestr string);
		3.insert into table dw_pvs_refererhost_everyhour partition(datestr='20130918')
		  select ref_host,month,day,hour,count(1) as ref_host_cnts
		  from ods_weblog_detail 
		  group by ref_host,month,day,hour 
		  having ref_host is not null
		  order by hour asc,day asc,month asc,ref_host_cnts desc;
+----------------------------------------+-------------------------------------+-----------------------------------+------------------------------------+---------------------------------------------+---------------------------------------+--+
| dw_pvs_refererhost_everyhour.ref_host  | dw_pvs_refererhost_everyhour.month  | dw_pvs_refererhost_everyhour.day  | dw_pvs_refererhost_everyhour.hour  | dw_pvs_refererhost_everyhour.ref_host_cnts  | dw_pvs_refererhost_everyhour.datestr  |
+----------------------------------------+-------------------------------------+-----------------------------------+------------------------------------+---------------------------------------------+---------------------------------------+--+
| blog.fens.me                           | 09                                  | 19                                |  00                                | 111                                         | 20130918                              |
| www.fens.me                            | 09                                  | 19                                |  00                                | 13                                          | 20130918                              |
| h2w.iask.cn                            | 09                                  | 19                                |  00                                | 6                                           | 20130918                              |
| www.google.com.hk                      | 09                                  | 19                                |  00                                | 3                                           | 20130918                              |
| angularjs.cn                           | 09                                  | 19                                |  00                                | 3                                           | 20130918                              |
| cnodejs.org                            | 09                                  | 19                                |  00                                | 1                                           | 20130918                              |
| www.leonarding.com                     | 09                                  | 19                                |  00                                | 1                                           | 20130918                              |
| www.itpub.net                          | 09                                  | 19                                |  00                                | 1                                           | 20130918                              |
| blog.fens.me                           | 09                                  | 19                                |  01                                | 89                                          | 20130918                              |
| cos.name                               | 09                                  | 19                                |  01                                | 3                                           | 20130918                              |
+----------------------------------------+-------------------------------------+-----------------------------------+------------------------------------+---------------------------------------------+---------------------------------------+--+

网站流量日志分析--模块开发--统计分析--分组TopN（rowNumber）

1.统计pv总量最大的来源TOPN
	1.需求：按照时间维度，统计一天内各小时产生最多pvs的来源topN
	2.row_number函数
		select ref_host,ref_host_cnts,concat(month,day,hour),
		row_number() over (partition by concat(month,day,hour) order by ref_host_cnts desc) as od 
		from dw_pvs_refererhost_everyhour;

+-------------------------+----------------+----------+-----+--+
|        ref_host         | ref_host_cnts  |   _c2    | od  |
+-------------------------+----------------+----------+-----+--+
| blog.fens.me            | 68             | 0918 06  | 1   |
| www.angularjs.cn        | 3              | 0918 06  | 2   |
| www.google.com          | 2              | 0918 06  | 3   |
| www.baidu.com           | 1              | 0918 06  | 4   |
| cos.name                | 1              | 0918 06  | 5   |
| blog.fens.me            | 711            | 0918 07  | 1   |
| www.google.com.hk       | 20             | 0918 07  | 2   |
| www.angularjs.cn        | 20             | 0918 07  | 3   |
| www.dataguru.cn         | 10             | 0918 07  | 4   |


	3.综上可以得出
		1.drop table dw_pvs_refhost_topn_everyhour;
		2.create table dw_pvs_refhost_topn_everyhour(
		  hour string,
		  toporder string,
		  ref_host string,
		  ref_host_cnts string
		  )partitioned by(datestr string);
		3.insert into table dw_pvs_refhost_topn_everyhour partition(datestr='20130918')
		  select t.hour,t.od,t.ref_host,t.ref_host_cnts from
		  (select ref_host,ref_host_cnts,concat(month,day,hour) as hour,
		  row_number() over (partition by concat(month,day,hour) order by ref_host_cnts desc) as od 
		  from dw_pvs_refererhost_everyhour) t where od<=3;

+-------------------------------------+-----------------------------------------+-----------------------------------------+----------------------------------------------+----------------------------------------+--+
| dw_pvs_refhost_topn_everyhour.hour  | dw_pvs_refhost_topn_everyhour.toporder  | dw_pvs_refhost_topn_everyhour.ref_host  | dw_pvs_refhost_topn_everyhour.ref_host_cnts  | dw_pvs_refhost_topn_everyhour.datestr  |
+-------------------------------------+-----------------------------------------+-----------------------------------------+----------------------------------------------+----------------------------------------+--+
| 0918 06                             | 1                                       | blog.fens.me                            | 68                                           | 20130918                               |
| 0918 06                             | 2                                       | www.angularjs.cn                        | 3                                            | 20130918                               |
| 0918 06                             | 3                                       | www.google.com                          | 2                                            | 20130918                               |
| 0918 07                             | 1                                       | blog.fens.me                            | 711                                          | 20130918                               |
| 0918 07                             | 2                                       | www.google.com.hk                       | 20                                           | 20130918                               |
| 0918 07                             | 3                                       | www.angularjs.cn                        | 20                                           | 20130918                               |
| 0918 08                             | 1                                       | blog.fens.me                            | 1556                                         | 20130918                               |
| 0918 08                             | 2                                       | www.fens.me                             | 26                                           | 20130918                               |
| 0918 08                             | 3                                       | www.baidu.com                           | 15                                           | 20130918                               |
| 0918 09                             | 1                                       | blog.fens.me                            | 1047                                         | 20130918                               |
+-------------------------------------+-----------------------------------------+-----------------------------------------+----------------------------------------------+----------------------------------------+--+



2.人均浏览页数
	1.需求描述：统计今日所有来访者平均请求的页面数。
	2.总页面请求数/去重总人数
		1.drop table dw_avgpv_user_everyday;
		2.create table dw_avgpv_user_everyday(
			day string,
			avgpv string);
		3.insert into table dw_avgpv_user_everyday
		  select '20130918',sum(b.pvs)/count(b.remote_addr) from
		  (select remote_addr,count(1) as pvs from ods_weblog_detail where datestr='20130918' group by remote_addr) b;

各页面访问统计

各页面PV
	select request as request,count(request) as request_counts from
	ods_weblog_detail group by request having request is not null order by request_counts desc limit 20;

网站流量日志分析--模块开发--受访分析--热门页面

热门页面统计
统计每日最热门的页面top10
	1.drop table dw_hotpages_everyday;
	2.create table dw_hotpages_everyday(day string,url string,pvs string);
	3.insert into table dw_hotpages_everyday
	  select '20130918',a.request,a.request_counts from
	  (select request as request,count(request) as request_counts from ods_weblog_detail where datestr='20130918' group by request having request is not null) a
	  order by a.request_counts desc limit 10;

网站流量日志分析--模块开发--访客开发--独立访客&新访客

1.独立访客
	1.需求：按照时间维度来统计独立访客及其产生的pv量
	2.时间维度：时
		1.drop table dw_user_dstc_ip_h;
		2.create table dw_user_dstc_ip_h(
			remote_addr string,
			pvs      bigint,
			hour     string);
		3.insert into table dw_user_dstc_ip_h 
		  select remote_addr,count(1) as pvs,concat(month,day,hour) as hour 
		  from ods_weblog_detail
		  where datestr='20130918'
		  group by concat(month,day,hour),remote_addr;

	3.在上述基础之上，可以继续分析，比如每小时独立访客总数
		select count(1) as dstc_ip_cnts,hour from dw_user_dstc_ip_h group by hour;
 
+---------------+----------+--+
| dstc_ip_cnts  |   hour   |
+---------------+----------+--+
| 19            | 0918 06  |
| 98            | 0918 07  |
| 129           | 0918 08  |
| 149           | 0918 09  |
| 107           | 0918 10  |
| 54            | 0918 11  |
| 52            | 0918 12  |
| 71            | 0918 13  |
| 62            | 0918 14  |
| 72            | 0918 15  |
| 93            | 0918 16  |
| 55            | 0918 17  |


	4.时间维度：日
		select remote_addr,count(1) as counts,concat(month,day) as day
		from ods_weblog_detail
		where datestr='20130918'
		group by concat(month,day),remote_addr;

+------------------+---------+-------+--+
|   remote_addr    | counts  |  day  |
+------------------+---------+-------+--+
| 1.162.203.134    | 1       | 0918  |
| 1.202.186.37     | 28      | 0918  |
| 1.202.222.147    | 1       | 0918  |
| 1.202.70.78      | 1       | 0918  |
| 1.206.126.5      | 1       | 0918  |
| 1.34.23.44       | 1       | 0918  |
| 1.80.249.223     | 5       | 0918  |
| 1.82.139.173     | 24      | 0918  |
| 101.226.102.97   | 1       | 0918  |
| 101.226.166.214  | 1       | 0918  |
| 101.226.166.216  | 1       | 0918  |
| 101.226.166.222  | 1       | 0918  |
| 101.226.166.235  | 2       | 0918  |
| 101.226.166.236  | 1       | 0918  |
| 101.226.166.237  | 2       | 0918  |

	5.时间维度： 月
		select remote_addr,count(1) as counts,month 
		from ods_weblog_detail
		group by month,remote_addr;

+------------------+---------+--------+--+
|   remote_addr    | counts  | month  |
+------------------+---------+--------+--+
| 1.162.203.134    | 1       | 09     |
| 1.202.186.37     | 35      | 09     |
| 1.202.222.147    | 1       | 09     |
| 1.202.70.78      | 1       | 09     |
| 1.206.126.5      | 34      | 09     |
| 1.34.23.44       | 1       | 09     |
| 1.80.245.79      | 1       | 09     |
| 1.80.249.223     | 5       | 09     |
| 1.82.139.173     | 24      | 09     |
| 101.226.102.97   | 1       | 09     |
| 101.226.166.214  | 1       | 09     |


2.每日新访客
	1.需求：将每天的新访客统计出来。
	2.历日去重访客累积表
		1.drop table dw_user_dsct_history;
		2.create table dw_user_dsct_history(
			day string,
			ip string
		  ) partitioned by(datestr string);

	3.每日新访客表
		1.drop table dw_user_new_d;
		2.create table dw_user_new_d (
			day string,
			ip string
		  ) partitioned by(datestr string);

	4.每日新用户插入新访客表
		insert into table dw_user_new_d partition(datestr='20130918')
		select tmp.day as day,tmp.today_addr as new_ip from
		(
			select today.day as day,today.remote_addr as today_addr,old.ip as old_addr 
			from 
			(select distinct remote_addr as remote_addr,"20130918" as day from ods_weblog_detail where datestr="20130918") today
				left outer join 
				dw_user_dsct_history old
				on today.remote_addr=old.ip
			) tmp where tmp.old_addr is null;

	5.每日新用户追加到累计表
		insert into table dw_user_dsct_history partition(datestr='20130918')
		select day,ip from dw_user_new_d where datestr='20130918';

	6.验证：
		select count(distinct remote_addr) from ods_weblog_detail; # 结果值显示为 1027 
		select count(1) from dw_user_dsct_history where datestr='20130918';  # 结果值显示为 1027 
		select count(1) from dw_user_new_d where datestr='20130918'; # 结果值显示为 1027

网站流量日志分析--模块开发--访客开发--回头客&人均频次（点击流模型）

1.回头/单次访客统计
	1.drop table dw_user_returning;
	2.create table dw_user_returning(
		day string,
		remote_addr string,
		acc_cnt string)
	  partitioned by (datestr string);
	3.insert overwrite table dw_user_returning partition(datestr='20130918')
	  select tmp.day,tmp.remote_addr,tmp.acc_cnt
	  from (select '20130918' as day,remote_addr,count(session) as acc_cnt from ods_click_stream_visit group by remote_addr) tmp where tmp.acc_cnt>1;

2.人均访问频次
	select sum(pagevisits)/count(distinct remote_addr) from ods_click_stream_visit where datestr='20130918'; # 结果值显示为 1.4339622641509433

网站流量日志分析--模块开发--转化分析--漏斗模型转化率分步实现

1.漏斗模型原始数据click-part-r-00000
	1.hdfs dfs -put /root/hivedata/weblog/click-part-r-00000 /weblog/clickstream/pageviews
	2.load data inpath '/weblog/clickstream/pageviews/click-part-r-00000' overwrite into table ods_click_pageviews partition(datestr='20130920');
	3.select * from ods_click_pageviews where datestr='20130920' limit 10;

+---------------------------------------+----------------------------------+----------------------------------+---------------------------------+------------------------------+---------------------------------+------------------------------------+-----------------------------------+---------------------------------------------------------+--------------------------------------+-----------------------------+------------------------------+--+
|      ods_click_pageviews.session      | ods_click_pageviews.remote_addr  | ods_click_pageviews.remote_user  | ods_click_pageviews.time_local  | ods_click_pageviews.request  | ods_click_pageviews.visit_step  | ods_click_pageviews.page_staylong  | ods_click_pageviews.http_referer  |           ods_click_pageviews.http_user_agent           | ods_click_pageviews.body_bytes_sent  | ods_click_pageviews.status  | ods_click_pageviews.datestr  |
+---------------------------------------+----------------------------------+----------------------------------+---------------------------------+------------------------------+---------------------------------+------------------------------------+-----------------------------------+---------------------------------------------------------+--------------------------------------+-----------------------------+------------------------------+--+
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:15:42             | /item/HZxEY8vF               | 1                               | 340                                | /item/qaLW7pa5                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:21:22             | /item/IyA5hVop               | 2                               | 1                                  | /item/MQtiwwhj                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:21:23             | /item/RDqibwBo               | 3                               | 44                                 | /item/RCbNqxIy                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:22:07             | /item/IzrJixZc               | 4                               | 101                                | /item/RCbNqxIy                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:23:48             | /item/yrZqXxfN               | 5                               | 19                                 | /item/1Wvc1NeH                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:24:07             | /item/hWBn8VCg               | 6                               | 442                                | /item/LwOziljH                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:31:29             | /item/1nQESbrT               | 7                               | 348                                | /item/GFDdR8SR                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:37:17             | /item/c                      | 8                               | 2                                  | /category/d                       | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:37:19             | /item/a                      | 9                               | 11                                 | /category/c                       | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
| 47826dd6-be71-42df-96b2-14ff65425975  |                                  | -                                | 2013-09-20 00:37:30             | /item/X2b5exuV               | 10                              | 348                                | /item/N2Pos96N                    | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36  | 1800                                 | 200                         | 20130920                     |
+---------------------------------------+----------------------------------+----------------------------------+---------------------------------+------------------------------+---------------------------------+------------------------------------+-----------------------------------+---------------------------------------------------------+--------------------------------------+-----------------------------+------------------------------+--+


2.查询每一个步骤的总访问人数
	create table dw_oute_numbs as 
	select 'step1' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews where datestr='20130920' and request like '/item%'
	union
	select 'step2' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews where datestr='20130920' and request like '/category%'
	union
	select 'step3' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews where datestr='20130920' and request like '/order%'
	union
	select 'step4' as step,count(distinct remote_addr)  as numbs from ods_click_pageviews where datestr='20130920' and request like '/index%';

3.查询每一步骤相对于路径起点人数的比例
	1.级联查询，自己跟自己join
		select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  from dw_oute_numbs rn
		inner join 
		dw_oute_numbs rr;

	自join后结果如下图所示：
+---------+----------+---------+----------+--+
| rnstep  | rnnumbs  | rrstep  | rrnumbs  |
+---------+----------+---------+----------+--+
| step1   | 1029     | step1   | 1029     |
| step2   | 1029     | step1   | 1029     |
| step3   | 1028     | step1   | 1029     |
| step4   | 1018     | step1   | 1029     |
| step1   | 1029     | step2   | 1029     |
| step2   | 1029     | step2   | 1029     |
| step3   | 1028     | step2   | 1029     |
| step4   | 1018     | step2   | 1029     |
| step1   | 1029     | step3   | 1028     |
| step2   | 1029     | step3   | 1028     |
| step3   | 1028     | step3   | 1028     |
| step4   | 1018     | step3   | 1028     |
| step1   | 1029     | step4   | 1018     |
| step2   | 1029     | step4   | 1018     |
| step3   | 1028     | step4   | 1018     |
| step4   | 1018     | step4   | 1018     |
+---------+----------+---------+----------+--+

	2.每一步的人数/第一步的人数==每一步相对起点人数比例
		select tmp.rnstep,tmp.rnnumbs/tmp.rrnumbs as ratio
		from
		(
			select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  from dw_oute_numbs rn
			inner join 
			dw_oute_numbs rr
		) tmp where tmp.rrstep='step1';

4.查询每一步骤相对于上一步骤的漏出率
	1.首先通过自join表过滤出每一步跟上一步的记录
		select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  from dw_oute_numbs rn
		inner join 
		dw_oute_numbs rr
		where cast(substr(rn.step,5,1) as int)=cast(substr(rr.step,5,1) as int)-1;

+---------+----------+---------+----------+--+
| rnstep  | rnnumbs  | rrstep  | rrnumbs  |
+---------+----------+---------+----------+--+
| step1   | 1029     | step2   | 1029     |
| step2   | 1029     | step3   | 1028     |
| step3   | 1028     | step4   | 1018     |
+---------+----------+---------+----------+--+

	2.然后就可以非常简单的计算出每一步相对上一步的漏出率
		select tmp.rrstep as step,tmp.rrnumbs/tmp.rnnumbs as leakage_rate
		from
		(
			select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  from dw_oute_numbs rn
			inner join 
			dw_oute_numbs rr
		) tmp where cast(substr(tmp.rnstep,5,1) as int)=cast(substr(tmp.rrstep,5,1) as int)-1;

5.汇总以上两种指标
	select abs.step,abs.numbs,abs.rate as abs_ratio,rel.rate as leakage_rate
	from 
	(
		select tmp.rnstep as step,tmp.rnnumbs as numbs,tmp.rnnumbs/tmp.rrnumbs as rate
		from
		(
			select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  from dw_oute_numbs rn
			inner join 
			dw_oute_numbs rr
		) tmp where tmp.rrstep='step1'
	) abs
	left outer join
	(
		select tmp.rrstep as step,tmp.rrnumbs/tmp.rnnumbs as rate
		from
		(
			select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs  from dw_oute_numbs rn
			inner join 
			dw_oute_numbs rr
		) tmp where cast(substr(tmp.rnstep,5,1) as int)=cast(substr(tmp.rrstep,5,1) as int)-1
	) rel on abs.step=rel.step;

网站流量日志分析--模块开发--转化分析--级联求和（累加）

1.创建表
	create table t_access_times(username string,month string,salary int)
	row format delimited fields terminated by ',';

2.导入数据
	1.hdfs dfs -put /root/hivedata/weblog/t_access_times.dat /weblog
	2.load data inpath '/weblog/t_access_times.dat' overwrite into table t_access_times;
	3.select * from t_access_times limit 10;

3.第一步：先求个用户的月总金额
	select username,month,sum(salary) as salary from t_access_times group by username,month;

+-----------+----------+---------+--+
| username  |  month   | salary  |
+-----------+----------+---------+--+
| A         | 2015-01  | 33      |
| A         | 2015-02  | 10      |
| B         | 2015-01  | 30      |
| B         | 2015-02  | 15      |
+-----------+----------+---------+--+

4.第二步：将月总金额表 自己连接 自己连接
	select A.*,B.* FROM
	(select username,month,sum(salary) as salary from t_access_times group by username,month) A 
	inner join 
	(select username,month,sum(salary) as salary from t_access_times group by username,month) B
	on A.username=B.username
	where B.month <= A.month;

+-------------+----------+-----------+-------------+----------+-----------+--+
| a.username  | a.month  | a.salary  | b.username  | b.month  | b.salary  |
+-------------+----------+-----------+-------------+----------+-----------+--+
| A           | 2015-01  | 33        | A           | 2015-01  | 33        |
| A           | 2015-01  | 33        | A           | 2015-02  | 10        |
| A           | 2015-02  | 10        | A           | 2015-01  | 33        |
| A           | 2015-02  | 10        | A           | 2015-02  | 10        |
| B           | 2015-01  | 30        | B           | 2015-01  | 30        |
| B           | 2015-01  | 30        | B           | 2015-02  | 15        |
| B           | 2015-02  | 15        | B           | 2015-01  | 30        |
| B           | 2015-02  | 15        | B           | 2015-02  | 15        |
+-------------+----------+-----------+-------------+----------+-----------+--+

5.第三步：从上一步的结果中
	进行分组查询，分组的字段是a.username a.month
	求月累计值：将b.month <= a.month的所有b.salary求和即可
	select A.username,A.month,max(A.salary) as salary,sum(B.salary) as accumulate 
	from 
	(select username,month,sum(salary) as salary from t_access_times group by username,month) A 
	inner join 
	(select username,month,sum(salary) as salary from t_access_times group by username,month) B 
	on A.username=B.username 
	where B.month <= A.month 
	group by A.username,A.month 
	order by A.username,A.month;

你可能感兴趣的:(网站/APP,流量,用户访问分析,大数据)

HarmonyNext实战：基于ArkTS的高性能金融数据可视化应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能金融数据可视化应用开发引言在金融科技领域，数据可视化是帮助用户快速理解复杂数据的关键工具。随着HarmonyNext的推出，开发者可以利用ArkTS的强大能力，构建高性能、跨平台的金融数据可视化应用。本文将深入探讨如何基于ArkTS开发一个金融数据可视化应用，并通过一个实战案例详细讲解其实现过程。项目背景与需求分析项目背景金融数据通常具有高维度、大
2024前端Webpack面试题司宁前端面试题前端 webpack
1、谈谈你对Webpack的理解Webpack是一个模块打包工具，可以使用它管理项目中的模块依赖，并编译输出模块所需的静态文件。它可以很好地管理、打包开发中所用到的HTML,CSS,JavaScript和静态文件（图片，字体）等，让开发更高效。对于不同类型的依赖，Webpack有对应的模块加载器，而且会分析模块间的依赖关系，最后合并生成优化的静态资源。2、Webpack的基本功能代码转换：Type
数字隐形盾牌：日常场景下的网络安全实践安全防护
一、网络威胁：潜伏在屏幕后的"数字劫匪"2025年全球每11秒发生一次勒索攻击，每天新增45万个钓鱼网站，你的手机里可能正躺着3-5个高危漏洞。这些数据揭示了一个残酷现实：我们正生活在一个"数字丛林时代"。三大致命威胁：钓鱼攻击升级版：骗子不仅伪造银行邮件，现在会克隆公司高管的微信，用AI模仿老板声音要求转账**Wi-Fi陷阱：**商场免费Wi-Fi可能在15秒内窃取你的支付密码，机场充电桩可能成
浅谈StarRocks数据库简介及应用微笑的曙光（StevenLi）数据库数据库
StarRocks是一款高性能的实时分析型数据库，专为复杂的SQL查询提供极高的性能，尤其适用于数据分析场景。它是一款开源的新一代极速全场景MPP（MassivelyParallelProcessing，大规模并行处理）数据库，致力于构建极速和统一的分析体验。StarRocks兼容MySQL协议，用户可以使用MySQL客户端和常用的BI（BusinessIntelligence，商业智能）工具进行
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
【ARM系列】ARM常用汇编指令阿兹尔猫 ARM系列 arm开发汇编
本文目录前言数据传送指令MOV算数运算指令ADD(不带进位加法指令)SUB(不带进位减法指令)MUL(32位乘法指令)比较和跳转指令CMP(直接比较指令)BEQBNQBBL加载-存储指令LDRSTR移位指令LSLLSR系统寄存器访问指令MSRMRS逻辑运算指令AND(逻辑与指令)ORR(逻辑或指令)BIC(位清除指令)UBFXBFI前言在调试芯片启动代码或者分析ARMcore运行流程的过程中，尝尝
Cesium高级开发教程之四十八：包络分析 CesiumMaster Cesium开发教程 javascript Cesium html
一、原理包络分析是一种用于确定一组数据点或对象的外包络或边界的分析方法，在GIS中，包络分析用于确定地理要素（如点、线、面等）的外包络范围。例如，在城市规划中，对一片区域内的建筑物、道路等地理要素进行包络分析，可以得到这片区域的大致边界范围，以便进行土地利用规划、资源分配等工作。还可用于分析野生动物的栖息地范围，通过对动物活动轨迹点进行包络分析，确定其栖息地的边界，为野生动物保护提供决策支持。二、
springboot 整合 elk （Elasticsearch+Logstash+Kibana）高大王竟然被注册 spring 运维
Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，他可以对你的日志进行收集、过滤，并将其存储供以后使用（如，搜索）。Kibana也是一个开源和免费的工具，它Kibana可以为Logstash和ElasticSearch提供的日志分析友好的Web界
【2025年37期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深指数实时数据获取实例演示及接口API说明文档不会写代码的码农农 python java 开发语言股票api 股票数据股票数据接口
在近一至两年期间，股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言，首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据，亦或是基本面信息，这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息，从而为投资策略提供坚实有力的指导。在数据探索进程中，我尝试运用了多种方法，涵盖自编网易股票页面爬虫程序、申万行业数
百度快速收录2025秒收方法实战解析 SEO黑猫百度
医疗门户网站48小时收录奇迹2023年底，某三甲医院官网改版后遭遇收录难题。通过我们部署的蜘蛛池智能调度系统，配合标题关键词矩阵布局（含’标题内提取’技术），成功实现48小时内全站收录。核心操作步骤：页面指纹构建采用动态TDK模板（例：『科室{科室}科室{病症}_${年份}最新诊疗方案』）植入地域长尾词（如’北京医保报销政策’）蜘蛛池配置方案#智能蜘蛛路由算法示例defschedule_spide
element-ui动态设置tabel的columns时,切换columns数据表格抖动 zuo-yiran elementUI vue.js elementui
问题描述：在项目中遇到表格的总表字段和子表字段展示的问题，当字段多向字段少进行切换时表头文字的抖动不明显，但是如果是字段少向字段多的表头进行切换时，表头文字会有闪现的掉下来的视觉感，且使用v-show或v-if等无效。问题分析：elementUI无论是显示列还是隐藏列，都需要重新计算单元格的高和宽，然后再进行重新渲染。抖动的出现是因为这个过程被直接反馈到了页面上。解决办法：可以使用element中
EventStream 处理实时数据流小怪兽，让我来保护你 javascript node.js vue.js scss
简介text/event-stream和application/octet-stream本质上都是客户端与服务端打开了一个长连接，服务端可以多次写入一部分数据给客户端，客户端可以多次读取，直到全部读取完成。使用场景很多，例如：模拟机器人回复，几个词几个词的展示。下面我就以最近的一个功能需求为例，展示一下该如何使用event-stream：streamBack(){consturl="/api/..
前台实时获取数据爱吃虾的五花肉前端 ajax websocket javascript 前端
实现网站实时通信·四种方式，第二三四种方式需要服务器端做操作的写计时器进行Ajax轮询//每秒调用一次http请求setInterval(function(){varxhr=newXMLHttpRequest();xhr.open('POST','url',true);xhr.setRequestHeader('Content-Type','application/json');xhr.send(
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
【pptx-preview】react+pptx预览起来改bug javascript react.js pptx
pptx前端预览插件pptx-preview-npm1.插件使用letpptxPreviewer:any=null;constdom:any=document.getElementById(`pptx-wrapper`);if(!dom)return;pptxPreviewer=init(dom,{width:800});fetch(url).then((response:any)=>respon
从静态PPT到智能演讲——人工智能在演示文稿中的应用知来者逆智能算法人工智能 powerpoint LLM 大语言模型 GPT PPT
1.概述在这个信息过载的时代，能够吸引并持续吸引观众的注意力无疑成为了一项艰巨的任务。公众演讲领域正经历着一场由人工智能（AI）引领的革命。AI不仅在制作引人入胜的内容方面发挥作用，而且在分析演讲的传递方式上也起着关键作用，它正在彻底改变我们传递信息的传统模式。这篇深度博文将带您一探演示技术激动人心的未来，特别是聚焦于AI如何助力演讲者打造既具有影响力又富有吸引力的观众体验。从内容创作到演讲分析，
classfinal加密失败，踩坑了，不妨进来看看行云的逆袭 classfinal springboot jar包加密踩坑加密失败
最近在使用classfinal加密springboot，执行成功了，但是反编译后还是能看到源码，很郁闷！加密之后，反编译还是能看到源码，头疼我采用的加密方式是插件方式，放上配置net.roseboyclassfinal-maven-plugin${classfinal.version}#org.springxingyunapplication.yml,application-dev.yml,app
web前端开发工程师工作的岗位职责（合集）极客11 面试与求职前端状态模式
web前端开发工程师工作的岗位职责1职责：1、根据设计图进行前端页面开发并设计编写业务交互脚本2、优化前端页面，保证良好的用户体验以及不同浏览器的兼容性3、web前沿技术研究和新技术调研，将主流的特效应用到业务场景中4、配合后台开发人员实现网站界面和功能，为产品后期运营提供升级、维护等技术支持。5、工作积极主动，善于沟通，协调项目与项目之间的工作安排与配合，确保开发工作顺利进行。6、具备较强的学习
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Flask-Login完整使用案例 BirdMan98 Flask Python flask oracle 数据库
下面是一个完整的Flask-Login使用案例，涵盖以下功能：用户注册用户登录访问受保护页面退出登录1.安装依赖pipinstallflaskflask-loginflask-wtfflask-sqlalchemywerkzeug2.创建Flask项目结构flask_login_demo/│──app.py#Flask入口文件│──models.py#数据库模型│──forms.py#表单│──c
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
设计一个基于flask的高并发高可用的查询ip的http服务职场亮哥其他
结构设计基础架构为flask+gunicorn+负载均衡，负载均衡分为阿里云硬件负载均衡服务和软负载nginx。gunicorn使用supervisor进行管理。使用nginx软件负载结构图使用阿里云硬件负载均衡服务结构图因为flaskapp需要在内存中保存ip树以及国家、省份、城市相关的字典，因此占用内存较高。gunicorn的1个worker需要占用300M内存，nginx的4个worker内
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
BT、BT Mesh、WiFi、Zigbee技术对比分析莫道桑榆晚-为霞尚满天硬件工程网络协议信息与通信
一、蓝牙（Bluetooth,BT）1.技术原理核心概念：蓝牙是一种短距离（10-100米）无线通信技术，采用跳频扩频（FHSS）技术，通过快速切换频段（每秒1600次）避免干扰。跳频扩频（FHSS）原理：在2.4GHz频段的79个1MHz信道中，按伪随机序列快速切换频率。比喻：像两人在嘈杂派对上不断更换餐桌位置私聊，躲避他人监听。协议版本：经典蓝牙（BR/EDR）：高功耗，支持音频传输（如耳机）
FLASK核心操作之ORM 爬山的小明 Flask Flask ORM
ORM一、概要1、说明ORM，即Object-RelationalMapping（对象关系映射），它的作用是在关系型数据库和业务实体对象之间作一个映射，这样，我们在具体的操作业务对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作对象的属性和方法,2、核心模块SQLAlchemyORM和SQLAlchemyCoreCore是一种构建在表达式语言之上的一种API，一种SQL抽象工具包，允
分布式光伏电站经济性指标优化分析罗思付之技术屋网络通信安全及科学技术专栏分布式
摘要结合工程经验，分析了工商业分布式光伏电站平准发电成本（LevelizedCostofEnergy，LCOE）、资本金内部收益率（InternalRateofReturn，IRR）的主要影响因素，其中平准发电成本主要受静态投资影响，资本金内部收益率主要受消纳比影响。针对上述影响因素，进一步讨论了LCOE、IRR指标优化方法与在工程项目中可选用的举措。最后，结合实际项目背景，在站址条件、组件瓦单价
系统架构设计师【第5章】: 软件工程基础知识 (核心总结) 数据知道系统架构软件工程软考高级系统架构设计师软件工程基础
文章目录5.1软件工程5.1.1软件工程定义5.1.2软件过程模型5.1.3敏捷模型5.1.4统一过程模型（RUP）5.1.5软件能力成熟度模型5.2需求工程5.2.1需求获取5.2.2需求变更5.2.3需求追踪5.3系统分析与设计5.3.1结构化方法5.3.2面向对象方法5.4软件测试5.4.1测试方法5.4.2测试阶段5.5净室软件工程5.5.1理论基础5.5.2技术手段5.5.3应用与缺点5
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS