xiaoyutongxue6

离线数据分析--实战

离线分析系统的结构图

整个离线分析的总体架构就是使用 Flume 从 FTP 服务器上采集日志文件，并存储在 Hadoop HDFS 文件系统上，再接着用 Hadoop 的 mapreduce 清洗日志文件，最后使用 HIVE 构建数据仓库做离线分析。任务的调度使用 Shell 脚本完成，当然大家也可以尝试一些自动化的任务调度工具，比如说 AZKABAN 或者 OOZIE 等。

分析所使用的点击流日志文件主要来自Nginx的access.log日志文件，需要注意的是在这里并不是用Flume直接去生产环境上拉取nginx的日志文件，而是多设置了一层FTP服务器来缓冲所有的日志文件，然后再用Flume监听FTP服务器上指定的目录并拉取目录里的日志文件到HDFS服务器上(具体原因下面分析)。从生产环境推送日志文件到FTP服务器的操作可以通过Shell脚本配合Crontab定时器来实现。

网站点击流数据

图片来源：http://webdataanalysis.net/data-collection-and-preprocessing/weblog-to-clickstream/#comments

一般在 WEB 系统中，用户对站点的页面的访问浏览，点击行为等一系列的数据都会记录在日志中，每一条日志记录就代表着上图中的一个数据点；而点击流数据关注的就是所有这些点连起来后的一个完整的网站浏览行为记录，可以认为是一个用户对网站的浏览 session 。比如说用户从哪一个外站进入到当前的网站，用户接下来浏览了当前网站的哪些页面，点击了哪些图片链接按钮等一系列的行为记录，这一个整体的信息就称为是该用户的点击流记录。这篇文章中设计的离线分析系统就是收集 WEB 系统中产生的这些数据日志，并清洗日志内容存储分布式的 HDFS 文件存储系统上，接着使用离线分析工具 HIVE 去统计所有用户的点击流信息。

本系统中我们采用Nginx的access.log来做点击流分析的日志文件。access.log日志文件的格式如下：

样例数据格式:

124.42.13.230 - - [18/Sep/2013:06:57:50 +0000] "GET /shoppingMall?ver=1.2.1 HTTP/1.1" 200 7200 "http://www.baidu.com.cn" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)"

格式分析:

1、访客ip地址:124.42.13.230

2 、访客用户信息： - -

3、请求时间： [18/Sep/2013:06:57:50 +0000]

4 、请求方式：GET

5、请求的url： /shoppingMall ?ver=1.10.2

6 、请求所用协议：HTTP/1.1

7、响应码：200

8 、返回的数据流量：7200

9 、访客的来源url：http://www.baidu.com.cn

10、访客所用浏览器：Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)

收集用户数据

      网站会通过前端 JS 代码或服务器端的后台代码收集用户浏览数据并存储在网站服务器中。一般运维人员会在离线分析系统和真实生产环境之间部署 FTP 服务器，并将生产环境上的用户数据每天定时发送到 FTP 服务器上，离线分析系统就会从 FTP 服务上采集数据而不会影响到生产环境。
       采集数据的方式有多种，一种是通过自己编写 shell 脚本或 Java 编程采集数据，但是工作量大，不方便维护，另一种就是直接使用第三方框架去进行日志的采集，一般第三方框架的健壮性，容错性和易用性都做得很好也易于维护。本文采用第三方框架 Flume 进行日志采集， Flume 是一个分布式的高效的日志采集系统，它能把分布在不同服务器上的海量日志文件数据统一收集到一个集中的存储资源中， Flume 是 Apache 的一个顶级项目，与 Hadoop 也有很好的兼容性。不过需要注意的是 Flume 并不是一个高可用的框架，这方面的优化得用户自己去维护。
        Flume 的 agent 是运行在 JVM 上的，所以各个服务器上的 JVM 环境必不可少。每一个 Flume agent 部署在一台服务器上， Flume 会收集 web server 产生的日志数据，并封装成一个个的事件发送给 Flume Agent 的 Source ， Flume Agent Source 会消费这些收集来的数据事件并放在 Flume Agent Channel ， Flume Agent Sink 会从 Channel 中收集这些采集过来的数据，要么存储在本地的文件系统中要么作为一个消费资源分发给下一个装在分布式系统中其它服务器上的 Flume 进行处理。 Flume 提供了点对点的高可用的保障，某个服务器上的 Flume Agent Channel 中的数据只有确保传输到了另一个服务器上的 Flume Agent Channel 里或者正确保存到了本地的文件存储系统中，才会被移除。

本系统中每一个 FTP 服务器以及 Hadoop 的 name node 服务器上都要部署一个 Flume Agent ； FTP 的 Flume Agent 采集 Web Server 的日志并汇总到 name node 服务器上的 Flume Agent ，最后由 hadoop name node 服务器将所有的日志数据下沉到分布式的文件存储系统 HDFS 上面。

需要注意的是Flume的Source在本文的系统中选择的是Spooling Directory Source，而没有选择Exec Source，因为当Flume服务down掉的时候Spooling Directory Source能记录上一次读取到的位置，而Exec Source则没有，需要用户自己去处理，当重启Flume服务器的时候如果处理不好就会有重复数据的问题。当然Spooling Directory Source也是有缺点的，会对读取过的文件重命名，所以多架一层FTP服务器也是为了避免Flume“污染”生产环境。Spooling Directory Source另外一个比较大的缺点就是无法做到灵活监听某个文件夹底下所有子文件夹里的所有文件里新追加的内容。关于这些问题的解决方案也有很多，比如选择其它的日志采集工具，像logstash等。
FTP 服务器上的 Flume 配置文件如下：

[plain] view plain copy

agent.channels = memorychannel
agent.sinks = target
agent.sources.origin.type = spooldir
agent.sources.origin.spoolDir = /export/data/trivial/weblogs
agent.sources.origin.channels = memorychannel
agent.sources.origin.deserializer.maxLineLength = 2048
agent.sources.origin.interceptors = i2
agent.sources.origin.interceptors.i2.type = host
agent.sources.origin.interceptors.i2.hostHeader = hostname
agent.sinks.loggerSink.type = logger
agent.sinks.loggerSink.channel = memorychannel
agent.channels.memorychannel.type = memory
agent.channels.memorychannel.capacity = 10000
agent.sinks.target.type = avro
agent.sinks.target.channel = memorychannel
agent.sinks.target.hostname = 172.16.124.130
agent.sinks.target.port = 4545

     这里有几个参数需要说明， Flume Agent Source 可以通过配置 deserializer.maxLineLength 这个属性来指定每个 Event 的大小，默认是每个 Event 是 2048 个 byte 。 Flume Agent Channel 的大小默认等于于本地服务器上 JVM 所获取到的内存的 80% ，用户可以通过 byteCapacityBufferPercentage 和 byteCapacity 两个参数去进行优化。
      需要特别注意的是 FTP 上放入 Flume 监听的文件夹中的日志文件不能同名，不然 Flume 会报错并停止工作，最好的解决方案就是为每份日志文件拼上时间戳。

     在 Hadoop 服务器上的配置文件如下：

[plain] view plain copy

agent.sources = origin
agent.channels = memorychannel
agent.sinks = target
agent.sources.origin.type = avro
agent.sources.origin.channels = memorychannel
agent.sources.origin.bind = 0.0.0.0
agent.sources.origin.port = 4545
#agent.sources.origin.interceptors = i1 i2
#agent.sources.origin.interceptors.i1.type = timestamp
#agent.sources.origin.interceptors.i2.type = host
#agent.sources.origin.interceptors.i2.hostHeader = hostname
agent.sinks.loggerSink.type = logger
agent.sinks.loggerSink.channel = memorychannel
agent.channels.memorychannel.type = memory
agent.channels.memorychannel.capacity = 5000000
agent.channels.memorychannel.transactionCapacity = 1000000
agent.sinks.target.type = hdfs
agent.sinks.target.channel = memorychannel
agent.sinks.target.hdfs.path = /flume/events/%y-%m-%d/%H%M%S
agent.sinks.target.hdfs.filePrefix = data-%{hostname}
agent.sinks.target.hdfs.rollInterval = 60
agent.sinks.target.hdfs.rollSize = 1073741824
agent.sinks.target.hdfs.rollCount = 1000000
agent.sinks.target.hdfs.round = true
agent.sinks.target.hdfs.roundValue = 10
agent.sinks.target.hdfs.roundUnit = minute
agent.sinks.target.hdfs.useLocalTimeStamp = true
agent.sinks.target.hdfs.minBlockReplicas=1
agent.sinks.target.hdfs.writeFormat=Text
agent.sinks.target.hdfs.fileType=DataStream

round, roundValue,roundUnit 三个参数是用来配置每 10 分钟在 hdfs 里生成一个文件夹保存从 FTP 服务器上拉取下来的数据。

Troubleshooting

使用Flume拉取文件到HDFS中会遇到将文件分散成多个1KB-5KB的小文件的问题

需要注意的是如果遇到Flume会将拉取过来的文件分成很多份1KB-5KB的小文件存储到HDFS上，那么很可能是HDFS Sink的配置不正确，导致系统使用了默认配置。spooldir类型的source是将指定目录中的文件的每一行封装成一个event放入到channel中，默认每一行最大读取1024个字符。在HDFS Sink端主要是通过rollInterval(默认30秒), rollSize(默认1KB), rollCount(默认10个event)3个属性来决定写进HDFS的分片文件的大小。 rollInterval表示经过多少秒后就将当前.tmp文件(写入的是从channel中过来的events)下沉到HDFS文件系统中， rollSize表示一旦.tmp文件达到一定的size后，就下沉到HDFS文件系统中，rollCount表示.tmp文件一旦写入了指定数量的events就下沉到HDFS文件系统中。

使用Flume拉取到HDFS中的文件格式错乱

这是因为HDFS Sink的配置中，hdfs.writeFormat属性默认为“Writable”会将原先的文件的内容序列化成HDFS的格式，应该手动设置成hdfs.writeFormat=“text”; 并且hdfs.fileType默认是“SequenceFile”类型的，是将所有event拼成一行，应该该手动设置成hdfs.fileType=“DataStream”，这样就可以是一行一个event，与原文件格式保持一致

使用Mapreduce清洗日志文件

当把日志文件中的数据拉取到HDFS文件系统后，使用Mapreduce程序去进行日志清洗

第一步，先用Mapreduce过滤掉无效的数据

[plain] view plain copy

package com.guludada.clickstream;
import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.StringTokenizer;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import com.guludada.dataparser.WebLogParser;
public class logClean {
public static class cleanMap extends Mapper {
private NullWritable v = NullWritable.get();
private Text word = new Text();
WebLogParser webLogParser = new WebLogParser();
public void map(Object key,Text value,Context context) {
//将一行内容转成string
String line = value.toString();
String cleanContent = webLogParser.parser(line);
if(cleanContent != "") {
word.set(cleanContent);
try {
context.write(word,v);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://ymhHadoop:9000");
Job job = Job.getInstance(conf);
job.setJarByClass(logClean.class);
//指定本业务job要使用的mapper/Reducer业务类
job.setMapperClass(cleanMap.class);
//指定mapper输出数据的kv类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
//指定job的输入原始文件所在目录
Date curDate = new Date();
SimpleDateFormat sdf = new SimpleDateFormat("yy-MM-dd");
String dateStr = sdf.format(curDate);
FileInputFormat.setInputPaths(job, new Path("/flume/events/" + dateStr + "/*/*"));
//指定job的输出结果所在目录
FileOutputFormat.setOutputPath(job, new Path("/clickstream/cleandata/"+dateStr+"/"));
//将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行
boolean res = job.waitForCompletion(true);
System.exit(res?0:1);
}
}

[plain] view plain copy

package com.guludada.dataparser;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import com.guludada.javabean.WebLogBean;
/**
* 用正则表达式匹配出合法的日志记录
*
*
*/
public class WebLogParser {
public String parser(String weblog_origin) {
WebLogBean weblogbean = new WebLogBean();
// 获取IP地址
Pattern IPPattern = Pattern.compile("\\d+.\\d+.\\d+.\\d+");
Matcher IPMatcher = IPPattern.matcher(weblog_origin);
if(IPMatcher.find()) {
String IPAddr = IPMatcher.group(0);
weblogbean.setIP_addr(IPAddr);
} else {
return ""
}
// 获取时间信息
Pattern TimePattern = Pattern.compile("\\[(.+)\\]");
Matcher TimeMatcher = TimePattern.matcher(weblog_origin);
if(TimeMatcher.find()) {
String time = TimeMatcher.group(1);
String[] cleanTime = time.split(" ");
weblogbean.setTime(cleanTime[0]);
} else {
return "";
}
//获取其余请求信息
Pattern InfoPattern = Pattern.compile(
"(\\\"[POST|GET].+?\\\") (\\d+) (\\d+).+?(\\\".+?\\\") (\\\".+?\\\")");
Matcher InfoMatcher = InfoPattern.matcher(weblog_origin);
if(InfoMatcher.find()) {
String requestInfo = InfoMatcher.group(1).replace('\"',' ').trim();
String[] requestInfoArry = requestInfo.split(" ");
weblogbean.setMethod(requestInfoArry[0]);
weblogbean.setRequest_URL(requestInfoArry[1]);
weblogbean.setRequest_protocol(requestInfoArry[2]);
String status_code = InfoMatcher.group(2);
weblogbean.setRespond_code(status_code);
String respond_data = InfoMatcher.group(3);
weblogbean.setRespond_data(respond_data);
String request_come_from = InfoMatcher.group(4).replace('\"',' ').trim();
weblogbean.setRequst_come_from(request_come_from);
String browserInfo = InfoMatcher.group(5).replace('\"',' ').trim();
weblogbean.setBrowser(browserInfo);
} else {
return "";
}
return weblogbean.toString();
}
}

[plain] view plain copy

package com.guludada.javabean;
public class WebLogBean {
String IP_addr;
String time;
String method;
String request_URL;
String request_protocol;
String respond_code;
String respond_data;
String requst_come_from;
String browser;
public String getIP_addr() {
return IP_addr;
}
public void setIP_addr(String iP_addr) {
IP_addr = iP_addr;
}
public String getTime() {
return time;
}
public void setTime(String time) {
this.time = time;
}
public String getMethod() {
return method;
}
public void setMethod(String method) {
this.method = method;
}
public String getRequest_URL() {
return request_URL;
}
public void setRequest_URL(String request_URL) {
this.request_URL = request_URL;
}
public String getRequest_protocol() {
return request_protocol;
}
public void setRequest_protocol(String request_protocol) {
this.request_protocol = request_protocol;
}
public String getRespond_code() {
return respond_code;
}
public void setRespond_code(String respond_code) {
this.respond_code = respond_code;
}
public String getRespond_data() {
return respond_data;
}
public void setRespond_data(String respond_data) {
this.respond_data = respond_data;
}
public String getRequst_come_from() {
return requst_come_from;
}
public void setRequst_come_from(String requst_come_from) {
this.requst_come_from = requst_come_from;
}
public String getBrowser() {
return browser;
}
public void setBrowser(String browser) {
this.browser = browser;
}
@Override
public String toString() {
return IP_addr + " " + time + " " + method + " "
+ request_URL + " " + request_protocol + " " + respond_code
+ " " + respond_data + " " + requst_come_from + " " + browser;
}
}

第一次日记清洗后的记录如下图：

第二步，根据访问记录生成相应的Session 信息记录，假设Session的过期时间是30分钟

[plain] view plain copy

package com.guludada.clickstream;
import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.Date;
import java.util.HashMap;
import java.util.Locale;
import java.util.UUID;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import com.guludada.clickstream.logClean.cleanMap;
import com.guludada.dataparser.SessionParser;
import com.guludada.dataparser.WebLogParser;
import com.guludada.javabean.WebLogSessionBean;
public class logSession {
public static class sessionMapper extends Mapper {
private Text IPAddr = new Text();
private Text content = new Text();
private NullWritable v = NullWritable.get();
WebLogParser webLogParser = new WebLogParser();
public void map(Object key,Text value,Context context) {
//将一行内容转成string
String line = value.toString();
String[] weblogArry = line.split(" ");
IPAddr.set(weblogArry[0]);
content.set(line);
try {
context.write(IPAddr,content);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
static class sessionReducer extends Reducer{
private Text IPAddr = new Text();
private Text content = new Text();
private NullWritable v = NullWritable.get();
WebLogParser webLogParser = new WebLogParser();
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
SessionParser sessionParser = new SessionParser();
@Override
protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
Date sessionStartTime = null;
String sessionID = UUID.randomUUID().toString();
//将IP地址所对应的用户的所有浏览记录按时间排序
ArrayList sessionBeanGroup = new ArrayList();
for(Text browseHistory : values) {
WebLogSessionBean sessionBean = sessionParser.loadBean(browseHistory.toString());
sessionBeanGroup.add(sessionBean);
}
Collections.sort(sessionBeanGroup,new Comparator() {
public int compare(WebLogSessionBean sessionBean1, WebLogSessionBean sessionBean2) {
Date date1 = sessionBean1.getTimeWithDateFormat();
Date date2 = sessionBean2.getTimeWithDateFormat();
if(date1 == null && date2 == null) return 0;
return date1.compareTo(date2);
}
});
for(WebLogSessionBean sessionBean : sessionBeanGroup) {
if(sessionStartTime == null) {
//当天日志中某用户第一次访问网站的时间
sessionStartTime = timeTransform(sessionBean.getTime());
content.set(sessionParser.parser(sessionBean, sessionID));
try {
context.write(content,v);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
} else {
Date sessionEndTime = timeTransform(sessionBean.getTime());
long sessionStayTime = timeDiffer(sessionStartTime,sessionEndTime);
if(sessionStayTime > 30 * 60 * 1000) {
//将当前浏览记录的时间设为下一个session的开始时间
sessionStartTime = timeTransform(sessionBean.getTime());
sessionID = UUID.randomUUID().toString();
continue;
}
content.set(sessionParser.parser(sessionBean, sessionID));
try {
context.write(content,v);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
private Date timeTransform(String time) {
Date standard_time = null;
try {
standard_time = sdf.parse(time);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return standard_time;
}
private long timeDiffer(Date start_time,Date end_time) {
long diffTime = 0;
diffTime = end_time.getTime() - start_time.getTime();
return diffTime;
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://ymhHadoop:9000");
Job job = Job.getInstance(conf);
job.setJarByClass(logClean.class);
//指定本业务job要使用的mapper/Reducer业务类
job.setMapperClass(sessionMapper.class);
job.setReducerClass(sessionReducer.class);
//指定mapper输出数据的kv类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//指定最终输出的数据的kv类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
Date curDate = new Date();
SimpleDateFormat sdf = new SimpleDateFormat("yy-MM-dd");
String dateStr = sdf.format(curDate);
//指定job的输入原始文件所在目录
FileInputFormat.setInputPaths(job, new Path("/clickstream/cleandata/"+dateStr+"/*"));
//指定job的输出结果所在目录
FileOutputFormat.setOutputPath(job, new Path("/clickstream/sessiondata/"+dateStr+"/"));
//将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行
boolean res = job.waitForCompletion(true);
System.exit(res?0:1);
}
}

[plain] view plain copy

package com.guludada.dataparser;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Locale;
import com.guludada.javabean.WebLogSessionBean;
public class SessionParser {
SimpleDateFormat sdf_origin = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss",Locale.ENGLISH);
SimpleDateFormat sdf_final = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
public String parser(WebLogSessionBean sessionBean,String sessionID) {
sessionBean.setSession(sessionID);
return sessionBean.toString();
}
public WebLogSessionBean loadBean(String sessionContent) {
WebLogSessionBean weblogSession = new WebLogSessionBean();
String[] contents = sessionContent.split(" ");
weblogSession.setTime(timeTransform(contents[1]));
weblogSession.setIP_addr(contents[0]);
weblogSession.setRequest_URL(contents[3]);
weblogSession.setReferal(contents[7]);
return weblogSession;
}
private String timeTransform(String time) {
Date standard_time = null;
try {
standard_time = sdf_origin.parse(time);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return sdf_final.format(standard_time);
}
}

[plain] view plain copy

package com.guludada.javabean;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
public class WebLogSessionBean {
String time;
String IP_addr;
String session;
String request_URL;
String referal;
public String getTime() {
return time;
}
public void setTime(String time) {
this.time = time;
}
public String getIP_addr() {
return IP_addr;
}
public void setIP_addr(String iP_addr) {
IP_addr = iP_addr;
}
public String getSession() {
return session;
}
public void setSession(String session) {
this.session = session;
}
public String getRequest_URL() {
return request_URL;
}
public void setRequest_URL(String request_URL) {
this.request_URL = request_URL;
}
public String getReferal() {
return referal;
}
public void setReferal(String referal) {
this.referal = referal;
}
public Date getTimeWithDateFormat() {
SimpleDateFormat sdf_final = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
if(this.time != null && this.time != "") {
try {
return sdf_final.parse(this.time);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
return null;
}
@Override
public String toString() {
return time + " " + IP_addr + " " + session + " "
+ request_URL + " " + referal;
}
}

第二次清理出来的Session信息结构如下：

时间	IP	SessionID	请求页面URL	Referal URL
2015-05-30 19:38:00	192.168.12.130	Session1	/blog/me	www.baidu.com
2015-05-30 19:39:00	192.168.12.130	Session1	/blog/me/details	www.mysite.com/blog/me
2015-05-30 19:38:00	192.168.12.40	Session2	/blog/me	www.baidu.com

第三步，清洗第二步生成的Session信息，生成PageViews信息表

[plain] view plain copy

package com.guludada.clickstream;
import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.Date;
import java.util.HashMap;
import java.util.Locale;
import java.util.Map;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import com.guludada.clickstream.logClean.cleanMap;
import com.guludada.clickstream.logSession.sessionMapper;
import com.guludada.clickstream.logSession.sessionReducer;
import com.guludada.dataparser.PageViewsParser;
import com.guludada.dataparser.SessionParser;
import com.guludada.dataparser.WebLogParser;
import com.guludada.javabean.PageViewsBean;
import com.guludada.javabean.WebLogSessionBean;
public class PageViews {
public static class pageMapper extends Mapper {
private Text word = new Text();
public void map(Object key,Text value,Context context) {
String line = value.toString();
String[] webLogContents = line.split(" ");
//根据session来分组
word.set(webLogContents[2]);
try {
context.write(word,value);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
public static class pageReducer extends Reducer{
private Text session = new Text();
private Text content = new Text();
private NullWritable v = NullWritable.get();
PageViewsParser pageViewsParser = new PageViewsParser();
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
//上一条记录的访问信息
PageViewsBean lastStayPageBean = null;
Date lastVisitTime = null;
@Override
protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
//将session所对应的所有浏览记录按时间排序
ArrayList pageViewsBeanGroup = new ArrayList();
for(Text pageView : values) {
PageViewsBean pageViewsBean = pageViewsParser.loadBean(pageView.toString());
pageViewsBeanGroup.add(pageViewsBean);
}
Collections.sort(pageViewsBeanGroup,new Comparator() {
public int compare(PageViewsBean pageViewsBean1, PageViewsBean pageViewsBean2) {
Date date1 = pageViewsBean1.getTimeWithDateFormat();
Date date2 = pageViewsBean2.getTimeWithDateFormat();
if(date1 == null && date2 == null) return 0;
return date1.compareTo(date2);
}
});
//计算每个页面的停留时间
int step = 0;
for(PageViewsBean pageViewsBean : pageViewsBeanGroup) {
Date curVisitTime = pageViewsBean.getTimeWithDateFormat();
if(lastStayPageBean != null) {
//计算前后两次访问记录相差的时间，单位是秒
Integer timeDiff = (int) ((curVisitTime.getTime() - lastVisitTime.getTime())/1000);
//根据当前记录的访问信息更新上一条访问记录中访问的页面的停留时间
lastStayPageBean.setStayTime(timeDiff.toString());
}
//更新访问记录的步数
step++;
pageViewsBean.setStep(step+"");
//更新上一条访问记录的停留时间后，将当前访问记录设定为上一条访问信息记录
lastStayPageBean = pageViewsBean;
lastVisitTime = curVisitTime;
//输出pageViews信息
content.set(pageViewsParser.parser(pageViewsBean));
try {
context.write(content,v);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://ymhHadoop:9000");
Job job = Job.getInstance(conf);
job.setJarByClass(PageViews.class);
//指定本业务job要使用的mapper/Reducer业务类
job.setMapperClass(pageMapper.class);
job.setReducerClass(pageReducer.class);
//指定mapper输出数据的kv类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//指定最终输出的数据的kv类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
Date curDate = new Date();
SimpleDateFormat sdf = new SimpleDateFormat("yy-MM-dd");
String dateStr = sdf.format(curDate);
//指定job的输入原始文件所在目录
FileInputFormat.setInputPaths(job, new Path("/clickstream/sessiondata/"+dateStr+"/*"));
//指定job的输出结果所在目录
FileOutputFormat.setOutputPath(job, new Path("/clickstream/pageviews/"+dateStr+"/"));
//将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行
boolean res = job.waitForCompletion(true);
System.exit(res?0:1);
}
}

[plain] view plain copy

package com.guludada.dataparser;
import com.guludada.javabean.PageViewsBean;
import com.guludada.javabean.WebLogSessionBean;
public class PageViewsParser {
/**
* 根据logSession的输出数据加载PageViewsBean
*
* */
public PageViewsBean loadBean(String sessionContent) {
PageViewsBean pageViewsBean = new PageViewsBean();
String[] contents = sessionContent.split(" ");
pageViewsBean.setTime(contents[0] + " " + contents[1]);
pageViewsBean.setIP_addr(contents[2]);
pageViewsBean.setSession(contents[3]);
pageViewsBean.setVisit_URL(contents[4]);
pageViewsBean.setStayTime("0");
pageViewsBean.setStep("0");
return pageViewsBean;
}
public String parser(PageViewsBean pageBean) {
return pageBean.toString();
}
}

[plain] view plain copy

package com.guludada.javabean;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
public class PageViewsBean {
String session;
String IP_addr;
String time;
String visit_URL;
String stayTime;
String step;
public String getSession() {
return session;
}
public void setSession(String session) {
this.session = session;
}
public String getIP_addr() {
return IP_addr;
}
public void setIP_addr(String iP_addr) {
IP_addr = iP_addr;
}
public String getTime() {
return time;
}
public void setTime(String time) {
this.time = time;
}
public String getVisit_URL() {
return visit_URL;
}
public void setVisit_URL(String visit_URL) {
this.visit_URL = visit_URL;
}
public String getStayTime() {
return stayTime;
}
public void setStayTime(String stayTime) {
this.stayTime = stayTime;
}
public String getStep() {
return step;
}
public void setStep(String step) {
this.step = step;
}
public Date getTimeWithDateFormat() {
SimpleDateFormat sdf_final = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
if(this.time != null && this.time != "") {
try {
return sdf_final.parse(this.time);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
return null;
}
@Override
public String toString() {
return session + " " + IP_addr + " " + time + " "
+ visit_URL + " " + stayTime + " " + step;
}
}

第三次日志清洗产生的PageViews数据结构如下图：

SessionID	IP	访问时间	访问页面	停留时间	第几步
Session1	192.168.12.130	2016-05-30 15:17:30	/blog/me	30000	1
Session1	192.168.12.130	2016-05-30 15:18:00	/blog/me/admin	30000	2
Session1	192.168.12.130	2016-05-30 15:18:30	/home	30000	3
Session2	192.168.12.150	2016-05-30 15:16:30	/products	30000	1
Session2	192.168.12.150	2016-05-30 15:17:00	/products/details	30000	2

第四步，再次清洗Session日志，并生成Visits信息表

[plain] view plain copy

package com.guludada.clickstream;
import java.io.IOException;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Reducer.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import com.guludada.clickstream.PageViews.pageMapper;
import com.guludada.clickstream.PageViews.pageReducer;
import com.guludada.clickstream.logClean.cleanMap;
import com.guludada.dataparser.PageViewsParser;
import com.guludada.dataparser.VisitsInfoParser;
import com.guludada.javabean.PageViewsBean;
public class VisitsInfo {
public static class visitMapper extends Mapper {
private Text word = new Text();
public void map(Object key,Text value,Context context) {
String line = value.toString();
String[] webLogContents = line.split(" ");
//根据session来分组
word.set(webLogContents[2]);
try {
context.write(word,value);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
public static class visitReducer extends Reducer{
private Text content = new Text();
private NullWritable v = NullWritable.get();
VisitsInfoParser visitsParser = new VisitsInfoParser();
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
PageViewsParser pageViewsParser = new PageViewsParser();
Map viewedPagesMap = new HashMap();
String entry_URL = "";
String leave_URL = "";
int total_visit_pages = 0;
@Override
protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
//将session所对应的所有浏览记录按时间排序
ArrayList browseInfoGroup = new ArrayList();
for(Text browseInfo : values) {
browseInfoGroup.add(browseInfo.toString());
}
Collections.sort(browseInfoGroup,new Comparator() {
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
public int compare(String browseInfo1, String browseInfo2) {
String dateStr1 = browseInfo1.split(" ")[0] + " " + browseInfo1.split(" ")[1];
String dateStr2 = browseInfo2.split(" ")[0] + " " + browseInfo2.split(" ")[1];
Date date1;
Date date2;
try {
date1 = sdf.parse(dateStr1);
date2 = sdf.parse(dateStr2);
if(date1 == null && date2 == null) return 0;
return date1.compareTo(date2);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return 0;
}
}
});
//统计该session访问的总页面数,第一次进入的页面，跳出的页面
for(String browseInfo : browseInfoGroup) {
String[] browseInfoStrArr = browseInfo.split(" ");
String curVisitURL = browseInfoStrArr[3];
Integer curVisitURLInteger = viewedPagesMap.get(curVisitURL);
if(curVisitURLInteger == null) {
viewedPagesMap.put(curVisitURL, 1);
}
}
total_visit_pages = viewedPagesMap.size();
String visitsInfo = visitsParser.parser(browseInfoGroup, total_visit_pages+"");
content.set(visitsInfo);
try {
context.write(content,v);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://ymhHadoop:9000");
Job job = Job.getInstance(conf);
job.setJarByClass(VisitsInfo.class);
//指定本业务job要使用的mapper/Reducer业务类
job.setMapperClass(visitMapper.class);
job.setReducerClass(visitReducer.class);
//指定mapper输出数据的kv类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//指定最终输出的数据的kv类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
Date curDate = new Date();
SimpleDateFormat sdf = new SimpleDateFormat("yy-MM-dd");
String dateStr = sdf.format(curDate);
//指定job的输入原始文件所在目录
FileInputFormat.setInputPaths(job, new Path("/clickstream/sessiondata/"+dateStr+"/*"));
//指定job的输出结果所在目录
FileOutputFormat.setOutputPath(job, new Path("/clickstream/visitsinfo"+dateStr+"/"));
//将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行
boolean res = job.waitForCompletion(true);
System.exit(res?0:1);
}
}

[plain] view plain copy

package com.guludada.dataparser;
import java.util.ArrayList;
import com.guludada.javabean.PageViewsBean;
import com.guludada.javabean.VisitsInfoBean;
import com.guludada.javabean.WebLogSessionBean;
public class VisitsInfoParser {
public String parser(ArrayList pageViewsGroup,String totalVisitNum) {
VisitsInfoBean visitsBean = new VisitsInfoBean();
String entryPage = pageViewsGroup.get(0).split(" ")[4];
String leavePage = pageViewsGroup.get(pageViewsGroup.size()-1).split(" ")[4];
String startTime = pageViewsGroup.get(0).split(" ")[0] + " " + pageViewsGroup.get(0).split(" ")[1];
String endTime = pageViewsGroup.get(pageViewsGroup.size()-1).split(" ")[0] +
" " +pageViewsGroup.get(pageViewsGroup.size()-1).split(" ")[1];
String session = pageViewsGroup.get(0).split(" ")[3];
String IP = pageViewsGroup.get(0).split(" ")[2];
String referal = pageViewsGroup.get(0).split(" ")[5];
visitsBean.setSession(session);
visitsBean.setStart_time(startTime);
visitsBean.setEnd_time(endTime);
visitsBean.setEntry_page(entryPage);
visitsBean.setLeave_page(leavePage);
visitsBean.setVisit_page_num(totalVisitNum);
visitsBean.setIP_addr(IP);
visitsBean.setReferal(referal);
return visitsBean.toString();
}
}

[plain] view plain copy

package com.guludada.javabean;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
public class VisitsInfoBean {
String session;
String start_time;
String end_time;
String entry_page;
String leave_page;
String visit_page_num;
String IP_addr;
String referal;
public String getSession() {
return session;
}
public void setSession(String session) {
this.session = session;
}
public String getStart_time() {
return start_time;
}
public void setStart_time(String start_time) {
this.start_time = start_time;
}
public String getEnd_time() {
return end_time;
}
public void setEnd_time(String end_time) {
this.end_time = end_time;
}
public String getEntry_page() {
return entry_page;
}
public void setEntry_page(String entry_page) {
this.entry_page = entry_page;
}
public String getLeave_page() {
return leave_page;
}
public void setLeave_page(String leave_page) {
this.leave_page = leave_page;
}
public String getVisit_page_num() {
return visit_page_num;
}
public void setVisit_page_num(String visit_page_num) {
this.visit_page_num = visit_page_num;
}
public String getIP_addr() {
return IP_addr;
}
public void setIP_addr(String iP_addr) {
IP_addr = iP_addr;
}
public String getReferal() {
return referal;
}
public void setReferal(String referal) {
this.referal = referal;
}
@Override
public String toString() {
return session + " " + start_time + " " + end_time
+ " " + entry_page + " " + leave_page + " " + visit_page_num
+ " " + IP_addr + " " + referal;
}
}

第四次清洗日志产生的访问记录表结构如下图：

SessionID	访问时间	离开时间	第一次访问页面	最后一次访问的页面	访问的页面总数	IP	Referal
Session1	2016-05-30 15:17:00	2016-05-30 15:19:00	/blog/me	/blog/others	5	192.168.12.130	www.baidu.com
Session2	2016-05-30 14:17:00	2016-05-30 15:19:38	/home	/profile	10	192.168.12.140	www.178.com
Session3	2016-05-30 12:17:00	2016-05-30 15:40:00	/products	/detail	6	192.168.12.150	www.78dm.net

      以上就是要进行日志清洗的所有MapReduce程序，因为只是一个简单的演示，方法并没有做很好的抽象。

    MapReduce Troubleshooting
     指定某个文件夹路径下所有文件作为mapreduce的输入参数的解决方案。
      1.hdfs的文件系统中的路径是支持正则表达式的
       2.使用.setInputDirRecursive(job,true)方法，然后指定文件夹路径

        在分布式环境下如何设置每个用户的SessionID
        可以使用UUID,UUID是分布式环境下唯一的元素识别码，它由日期和时间，时钟序列，机器识别码(一般为网卡MAC地址)三部分组成。这样就保证了每个用户的SessionID的唯一性。

HIVE建立数据仓库
使用MapReduce清洗完日志文件后，我们就开始使用Hive去构建对应的数据仓库并使用HiveSql对数据进行分析。而在本系统里，我们将使用星型模型来构建数据仓库的ODS(OperationalData Store)层。下面的命令我们可以通过启动Hive的hiveserver2服务器并使用beeline客户端进行操作或者直接写脚本去定时调度。

     PageViews数据分析

     PageViews的事实表和维度表结构

    使用HIVE在数据仓库中创建PageViews的贴源数据表：
     >> create table pageviews(session string,ip string,requestdate string,requesttime string,visitpage string, staytime string,step string) comment ‘this is the table for pageviews’ partitioned by(inputDate string) clustered by(session) sorted by(requestdate,requesttime) into 4 buckets row format delimited fields terminated by ‘ ’;

    将HDFS中的数据导入到HIVE的PageViews贴源数据表中
      >> load data inpath ‘/clickstream/pageviews’ overwrite into table pageviews partition(inputDate=‘2016-05-17’);
如果没有标示是在’Local‘本地文件系统中，则会去HDFS中加载数据

    根据具体的业务分析逻辑创建ODS层的PageViews事实表，并从PageViews的贴源表中导入数据

    这里根据请求的页面URL来分组(clustered)是为了方便统计每个页面的PV
     >> create table ods_pageviews(session string,ip string,viewtime string,visitpage string, staytime string,step string) partitioned by(inputDate string) clustered by(visitpage) sorted by(viewtime) into 4 buckets row format delimited fields terminated by ‘ ’;

     >> insert into table ods_pageviews partition(inputDate='2016-05-17') select pv.session,pv.ip,concat(pv.requestdate,"-",pv.requesttime),pv.visitpage,pv.staytime,pv.step from pageviews as pv where pv.inputDate='2016-05-17';

    创建PageViews事实表的时间维度表并从当天的事实表里导入数据

     >>create table ods_dim_pageviews_time(time string,year string,month string,day string,hour string,minutes string,seconds string) partitioned by(inputDate String) clustered by(year,month,day) sorted by(time) into 4 buckets row format delimited fields terminated by ' ';

    >> insert overwrite table ods_dim_pageviews_time partition(inputDate='2016-05-17') select distinct pv.viewtime, substring(pv.viewtime,0,4),substring(pv.viewtime,6,2),substring(pv.viewtime,9,2),substring(pv.viewtime,12,2),substring(pv.viewtime,15,2),substring(pv.viewtime,18,2) from ods_pageviews as pv;

    创建PageViews事实表的URL维度表并从当天的事实表里导入数据
     >> create table ods_dim_pageviews_url(visitpage string,host string,path string,query string) partitioned by(inputDate string) clustered by(visitpage) sorted by(visitpage) into 4 buckets row format delimited fields terminated by ' ';

    >> insert into table ods_dim_pageviews_url partition(inputDate='2016-05-17') select distinct pv.visitpage,b.host,b.path,b.query from pageviews pv lateral view parse_url_tuple(concat('https://localhost',pv.visitpage),'HOST','PATH','QUERY') b as host,path,query;

    查询每天PV总数前20的页面
     >> select op.visitpage as path,count(*) as num from ods_pageviews as op join ods_dim_pageviews_url as opurl on (op.visitpage = opurl.visitpage) join ods_dim_pageviews_time as optime on (optime.time = op.viewtime) where optime.year='2013' and optime.month='09' and optime.day='19' group by op.visitpage sort by num desc limit 20;

   运行结果:

   Visits数据分析
   页面具体访问记录Visits的事实表和维度表结构

    使用HIVE在数据仓库中创建Visits信息的贴源数据表：
     >> create table visitsinfo(session string,startdate string,starttime string,enddate string,endtime string,entrypage string,leavepage string,viewpagenum string,ip string,referal string) partitioned by(inputDate string) clustered by(session) sorted by(startdate,starttime) into 4 buckets row format delimited fields terminated by ' ';

    将HDFS中的数据导入到HIVE的Visits信息贴源数据表中
     >> load data inpath '/clickstream/visitsinfo' overwrite into table visitsinfo partition(inputDate='2016-05-18');

    根据具体的业务分析逻辑创建ODS层的Visits事实表，并从visitsinfo的贴源表中导入数据
    >> create table ods_visits(session string,entrytime string,leavetime string,entrypage string,leavepage string,viewpagenum string,ip string,referal string) partitioned by(inputDate string) clustered by(session) sorted by(entrytime) into 4 buckets row format delimited fields terminated by ' ';

    >> insert into table ods_visits partition(inputDate='2016-05-18') select vi.session,concat(vi.startdate,"-",vi.starttime),concat(vi.enddate,"-",vi.endtime),vi.entrypage,vi.leavepage,vi.viewpagenum,vi.ip,vi.referal from visitsinfo as vi where vi.inputDate='2016-05-18';

   创建Visits事实表的时间维度表并从当天的事实表里导入数据

    >>create table ods_dim_visits_time(time string,year string,month string,day string,hour string,minutes string,seconds string) partitioned by(inputDate String) clustered by(year,month,day) sorted by(time) into 4 buckets row format delimited fields terminated by ' ';

   将“访问时间”和“离开时间”两列的值合并后再放入时间维度表中，减少数据的冗余
>>insert overwrite table ods_dim_visits_time partition(inputDate='2016-05-18') select distinct ov.timeparam, substring(ov.timeparam,0,4),substring(ov.timeparam,6,2),substring(ov.timeparam,9,2),substring(ov.timeparam,12,2),substring(ov.timeparam,15,2),substring(ov.timeparam,18,2) from (select ov1.entrytime as timeparam from ods_visits as ov1 union select ov2.leavetime as timeparam from ods_visits as ov2) as ov;

    创建visits事实表的URL维度表并从当天的事实表里导入数据
     >> create table ods_dim_visits_url(pageurl string,host string,path string,query string) partitioned by(inputDate string) clustered by(pageurl) sorted by(pageurl) into 4 buckets row format delimited fields terminated by ' ';

    将每个session的进入页面和离开页面的URL合并后存入到URL维度表中
     >>insert into table ods_dim_visits_url partition(inputDate='2016-05-18') select distinct ov.pageurl,b.host,b.path,b.query from (select ov1.entrypage as pageurl from ods_visits as ov1 union select ov2.leavepage as pageurl from ods_visits as ov2 ) as ov lateral view parse_url_tuple(concat('https://localhost',ov.pageurl),'HOST','PATH','QUERY') b as host,path,query;

   将每个session从哪个外站进入当前网站的信息存入到URL维度表中
     >>insert into table ods_dim_visits_url partition(inputDate='2016-05-18') select distinct ov.referal,b.host,b.path,b.query from ods_visits as ov lateral view parse_url_tuple(ov.referal,'HOST','PATH','QUERY') b as host,path,query;

     统计每个页面的跳出人数(事实上真正有价值的统计应该是统计页面的跳出率,但为了简单示范,作者在这里简化成统计跳出人数)
     >> select ov.leavepage as jumpPage, count(*) as jumpNum from ods_visits as ov group by ov.leavepage order by jumpNum desc;

    业务页面转换率分析(漏斗模型)
    Hive在创建表的时候无法实现某个字段自增长的关键字，得使用自定义函数(user-defined function)UDF来实现相应的功能。在查询的时候可以使用row_number()来显示行数，不过必须要在complete mode下才能使用，所以可以使用row_number() 函数配合开窗函数over()，具体示例如下。为简单起见，这里我们创建一个临时表，并手动在里面插入要查看的业务页面链接以及该页面的PV总数，通过这几个参数来计算业务页面之间的转换率，也就是所谓的漏斗模型。
假设我们有“/index” -> “/detail” -> “/createOrder” ->”/confirmOrder” 这一业务页面转化流程

   首先我们要创建业务页面的PV的临时信息表，临时表和里面的数据会在session结束的时候清理掉
   >> create temporary table transactionpageviews(url string,views int) row format delimited fields terminated by ' ';

   先统计业务页面的总PV然后按转换步骤顺序插入每个页面的PV信息到transactionpageviews表中
    >> insert into table transactionpageviews select opurl.path as path,count(*) as num from ods_pageviews as op join ods_dim_pageviews_url as opurl on (op.visitpage = opurl.visitpage) join ods_dim_pageviews_time as optime on (optime.time = op.viewtime) where optime.year='2013' and optime.month='09' and optime.day='19' and opurl.path='/index' group by opurl.path;

   >> insert into table transactionpageviews select opurl.path as path,count(*) as num from ods_pageviews as op join ods_dim_pageviews_url as opurl on (op.visitpage = opurl.visitpage) join ods_dim_pageviews_time as optime on (optime.time = op.viewtime) where optime.year='2013' and optime.month='09' and optime.day='19' and opurl.path='/detail' group by opurl.path;

>> insert into table transactionpageviews select opurl.path as path,count(*) as num from ods_pageviews as op join ods_dim_pageviews_url as opurl on (op.visitpage = opurl.visitpage) join ods_dim_pageviews_time as optime on (optime.time = op.viewtime) where optime.year='2013' and optime.month='09' and optime.day='19' and opurl.path='/createOrder' group by opurl.path;

>> insert into table transactionpageviews select opurl.path as path,count(*) as num from ods_pageviews as op join ods_dim_pageviews_url as opurl on (op.visitpage = opurl.visitpage) join ods_dim_pageviews_time as optime on (optime.time = op.viewtime) where optime.year='2013' and optime.month='09' and optime.day='19' and opurl.path='/confirmOrder' group by opurl.path;

计算业务页面之间的转换率
   >> select row_number() over() as rownum,a.url as url, a.views as pageViews,b.views as lastPageViews,a.views/b.views as transferRation from (select row_number() over() as rownum,views,url from transactionpageviews) as a left join (select row_number() over() as rownum,views,url from transactionpageviews) as b on (a.rownum = b.rownum-1 );

Shell脚本+Crontab定时器执行任务调度
执行initialEnv.sh脚本初始化系统环境，为了简单测试，作者只启动了单台服务器，下面的脚本是建立在Hadoop的standalone单节点模式，并且Hive也装在Hadoop服务器上

[plain] view plain copy

#!/bin/bash
export HADOOP_HOME=/home/ymh/apps/hadoop-2.6.4
#start hdfs
/home/ymh/apps/hadoop-2.6.4/sbin/start-dfs.sh
#start yarn
if [[ 0 == $? ]]
then
/home/ymh/apps/hadoop-2.6.4/sbin/start-yarn.sh
fi
#start flume
#if [[ 0 == $? ]]
#then
#start flume
#$nohup ~/apache-flume-1.6.0-bin/bin/flume-ng agent -n agent -c conf -f ~/apache-flume-1.6.0-bin/conf/flume-conf.properties &
#fi
#start mysql
if [ 0 = $? ]
then
service mysqld start
fi
#start HIVE SERVER
if [ 0 = $? ]
then
$nohup /apps/apache-hive-1.2.1-bin/bin/hiveserver2 &
fi

执行dataAnalyseTask.sh脚本，先启动MapReduce程序去清洗当日的日志信息，随后使用Hive去构建当日的ODS数据。需要注意的是，本脚本是建立在ODS层中事实表和维度表已经创建完毕的基础上去执行，所以脚本中不会有创建事实表和维度表的HIVE语句（创建语句见上一个章节的内容），并且为了节省篇幅，只列出了PageViews数据分析的脚本部分。

[plain] view plain copy

#!/bin/bash
CURDATE=$(date +%y-%m-%d)
CURDATEHIVE=$(date +%Y-%m-%d)
/home/ymh/apps/hadoop-2.6.4/bin/hdfs dfs -df /flume/events/$CURDATE
if [[ 1 -ne $? ]]
then
/home/ymh/apps/hadoop-2.6.4/bin/hadoop jar /export/data/mydata/clickstream.jar com.guludada.clickstream.logClean
fi
if [[ 1 -ne $? ]]
then
/home/ymh/apps/hadoop-2.6.4/bin/hadoop jar /export/data/mydata/clickstream.jar com.guludada.clickstream.logSession
fi
if [[ 1 -ne $? ]]
then
/home/ymh/apps/hadoop-2.6.4/bin/hadoop jar /export/data/mydata/clickstream.jar com.guludada.clickstream.PageViews
fi
#Load today's data
if [[ 1 -ne $? ]]
then
/home/ymh/apps/hadoop-2.6.4/bin/hdfs dfs -chmod 777 /clickstream/pageviews/$CURDATE/
echo "load data inpath '/clickstream/pageviews/$CURDATE/' into table pageviews partition(inputDate='$CURDATEHIVE');" | /apps/apache-hive-1.2.1-bin/bin/beeline -u jdbc:hive2://localhost:10000
fi
#Create fact table and its dimension tables
if [[ 1 -ne $? ]]
then
echo "insert into table ods_pageviews partition(inputDate='$CURDATEHIVE') select pv.session,pv.ip,concat(pv.requestdate,'-',pv.requesttime) as viewtime,pv.visitpage,pv.staytime,pv.step from pageviews as pv where pv.inputDate='$CURDATEHIVE';" | /apps/apache-hive-1.2.1-bin/bin/beeline -u jdbc:hive2://localhost:10000
fi
if [[ 1 -ne $? ]]
then
echo "insert into table ods_dim_pageviews_time partition(inputDate='$CURDATEHIVE') select distinct pv.viewtime, substring(pv.viewtime,0,4),substring(pv.viewtime,6,2),substring(pv.viewtime,9,2),substring(pv.viewtime,12,2),substring(pv.viewtime,15,2),substring(pv.viewtime,18,2) from ods_pageviews as pv;" | /apps/apache-hive-1.2.1-bin/bin/beeline -u jdbc:hive2://localhost:10000
fi
if [[ 1 -ne $? ]]
then
echo "insert into table ods_dim_pageviews_url partition(inputDate='$CURDATEHIVE') select distinct pv.visitpage,b.host,b.path,b.query from pageviews pv lateral view parse_url_tuple(concat('https://localhost',pv.visitpage),'HOST','PATH','QUERY') b as host,path,query;" | /apps/apache-hive-1.2.1-bin/bin/beeline -u jdbc:hive2://localhost:10000
fi

创建crontab文件，指定每天的凌晨01点整执行dataAnalyseTask.sh脚本，该脚本执行“使用MapReduce清理日志文件”和“使用HiveSql构建分析ODS层数据”两项任务，并将用户自定义的crontab文件加入到定时器中

[plain] view plain copy

$vi root_crontab_hadoop
$echo "0 1 * * * /myShells/dataAnalyseTask.sh" >> root_crontab_hadoop
$crontab root_crontab_hadoop

至此，使用Hadoop进行离线计算的简单架构和示例已经全部阐述完毕，而关于如何使用Sqoop将Hive中的数据导入Mysql中，因为篇幅有限，这里就不展开了。作者刚开始接触分布式离线计算，文章中尚有许多不足的地方，欢迎大家提出宝贵意见并做进一步交流。这篇文章的初衷是作者对自己最近所学知识的一个总结，同时也为了和大家分享所学到的东西，希望对大家有帮助，谢谢阅读！

你可能感兴趣的:(离线数据分析--实战)

7个改变python金融分析神奇库 python茶水实验室 python 金融开发语言数据结构 beautifulsoup scikit-learn scrapy
理解几个常用的Python金融分析库对于金融数据处理和分析非常重要。以下是几个常用的Python金融分析库的介绍和理解方法：1.Pandas用途：用于数据操作和分析。功能：提供数据结构和数据分析工具，尤其适用于时间序列数据。如何学习：基础知识：熟悉DataFrame和Series，学习如何导入和导出数据。数据操作：掌握数据清洗、数据变换、数据聚合等操作。时间序列分析：了解如何处理和分析时间序列数据
如何写美赛（MCM/ICM）论文中的Summary部分摆烂大大王 2025美赛思路+代码参考数学建模算法
美赛（MCM/ICM）作为一个数学建模竞赛，要求参赛者在有限的时间内解决一个复杂的实际问题，并通过数学建模、数据分析和计算机模拟等手段给出有效的解决方案。在美赛的论文中，Summary部分（通常也称为摘要）是非常关键的，它是整个论文的缩影，能让评审快速了解你解决问题的思路、方法和结果。写好Summary是成功的第一步，甚至有可能论文主体写的一般，但仅靠Summary一举拿下！毕竟评委哪能那么认真每
cocos 和 unity 学习奔跑的犀牛先生 cocos Unity
cocosunity编辑器等从游戏开发的实战来说，应该让策划，美术都用cocos和unity另外策划应该能搞定编辑器功能能租到的一切，UI，音效，简单动画等等声音文件的连入调整行为树等等unityunity编辑器的商店，社区等有很多插件一些插件提供的接口，比较好用cocoscreatercocos2xcocos也可以自己写插件UIPlayEffect.Play(path:string,isCach
【单细胞第二节：单细胞示例数据分析-GSE218208】遗落凡尘的萤火-生信小白单细胞分析数据分析 mysql 数据库
GSE2182081.创建Seurat对象#untar(“GSE218208_RAW.tar”)rm(list=ls())a=data.table::fread("GSM6736629_10x-PBMC-1_ds0.1974_CountMatrix.tsv.gz",data.table=F)a[1:4,1:4]library(tidyverse)a$`alias:gene`=str_split(a
单细胞-第五节多样本数据分析,打分R包AUCell 遗落凡尘的萤火-生信小白单细胞分析数据分析 r语言 windows
文件在单细胞\5_GC_py\1_single_cell\3.AUCell.Rmd1.基因rm(list=ls())load("g.Rdata")2.AUCellhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC9897923IF:NANANA用这个文章里的方法，将单细胞亚群的marker基因与ros相关基因取交集，用作AUCell的基因集Theinters
Linux 上 MySQL 8.0 的备份与恢复实战指南云水一方 mysql linux 大数据数据仓库运维数据库
在数据库运维过程中，备份与恢复是保障数据安全的重要手段。MySQL8.0在Linux环境中提供了多种备份和恢复方案，包括逻辑备份和物理备份。本文将介绍这些备份方式的操作步骤与逻辑实现，帮助您高效管理数据库。一、备份与恢复的作用和意义数据安全：防止因误操作、硬件故障或恶意攻击导致的数据丢失。容灾恢复：在灾难发生后快速恢复业务功能，减少停机时间。数据迁移：支持数据库迁移至新环境或硬件。二、备份方式概览
大数据组件ClickHouse介绍（场景、优劣势、性能）坚持是一种态度大数据开发 ClickHouse 大数据 clickhouse 数据库列式数据库
大数据组件ClickHouse介绍简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能简介clickhouse是一个高性能的列式存储分析数据库管理系统，由俄罗斯搜索引擎公司yandex开发。clickhouse具有以下特点高性能：clickhouse优化了查询和数据压缩算法，支持多维度数据分析和快速聚合查询。分布式：clickhouse采用共享无状
（一）单细胞数据分析——单细胞数据预处理 Kevin丶大牛单细胞数据分析数据分析数据挖掘 r语言
由于毕业设计是单细胞数据的处理，所以把整个过程所用到的方法进行一个整理，这是第一个部分，对得到的单细胞数据进行质控、降维、聚类等预处理。下面开始：第一步：导入R包（部分R包可能用不到，因为做课题的时候需要就全部导入了，无伤大雅！）library(scibet)library(Seurat)library(scater)library(scran)library(dplyr)library(Matr
python资本市场财务数据分析_Python对股票财务数据进行可视化分析 weixin_39834984
对股票财务数据进行分析是非常必要，但因股票数据量很大，单凭浏览网页或在软件客户端查看是非常浪费精力的一件事，通过Python进行网页数据提取，将财务数据图表化会更加直观。以下代码在Python3.6环境下通过：注：使用注意，将此代码保存为一个文本文件扩展名为.py，在这个文件同目录下建立二个子目录：数据-分析、数据-下载，也可以更改代码中的路径，否则运行时会报错。importmatplotlib.
MySQL实战教程：从小白到大神的进阶之路！奔跑吧邓邓子项目实战 mysql 数据库
目录一、MySQL概述1、MySQL简介1.1MySQL的历史背景1.2MySQL的特点1.3MySQL的应用场景1.4MySQL的版本2、MySQL发展历程2.1MySQL的起源2.2MySQL的早期发展2.3MySQL的成熟与普及2.4MySQL的商业化与收购2.5MySQL的持续创新3、MySQL应用场景3.1Web应用程序3.2企业级应用3.3大数据分析3.4移动应用3.5云计算3.6物联
Electron常见问题 61 - 客户端必须以管理员权限运行？ Data-Mining Electron实战服务器开发语言 node.js electron 管理员
目录问题解决方法一步骤一步骤二方法二结论《Electron实战》系列-总览_Data-Mining的博客-CSDN博客_electron滚动条欢迎大家阅读Data-Mining的《Electron实战》专栏。这里简单的罗列一下专栏的文章目录，一方面方便大家阅读，另一方面可以快速的查找对应的文章。需要说明的是，本专栏会持续更新，不断增加新的文章，同时，也会动态更新原有文章。...https://li
Nacos 在微服务项目中的实战应用 DebugDiver代码深处潜水员三方件微服务架构云原生
Nacos在微服务项目中的实战应用1.引言2.项目背景3.Nacos在服务注册与发现中的应用3.1服务注册3.2服务发现4.Nacos在配置管理中的应用4.1配置中心设置4.2在服务中使用配置5.Nacos实现动态路由6.Nacos实现服务限流7.Nacos实现灰度发布8.最佳实践与注意事项结论1.引言在当今的微服务架构中，服务发现和配置管理是两个核心挑战。Nacos作为阿里巴巴开源的服务发现和配
《大规模分布式存储系统：原理解析与架构实战》读书笔记 weixin_36908057 存储存储系统
《大规模分布式存储系统：原理解析与架构实战》读书笔记1、事务满足ACID特性2、单机存储引擎：哈希存储引擎和B树存储引擎和LSM存储引擎。存储系统的数据模型：文件模型、关系模型和键值模型。3、分布式系统：数据分布、复制、一致性、容错。数据分布的方式：哈希分布和顺序分布。将数据分散到多台机器之后，需要保证多台机器之间的负载均衡。衡量负载涉及的因素有很多，如cpu,内存。负载均衡需要执行数据迁移操作。
Java 阻塞队列（BlockingQueue）实战与原理详解吴冰_hogan juc java 网络协议网络
引言在多线程编程中，BlockingQueue是一种非常有用的同步工具，它不仅提供了线程安全的队列访问方式，还能够自动处理生产者和消费者之间的阻塞行为。本文将基于提供的文档内容，深入探讨BlockingQueue的工作原理及其在实际应用中的使用方法，并详细介绍几种常见的BlockingQueue实现。一、阻塞队列基础1.1定义与特性BlockingQueue是一个接口，定义了支持阻塞插入和移除操作
大规模分布式存储系统：原理解析与架构实战克终杂文
《大规模分布式存储系统：原理解析与架构实战》是分布式系统领域的经典著作，由阿里巴巴高级技术专家“阿里日照”（OceanBase核心开发人员）撰写，阳振坤、章文嵩、杨卫华、汪源、余锋（褚霸）、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面，不仅讲解了大规模分布式存储系统的核心技术和基本原理，而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析；实
CPU缓存架构详解与Disruptor高性能内存队列实战吴冰_hogan juc 缓存架构 java
引言现代计算机系统的性能很大程度上取决于CPU与内存之间的交互效率。随着处理器技术的发展，CPU的速度远超主内存，为了弥补这种速度差异，引入了多级高速缓存（Cache）。然而，在多核环境下，缓存一致性成为了一个重要的问题。本文将详细介绍CPU缓存架构的工作原理、面临的挑战及解决方案，并探讨Disruptor这一高性能内存队列的设计理念和实际应用。1.CPU缓存架构详解1.1CPU高速缓存概念CPU
网络安全攻防实战：从基础防护到高级对抗一ge科研小菜鸡运维网络
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言在信息化时代，网络安全已经成为企业、政府和个人必须重视的问题。从数据泄露到勒索软件攻击，每一次安全漏洞都可能造成巨大的经济损失和隐私风险。本教程将通过详细的案例、代码示例和实用工具，帮助读者从基础安全防护到高级安全对抗，系统掌握网络安全攻防的核心技术。1.常见网络攻击方式与防御措施1.1SQL注入攻击攻击者在输入字段中插入恶意SQL代码，绕过
爬虫实践--爬取学科排名数据青柠小卖部爬虫
简介在当今这个信息爆炸的时代，数据的获取和分析变得越来越重要。作为一名数据分析师，我经常需要从各种网站抓取数据来进行研究。最近，我接手了一个项目，需要抓取上海软科排名的数据。上海软科排名是一个权威的大学排名，包含了全球大学的学术排名信息。本文将详细介绍我如何使用Python编写爬虫程序来自动化抓取这些数据。环境准备在开始编码之前，我们需要准备以下环境和库：Python3.xrequests：用于发
SAP GR/IR在系统AP中收货和校验对会计业务的影响（详细） trassion SAP-FI SAP GRIR 采购
转自：http://www.studa.net/kuaiji/100405/14523268.html【摘要】正确理解和掌握SAP系统采购收货和发票校验的集成性对会计业务的影响,可以为物料数据分析和成本数据分析提供有力工具,保证数据真实、完整、实时和丰富,为企业管理者提供决策支持。【关键词】SAP;采购收货;发票校验;集成;影响mySAPERP系统是一种可以实现跨地区、跨部门、甚至跨公司整合实时信
Babylon.js实战3D模拟场景天涯学馆 WebGL 3D图形图像技术 javascript 3d 前端 Babylon.js webgl
目录初始化场景和引擎添加环境和光照创建地面和墙壁添加家具和装饰摄像机和控制交互性渲染循环
AI DMP 数据基建：数据可视化与报表 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《AIDMP数据基建：数据可视化与报表》关键词：AIDMP，数据可视化，报表分析，数据处理技术，数据治理，企业应用，项目实战，未来发展趋势。摘要：本文旨在深入探讨AI驱动的数据管理平台（DMP）的数据基建，重点关注数据可视化与报表分析。通过详细解析数据可视化的基础、报表分析的方法，以及AIDMP的核心技术，本文将展示如何构建一个高效的数据基础设施，并探讨其在企业中的应用和未来发展趋势。《AIDMP
Helm Chart 实战指南 ivwdcwso 运维 Heml k8s kubernetes 云原生包管理容器
Helm是Kubernetes的包管理工具，而HelmChart是Helm的核心概念，用于定义、安装和升级Kubernetes应用。本文将带你从零开始，通过实战演练，掌握HelmChart的创建、配置和部署，帮助你高效管理Kubernetes应用。1.环境准备在开始之前，确保你已经具备以下环境：Kubernetes集群：可以是本地集群（如Minikube）或云服务（如GKE、EKS）。Helm：安
如何寻找好用的GPTs模型？小宝哥Code ChatGPT与AIGC 人工智能
要有效地寻找和使用好用的GPT模型，可以按照以下步骤来选择和应用最合适的模型，尤其是在科研或工作中需要完成特定任务时：1.明确需求和任务在寻找适合的GPT模型之前，首先需要明确你要解决的任务或需求。不同的GPT模型在处理各种任务时表现不一样。常见的任务包括：文本生成：创作文章、生成报告、写作论文等。问答系统：快速解答科研问题、技术问题等。翻译和润色：翻译论文、改进文章语言质量等。数据分析和图表生成
Java 9模块开发：IntelliJ IDEA实战指南 2501_90323865 hystrix java 开发语言个人开发
在Java9中，模块化是一个重要的特性，它可以帮助我们更好地组织和管理代码。而IntelliJIDEA作为一个强大的集成开发环境，为Java9模块的开发提供了全面的支持。本文将通过一个实际的项目示例，详细讲解如何在IntelliJIDEA中开发和运行Java9模块。环境准备在开始之前，确保你已经安装了以下软件：Java9：Java9是开发Java9模块的基础，可以从Oracle官网下载并安装。In
一文大白话讲清楚webpack进阶——8——Module Federation 16年上任的CTO webpack webpack 前端 node.js 模块联邦 Federation
文章目录一文大白话讲清楚webpack进阶——8——ModuleFederation1.啥是ModuleFederation2.这里讲两个基础概念3.容器应用配置4.远程应用配置5.模块使用5.ModuleFederation好在哪里6.ModuleFederation实战一文大白话讲清楚webpack进阶——8——ModuleFederation1.啥是ModuleFederationModul
基于requests库的爬虫实战京东商品信息爬取 Jerry104393 Python python 爬虫正则表达式
一，功能描述：目标：从京东商城爬取商品信息，输出商品名称和价格二、技术路线：requests-re-bs4三，程序设计结构：1.爬取网页内容：getHTMLText()2.提取信息到合适的数据结构中:parsePage()3.利用数据结构展示并输出:printGoodsList()四、体会：本次实验遇到的最大技术难题就是怎么剔除HTML标签（查看源代码发现可以用i和em两个标签精确定位），后来查看
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
掌握Python Selenium：网页元素自动化定位实战指南 jardonwang1 python selenium 自动化
一、Selenium框架介绍Selenium是一个用于自动化web应用程序测试的工具，它直接运行在浏览器中，就像真实用户在操作一样。这个框架支持多种浏览器（包括Chrome、Firefox、Safari等），并且可以在多种操作系统（Windows、Linux、macOS等）上运行。Selenium的主要目标是使自动化测试变得简单，以支持开发人员和测试人员快速编写测试用例。以下是Selenium框架
《企业网络安全架构与实战指南：从蓝队防御到零信任网络部署》 Yimuzhizi 网络安全 web安全安全网络安全人工智能架构网络搜索引擎
项目：《企业网络安全架构与实战指南：从蓝队防御到零信任网络部署》姓名：飞花似梦Flydream日期：2024年11月21日目录蓝队基础企业网络架构高层管理IT管理中央技术团队安全部门企业管理技术信息安全管理成熟度模型（ISM3）安全职能安全团队成员典型企业网络分区模糊的边界外部攻击面身份管理识别Windows典型应用识别Linux典型应用识别WEB服务识别客户端设备身份和访问管理目录服务企业数据存
为你「量身打造」的Python快速入门到实战和“图文双杀”（第1期）创文工作室 Python基础教程 python
Hello，大家好，欢迎来到创文工作室，这里是为你量身打造的Python快速入门到实战第1期。相信各位python学子一定愁于没有合适的教材而心急如焚吧，不用担心，这里是创文工作室为你良心打造的Python入门到实战,请大家先看目录目录0.写在前面0.1作者感言0.2Python介绍0.3Python安装1.注释1.1单行注释1.2多行注释2.输入与输出1.1输出1.1.1单行输出1.1.2多行输
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文