CTR 预测理论（十八）：机器学习数据分析建模完整流程

结合个人学习及网上参考资料，先将从数据集加载、预处理、建模流程总结如下，文中参考了很多现有资料，该文仅供自身学习与学术交流。

一、数据的加载

首先导入所需要的包,我们一般使用 pandas 处理分析数据

import numpy as np 
import pandas as pd

从csv文件中加载数据

import pandas as pd
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

从文本文件中加载数据

def loadDataSet(fileName):
    """
    加载文件数据
    :param fileName:
    :return:
    """
    numFeat = len(open(fileName).readline().split('\t')) - 1
    dataMat = []; labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr =[]
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat,labelMat

二、数据的探索

通过对数据进行探索，我们可以对数据的基本特征有一个全局的大致了解。

查看数据的基本布局信息

train.head() #可以查看(默认)前5行数据信息。
train.tail() #可以查看后10行数据信息。

查看数据都有哪些特征

train.columns

查看数据的基本情况

train.describe()

当然也可以查看某一指定特征的具体情况

train["feature"].describe()

利用直方图查看某一特征数据的具体分布情况(常用来查看目标变量是否符合正态分布)

import seaborn as sns
sns.distplot(train["feature"])

利用散点图分析变量间的关系(常用来发现某些离散点)

import matplotlib.pyplot as plt
output,var,var1,var2 = 'SalePrice','GrLivArea','TotalBsmtSF','OverallQual'
fig,axis = plt.subplots(1,3,figsize=(16,5))
train.plot.scatter(x=var,y=output,ylim=(MIN_VALUE,MAX_VALUE),ax=axis[0])
train.plot.scatter(x=var1,y=output,ylim=(MIN_VALUE,MAX_VALUE),ax=axis[1])
train.plot.scatter(x=var2,y=output,ylim=(MIN_VALUE,MAX_VALUE),ax=axis[2])

利用 seaborn 对多个特征的散点图、直方图进行整合，得到各个特征两两组合形成的图矩阵(用来查看特征直接的相关性)

import matplotlib.pyplot as plt
import seaborn as sns
var_set = ["feature1","feature2","feature3","feature4","feature5","feature6"]
sns.set(font_scale=1.25) #设置坐标轴的字体大小
sns.pairplot(train[var_set]) ## 可在kind和diag_kind参数下设置不同的显示类型，此处分别为散点图和直方图，还可以设置每个图内的不同类型的显示
plt.show()

利用热力图对各个特征间的关系进行分析

import matplotlib.pyplot as plt
import seaborn as sns
corrmat = train.corr()
f,axis = plt.subplot(figsize=(14,12))
sns.heatmap(corrmat,vmax=0.8,square=True,ax=axis)
plt.show()

选取与目标变量相关系数最高的K个特征，找出那些相互关联性较强的特征

import matplotlib.pyplot as plt
import seaborn as sns
corrmat = train.corr()
k = 10
top10_attr = corrmat.nlargest(k,output).index #output代表的是目标变量
top10_mat = corrmat.loc[top10_attr,top10_attr]
fig,axis = plt.subplots(figsize=(14,10))
sns.set(font_scale=1.25)
sns.heatmap(top10_mat,annot=True,annot_kws={"size":12},square=True)
plt.show()

通过一元方差分析，获得各个离散型变量对目标变量的影响

def anova(data,columns):
    anv = pd.DataFrame()
    anv["feature"] = columns
    pvals = []
    for c in columns:
        samples = []
        for cls in data[c].unique():
            s = data[data[c]==cls]['SalePrice'].values
            samples.append(s) #某特征下不同取值对应的房价组合形成的二维列表
        pval = stats.f_oneway(*samples)[1] #一元方差分析得到 F，P，要的是 P，P越小，对方差的影响越大。
        pvals.append(pval)
    anv['pval'] = pvals
    return anv.sort_values('pval')
a = anova(train,category_feature)
a['disparity'] = np.log(1./a['pval'].values)
fig,axis = plt.subplots(figsize=(14,12))
sns.barplot(data = a ,x = 'feature',y='disparity')
#选择x轴变量名的位置
x = plt.xticks(rotation=90)
plt.show()

三、数据的预处理(特征工程)

对数据的预处理主要分为以下几个方面：

缺失值的填补。
把类别型特征转化为数值型特征。
把数值型特征转化为类别型特征。
删除离散点样本。
删除无关性特征。
添加新的特征。

1.缺失值的填补

缺失值处理有两种方案：一种是分析含缺失值的特征对任务有没有用，没有的特征直接删除，有用的特征依据缺失量，少则删除样本，多则用mean，median，mode补全。另一种是分析这些缺失值缺失的原因，并用一定方法将其转换为一类数据(成为类型变量的一个类型)。

缺失值情况统计(先要看一下缺失值具体出现在那些特征中，缺失信息是否对整个特征有较大影响，缺失信息是否有其他特殊意义？)

na_count = train.isnull().sum().sort_values(ascending = False)
na_count = na_count[na_count.values>0]
na_rate = na_count/len(train)
na_data = pd.concat([na_count,na_rate],axis = 1,keys = ["count",'ratio'])

处理方案一(删除多余或者不相关特征)

接下来我们就可以根据统计结果来对不同的特征缺失值做不同的处理。
一般的，如果某一特征的数据缺失量达到15%以上，我们应该删除这些特征(当然具体还要看特征对目标变量的影响)。

原作者博文是 15%，个人不敢苟同，缺失值 10% ~ 15% 以内，可以采用删除，但是高于 15% 不见得就要删除，其缺失信息可能代表着一种信息，如表明用户是不活跃用户等，可以结合考虑将其归为单独一类。

对于缺失量很小的特征，我们可以直接删除缺失值的那些样本即可。（个人推荐 10% 之内）
还有一些特征可能代表的是某一种相同的信息，或者和已存在的某些特征具有较强的相关性，这样的话我们可以删除此类特征，保留一个有效特征即可。

train.drop()

处理方案二(补全与变换)

#类型变量特征集合
category_feature = [attr for attr in train.columns if train.columns[attr]=='object']
#数值变量特征集合
number_feature = [attr for attr in train.columns if train.columns[attr]!='object']

类型变量特征缺失值补全(对于类型变量特征的缺失值，一般用样本中最多的，或者 Missing 填充。具情况而定)

#使用 Missing 填充
train[feature].fillna("Missing",inplace = True)
#使用样本中最多的填充
train[feature].fillna(train[feature].mode()[0],inplace = True)

数值变量特征缺失值补全(对于数值型变量特征我们一般使用 mean , median, mode或者0。具情况而定)

train[feature].fillna(0.,inplace = True)
train[feature].fillna(train[feature].mean(),inplace = True) #平均值
train[feature].fillna(train[feature].median(),inplace = True) #中位数
train[feature].fillna(train[feature].mode()[0],inplace = True) #众数

2.把类别型特征转化为数值型特征

一般的我们可以使用 One-Hot编码来处理类别型特征。

train = pd.get_dummies(train)
# df['B'] = df.replace({'a':0,'b':1,'c':2})  自定义替换

但在我们的特征中，有些类别特征明显与目标变量有较强的线性关系，对于此类特征，我们应将其转化为数值特征。
所有类型变量，依照各个类型变量的不同取值对应的样本集内房价的均值，按照房价均值高低对此变量的当前取值确定其相对数值1,2,3,4等等，相当于对类型变量赋值使其成为连续变量。
此方法采用了与 One-Hot 编码不同的方法来处理离散数据，值得学习!

def encode(data,feature,test):
    ordering = pd.DataFrame()
    ordering['val'] = data[feature].unique()
    ordering.index = ordering.val
    # groupby()操作可以将某一feature下同一取值的数据整个到一起，结合mean()可以直接得到该特征不同取值的房价均值
    ordering['price_mean'] = data[[feature,'SalePrice']].groupby(feature).mean()
    ordering = ordering.sort_values('price_mean')
    ordering['order'] = range(1,ordering.shape[0]+1)
    ordering = ordering['order'].to_dict()
    for attr, score in ordering.items():
        data.loc[data[feature] == attr, feature+'_E'] = score
        test.loc[test[feature] == attr, feature+'_E'] = score
        
for feature in category_feature:
    encode(train,feature,test)
train.drop(category_feature,axis=1,inplace=True)
test.drop(category_feature,axis=1,inplace=True)

应用斯皮尔曼等级相关系数，分析连续性变量与目标变量的相关性

def spearman(train, features):
    '''
    采用“斯皮尔曼等级相关”来计算变量与房价的相关性(可查阅百科)
    此相关系数简单来说，可以对encoder()处理后的等级变量及其它与房价的相关性进行更好的评价（特别是对于非线性关系）
    '''
    spr = pd.DataFrame()
    spr['feature'] = features
    spr['corr'] = [train[f].corr(train['SalePrice'], 'spearman') for f in features]
    spr = spr.sort_values('corr')
    plt.figure(figsize=(6, 0.25*len(features)))
    sns.barplot(data=spr, y='feature', x='corr', orient='h')    
    
features = train.columns
spearman(train, features)

我们还可以利用热力图，分析数值型变量和类别型变量之间的相关性。离散变量间、连续变量间，两种变量间某些变量存在很强的互相关型，在特征选取时，应在这些互相关的特征中n选1

features = train.columns #此时的 train 是已经把类别特征转换成数值特征的数据集
category_E= []
for q in category_feature:
    category_E.append(q+"_E")
    
plt.figure(1,figsize=(12,9))  # 连续型变量相关图
corr = train3[number_feature+['SalePrice']].corr()
sns.heatmap(corr)
plt.figure(2,figsize=(12,9))  # 类别型变量相关图（离散型和伪数值型变量均已被概括为等级型变量）
corr = train3[category_E+['SalePrice']].corr('spearman')
sns.heatmap(corr)
plt.figure(3,figsize=(12,9)) # 连续型变量-类别型变量相关图
corr = pd.DataFrame(np.zeros([len(number_feature)+1, len(category_E)+1]), 
                    index=number_feature+['SalePrice'], columns=category_E+['SalePrice'])
for q1 in number_feature+['SalePrice']:
    for q2 in category_E+['SalePrice']:
        corr.loc[q1, q2] = train3[q1].corr(train3[q2], 'spearman')
sns.heatmap(corr)

通过上面两种图像，我们可以对转换过后的所有特征做一些筛选。

3.把数值型特征转化为类别型特征

同上面相反，如果有些数值特征和我们的目标变量没有明显的线性关系，对于此类特征，我们应该将其转化为类别特征

train[feature1] = train[feature1].astype(str)
train[feature2] = train[feature2].astype(str)
train[feature3] = train[feature3].astype(str)
train[feature4] = train[feature4].astype(str)

在所有的特征转化完成后，记得用 One - Hot 编码处理数据才能训练。

注：上述方法太暴力，其中数值型变量往往取值较多，若是按照上述做法，等于为每一种取值都设定为一个单独类别；
事实上，更实用的方法往往是通过分桶策略实现，其中分桶策略简单包含等频分桶和等距分桶，也有通过树模型进行分桶，分桶策略先mark一下，后续总结一篇新的博文专门介绍。

4.删除离散样本点

我们可以通过散点图发现那些离散点，进而删除该样本点。

#绘制散点图
import matplotlib.pyplot as plt
output,var,var1,var2 = 'SalePrice','GrLivArea','TotalBsmtSF','OverallQual'
fig,axis = plt.subplots(1,3,figsize=(16,5))
train.plot.scatter(x=var,y=output,ylim=(MIN_VALUE,MAX_VALUE),ax=axis[0])
train.plot.scatter(x=var1,y=output,ylim=(MIN_VALUE,MAX_VALUE),ax=axis[1])
train.plot.scatter(x=var2,y=output,ylim=(MIN_VALUE,MAX_VALUE),ax=axis[2])
#删除离散样点
train.drop(train[(train['Feature']>4000)&(train['Target']<300000)].index,inplace=True)

5.删除无关特征

在我们的数据中，有可能会存在一些明显与目标变量无关的特征，对于这些特征我们应该删除，以免对我们之后的模型训练造成影响

6.添加新的特征

在我们做项目的过程中还会发现，现有的特征数目太少，或者根据现有的特征训练出来的模型效果不理想。那么这个时候就需要我们结合实际项目，想办法构建出新的特征，进而提高我们模型的效果。

四、模型训练

我们要根据项目的实际情况选择合适的模型，然后对模型超差调优，交叉验证，最后可以尝试融合多个模型。

以logistic为例

#交叉验证
from sklearn import model_selection
cvSplit = model_selection.KFold(10)

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
param = {"C":[0.1,0.5,0.8,1,10],"max_iter":[100,200,300]}

#自动选择最优参数
clf = model_selection.GridSearchCV(lr,param,scoring="roc_auc",cv=cvSplit)
clf.fit(X_train,Y_train)

#打印最佳得分和最佳参数 
print(clf.best_score_,clf.best_params_)

#预测结果
clf_pre = clf.predict(X_test)
clf_sub = pd.DataFrame({"PassengerId":test_df["PassengerId"],"Survived": clf_pre})
clf_sub.to_csv("../data/clf_sub.csv", index=False)

#保存模型
from sklearn.externals import joblib
joblib.dump(clf,"clf.m")

#恢复模型
rf_load = joblib.load("clf.m")

模型融合

Voting

    from sklearn.ensemble import VotingClassifier
    from sklearn.linear_model import LogisticRegression
    lr = LogisticRegression(C=0.5,max_iter=100)
    
    import xgboost as xgb
    xgb_model = xgb.XGBClassifier(max_depth=6,n_estimators=100)
    
    from sklearn.ensemble import RandomForestClassifier
    rf = RandomForestClassifier(n_estimators=200,min_samples_leaf=2,max_depth=6,oob_score=True)
    
    from sklearn.ensemble import GradientBoostingClassifier
    gbdt = GradientBoostingClassifier(learning_rate=0.1,min_samples_leaf=2,max_depth=6,n_estimators=100)
    vot = VotingClassifier(estimators=[('lr',lr),('rf',rf),('gbdt',gbdt),('xgb',xgb_model)],voting='hard')
    vot.fit(X_train,Y_train)
    print(round(vot.score(X_train,Y_train)*100,2))
    vot_pre = vot.predict(X_test)
    vot_sub = pd.DataFrame({"PassengerId":test_df["PassengerId"],"Survived":vot_pre})
    vot_sub.to_csv("../data/vot_sub.csv",index=False)

Stacking

from sklearn.linear_model import LogisticRegression
    import xgboost as xgb
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.ensemble import GradientBoostingClassifier
    clfs = [LogisticRegression(C=0.5, max_iter=100),
            xgb.XGBClassifier(max_depth=6, n_estimators=100, num_round=5),
            RandomForestClassifier(n_estimators=100, max_depth=6, oob_score=True),
            GradientBoostingClassifier(learning_rate=0.3, max_depth=6, n_estimators=100)]
    clf2 = LogisticRegression(C=0.5,max_iter=100)
    #==========================StackingClassifier====================================#
    from mlxtend.classifier import StackingClassifier,StackingCVClassifier
    sclf = StackingClassifier(classifiers=clfs,meta_classifier=clf2)
    sclf.fit(X_train,Y_train)
    print(sclf.score(X_train,Y_train))
    sclf_pre = sclf.predict(X_test)
    sclf_sub = pd.DataFrame({"PassengerId":test_df["PassengerId"],"Survived":sclf_pre})
    sclf_sub.to_csv("../data/sclf_sub.csv",index=False)
    #========================StackingCVClassifier===================================#
    sclf2 = StackingCVClassifier(classifiers=clfs,meta_classifier=clf2,cv=5)
    x = np.array(X_train)
    y = np.array(Y_train).flatten()
    sclf2.fit(x,y)
    print(sclf2.score(x,y))
    sclf2_pre = sclf2.predict(np.array(X_test))
    sclf2_sub = pd.DataFrame({"PassengerId": test_df["PassengerId"], "Survived": sclf2_pre})

参考文献

http://www.dehong.space/MachineLearning-Data

你可能感兴趣的:(推荐系统理论进阶)

mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin