Jeo_dmy

大数据挑战赛-鼠标轨迹识别

声明：本文属于原创，如想转载，请务必在抬头注明出处。

大数据挑战赛-鼠标轨迹识别，竞赛官网：http://bdc.saikr.com/c/cql/34541

1.我们看一下整个竞赛的详情

赛题描述

鼠标轨迹识别当前广泛运用于多种人机验证产品中，不仅便于用户的理解记忆，而且极大增加了暴力破解难度。但攻击者可通过黑产工具产生类人轨迹批量操作以绕过检测，并在对抗过程中不断升级其伪造数据以持续绕过同样升级的检测技术。我们期望用机器学习算法来提高人机验证中各种机器行为的检出率，其中包括对抗过程中出现的新的攻击手段的检测。

比赛数据

本题目数据来源于某人机验证产品采集的鼠标轨迹，经过脱敏处理，数据分为3部分（数据量分别为3000条，10万，200万）。

赛事分为三个阶段（初赛、复赛、决赛答辩）：5月26日初赛提供3000条数据作为训练样本，供参赛者下载进行建模和模型优化，同时提供10万条正式比赛数据供下载评测，识别结果为初赛得分；复赛提供200万条比赛数据（不可下载，数据不可见，仅供评测），识别结果为复赛得分；决赛将以现场答辩会的形式进行。

【训练数据】

训练数据表名称：dsjtzs_txfz_training

字段	类型	解释
a1	bigint	编号id
a2	string	鼠标移动轨迹(x,y,t)
a3	string	目标坐标(x,y)
label	string	类别标签：1-正常轨迹，0-机器轨迹

训练样例数据：见 dsjtzs_txfz_training_sample.txt

【测试数据】

初赛测试表名称：dsjtzs_txfz_test1

复赛测试表名称：dsjtzs_txfz_test2

字段	类型	解释
a1	bigint	编号id
a2	string	鼠标移动轨迹(x,y,t)
a3	string	目标坐标(x,y)

测试样例数据：见 dsjtzs_txfz_test_sample.txt

测评标准

选手请将识别为机器行为的编号id提交到计算平台，需要提交的结果表，只包含一个字段：编号id。

初赛提交表名：dsjtzs_txfzjh_preliminary

复赛提交表名：dsjtzs_txfzjh _semifinal

设定Precision为P，Recall为R，白样本为正常轨迹，黑样本为机器轨迹其中：

P = 判黑的数据中真正为黑的数量/判黑的数据总量，

R = 判黑的数据中真正为黑的数量/真实黑数据总量，

比如10w条数据，其中8w条为白样本，2w条为黑样本，参赛者一共将1w条判断为黑样本（其中真正的黑样本有8000条，错将2000条白样本判黑），那么，

P=8000/10000 = 80%，

R=8000/20000=40%，

参赛队伍最终得分F = 5PR/(2P+3R)*100。最终排名按照F值评判，F值越大，代表结果越优，排名越靠前。

2.竞赛的进程安排

初赛（5月26日—7月21日）

（1）参赛队伍可从大赛官方网站下载数据，在本地进行算法设计和调试，规定时间内在报名官网提交结果，每支队伍在一天内只能提交一次结果；

（2）5月26日起，系统向选手开放训练样本数据3000条（2600白样本，400条黑样本）供参赛者下载进行建模和模型优化，同时提供正式比赛数据10万条供参赛者下载评测；

复赛（7月25日-8月14日）

（1）所有比赛数据不可下载，选手需在腾讯数据平台部DIX平台上完成数据处理、建模、算法调试、产出结果等所有环节，可使用基于Spark、xgBoost及平台提供的机器学习相关基础算法。

（2）7月25日起系统提供200万条正式比赛数据（对参赛选手不可见，仅供平台对参赛作品进行评测）；

决赛（8月20日）

1. 决赛将以现场答辩会的形式进行，具体安排另行通知；

2. 参赛队伍应提前准备现场答辩材料，包括PPT、算法代码；

综上所述：

每个竞赛的阶段数据集情况
比赛阶段	训练集（条）	测试集（条）
初赛（stage1）	3000	100000
初赛（stage2）	3000	100000
复赛	3000	2000000

3.训练数据和测试数据如下所示：

训练数据：

70 276,2555,1234;290,2555,1261;339,2555,1306;374,2555,1357;409,2555,1405;430,2555,1456;451,2555,1567;451,2555,1879;458,2555,2338;479,2555,2365;507,2555,2404;591,2555,2458;745,2568,2509;801,2568,2557;822,2568,2608;829,2568,2656; 643.5,553 1
75 262,2503,316;262,2516,376;297,2516,406;353,2516,439;416,2490,472;493,2490,502;605,2477,532;717,2425,565;794,2412,598;857,2412,628;934,2412,664;955,2412,691;990,2412,724;1018,2412,757;1025,2412,787;1039,2412,880;1060,2412,913;1067,2412,946;1095,2386,1006;1109,2386,1069;1123,2386,1129;1130,2386,1312;1123,2386,2035;1109,2386,2215;1095,2386,2395;1088,2386,2608;1074,2386,2638;1067,2386,2671;1060,2386,2704;1053,2386,2764;1046,2399,2797;1039,2399,3937; 843.0,358 1
249 612,2607,352;836,2607,724;871,2607,1165;885,2607,2341;899,2607,2797;913,2607,3328;927,2607,3706;934,2607,4162;941,2607,4621;948,2607,5053;969,2607,5629;969,2620,8749;962,2620,10234;920,2620,11749;913,2633,12625;920,2633,15493;934,2633,16405;948,2633,16717;976,2633,17821; 727.5,189 1
2983 325,2438,484;381,2464,1201;458,2555,1276;479,2555,1312;528,2451,1396;570,2555,1501;640,2555,1606;703,2555,1699;745,2451,1723;801,2542,3730;829,2555,3796;892,2555,3841;920,2555,3907;976,2516,5986;1004,2555,9784;1046,2555,14935;1074,2555,17041;1088,2529,17083;1137,2555,22609;1193,2555,22642;1207,2555,27553;1235,2555,27619;1256,2555,32953;1270,2412,33028;1319,2425,33052;1333,2464,38623;1333,2555,38704; 1123.0,195.5 0
2984 297,2529,193;311,2594,2251;346,2594,6838;381,2594,10930;437,2594,10951;486,2594,15874;528,2594,15895;556,2672,21235;591,2633,21283;612,2594,21337;633,2594,21367;647,2503,25906;682,2568,28411;689,2594,28480;731,2594,33868;745,2594,33931; 528.0,670 0
2985 269,2542,217;311,2555,2650;346,2555,7423;367,2555,7513;395,2555,7594;402,2555,7633;444,2555,7669;472,2555,7735;528,2555,7813;570,2555,7837;605,2555,7906;640,2685,8014;654,2594,8122;689,2555,8170;696,2698,8221;773,2594,8266;794,2555,8305;808,2555,8371; 601.5,358 0

其中包含三个正样本（label=1）和三个副样本（label=0），没一行代表一个样本。从数据中可以看到，第一列都是轨迹的标号，如70，75，249，2983等等，而没一行的最后一列，为0或1,表示样本轨迹的label。

测试集数据：

1 234,2620,196;241,2620,226;248,2620,256; 647.0,189
5 374,2503,1174;402,2503,1204;430,2503,1252;479,2503,1267;514,2503,1297;563,2503,1330;619,2503,1363;654,2503,1399;682,2503,1423;724,2503,1456;745,2503,1492;766,2503,1522;773,2503,1549;780,2503,1762;794,2503,2800;808,2503,2830;822,2503,2863;843,2503,2893;857,2503,2956;864,2503,3016; 545.5,189
67 514,2347,46;591,2373,76;668,2399,103;745,2425,130;822,2451,157;899,2477,187;976,2503,214;1053,2529,241;1130,2555,265;1207,2581,292;1284,2607,319;1361,2568,346;1438,2529,373;1515,2490,400;1592,2451,424; 1424.0,1359
92 486,2334,40;535,2334,61;584,2334,82;633,2334,103;682,2334,121;731,2334,142;780,2347,163;829,2360,184;878,2373,202;927,2386,223;976,2386,241;1025,2399,262;1074,2412,280;1123,2425,301;1172,2438,319;1221,2412,340;1270,2386,358;1319,2360,379;1368,2334,397;1417,2308,418;1466,2282,436;1515,2256,457; 1312.0,189
93 234,2386,61;234,2438,160;234,2464,181;241,2477,229;255,2490,280;269,2490,316;318,2503,364;367,2516,421;416,2516,469;458,2516,511;493,2516,562;514,2503,613;535,2503,664;556,2490,715;563,2490,766;563,2477,808;570,2477,847;577,2477,1102;584,2477,1150;605,2477,1213;619,2477,1261;668,2477,1312;766,2477,1363;878,2477,1411;1053,2477,1462;1144,2477,1513;1235,2477,1561;1284,2477,1615;1312,2477,1660;1326,2477,1711;1333,2477,1762;1347,2477,1825;1361,2477,1861;1382,2477,1915;1403,2477,1963;1438,2477,2011;1452,2477,2062;1466,2477,2110;1473,2477,2161;1466,2477,2413;1459,2477,2437;1466,2477,3091;1473,2477,3181;1480,2477,3253;1487,2477,3355;1494,2477,3412;1501,2477,3463;1508,2477,3517;1515,2477,3589;1501,2477,4237; 1361.0,202

此处共给出5个样本，测试集除了最后一列没有label外，其他的跟训练集一样。

现在我们仔细解析一下数据样本的结构：

根据第一部分的竞赛题目，以及对数据集的解析。我们可以明白，所有的样本都由一个序列构成的，我们选择训练样本中的id=75的样本来分析一下：

75 262,2503,316;262,2516,376;297,2516,406;353,2516,439;416,2490,472;493,2490,502;605,2477,532;717,2425,565;794,2412,598;857,2412,628;934,2412,664;955,2412,691;990,2412,724;1018,2412,757;1025,2412,787;1039,2412,880;1060,2412,913;1067,2412,946;1095,2386,1006;1109,2386,1069;1123,2386,1129;1130,2386,1312;1123,2386,2035;1109,2386,2215;1095,2386,2395;1088,2386,2608;1074,2386,2638;1067,2386,2671;1060,2386,2704;1053,2386,2764;1046,2399,2797;1039,2399,3937; 843.0,358 1

第一列75为样本id，最后一列是label=1,表明是正样本，中间是一串由分号作为分隔符的序列，分隔的每一部分包含三个数值如一个部分为（262,2503,316），根据题目可知，这里面的三个值对应（x,y,t)。根据题目的背景，整个序列是一个鼠标轨迹，那么，轨迹在采样的过程中，就是通过一个个点构成，所以（x,y,t)就是一个点的位置和时间参数。

另外，需要格外指出的是，每条轨迹坐标后面紧接着有一个由逗号分隔开的坐标如 843.0,358，该坐标就构成了这条轨迹的目标点。根据题目的意思，也就是说，每条轨迹最终的目的都是想挪动到目标点位置的。

4.样本轨迹的特征提取

看整个样本数据集，不同的轨迹长度是不一样的，或者说采样点的个数是不一样的。当我们最初接触到这个题目的时候，我们本想把整个轨迹点作为特征，直接用Xgboost训练，后来发现尴尬了，轨迹长度都不一样，还怎么训练。

思路一：

其实，既然有了不同的轨迹，也就是不同的序列，可以有一种很常见的做法，就是直接使用长短期记忆网络（LSTM)来进行训练并预测，基本上可以无脑训练了。但是，由于官方给出的建议是不推荐使用深度学来打比赛，因为最后决赛提供的腾de讯的机器学习平台不给开放深度学习资源。所以这种方法，只是从脑子里面过了一下，没有去执行。

思路二：

既然，给的是每条曲线的轨迹，我们完全可以把每条轨迹做图然后生成图片保存起来，然后通过深度学习，进行图像的分类。因为训练集本身比较少（才3000条），而测试集却相当大（初赛10万条、复赛200万条），所以可以想到使用迁移学习的方法，将已经在较大数据集如ImageNet、Ms COCO上预训练好的模型，如ResNet、Inception-V3等等来初始化自己的网络，然后在自己的数据集上进行fine-tuning。这确实不失为一种可以尝试的方法。但是，同样的原因，官方不提供深度学习资源。就我们自己的破笔记本，根本想都别想。

思路三：

前面的方法都行不通了，作为菜鸟级选手，我只能想到通过提取每条样本轨迹的统计特征了。如平均值，方差，极差，偏差，最大值，最小值，中值。然后，既然有了轨迹，就会有速度和加速度，所以可以继续求出速度的前述统计特征，当然还可以想到，如果当作一个时间序列的话，我们可以计算序列的一阶差分二阶差分，然后继续计算统计特征。这么一下来，每条轨迹的统计特征已经不少了，足够进行Xgboost训练了。

为了纪念一下整个竞赛的不容易，下面贴出我写的提取特征的baseline（简单看看就行，可直接略过）：

# -*- coding: utf-8 -*-
import pandas as pd
import fileinput
import numpy as np
import matplotlib.pyplot as plt
import sys
import os
sys.path.append(os.getcwd() + '/scr')
from subFunction import *


train_path = './data/dsjtzs_txfz_training.txt'
test_path = './data/dsjtzs_txfz_test1.txt'



mouseTrack_features_labels = ['numRecode', 'xmean', 'ymean', 'xEnt', 'yEnt', 'MaxTimeInterval', 'MinTimeInterval',
                              'tailXdiff', 'tailYdiff', 'tailTdiff', 'tailDis_xy', 'Vmean', 'Vmax', 'Vmin', 'Vvar',
                              'Vstd', 'Accmean', 'Accmax', 'Accmin', 'Accvar', 'Accstd', 'LastT20var',
                              'LastT20std',  'Vcov', 'VCorrelationCoefficient', 'XdiffVar', 'YdiffVar']
featureLabels = ['id']
featureLabels.extend(mouseTrack_features_labels)
featureLabels.extend(['YTarget', 'XTarget', 'label'])

#获取ｘ，ｙ的平均值 .２个特征
def get_XYmean(df_MouseTrack):
    x = df_MouseTrack["x"]
    y = df_MouseTrack["y"]
    xmean = np.mean(x)
    ymean = np.mean(y)
    xymean = [xmean, ymean]
    return xymean

#获取x,y的熵　２个特征
def get_XYentropy(df_MouseTrack):
    x = df_MouseTrack["x"]
    y = df_MouseTrack["y"]
    xEnt = calcShannonEnt(x)
    yEnt = calcShannonEnt(y)
    xyEnt = [xEnt, yEnt]
    return xyEnt

#获取间隔时间的最大值和最小值　２个特征
def get_MaxMinT(df_MouseTrack):
    if len(df_MouseTrack) < 2:
        maxT = df_MouseTrack['t'].max()
        minT = df_MouseTrack['t'].min()
    else:
        t = df_MouseTrack['t']
#获取最后一个时间段x,y,t的差分值，以及两个点之间的欧氏距离　４个特征
def get_tailFeature(df_MouseTrack):
    if len(df_MouseTrack) < 2:
        xdiff = 0
        ydiff = 0
        tdiff = 0
        dis = 0
        diff_and_Dis = [xdiff, ydiff, tdiff, dis]
    else:
        xdiff = calDiffenceResult(df_MouseTrack['x'])
        ydiff = calDiffenceResult(df_MouseTrack['y'])
        tdiff = calDiffenceResult(df_MouseTrack['t'])
        dis = np.sqrt(xdiff[-1]**2 + ydiff[-1]**2)
        diff_and_Dis = [xdiff[-1], ydiff[-1], tdiff[-1], dis]
    return diff_and_Dis

#速度的平均值，最大值，最小值，方差，标准差　５个特征
def get_xv_var(df_MouseTrack):
    if len(df_MouseTrack) < 2:
        speedMean = 0
        speedMax = 0
        speedMin = 0
        speedVar = 0
        speedStd = 0
    else:
        speed = calSpeed(df_MouseTrack)
        speedMean = speed.mean()
        speedMax = speed.max()
        speedMin = speed.min()
        speedVar = speed.var()
        speedStd = speed.std()
    speedFeat = [speedMean, speedMax, speedMin, speedVar, speedStd]
    return speedFeat


#加速度的平均值，最大值，最小值，方差，标准差　5个特征
def get_Acc_feat(df_MouseTrack):
    if len(df_MouseTrack) < 3:
        meanAcc = 0
        maxAcc = 0
        minAcc = 0
        varAcc = 0
        stdAcc = 0
    else:
        t = df_MouseTrack['t']
        t1 = np.array(t[0:-1])
        t2 = np.array(t[1:])
        v_t = (t1 + t2)/2
        v_tdiff = calDiffenceResult(v_t)
        speed = calSpeed(df_MouseTrack)
        SPdiff = calDiffenceResult(speed)
        Accelearation = SPdiff/v_tdiff
        if len(Accelearation) == 0:
            end = 1
        meanAcc = Accelearation.mean()
        maxAcc = Accelearation.max()
        minAcc = Accelearation.min()
        varAcc = Accelearation.var()
        stdAcc = Accelearation.std()
        # reciprocalAcc = 1/Accelearation
    AccFeat = [meanAcc, maxAcc, minAcc, varAcc, stdAcc]
    return AccFeat


#采样最后２０段时间的方差和标准差　２个特征
def get_t_last20_var(df_MouseTrack):
    tdiff = calDiffenceResult(df_MouseTrack['t'])
    if len(tdiff) >= 20:
        useTdiff = tdiff[-20:]
    else:
        useTdiff = tdiff
    Tvar = useTdiff.var()
    Tstd = useTdiff.std()
    T20feat = [Tvar, Tstd]
    return T20feat

#记录速度的协方差，及相关系数　２个特征
def get_vx_cov_reverse(df_MouseTrack):
    if len(df_MouseTrack) < 4:
        CovXY = 0
        CorrelationCoefficient = 0
    else:
        v = calSpeed(df_MouseTrack)
        v1 = v[0:-1]
        v2 = v[1:]
        vCov = np.cov(v1, v2) #协方差矩阵
        CovXY = vCov[0, 1] #v1和v2的协方差
        CorrelationCoefficient = CovXY/(np.sqrt(vCov[0, 0])*np.sqrt(vCov[1, 1])) #求解相关系数
    vFeat = [CovXY, CorrelationCoefficient]
    return vFeat

#水平和垂直位移的方差　２个特征
def get_XYvar(df_MouseTrack):
    xdiff = calDiffenceResult(df_MouseTrack['x'])
    ydiff = calDiffenceResult(df_MouseTrack['y'])
    XDiffvar = xdiff.var()
    YDiffvar = ydiff.var()
    disVar = [XDiffvar, YDiffvar]
    return disVar

#时间噪声
def get_t_noisiness(df_MouseTrack):
    end = 1

#获取鼠标轨迹特征
def getFeatures(df_MouseTrack):
    m = len(df_MouseTrack)
    features = []
    features.append(m)

    XYmean = get_XYmean(df_MouseTrack)
    features.extend(XYmean)

    XYEnt = get_XYentropy(df_MouseTrack)
    features.extend(XYEnt)
    MaxMinT = get_MaxMinT(df_MouseTrack)
    features.extend(MaxMinT)

    tailfeat = get_tailFeature(df_MouseTrack)
    features.extend(tailfeat)

    vfeat = get_xv_var(df_MouseTrack)
    features.extend(vfeat)

    accfeat = get_Acc_feat(df_MouseTrack)
    features.extend(accfeat)

    last20tVar = get_t_last20_var(df_MouseTrack)
    features.extend(last20tVar)

    diffVfeat = get_vx_cov_reverse(df_MouseTrack)
    features.extend(diffVfeat)

    xyVar = get_XYvar(df_MouseTrack)
    features.extend(xyVar)

    return features


def make_train_data():

    traindata = pd.DataFrame(np.random.randn(1, len(featureLabels)), columns=featureLabels)
    for i, line in enumerate(fileinput.input(train_path)):
        features = []
        line = line.split()
        a1 = int(line[0]) #获取编号id
        features.append(a1)

        a2 = line[1].split(";")
        temp = [x.split(',') for x in a2]
        temp.pop()
        a2 = np.mat(temp, dtype=float)
        a2 = pd.DataFrame(a2, columns=list('xyt'))
        a2 = a2.groupby('t', as_index=False).first()
        if len(a2) < 2:
            continue
        a2_feature = getFeatures(a2)
        features.extend(a2_feature)

        a3 = line[2].split(',') #目标点的坐标
        a3_x = float(a3[0])
        a3_y = float(a3[1])
features.append(a3_x) #ｘ坐标
        features.append(a3_y) #ｙ坐标

        label = int(line[3])#标签
        features.append(label)

        traindata.ix[i] = pd.Series(np.array(features), index=traindata.columns)
    return traindata

def make_test_data():
    testFeatlabels = featureLabels
    testFeatlabels.pop() #测试样本数据集比训练样本集少一个标签“label”
    testdata = pd.DataFrame(np.random.randn(1, len(testFeatlabels)), columns=testFeatlabels)
    for i, line in enumerate(fileinput.input(test_path)):
        features = []
        line = line.split()
        a1 = int(line[0])#获取编号id
        features.append(a1)

        a2 = line[1].split(";")
        temp = [x.split(',') for x in a2]
        temp.pop()
        a2 = np.mat(temp, dtype=float)
        a2 = pd.DataFrame(a2, columns=list('xyt'))
        if len(a2) < 3:
            pause = 1
        a2 = a2.groupby('t', as_index=False).first()
        a2_feature = getFeatures(a2)
        features.extend(a2_feature)

        a3 = line[2].split(',') #目标点的坐标
        a3_x = float(a3[0])
        a3_y = float(a3[1])
        features.append(a3_x) #ｘ坐标
        features.append(a3_y) #ｙ坐标

        testdata.ix[i] = pd.Series(np.array(features), index=testdata.columns)
       

    return testdata
if __name__ == '__main__':
    traindata = make_train_data()
    testData = make_test_data()
    
    end = 1

说实话，就上面提取特征的方法，如果提取训练集的样本3000条，速度还可以，不是很慢，但是提取测试及的10万条就得花个半个小时，那就更别说最后复赛的200万条了，就是要命了。

5.特征提取实践

上一部分分析了，我们提取特征的思路，这一部分就来重点实现这个操作。就是要明白一点，我们的特征大多是统计特征，少部分是分析样本数据集之后，得出的特征，还有就是通过阅读文献得到的特征。最终提取的特征及说明如下：

特征及说明
特征	表示	说明
轨迹点个数	count	因为不同轨迹长短不一样，所以考虑使用，count来表征轨迹的长度
x的最小值	x_min	整个轨迹中，x坐标的最小值
轨迹x方向走一般花的时间比	x_ratio	因为鼠标轨迹在x方向上移动时，速度可能不叫均匀，所以行走到x方向一半所花的时间占整体时间比较大，但是如果人拖动的话，开始速度很快，后面快接近目标点的时候，会变慢，所以走一半的路花的时间会少一些。
y坐标的最小值	y_min
y坐标的最大值	y_max
x坐标一阶差分后标准差	x_diff_std
x坐标一阶差分后的最大值	x_diff_max
x坐标一阶差分后的最小值	x_diff_min
x坐标一阶差分后的偏度	x_diff_skew
y坐标一阶差分后的平均值	y_diff_std
x坐标回退标记	x_back_num	因为有的轨迹在往x正方向移动的时候，是有一个目标点的，但是如果x移动越过了目标点，就会往回走。所以，通过该特征来表征轨迹是否有回退的情况
	DisPoint
	Disx_forlat
时间轴t差分后的均值	t_diff_mean
t进行一阶差分后的标准差	t_diff_std
总时间比上x轴总路程	duration_mean
走一半路花的时间	timehalf
所有相邻样本点距离最大值	xy_diff_std
相邻样本点速度的标准差	vxy_std
相邻样本点速度的平均值	vxy_mean
轨迹最后两个样本点的速度	vxylast
轨迹最开始两个样本点的速度	vxyfirst
速度序列一阶差分的中值	vxy_diff_median
速度序列一阶差分的平均值	vxy_diff_mean
速度序列一阶差分的最大值	vxy_diff_max
速度序列一阶差分的标准差	vxy_diff_std
相邻点构成的角度序列的标准差	angle_std
相邻轨迹点的角度序列的峰度	angle_kurt
角度序列一阶差分的均值	angle_diff_mean
角度序列一阶差分的标准差	angle_diff_std
	Dis_pt2dst_diff_max
	Dis_pt2st_diff_std
	angle_upTriangle_num	样本轨迹中，相邻三个点构成的的上三角形的数量
	angle_downTriangle_num	样本轨迹中，相邻三个点构成的的下三角形的数量

特征提取代码如下（采用pyspark提取特征，速度非常快）：

#coding=utf-8

import matplotlib.pyplot as plt
import numpy as np
from pyspark import SparkContext
import sys

output_file = sys.argv[1]
input_file  = sys.argv[2]

def get_TES_feat(element):
    feat = []
    data = element.split(" ")
    id = int(data[0])
    trace = data[1][:-1]
    trace = trace.split(';')
    trace = [[int(record.split(',')[0]), int(record.split(',')[1]), int(record.split(',')[2])] for record in trace]
    trace = np.array(trace)
    aim_x = float(data[2].split(',')[0])
    aim_y = float(data[2].split(',')[1])

    x = trace[:, 0]
    y = trace[:, 1]
    t = trace[:, 2]

    count = len(x)

    if len(x) == 1:
        x = np.array([x[0]]*3)
        y = np.array([y[0]]*3)
        t = np.array([t[0]]*3)
    elif len(x) == 2:
        x = np.array([x[0]]+[x[1]] * 2)
        y = np.array([y[0]]+[y[1]] * 2)
        t = np.array([t[0]]+[t[1]] * 2)

    x_min = x.min()
    x_ratio = 1.0*(x[len(x)-1] - x[0]) / len(x)
    y_min = y.min()
    y_max = y.max()

    x_diff = x[1:] - x[0:-1]
    y_diff = y[1:] - y[0:-1]
    t_diff = t[1:] - t[0:-1]

    x_diff_std = x_diff.std()
    x_diff_max = x_diff.max()
    x_diff_min = x_diff.min()
    x_diff_skew = ((x_diff**3).mean() - 3*x_diff.mean()*x_diff.var() - x_diff.mean()**3) / (x_diff.var() ** 1.5 + 0.000000001)

    y_diff_mean = np.fabs(y_diff[y_diff != 0]).mean()
    y_diff_std  = y_diff[y_diff != 0].std()

    x_back_num = (x_diff < 0).sum()

    DisPoint = 1.0 * sum((x_diff ** 2 + y_diff ** 2) ** 0.5) / len(x)
    Disx_forlat = sum(x_diff[0:len(x_diff) / 2]) / (sum(x_diff[len(x_diff) / 2:len(x_diff)]) + 0.000000001)

    t_diff_mean = t_diff.mean()
    t_diff_min = t_diff.min()
    t_diff_std = t_diff.std()
    duration_mean = 1.0 * (t[len(t) - 1] - t[0]) / len(x)
    timehalf = np.log1p((t[len(t) / 2] - t[0])) - np.log10(t[len(t) - 1] - t[len(t) / 2])

    xy_diff = (x_diff ** 2 + y_diff ** 2) ** 0.5
    xy_diff_max = xy_diff.max()

    Vxy = np.log1p(xy_diff) - np.log1p(t_diff)
    Vxy_diff = Vxy[1:] - Vxy[0:-1]
    Vxy = Vxy[(Vxy > 0) | (Vxy < 1)]
    Vxy_diff = Vxy_diff[(Vxy_diff > 0) | (Vxy_diff < 1)]
    if len(Vxy) < 1:
        vxy_std = 0
        vxy_mean = 0
        vxyfirst = 0
        vxylast = 0
    else:
        vxy_std = Vxy.std()
        vxy_mean = Vxy.mean()
        vxyfirst = Vxy[0]
        vxylast = Vxy[len(Vxy) - 1]


    if len(Vxy_diff) < 1:
        vxy_diff_median = 0
        vxy_diff_mean = 0
        vxy_diff_std = 0
        vxy_diff_max = 0
    else:
        Vxy_diff.sort()
        vxy_diff_median = (Vxy_diff[len(Vxy_diff) / 2] + Vxy_diff[~len(Vxy_diff) / 2]) * 1.0 / 2
        vxy_diff_mean = Vxy_diff.mean()
        vxy_diff_std = Vxy_diff.std()
        vxy_diff_max = Vxy_diff.max()

    angles = np.log1p(y_diff) - np.log1p(x_diff)
    angle_diff = angles[1:] - angles[0:-1]
    angle_diff = angle_diff[(angle_diff > 0) | (angle_diff < 1)]
    angles = angles[(angles > 0) | (angles < 1)]
    if len(angles)<1:
        angle_std = 0
        angle_kurt = 0
    else:
        angle_std = angles.std()
        angle_kurt = (angles ** 4).mean() / (angles.var() + 0.000000001)


    if len(angle_diff) == 0:
        angle_diff_mean = 0
        angle_diff_std = 0
    else:
        angle_diff_mean = angle_diff.mean()
        angle_diff_std = angle_diff.std()

    Dis_pt2dst = ((x - np.array([aim_x] * len(x))) ** 2 +
                 (y - np.array([aim_y] * len(y))) ** 2) ** 0.5
    Dis_pt2dst_diff = Dis_pt2dst[1:] - Dis_pt2dst[0:-1]
    Dis_pt2dst_diff_max = Dis_pt2dst_diff.max()
    Dis_pt2dst_diff_std = Dis_pt2dst_diff.std()

    #方向角
    DirectAngle = np.sign(x_diff).astype(int).astype(str).astype(object) + np.sign(y_diff).astype(int).astype(str).astype(object)
    ConnectDirectAngle = DirectAngle[1:] + DirectAngle[0:-1]
    angle_upTriangle_num = len(ConnectDirectAngle[ConnectDirectAngle == '111-1'])
    angle_downTriangle_num = len(ConnectDirectAngle[ConnectDirectAngle == '1-111'])

    feat = [count, x_min, x_ratio, y_min, y_max, x_diff_std, x_diff_max, x_diff_min, x_diff_skew, y_diff_mean,
            y_diff_std, x_back_num, DisPoint, Disx_forlat, t_diff_mean, t_diff_min, t_diff_std, duration_mean, timehalf,
            xy_diff_max, vxy_std, vxy_mean, vxyfirst, vxylast, vxy_diff_median, vxy_diff_mean, vxy_diff_max,
            vxy_diff_std, angle_std, angle_kurt, angle_diff_mean, angle_diff_std, Dis_pt2dst_diff_max,
            Dis_pt2dst_diff_std, angle_upTriangle_num, angle_downTriangle_num]
    feat = list(np.nan_to_num(feat))

    feat_str_list = [str(item) for item in feat]
    feat_str = ' '.join(feat_str_list)

    return feat_str
sc = SparkContext(appName='Test')
rdd = sc.textFile(input_file)
result = rdd.map(get_TES_feat)
result.saveAsTextFile(output_file)
end = 1

6.特征筛选

步骤5已经给出了提取特征的方法以及代码，但是事实上，如果按照统计特征的思维去提取特征的话，少说也得上百维特征了，但是最终我们，只是选取除了其中的36维特征，是因为我们在特征筛选的过程中去除掉了一些表现不好的特征。

你可能感兴趣的:(机器学习)

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
Sklearn 机器学习数值离散化虚拟编码 Thomas Kant 人工智能机器学习 sklearn 人工智能
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Sklearn机器学习：数值离散化+虚拟编码实战详解在机器学习的特征工程中，数值型特征并不总是适合直接输入模型。尤其是树模型或分类模型时，**将连续变量进行离散化（分箱）+虚拟编码（独热编码）**是一种常见且高效的
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
【高频考点精讲】前端AI集成实战：从TensorFlow.js到模型部署全栈老李技术面试前端高频考点精讲前端 javascript html css 面试题 react vue
前端AI集成实战：从TensorFlow.js到模型部署‍作者：全栈老李更新时间：2025年5月‍适合人群：前端初学者、进阶开发者版权：本文由全栈老李原创，转载请注明出处。今天咱们聊聊前端工程师如何玩转AI——没错，用JavaScript就能搞机器学习！我是全栈老李，一个喜欢把复杂技术讲简单的实战派。最近发现不少前端同学对AI既好奇又害怕，其实真没想象中那么难，跟着老李走，30分钟让你亲手部署第一
【机器学习第二期（Python）】优化梯度提升决策树 XGBoost WW、forever 深度学习原理及代码实现机器学习 python 决策树
优化梯度提升决策树XGBoost一、XGBoost简介二、原理详解2.1基础思想：改进版GBDT2.2目标函数2.3二阶泰勒展开优化2.4树结构优化三、XGBoost实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考梯度提升决策树GBDT的原理及Python代码实现可参考另一博客-【机器学习第一期（Python）】梯度提升决策树GBDT。XGBoost（ExtremeGrad
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
云原生SLO与AIOps的完美结合：智能运维新趋势 AI云原生与云计算技术学院云原生 ai
云原生SLO与AIOps的完美结合：智能运维新趋势关键词：云原生、SLO、AIOps、智能运维、服务等级目标、自动化运维、机器学习摘要：本文深入探讨云原生环境下服务等级目标（SLO）与智能运维（AIOps）的融合实践。通过解析SLO的核心原理与AIOps的技术架构，揭示两者在指标定义、异常检测、自动化修复等环节的协同机制。结合具体算法实现、数学模型分析与项目实战案例，展示如何通过数据驱动的智能运维
【Rust】——使用消息在线程之间传递数据 Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录信道与所有权转移发送多个值并观察接收者的等待通过克隆发送者来创建多个生产者学
开源浪潮之巅：当前最热门的开源项目全景图万能小贤哥开源
开源世界活力澎湃，无数项目推动着技术边界。以下精选当前最受关注、社区活跃的热门开源项目，涵盖人工智能、开发工具、基础设施等关键领域：一、人工智能与机器学习：引领创新前沿Llama系列(MetaAI):核心价值：Meta开源的大语言模型家族(Llama2,Llama3)，性能媲美顶尖闭源模型。提供多种规模版本，支持商用，极大降低了企业和研究者使用先进LLM的门槛。热度体现：GitHub星标飞速增长，
基于机器学习的定增项目精准营销研究 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于机器学习的定增项目精准营销研究作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着中国资本市场的不断发展，定增（定向增发）作为上市公司进行再融资的重要途径，越来越受到市场关注。定增项目涉及众多参与方，包括上市公司、投资者、保荐机构、会计师事务所等。对于投资者而言，如何在众多定增项目中筛选出具有潜力的项目，进行精准投资，
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {