Joseph115

[机器学习]基于信用卡欺诈的预测分析

数据集准备

导入数据集

数据可视化

处理非平衡数据集

建模与调参

建模

调参

网格搜索（GridSearchCV）

随机搜索（RandomizedSearchCV）

贝叶斯优化

GridSearchCV例子

optuna框架例子

实验结果

随着信用卡在当今交易中的普遍使用，相关的欺诈行为不可避免地发生，并造成相当大的金钱损失。为了解决这个问题，本文使用了一个包含合法信用卡交易以及欺诈交易的数据集来寻求一个有效的预测方案。本文通过对交易数据的处理和分析，发现数据是不平衡的，因此采用分层抽样和过采样的方法对不平衡数据集进行更为可靠的分析。同时，由于抽样的随机性，采用交叉验证的方法进行最终的模型评估与选择。在此基础上，利用五种决策树相关算法分别建立了模型并进行调参。

机器学习新手可以根据这篇文章，大致了解从数据集处理到建模，再到调参和模型选择一系列的过程。

数据集准备

导入数据集

本文使用的数据集是从kaggle 上下载的信用卡欺诈数据集，是一个很典型的非平衡的数据集。

https://www.kaggle.com/mlg-ulb/creditcardfraud

本文的数据处理过程在google colab上进行，这个需要科学上网才能使用，他是一个在线的notebook，能够支持gpu、tpu，因此很适合进行机器学习和深度学习项目的开展。

首先把数据集拖至谷歌的云端以备之后的使用。

在google colab 中新建笔记本便可以开始进行实验。导入谷歌的drive包，并进行mount操作，

from google.colab import drive

drive.mount('/content/drive')

这个运行后会出现以下界面，点击链接进行登陆授权会获得授权钥匙，将授权钥匙填入回车后便会连接到谷歌的云盘。

在右侧的文件里就会连接到云盘，在代码中便可以直接导入这个数据集。

import pandas as pd

df=pd.read_csv("/content/drive/MyDrive/creditcard.csv")
df.head()  ##Return the first 5 rows

数据可视化

可以来简单看一下这个数据集的一些特征从而更好地理解这个数据集。

检查是否有空值：

df.isnull().sum().max()

显示所有的属性：

df.columns

显示欺诈与非欺诈数据的比例：

print('No Frauds', round(df['Class'].value_counts()[0]/len(df) * 100,2), '% of the dataset')
print('Frauds', round(df['Class'].value_counts()[1]/len(df) * 100,2), '% of the dataset')

这个数据集包含2013年9月欧洲持卡人通过信用卡进行的交易。此数据集显示两天内发生的交易，其中284807个交易中有492个欺诈。数据集高度不平衡，正类（欺诈）占所有交易的0.172%。
数据集只包含PCA变换结果的数值输入变量。遗憾的是，由于保密问题，数据集无法提供原始功能和更多有关数据的背景信息。特征V1，V2，…V28是用PCA得到的主成分，唯一没有用PCA变换的特征是“时间”和“数量”。功能“Time”包含每个事务和数据集中第一个事务之间经过的秒数。功能“Amount”是交易金额，此功能可用于依赖成本敏感学习。功能“Class”是响应变量，如果是欺诈，它的值为1，否则为0。

import seaborn as sns

colors = ["#0101DF", "#DF0101"]

sns.countplot('Class', data=df, palette=colors)
plt.title('Class Distributions \n (0: No Fraud || 1: Fraud)', fontsize=14)

处理非平衡数据集

可以从这里看出这个数据集是一个很典型的非平衡数据集，所以一开始需要考虑如何处理这个非平衡性，让模型达到更好的效果，大致查到这些方法：

1.收集更多的数据：好处：更够揭露数据类别的本质差别，增加样本少的数目以便后面的数据重采样。

2.尝试改变性能评价标准：
当数据不平衡时，准确度已经失去了它原有的意义，
可以参考的度量标准有：1> 混淆矩阵CM 2>精度 3>召回率 4>F1 分数（权衡精度和召回率）；5.Kappa 6，ROC曲线

3.重采样数据：
1，拷贝一部分样本偏少的数据多分，已达到平衡（过采样）；
2，删除一部分样本偏多的数据，以使得达到平衡（欠采样）；
在实际中，过采样和欠采样都会使用的。
在测试中，如果样本总数比较多，可以用欠采样的数据进行测试，如果样本总数比较少，可以用过采样的数据进行测试；另外应该测试随机采样的数据和非随机采样的数据，同时，测试不同比例正负样本的数据。

4.生成合成数据：
最简单的是，随机采样样本数目比较少的属性，
另外一个比较出名的方法为：SMOTE：它是一种过采样的方法，它从样本比较少的类别中创建新的样本实例，一般，它从相近的几个样本中，随机的扰动一个特征，

5.使用不同的算法：
不要试图用一个方法解所有的问题，尝试一些其他不同的方法，比如决策树一般在不平衡数据集上表现的比较的好。

6.尝试惩罚模型:
意思就是添加新的惩罚项到cost函数中，以使得小样本的类别被判断错误的cost更大，迫使模型重视小样本的数据。
比如：带惩罚项的SVM

7.使用不同的视角：
不平衡的数据集，有专门的邻域和算法做这个，可以参考他们的做法和术语。
比如：异常检测。

8.尝试新的改进：
比如：1.把样本比较多的类别，分解为一些更多的小类别，比如：原始我们想区分数字0和其它数字这二分类问题，我们可以把其它数字在分为9类，变成0–9的分类问题

这个数据集因为是欧洲的银行发布的，所以第一个方法中的收集更多数据是不可行的；第二个方法中的改变性能评价标准是有必要的，通常我们将precision作为衡量模型好坏的标准，但由于该数据集中的证样本数量属实太少，判断错误若干个也不会大幅度影响precision，于是此处决定用ROC曲线、PR曲线作为评价标准；第三个方法的重采样也是很好的尝试点，需要说明的是，第四的方法所说的人工生成数据集也是重采样的方法，他通过已存在的数据集根据k近邻的方法生成若干相似的数据，也是一种过采样的方法，而SMOTE方法在后文也会用到；第五点说到采用多种算法，而此文也将使用多个决策树基础的算法进行预测，最后得到表现较好的模型，并且决策树算法中也自带一些惩罚机制，也就是谈到的第六点；后面两点中，异常检测在本文不作考虑，而该数据集只有二分类所以第八点也不适用。

在训练模型之前，我们将数据集分为层次化的训练和测试集，以便它们能够保留与原始数据集相同的正负类比例。该技术在scikit学习库中实现，用于在Python中进行机器学习，因此，我们所做的工作与使用train_test_split函数时定义“stratify=y”即可。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X.values, y.values, stratify=y, test_size = 0.25, random_state = 1)

对比过采样和欠采样，欠采样的总样本数量较少，容易出现过拟合，因此在此处，我们使用过拟合方法，对正样本（欺诈交易）进行人工扩充。（如果采用欠采样的方法，则是在负样本中去与正样本随机抽取相同数量的数据构成一个总数量较小的新数据集，代码可自行搜索此处不作赘述）。SMOTE方法有很多种变体，本文使用最基础的，若想尝试其他方法，可以搜索相关原理，使用方法与smote相同。

from imblearn.over_sampling import SMOTE, BorderlineSMOTE, SVMSMOTE, ADASYN

sm = SMOTE(random_state = 1)
X_train_sm, y_train_sm = sm.fit_sample(X_train, y_train)
X_test_sm = np.array(X_test)
y_test_sm = np.array(y_test)

建模与调参

建模

这个部分内容是如何使用数据集训练模型，同时通过一些方法优化模型的超参数。

先写一个评分函数，对模型结果可以看得更直观。

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, f1_score

def print_score(label, prediction, train=True):
    if train:
        clf_report = pd.DataFrame(classification_report(label, prediction, output_dict=True))
        print("Train Result:\n================================================")
        print(f"Accuracy Score: {accuracy_score(label, prediction) * 100:.2f}%")
        print("_______________________________________________")
        print(f"Classification Report:\n{clf_report}")
        print("_______________________________________________")
        print(f"Confusion Matrix: \n {confusion_matrix(y_train, prediction)}\n")
        
    elif train==False:
        clf_report = pd.DataFrame(classification_report(label, prediction, output_dict=True))
        print("Test Result:\n================================================")        
        print(f"Accuracy Score: {accuracy_score(label, prediction) * 100:.2f}%")
        print("_______________________________________________")
        print(f"Classification Report:\n{clf_report}")
        print("_______________________________________________")
        print(f"Confusion Matrix: \n {confusion_matrix(label, prediction)}\n")

然后把训练集测试集fit进模型，以xgboost为例，代码和截图见下图，这种建模很简单，毕竟人人都是调包侠，按照标准改下参数就可以建模。

from xgboost import XGBClassifier

xgb_model_0 = XGBClassifier()
xgb_model_0.fit(X_train_sm, y_train_sm, eval_metric='aucpr')


y_pred = xgb_model_0.predict(X_test_sm)
y_pred_prob = xgb_model_0.predict_proba(X_test_sm)[:,1]

print_score(y_test_sm, y_pred, train=False)


fig, (ax1, ax2) = plt.subplots(1,2,figsize = (12,6))
#precision-recall curve
precision, recall, thresholds_pr = precision_recall_curve(y_test_sm, y_pred_prob)
avg_pre = average_precision_score(y_test_sm, y_pred_prob)
ax1.plot(precision, recall, label = " average precision = {:0.2f}".format(avg_pre), lw = 3, alpha = 0.7)
        
        
ax1.set_xlabel('Precision', fontsize = 14)
ax1.set_ylabel('Recall', fontsize = 14)
ax1.set_title('Precision-Recall Curve', fontsize = 18)
ax1.legend(loc = 'best')
#find default threshold
close_default = np.argmin(np.abs(thresholds_pr - 0.5))
ax1.plot(precision[close_default], recall[close_default], 'o', markersize = 8)

#roc-curve
fpr, tpr, thresholds_roc = roc_curve(y_test, y_pred_prob)
roc_auc = auc(fpr,tpr)
ax2.plot(fpr,tpr, label = " area = {:0.2f}".format(roc_auc), lw = 3, alpha = 0.7)
ax2.plot([0,1], [0,1], 'r', linestyle = "--", lw = 2)
ax2.set_xlabel("False Positive Rate", fontsize = 14)
ax2.set_ylabel("True Positive Rate", fontsize = 14)
ax2.set_title("ROC Curve", fontsize = 18)
ax2.legend(loc = 'best')
#find default threshold
close_default = np.argmin(np.abs(thresholds_roc - 0.5))
ax2.plot(fpr[close_default], tpr[close_default], 'o', markersize = 8)
plt.tight_layout()

调参

调参的方法主要有三个：网格搜索、随机搜索以及贝叶斯优化。

网格搜索（GridSearchCV）

grid search就是对网格中每个交点进行遍历，从而找到最好的一个组合。
网格的维度就是超参的个数，若有k个超参，每个超参有m个候选，那么需要遍历k^m个组合，因此它的好处是效果不错，适用于需要对整个参数空间进行搜索的情况，缺陷是计算代价非常非常大，面临维度灾难。

随机搜索（RandomizedSearchCV）

随机搜索顾名思义就是在超参的搜索分布中随机搜索超参进行尝试，其搜索策略为：
1. 对于搜索范围是distribution的超参数，根据给定的distribution进行随机采样
2. 对于搜搜范围是list的超参数，在给定的list中等概率采样
3. 对1，2两步中得到的n_iter组采样结果，进行遍历
注意：若给定的搜索范围均为list，则不放回抽样n_iter次
随机搜索的好处在于搜索速度快，但是容易错过一些重要的信息

贝叶斯优化

由于网格搜索的计算代价非常大，而随机搜索虽然速度很快，但容易遗漏重要信息，因此我们可以采用贝叶斯优化。贝叶斯优化就是通过在初期进行超参尝试后，会逐步学习（随着从目标函数获得更多的反馈），对初始搜索空间不同部分进行调整和采样，随着时间的增长，超参的搜索范围逐步集中。因此贝叶斯优化也是借鉴了其思想，即用先验概率来在一定程度上决定后验概率；贝叶斯优化的好处是相比网格搜索，搜索的效率更高，但同时避免了随机搜索会遗漏重要信息的影响。在这里将采用一个超参数优化框架——optuna，他是一个已封装好的贝叶斯优化框架，效率高且调用时的代码简单。

接下来将举网格搜索和贝叶斯搜索的例子以供参考学习。

GridSearchCV例子

由于网格搜索是一种贪心算法，他会将给出的所有参数进行组合并训练，若同时训练多个参数需要非常长的时间，通常的做法是，取其中相关的一至两个参数进行训练，将得到的最优参数解固定，用于下一轮训练。但由于参数是分开训练的，所以很可能陷入局部最优。不同的参数组合得到的结果有可能有较大差别，因此这个方法并不推荐（除非有足够算力同时对所有参数进行训练）。

以默认值为初始参数，对max_depth和min_child_weight进行训练。

from sklearn.model_selection import GridSearchCV
xgb_model = xgb.XGBClassifier(
    learning_rate=0.1,
    gamma= 0,
    subsample=0.8,
    colsample_bytree=0.8,
    objective='binary:logistic',
    ##"nthread=4,
    scale_pos_weight=1,
    n_estimators=xgb_cv.shape[0], 
    seed=0,
    nthread=-1
)

xgb_params = {
    "max_depth":range(3, 10, 2),
    "min_child_weight":range(1, 6, 2),
}

grid = GridSearchCV(xgb_model, param_grid=xgb_params, cv=5, scoring='roc_auc')
grid.fit(X_train_sm, y_train_sm)

上一个代码段中的超算数范围为（3，10，2）意味着从3到10每2个值进行一次跳跃，因此将取到3、5、7、9，（1，6，2）同理。因为跨步较大，为了得到更好的精度，得到优化数值时，可以在其周围以更小的精度再进行一次调参，如下代码所示：

xgb_params2 = {
    "max_depth":range(2, 4),
    "min_child_weight":range(4, 6),
}

grid2 = GridSearchCV(xgb_model, param_grid=xgb_params2, cv=5, scoring='roc_auc')
grid2.fit(X_train, y_train)

print(grid2.best_params_)
test_predict2 = grid2.predict(X_test_sm)

print("accuracy_score:"+str(accuracy_score(y_test_sm, test_predict2)))

在max_depth和min_child_weight确定后，对subsample和colsample_bytree进行调优。

xgb_model2 = xgb.XGBClassifier(**best_params_)


xgb_params3 = {
    "subsample":np.arange(0.3, 1, 0.1),
    "colsample_bytree":np.arange(0.3, 1, 0.1)
}

grid3 = GridSearchCV(xgb_model2, param_grid=xgb_params3, cv=5)
grid3.fit(X_train_sm, y_train_sm)

在subsample和colsample_bytree确定后，对reg_alpha和reg_lambda调优。

xgb_model3 = xgb.XGBClassifier(**best_params_)


xgb_params5 = {
    "reg_alpha":[0.1, 1],
    "reg_lambda":[0.5, 1, 2]
}

grid5 = GridSearchCV(xgb_model3, param_grid=xgb_params5, cv=5)
grid5.fit(X_train_sm, y_train_sm)

以类似的方法可以对更多的参数进行调优，由此决定最终的超参数组合。

optuna框架例子

optuna的代码并不复杂，一个极简的 optuna 的优化程序中只有三个最核心的概念，目标函数(objective)，单次试验(trial)，和研究(study)。其中 objective 负责定义待优化函数并指定参/超参数数范围，trial 对应着 objective 的单次执行，而 study 则负责管理优化，决定优化的方式，总试验的次数、试验结果的记录等功能。

import optuna

dtrain = xgb.DMatrix(X_train_sm, label=y_train_sm)
dvalid = xgb.DMatrix(X_test_sm, label=y_test_sm)

def objective(trial):
    
# params specifies the XGBoost hyperparameters to be tuned
    params = {
        'n_estimators': trial.suggest_int('n_estimators', 400, 3000),
        'max_depth': trial.suggest_int('max_depth', 10, 20),
        'min_child_weight':trial.suggest_int('min_child_weight', 1, 6),
        'learning_rate': trial.suggest_uniform('learning_rate', 0.01, .1),
        'subsample': trial.suggest_uniform('subsample', 0.50, 1),
        'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.50, 1),
        'gamma': trial.suggest_int('gamma', 0, 10),
        'tree_method': 'gpu_hist',  
        'objective': 'binary:logistic'
    }
    
    bst = xgb.train(params, dtrain)
    preds = bst.predict(dvalid)
    pred_labels = np.rint(preds)
# trials will be evaluated based on average_precision
    average_precision = average_precision_score(y_test_sm, pred_labels)
    return average_precision

study = optuna.create_study(direction='maximize')
study.optimize(objective,n_trials=20)

实验结果

本实验使用了cart、randomforest、xgboost、lightgbm以及深度森林五个模型进行预测和对比，每个模型都使用了optuna的框架进行调优，最终得到的参数如下所示：

from sklearn.tree import DecisionTreeClassifier  
from sklearn.ensemble import RandomForestClassifier 
from deepforest import CascadeForestClassifier  
from xgboost import XGBClassifier 
from lightgbm import LGBMClassifier

CARTC = DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=3
                                  ,splitter="random"
                                  ,max_depth=7)
RFC = RandomForestClassifier(random_state=3)
XGBC = XGBClassifier(
        n_estimators=2977,
        max_depth=13,
        min_child_weight=1,
        learning_rate=0.057,
        subsample=0.82,
        colsample_bytree=0.66,
        gamma=1,
        n_jobs=-1,
        n_thread=-1,
        tree_method='gpu_hist', 
        objective='binary:logistic')
LGBC = LGBMClassifier(boosting_type='gbdt',
                          class_weight=None,
                          colsample_bytree=0.5112837457460335,
                          importance_type='split',
                          learning_rate=0.02,
                          max_depth=7,
                          metric='None',
                          min_child_samples=195,
                          min_child_weight=0.01,
                          min_split_gain=0.0,
                          n_estimators=3000,
                          n_jobs=4,
                          num_leaves=44,
                          objective=None,
                          random_state=42,
                          reg_alpha=2,
                          reg_lambda=10,
                          silent=True,
                          subsample=0.8137506311449016,
                          subsample_for_bin=200000,
                          subsample_freq=0)
DEEPF = CascadeForestClassifier(use_predictor='True',
                                    predictor="forest",
                                    n_bins=173,n_estimators=6,
                                    n_trees=1000,
                                    min_samples_leaf=1,
                                    partial_mode='True',
                                    delta=1.4142915557953846e-05,
                                    verbose=1,
                                    random_state=33)

用数据集训练模型，同时绘制ROC和PR曲线观察结果：

def results_sm_graph(balancing_technique):
    print(balancing_technique)
    fig, (ax1, ax2) = plt.subplots(1,2,figsize = (12,6))
    model_name = ["CART","RF", "XGB", "LGB","DF"]
    

    
    for clf,i in zip([CARTC,RFC,XGBC,LGBC,DEEPF], model_name):
      if i != "DF" :
        model=clf.fit(X_train_sm, y_train_sm)
      else  :
        model=clf
        clf.fit(X_train_sm, y_train_sm)

      y_pred = model.predict(X_test_sm)
      y_pred_prob = model.predict_proba(X_test_sm)[:,1]
          
      print("#"*25,i,"#"*25)
      print("Training Accuracy = {:.3f}".format(model.score(X_train_sm, y_train_sm)))
      print("Test Accuracy = {:.3f}".format(model.score(X_test_sm, y_test_sm)))
      print("ROC_AUC_score : %.6f" % (roc_auc_score(y_test_sm, y_pred)))
      #Confusion Matrix
      print(confusion_matrix(y_test_sm, y_pred))
      print("-"*15,"CLASSIFICATION REPORT","-"*15)
      print(classification_report(y_test_sm, y_pred))
          
          
      #precision-recall curve
      precision, recall, thresholds_pr = precision_recall_curve(y_test_sm, y_pred_prob)
      avg_pre = average_precision_score(y_test_sm, y_pred_prob)
      ax1.plot(precision, recall, label = i+ " average precision = {:0.3f}".format(avg_pre), lw = 3, alpha = 0.7)
          
          
      ax1.set_xlabel('Precision', fontsize = 14)
      ax1.set_ylabel('Recall', fontsize = 14)
      ax1.set_title('Precision-Recall Curve', fontsize = 18)
      ax1.legend(loc = 'best')
      #find default threshold
      close_default = np.argmin(np.abs(thresholds_pr - 0.5))
      ax1.plot(precision[close_default], recall[close_default], 'o', markersize = 8)

      #roc-curve
      fpr, tpr, thresholds_roc = roc_curve(y_test, y_pred_prob)
      roc_auc = auc(fpr,tpr)
      ax2.plot(fpr,tpr, label = i+ " area = {:0.4f}".format(roc_auc), lw = 3, alpha = 0.7)
      ax2.plot([0,1], [0,1], 'r', linestyle = "--", lw = 2)
      ax2.set_xlabel("False Positive Rate", fontsize = 14)
      ax2.set_ylabel("True Positive Rate", fontsize = 14)
      ax2.set_title("ROC Curve", fontsize = 18)
      ax2.legend(loc = 'best')
      #find default threshold
      close_default = np.argmin(np.abs(thresholds_roc - 0.5))
      ax2.plot(fpr[close_default], tpr[close_default], 'o', markersize = 8)
      plt.tight_layout()

results_sm_graph("Model Collection - SMOTE")

最终可以看出xgboost和lightgbm是表现较好的模型。

References

[1] Nilson Report – Card Fraud Losses Reach $28.65 Billion, 01-Oct-2020."Card Fraud Losses Reach $28.65 Billion,” https://nilsonreport.com/mention/1313/1link

[2] A. Dal Pozzolo, O. Caelen, and G. Bontempi, “When is undersampling effective in unbalanced classification tasks?,” In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pp. 200–215, 2015.

[3] F. Carcillo, Y.-A. Le Borgne, O. Caelen, Y. Kessaci, F. Oblé, and G. Bontempi, “Combining unsupervised and supervised learning in credit card fraud detection,” Information Sciences, vol. 557, pp. 317–331, 2021.

[4] A. D. Pozzolo, G. Boracchi, O. Caelen, C. Alippi, and G. Bontempi, “Credit Card Fraud Detection: A Realistic Modeling and a Novel Learning Strategy,” IEEE Transactions on Neural Networks and Learning Systems, vol. 29, no. 8, pp. 3784–3797, 2018.

[5] V. L. Parsons, “Stratified Sampling,” Wiley Online Library, 15-Feb-2017.

[6] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, “SMOTE: Synthetic Minority Over-sampling Technique,” Journal of Artificial Intelligence Research, vol. 16, pp. 321–357, 2002.

[7] T. Saito and M. Rehmsmeier, “The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets,” PLOS ONE, vol. 10, no. 3, 2015.

[8] L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone, Classification and regression trees. Boca Raton ; London ; New York: CRC Press, 2017.

[9] T. Akiba, S. Sano, T. Yanase, T. Ohta, and M. Koyama, “Optuna: A Next-generation Hyperparameter Optimization Framework,” Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2019.

[10] A. M. Prasad, L. R. Iverson, and A. Liaw, “Newer Classification and Regression Tree Techniques: Bagging and Random Forests for Ecological Prediction,” Ecosystems, vol. 9, no. 2, pp. 181–199, 2006.

[11] T. Chen and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016.

[12] G. Ke, Q. Meng, T. Finley, T. Wang, W. Chen, W. Ma, Q. Ye, and T.-Y. Liu, “LightGBM: A Highly Efficient Gradient Boosting Decision Tree,” Advances in Neural Information Processing Systems, 2017.

[13]Z.-H. Zhou and J. Feng, “Deep Forest,” National Science Review, vol. 6, no. 1, pp. 74–86, Jan. 2019.

你可能感兴趣的:(决策树,信用卡欺诈预测分析,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
融开心告诉你：银行怎么靠你的信用卡赚钱骊驰商学院
办卡送礼、刷卡返现……信用卡无论办卡还是用卡，福利不要太爽哦~~很多人出于种种原因，办理了多张信用卡。然而却不知道：只要你用信用卡消费，银行就已经开始用你的卡来赚钱了。银行怎么靠你的信用卡赚钱，骊驰融开心告诉你这些：银行怎么靠你的信用卡赚钱？1、信用卡利息收入。持卡人透支信用额度所支付的利息，这一部分是信用卡收入的主要部分。如持卡人逾期、还最低还款额时，利息就产生，日息万分之五哦~~2、信用卡年费
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
年底了，积分也要清零了，该兑就兑了吧，清零就可惜了遇见yh
年底了，许多平台的积分也要清零了，信用卡、电话卡的积分也攒了不少，该兑就得兑了，如果不兑，到年底也都会被清零。所以如果你的使用的平台，现在还有积分的话，就赶快去兑换一下，如果清零就太可惜了。前几天我登录联通官网一看，上面也有1000多个积分，就去兑换了一件麦芯粉。还有支付宝积分，也可以兑换自己需要的东西，我昨天就兑了一盒脱骨鸡爪。之前还兑过一箱全麦面包，品质都不错。这些东西都是平台送的，你不去兑换
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
欺诈文本分类检测（十四）：GPTQ量化模型沉下心来学鲁班微调分类人工智能语言模型微调
1.引言量化的本质：通过将模型参数从高精度（例如32位）降低到低精度（例如8位），来缩小模型体积。本文将采用一种训练后量化方法GPTQ，对前文已经训练并合并过的模型文件进行量化，通过比较模型量化前后的评测指标，来测试量化对模型性能的影响。GPTQ的核心思想在于：将所有权重压缩到8位或4位量化中，通过最小化与原始权重的均方误差来实现。在推理过程中，它将动态地将权重解量化为float16，以提高性能，
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，