一起努力啊～

AI夏令营第三期用户新增挑战赛学习笔记

1、数据可视化

1.数据探索和理解：数据可视化可以帮助我们更好地理解数据集的特征、分布和关系。通过可视化数据，我们可以发现数据中的模式、异常值、缺失值等信息，从而更好地了解数据的特点和结构。

2.特征工程：数据可视化可以帮助我们选择和创建合适的特征。通过可视化特征与目标变量之间的关系，我们可以发现特征与目标之间的相关性、线性/非线性关系、重要性等信息，从而指导特征选择、变换和创建。

3.模型评估和调优：数据可视化可以帮助我们评估和比较不同模型的性能。通过可视化模型的预测结果、误差分布、学习曲线等信息，我们可以了解模型的准确性、稳定性、过拟合/欠拟合等情况，并根据可视化结果进行模型调优和改进。

4.结果解释和沟通：数据可视化可以帮助我们解释和传达机器学习模型的结果。通过可视化模型的预测、特征重要性、决策边界等信息，我们可以更直观地解释模型的工作原理和结果，使非技术人员也能理解和接受模型的输出。

5.发现洞察和故事讲述：数据可视化可以帮助我们发现数据中的洞察和故事，并将其传达给观众。通过可视化数据的趋势、关联、分布等信息，我们可以发现数据中的有趣模式、趋势和关系，并通过可视化故事的方式将这些发现传达给观众。

# 导入库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 读取训练集和测试集文件
train_data = pd.read_csv('D:/D/Download/360安全浏览器下载/用户新增预测挑战赛公开数据/train.csv')
test_data = pd.read_csv('D:/D/Download/360安全浏览器下载/用户新增预测挑战赛公开数据/test.csv')

print(train_data.info())

通过pd库的df.info()方法查看数据框属性，发现只有udmap字段为类别类型，其余皆为数值类型。

# x7分组下标签均值
sns.barplot(x='x7', y='target', data=train_data)

# 相关性热力图
sns.heatmap(train_data.corr().abs(), cmap='YlOrRd')

相关性热力图颜色越深代表相关性越强，所以x7和x8变量之间的关系更加密切，还有common_ts与x6也是。即存在很强的多重共线性，进行特征工程时可以考虑剔除二者中的一个变量，以免导致因多重共线性造成的过拟合。
接下来对于每一个字段，绘制直方图和箱线图

# 列表，包含要分析的列名
cols = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8']
# 对于每一个字段，绘制直方图
plt.figure(figsize=(15, 10))
for i, col in enumerate(cols):
    plt.subplot(2, 4, i+1)
    sns.histplot(train_data[col], bins=30, kde=True)
    plt.title(f'Histogram of {col}')
    plt.xlabel(col)
    plt.ylabel('Frequency')
plt.tight_layout()
plt.show()

# 对于每一个字段，绘制箱线图
plt.figure(figsize=(15, 10))
for i, col in enumerate(cols):
    plt.subplot(2, 4, i+1)
    sns.boxplot(train_data[col])
    plt.title(f'Boxplot of {col}')
    plt.xlabel(col)
plt.tight_layout()
plt.show()

结果如图所示：

# 获取指定时间和日期
train_data['common_ts'] = pd.to_datetime(train_data['common_ts'], unit='ms')
# 从common_ts中提取小时
train_data['common_ts_hour'] = train_data['common_ts'].dt.hour
# 绘制每小时下标签分布变化
sns.barplot(x='common_ts_hour', y='target', data=train_data)
plt.show()

可以发现在1-15小时之间新增用户的概率相对较大，尤其在8-15小时之间。后续可以针对这部分进行特征提取尝试。

# 定义函数，统计每个key对应的标签均值，绘制直方图。 
def plot_keytarget_mean(df):
    target_mean = np.zeros(9)
    for i in range(1, 10):
        df_temp = df.copy()
        number = 'key' + str(i)
        if number in df_temp.columns:
            data = {
                    f"{number}": df_temp[number],
                    'target': df_temp['target']
                    }
        df1 = pd.DataFrame(data)
        # 过滤出 "key" 列中非零值对应的行
        df_nonzero_key = df1[df1[number] != 0]
        # 计算非零值 "key" 对应的 "target" 均值
        mean_target_nonzero_key = df_nonzero_key['target'].mean()
        target_mean[i - 1] = mean_target_nonzero_key  # 索引从 0 开始
    return target_mean

target_mean = plot_keytarget_mean(train_data)
print(target_mean)
keys = ['key1', 'key2', 'key3', 'key4', 'key5', 'key6', 'key7', 'key8', 'key9']
plt.bar(keys, target_mean)
plt.ylabel('Mean Target Value')

从上图看，特征key7，key8，key9对应的新增用户概率较大，后续可以做些相关的特征组合，尝试是否能够提高模型预测准确度。

总结

通过数据可视化，我们可以更详细地观察不同特征与目标之间的关系，从而帮助我们筛选出有用的特征，并进行特征组合，以进一步提高模型的预测准确性。并且可以更好地理解数据，发现数据中的模式和趋势，并根据这些发现来优化我们的建模过程。

2、特征工程

特征工程指的是把原始数据转变为模型训练数据的过程，目的是获取更好的训练数据特征。特征工程能使得模型的性能得到提升，有时甚至在简单的模型上也能取得不错的效果。

由数据可视化以及观察数据可知，时间是一个比较重要的特征。
因此添加分钟，星期，年等时间特征

train_data['common_ts_hour'] = train_data['common_ts'].dt.hour
test_data['common_ts_hour'] = test_data['common_ts'].dt.hour

train_data['common_ts_minute'] = train_data['common_ts'].dt.minute + train_data['common_ts_hour'] * 60
test_data['common_ts_minute'] = test_data['common_ts'].dt.minute + test_data['common_ts_hour'] * 60
train_data['dayofweek'] = train_data['common_ts'].dt.dayofweek
test_data['dayofweek'] = test_data['common_ts'].dt.dayofweek

train_data["weekofyear"] = train_data["common_ts"].dt.isocalendar().week.astype(int)
test_data["weekofyear"] = test_data["common_ts"].dt.isocalendar().week.astype(int)

train_data["dayofyear"] = train_data["common_ts"].dt.dayofyear
test_data["dayofyear"] = test_data["common_ts"].dt.dayofyear

train_data["day"] = train_data["common_ts"].dt.day
test_data["day"] = test_data["common_ts"].dt.day

train_data['is_weekend'] = train_data['dayofweek'] // 6
test_data['is_weekend'] = test_data['dayofweek'] // 6

发现week的值和用户增长有很大的关系，提交后发现分数提升至0.73+

然后继续添加学习文档中所给特征。发现存在缺失值需要填充，通过fillna用0填充缺失值。

# 提取x1~x8的频次特征和标签特征
for i in range(1, 9):
    train_data['x' + str(i) + '_freq'] = train_data['x' + str(i)].map(train_data['x' + str(i)].value_counts())
    test_data['x' + str(i) + '_freq'] = test_data['x' + str(i)].map(train_data['x' + str(i)].value_counts())
    test_data['x' + str(i) + '_freq'].fillna(test_data['x' + str(i) + '_freq'].mode()[0], inplace=True)
    train_data['x' + str(i) + '_mean'] = train_data['x' + str(i)].map(train_data.groupby('x' + str(i))['target'].mean())
    test_data['x' + str(i) + '_mean'] = test_data['x' + str(i)].map(train_data.groupby('x' + str(i))['target'].mean())
    test_data['x' + str(i) + '_mean'].fillna(test_data['x' + str(i) + '_mean'].mode()[0], inplace=True)
# 提取key1~key9的频次特征和标签特征
for i in range(1, 10):
    train_data['key'+str(i)+'_freq'] = train_data['key'+str(i)].map(train_data['key'+str(i)].value_counts())
    test_data['key'+str(i)+'_freq'] = test_data['key'+str(i)].map(train_data['key'+str(i)].value_counts())
    train_data['key'+str(i)+'_mean'] = train_data['key'+str(i)].map(train_data.groupby('key'+str(i))['target'].mean())
    test_data['key'+str(i)+'_mean'] = test_data['key'+str(i)].map(train_data.groupby('key'+str(i))['target'].mean())
 
train_data = train_data.fillna(0)
test_data = test_data.fillna(0)

然后通过其他助教的优秀笔记中说众数比0填充效果好尝试了一下他的特征，果然效果很好增加到0.75+。

具体代码如下：

train_data['x1_freq'] = train_data['x1'].map(train_data['x1'].value_counts())
test_data['x1_freq'] = test_data['x1'].map(train_data['x1'].value_counts())
test_data['x1_freq'].fillna(test_data['x1_freq'].mode()[0], inplace=True)
train_data['x1_mean'] = train_data['x1'].map(train_data.groupby('x1')['target'].mean())
test_data['x1_mean'] = test_data['x1'].map(train_data.groupby('x1')['target'].mean())
test_data['x1_mean'].fillna(test_data['x1_mean'].mode()[0], inplace=True)

train_data['x2_freq'] = train_data['x2'].map(train_data['x2'].value_counts())
test_data['x2_freq'] = test_data['x2'].map(train_data['x2'].value_counts())
test_data['x2_freq'].fillna(test_data['x2_freq'].mode()[0], inplace=True)
train_data['x2_mean'] = train_data['x2'].map(train_data.groupby('x2')['target'].mean())
test_data['x2_mean'] = test_data['x2'].map(train_data.groupby('x2')['target'].mean())
test_data['x2_mean'].fillna(test_data['x2_mean'].mode()[0], inplace=True)

train_data['x3_freq'] = train_data['x3'].map(train_data['x3'].value_counts())
test_data['x3_freq'] = test_data['x3'].map(train_data['x3'].value_counts())
test_data['x3_freq'].fillna(test_data['x3_freq'].mode()[0], inplace=True)

train_data['x4_freq'] = train_data['x4'].map(train_data['x4'].value_counts())
test_data['x4_freq'] = test_data['x4'].map(train_data['x4'].value_counts())
test_data['x4_freq'].fillna(test_data['x4_freq'].mode()[0], inplace=True)

train_data['x6_freq'] = train_data['x6'].map(train_data['x6'].value_counts())
test_data['x6_freq'] = test_data['x6'].map(train_data['x6'].value_counts())
test_data['x6_freq'].fillna(test_data['x6_freq'].mode()[0], inplace=True)
train_data['x6_mean'] = train_data['x6'].map(train_data.groupby('x6')['target'].mean())
test_data['x6_mean'] = test_data['x6'].map(train_data.groupby('x6')['target'].mean())
test_data['x6_mean'].fillna(test_data['x6_mean'].mode()[0], inplace=True)

train_data['x7_freq'] = train_data['x7'].map(train_data['x7'].value_counts())
test_data['x7_freq'] = test_data['x7'].map(train_data['x7'].value_counts())
test_data['x7_freq'].fillna(test_data['x7_freq'].mode()[0], inplace=True)
train_data['x7_mean'] = train_data['x7'].map(train_data.groupby('x7')['target'].mean())
test_data['x7_mean'] = test_data['x7'].map(train_data.groupby('x7')['target'].mean())
test_data['x7_mean'].fillna(test_data['x7_mean'].mode()[0], inplace=True)

train_data['x8_freq'] = train_data['x8'].map(train_data['x8'].value_counts())
test_data['x8_freq'] = test_data['x8'].map(train_data['x8'].value_counts())
test_data['x8_freq'].fillna(test_data['x8_freq'].mode()[0], inplace=True)
train_data['x8_mean'] = train_data['x8'].map(train_data.groupby('x8')['target'].mean())
test_data['x8_mean'] = test_data['x8'].map(train_data.groupby('x8')['target'].mean())
test_data['x8_mean'].fillna(test_data['x8_mean'].mode()[0], inplace=True)

3、模型交叉验证

交叉验证（Cross-Validation）是机器学习中常用的一种模型评估方法，用于评估模型的性能和泛化能力。
它的主要目的是在有限的数据集上，尽可能充分地利用数据来评估模型，避免过拟合或欠拟合，并提供对模型性能的更稳健的估计。
交叉验证的基本思想是将原始的训练数据划分为多个子集（也称为折叠），然后将模型训练和验证进行多次循环。
在每一次循环中，使用其中一个子集作为验证集，其他子集作为训练集。这样可以多次计算模型的性能指标，并取这些指标的平均值作为最终的模型性能评估结果。

1、为何使用交叉验证？

交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合。
可以从有限的数据中获取尽可能多的有效信息。
可以帮助我们选择最佳的模型参数。通过在不同的训练集和测试集上进行多次评估，可以比较不同参数设置下模型的性能，并选择最佳的参数组合。这有助于我们优化模型的性能，并提高预测准确性。

2、常见的交叉验证方法：

简单交叉验证
将数据集分为两部分（或者是三部分），70%作为训练集，30%作为验证集。使用70%的数据，选择不同的模型参数，进行训练。结束后使用30%的数据（未经过训练）进行验证。选择最优的模型。
S折交叉验证
将数据集分为规模大小相近的S个互不相交的数据集，利用S-1部分数据去训练模型，剩下的1部分数据进行验证。经过多次训练选出最优的模型。
【注意】每次的验证集都有可能不同。
留一交叉验证
其实就是S折交叉验证的特殊形式，即在数据集规模及其小的时候（小于100条，甚至更夸张）。将S折的S=N，其中N为数据规模。留下1条数据做验证。

# 导入模型
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier

# 导入交叉验证和评价指标
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import classification_report

# 训练并验证SGDClassifier（基于随机梯度下降（Stochastic Gradient Descent）优化算法的分类器）
pred = cross_val_predict(
    SGDClassifier(max_iter=10),
    train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1),
    train_data['target']
)
print(classification_report(train_data['target'], pred, digits=3))

accuracy:准确率。准确率（precision）可以衡量一个样本为负的标签被判成正，召回率（recall）用于衡量所有正例。
macro avg："macro avg"是一种评估多类分类模型性能的指标之一。它是计算每个类别的指标（如准确度、精确度、召回率、F1值等），然后对所有类别的指标取平均得到的。
“micro”选项：表示在多分类中的对所有label进行micro-averaging产生一个平均precision，recall和F值
weighted avg:
“weighted”选项：表示会产生一个weighted-averaging的F值。
具体可见机器学习各种指标学习

# 训练并验证决策树DecisionTreeClassifier
pred = cross_val_predict(
    DecisionTreeClassifier(),
    train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1),
    train_data['target']
)
print(classification_report(train_data['target'], pred, digits=3))

# 训练并验证MultinomialNB
pred = cross_val_predict(
    MultinomialNB(),
    train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1),
    train_data['target']
)
print(classification_report(train_data['target'], pred, digits=3))

# 训练并验证RandomForestClassifier
pred = cross_val_predict(
    RandomForestClassifier(n_estimators=5),
    train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1),
    train_data['target']
)
print(classification_report(train_data['target'], pred, digits=3))

从上述四个模型来看决策树和随机森林表现较好，二者中决策树更好，我想决策树模型在本数据集上的优异表现可能是由于其对特征工程、数据分布、不平衡数据和特征交互效应的自然处理能力所致。当然，还应该进一步调整和优化所有模型的参数来进一步提高性能。
同时我又使用了XGBoost和LightgBM 两种模型进行交叉验证，效果如下：

import xgboost as xgb
import lightgbm as lgb
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_predict

# 定义XGBoost模型
xgb_model = xgb.XGBClassifier()
# 使用交叉验证进行训练和验证
pred_xgb = cross_val_predict(
    xgb_model,
    train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1),
    train_data['target']
)
print(classification_report(train_data['target'], pred_xgb, digits=3))

# 定义LightGBM模型
lgb_model = lgb.LGBMClassifier()
# 使用交叉验证进行训练和验证
pred_lgb = cross_val_predict(
    lgb_model,
    train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1),
    train_data['target']
)
print(classification_report(train_data['target'], pred_lgb, digits=3))

从macro avg和weightzvg的角度来看表现最好的还是决策树。

除此之外，模型本身的优化也不可忽视：

超参数调优机器学习中有很多人为设定的模型参数，其中不是经过模型训练得到的参数叫做超参数（hyperparameter），人工根据特定问题对训练的模型进行调参可以提高模型的准确度。常用的超参数调优算法有贝叶斯优化、网格搜索和随机搜索。

1、贝叶斯优化：贝叶斯优化是一种基于贝叶斯定理的技术，它描述了与当前知识相关的事件发生的概率。将贝叶斯优化用于超参数优化时，算法会从一组超参数中构建一个概率模型，以优化特定指标。它使用回归分析迭代地选择最佳的一组超参数。

2、网格搜索：借助网格搜索，您可以指定一组超参数和性能指标，然后算法会遍历所有可能的组合来确定最佳匹配。网格搜索很好用，但它相对乏味且计算量大，特别是使用大量超参数时。
3、随机搜索：虽然随机搜索与网格搜索基于相似的原则，但随机搜索在每次迭代时会随机选择一组超参数。当相对较少的超参数主要决定模型的结果时，该方法效果良好。

看完一位0.86+大佬的随机森林调优笔记分享我尝试使用随机森林调优模型
通过设定已知效果较好的参数组合来提高tpe参数优化的效率

#设定已知好的参数组合：就默认的参数组合就已经很好了
good_params = {
  'n_estimators': 100,
  'max_depth': None, 
  'min_samples_split': 2
......
}
#这里的loss就是上面五交叉认证的相反数-score，将其转化为一个结果对象,加入trials:
good_result = {'loss': 0.95, 'status': STATUS_OK}
trials.insert_trial_docs([{
  'tid': len(trials) + 1,
  'spec': good_params,
  'result': good_result,
  'misc': {}
}])
#运行tpe搜索
best = fmin(fn=objective, space=space, algo=tpe.suggest, max_evals=100, trials=trials)

本次优化的参数：
n_estimators：随机森林模型中包含决策树模型的个数
max_depth：决策树模型的最大深度
max_features：用于构建决策树时选取的最大特征数量
min_samples_leaf：叶子节点最少样本数
min_samples_split：当前节点允许分裂的最小样本数
criterion：节点分裂依据

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
import matplotlib.pyplot as plt
import time

n_estimators：随机森林模型中包含决策树模型的个数

#这里的train_data就是上面读入数据后，特征处理好后的待训练的数据
data = train_data.iloc[:,:-1]
lable = train_data.iloc[:,-1]
start=time.time()
scorel = []
for i in range(0,200,10): # 迭代建立包含0-200棵决策树的RF模型进行对比
  rfc = RandomForestClassifier(n_estimators=i+1,n_jobs=-1,random_state=90)
  score = cross_val_score(rfc,data,lable,cv=10).mean()
  scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
end=time.time()
print('Running time: %s Seconds'%(end-start))
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()

结果：

0.9613823613698237 131 Running time: 5530.6381804943085 Seconds
…

最后优化结果

clf = RandomForestClassifier(n_estimators=131,
                             max_depth=33,
                             n_jobs=-1,
                             max_features=9,
                             min_samples_leaf=1,
                             min_samples_split=2,
                             criterion = 'entropy'
                             )
clf.fit(
    train_data.drop(['target'], axis=1),
    train_data['target']
)
y_pred = clf.predict(X_val)
# 计算准确率
accuracy = accuracy_score(y_val, y_pred)
print("Accuracy:", accuracy)
# 计算F1分数
f1 = f1_score(y_val, y_pred)
print("F1 score:", f1)

提交上去分数达到0.79+

至此分数就上不去了，接下来的操作都是反向调优哈哈。
做了一下特征重要性得分，来评估各个特征对目标变量的影响程度

# 获取字段列表
l0 = ['x1_freq', 'x2_freq', 'x3_freq', 'x4_freq', 'x5_freq', 'x6_freq', 'x7_freq', 'x8_freq',
      'x1_mean', 'x2_mean', 'x3_mean', 'x4_mean', 'x5_mean', 'x6_mean', 'x7_mean', 'x8_mean',
      'x1_std', 'x2_std', 'x3_std', 'x4_std', 'x5_std', 'x6_std', 'x7_std', 'x8_std',
      'key1_freq', 'key2_freq', 'key3_freq', 'key4_freq', 'key5_freq', 'key6_freq', 'key7_freq', 'key8_freq', 'key9_freq',
      'key1_mean', 'key2_mean', 'key3_mean', 'key4_mean','key5_mean', 'key6_mean', 'key7_mean', 'key8_mean', 'key9_mean',
      'key1_std', 'key2_std', 'key3_std', 'key4_std', 'key5_std', 'key6_std', 'key7_std', 'key8_std', 'key9_std',
      'unmap_isunknown', 'udmap', 'common_ts', 'uuid', 'target', 'common_ts_hour', 'day', 'common_ts_minute','dayofweek',
      'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8',
      'eid', 'eid_std', 'eid_mean', 'eid_freq',
      'key1', 'key2', 'key3', 'key4', 'key5', 'key6', 'key7', 'key8', 'key9'
      ]
 
# 训练模型：按需分组选取特征
x = train_data.drop(['x1_freq', 'x2_freq', 'x3_freq', 'x4_freq', 'x5_freq', 'x6_freq', 'x7_freq', 'x8_freq',
                     'x1_mean', 'x2_mean', 'x3_mean', 'x4_mean', 'x5_mean', 'x6_mean', 'x7_mean', 'x8_mean',
                     'x1_std', 'x2_std', 'x3_std', 'x4_std', 'x5_std', 'x6_std', 'x7_std', 'x8_std',
                     'key1_freq', 'key2_freq', 'key3_freq', 'key4_freq', 'key5_freq', 'key6_freq', 'key7_freq', 'key8_freq','key9_freq',
                     'key1_mean', 'key2_mean', 'key3_mean', 'key4_mean','key5_mean', 'key6_mean', 'key7_mean', 'key8_mean','key9_mean',
                     'key1_std', 'key2_std', 'key3_std', 'key4_std', 'key5_std', 'key6_std', 'key7_std', 'key8_std', 'key9_std',
                     'udmap', 'common_ts', 'uuid', 'target', 'common_ts_hour', 'day', 'common_ts_minute','dayofweek',
                     'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8',
                     'eid', 'eid_std', 'eid_mean', 'eid_freq',
                     'key1', 'key2', 'key3', 'key4', 'key5', 'key6', 'key7', 'key8', 'key9'
                      ], axis=1)
y = train_data['target']
clf = DecisionTreeClassifier()
clf.fit(x, y)
 
# 获取特征重要性得分
feature_importances = clf.feature_importances_
 
# 创建特征名列表
feature_names = list(x.columns)
 
# 创建一个DataFrame，包含特征名和其重要性得分
feature_importances_df = pd.DataFrame({'feature': feature_names, 'importance': feature_importances})
 
# 对特征重要性得分进行排序
feature_importances_df = feature_importances_df.sort_values('importance', ascending=False)
 
# 颜色映射
colors = plt.cm.viridis(np.linspace(0, 1, len(feature_names)))
 
# 可视化特征重要性
fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(feature_importances_df['feature'], feature_importances_df['importance'], color=colors)
ax.invert_yaxis()  # 翻转y轴，使得最大的特征在最上面
ax.set_xlabel('特征重要性', fontsize=12)  # 图形的x标签
ax.set_title('决策树特征重要性可视化', fontsize=16)
for i, v in enumerate(feature_importances_df['importance']):
    ax.text(v + 0.01, i, str(round(v, 3)), va='center', fontname='Times New Roman', fontsize=10)
 
# 保存图形
plt.savefig('./特征重要性.jpg', dpi=400, bbox_inches='tight')
plt.show()

结果显示时间特征年份最重要，，

# 使用Decision Tree Classifier对模型进行训练
clf = DecisionTreeClassifier()
X = train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1)
y = train_data['target']
clf.fit(X, y)
# 绘制特征重要性柱状图
import matplotlib.pyplot as plt
# 获取特征重要性分数
feature_importances = clf.feature_importances_

# 创建特征重要性 DataFrame
importance_df = pd.DataFrame({'Feature': X.columns, 'Importance': feature_importances})

# 按重要性从大到小排序
importance_df = importance_df.sort_values(by='Importance', ascending=False)
plt.figure(figsize=(80, 6))
plt.bar(importance_df['Feature'], importance_df['Importance'])

接着绘制了一个绘制决策树特征重要性柱状图

利用重要的commom_ts时间特征的week, day, or minute去与target做特征组合,但是效果似乎不咋好，不如之前提取的特征分数高

最后介绍暗最高分的来源——AutoGluon
只需几行代码即可在原始数据上构建机器学习解决方案。
哈哈先上代码

pip install autogluon

import numpy as np
import pandas as pd
from autogluon.tabular import TabularDataset
from autogluon.tabular import TabularPredictor

train_data = TabularDataset('D:/D/Download/360安全浏览器下载/用户新增预测挑战赛公开数据/train.csv')
test_data = TabularDataset('D:/D/Download/360安全浏览器下载/用户新增预测挑战赛公开数据/test.csv')
submit = pd.DataFrame()
submit["uuid"] = test_data["uuid"]
label = "target"

predictor = TabularPredictor(
    label = label,
    problem_type="binary",
    eval_metric="f1"
).fit(
    train_data.drop(columns=["uuid"]),
    excluded_model_types=[
        "CAT",
        "NN_TORCH",
        "FASTAI",
    ],
)

submit[f"{label}"] = predictor.predict(test_data.drop(columns=["uuid"]))
submit.to_csv("D:/D/Download/360安全浏览器下载/用户新增预测挑战赛公开数据/submit.csv",index=False)

就这几行代码，我弄了几天都赶不上哈哈有点儿丢人。

关于AutoGluon

你可能感兴趣的:(人工智能,学习,笔记)

【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
react19设计AntVX6 人工智能建模 DAG 图 I like Code? AntV X6 javascript 前端开发语言
HomeTop.tsximportReact,{useState,useEffect,useRef}from'react'importuseStorefrom'../../../store/state'import{Graph,Path}from'@antv/x6'import{History}from'@antv/x6-plugin-history'importAlgoNodefrom'../.
从零开始玩转TensorFlow：小明的机器学习故事 1 山海青风 #机器学习机器学习 tensorflow 人工智能
1.引言故事简介小明是一个计算机专业的大三学生，近期在学校里接触到了机器学习。他在某次校园活动中发现，活动主办方总是难以准确预测学生的报名人数，导致准备的物料经常不够或浪费。于是，小明萌生了一个想法：能否通过一些历史数据，用机器学习的方式来预测每场活动的参与率？在老师的建议下，他选择了TensorFlow，一个流行且强大的深度学习框架，希望能将这个想法变成现实。2.开始TensorFlow的旅程场
从零开始玩转TensorFlow：小明的机器学习故事 2 山海青风 #机器学习机器学习 tensorflow 人工智能
你好，TensorFlow！——从零开始的第一个机器学习程序1.为什么要写这个“Hello,TensorFlow!”？无论学习什么新语言或新框架，“HelloWorld!”示例都能帮助我们快速确认开发环境是否就绪，并掌握最基本的使用方式。对于初学者来说，这种“可执行的最小示例”既能降低上手门槛，又能带来满满的成就感。在这里，我们就用TensorFlow2.x的即时执行模式，输出“Hello,Ten
python 高级特性之迭代网罗开发 python集 Python 技术汇总 python 高级特性迭代
python学习笔记，特做记录，分享给大家，希望对大家有所帮助。迭代如果给定一个list或tuple，我们可以通过for循环来遍历这个list或tuple，这种遍历我们称为迭代（Iteration）。在Python中，迭代是通过for…in来完成的，而很多语言比如C语言，迭代list是通过下标完成的，比如Java代码：for(i=0;i
大模型产品架构全景解读：从应用场景到技术支持的完整路径程序员丸子架构人工智能 AI大模型大模型 LLM 大语言模型 RAG
随着人工智能技术的迅猛发展，大模型逐渐成为推动各行业智能化转型的核心动力之一。大模型不仅可以处理大量数据，进行复杂任务的自动化，还能通过微调、蒸馏等技术在特定场景中表现出色。本文将结合大模型产品架构图，详细解读每一个组成模块，帮助读者理解从应用场景到技术支持的完整路径，洞察大模型如何在实际业务中落地。一、落地场景：赋能业务的智能化解决方案大模型的实际价值首先体现在各个业务场景的落地应用中。在架构图
知物由学 | AI网络安全实战：生成对抗网络 Hacker_Fuchen 人工智能 web安全生成对抗网络
作者：BradHarris，安全研究员，Brad曾在公共和私营部门的网络和计算机安全领域工作过。他已经完成了从渗透测试到逆向工程到应用研究的所有工作，目前他是IBMX-Force的研究员。GANs是人工智能（AI）的最新思想之一。在我们深入讨论这个话题之前，让我们先来看看“对抗性”这个词的含义。在AI的原始应用中，这个词指的是用来欺骗评估神经网络或另一个机器学习模型的样本类型。随着机器学习在安全应
【Java学习】多态 Brookty java 学习
目录一、方法相同二、方法重写1.概念2.条件三、向上转型1.概念2.方式四、方法绑定五、多态一、方法相同方法相同要求方法名相同、参数列表相同、返回值类型相同(与两方法修饰的访问限定符相不相同、静态非静态状态相不相同无关)，而且在子类与父类相同的方法中，子类那边方法的访问权限必须大于等于父类那边方法的访问权限二、方法重写1.概念重写是由子类类变量引用赋给父类类变量引用后父类类变量引用里对原子类类变量
Docker 容器操作笔记 π大星星️ docker 笔记容器
一、简介Docker容器是基于Docker镜像创建的运行实例。容器提供了隔离的运行环境，可以在不同的操作系统上以一致的方式运行应用程序。以下是对Docker容器操作的详细介绍，包括常用的命令及其参数解释。二、容器操作（一）运行容器1.基本命令dockerrun[选项]:2.参数解释dockerrun：创建并启动一个新的容器。[选项]：-d：后台模式运行容器。--rm：容器退出时自动删除。--nam
基于深度学习进行呼吸音检测的详细示例 go5463158465 算法深度学习深度学习人工智能
以下是一个基于深度学习进行呼吸音检测的详细示例，我们将使用Python语言以及一些常见的深度学习库（如TensorFlow、Keras）和数据处理库（如numpy、pandas），同时会用到音频处理库librosa。整个流程包括数据加载、预处理、模型构建、训练和评估。步骤1：安装必要的库在开始之前，确保你已经安装了以下库：pipinstalltensorflowlibrosanumpypandas
用deepseek学大模型08-用deepseek解读deepseek wyg_031113 人工智能深度学习
DeepSeekR1是一种先进的深度学习模型架构，结合了Transformer、稀疏注意力机制和动态路由等核心技术。以下是对其核心原理、公式推导及模块分析的详细解析：深入浅析DeepSeek-V3的技术架构1.核心架构概览DeepSeekR1的架构基于改进的Transformer，主要模块包括：稀疏多头自注意力（SparseMulti-HeadSelf-Attention）动态前馈网络（Dynam
Python从入门到精通学习路线 weixin_45689377 python学习 python 机器学习人工智能神经网络大数据
Python从入门到精通学习路线进步源自技术积累1.Python安装方式强烈推荐采用Anaconda集成软件进行安装，Anaconda集成了pyhon软件、jupyter及180多个包；安装方式参考网上教程，Anaconda下载地址：https://www.anaconda.com2.Python开发环境选择推荐jupyter（Anaconda中含有，不需额外安装）和pycharm（需额外安装），
Vite 学习笔记 a鲸前端
优势vite是vue团队官方出品,vue-cli会在下面两个版本中将vite作为预设构建工具未来适用vue-cli构建vue项目时要写的vue.config.js不再是webpack的配置而是vite的配置(目前只基于浏览器项目)vite也支持构建react项目,也支持构建angular项目,svelte项目也支持构建内容1.什么是构建工具构建工具是运行在服务器的企业级项目里都可能会具备哪些功能t
CSS基础笔记八，display属性详解（变成弹性盒子flex，隐藏none，变成块级元素bolck，变成行内元素inline，变成行内块级元素inlen-bolck）凡梦_leo #CSS css 笔记前端 html5 html css3 python
前瞻：display属性可以设置弹性盒子flex可以设置元素隐藏none可以更改元素的属性变成块级bolck变成行内inline变成行内块级元素inlen-bolck补充让一个元素隐藏的几种方式1，更改属性使其隐藏display：none隐藏自己，不保留原来的位置2，bisbility：hidden隐藏自己，保留原来位置3，opacity：0背景虚化虚化到0的时候自然就隐藏了，隐藏自己保留原来的位
超越实验室：打造真正在现实世界中奏效的 AI (泛化性与鲁棒性) 海棠AI实验室人工智能理论与学术机器学习人工智能信息可视化
人工智能正以前所未有的速度从研究实验室走向我们的日常生活。我们看到AI驱动着从语音助手到推荐引擎的各种应用，而自动驾驶汽车、个性化医疗等更具变革性的应用前景也始终令人期待。然而，要真正释放AI的潜力，我们还需要克服一个关键障碍：让AI真正在现实世界中可靠地运行，而不仅仅是在受控的实验室环境中。想象一下，一辆自动驾驶汽车在一个晴朗的下午行驶时表现完美，但当它进入一个大雾天气区域时，它却无法识别前方的
告别 AI 幻觉：LangChain + 知识图谱 + 大模型，打造可靠的智能应用海棠AI实验室 AI Agent学习进阶实战人工智能 langchain 知识图谱 Agent
目录前言：知识图谱在AI中的地位什么是知识图谱？为什么要用知识图谱？LangChain简介：它如何与知识图谱结合？项目准备：环境配置与工具选择手把手实现5.1从文本中提取结构化知识存入图谱6.2基于LangChain知识图谱的查询与推理实践Tips：如何让知识图谱规模化、应用化？总结与展望后记1.前言：知识图谱在AI中的地位在当今的人工智能领域，各类语言模型（如GPT系列、BERT等）已经深刻地影
Spring Boot 项目中如何优雅丝滑地从 Date 过渡到 LocalDateTime 墨瑾轩一起学学Java【一】spring boot 后端 java
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣SpringBoot项目中如何优雅丝滑地从Date过渡到LocalDateTime嘿，小伙伴们！今天我们要一起探讨如何在SpringBoot项目中优雅地从使用Date类型过渡到使用LocalDateTime。如果你正在寻找一种高效的方法来更新你的项目以适应现代
MyBatis一些学习的记录黄昏难掩秋色2315 mybatis
MyBatis是一款基于JDBC来开发的持久层框架.一、配置spring:datasource:url:jdbc:mysql://127.0.0.1:3306/mybatis_test?characterEncoding=utf8&useSSL=false//数据库的urlusername:root//用户名password:root//密码driver-class-name:com.mysql.
有哪些好用的AI工具？(你想要的AI工具都在这) c++
1.常见应用场景1.1.国内通用大模型模型名称简介官网地址DeepSeek深度求索公司研发的高性能开源模型，以低成本、高推理能力著称，支持数学、代码等复杂任务。https://chat.deepseek.com/豆包字节跳动开发的智能语言模型，基于深度学习技术，支持多种自然语言处理任务。https://www.doubao.com/Kimi月之暗面科技推出的长文本处理AI助手，擅长中英文对话、文件
避坑指南：chatgpt账号购买成品号- chatgpt 4.0 plus成品号购买手册！ chatgpt
购买ChatGPT账号的注意事项及指南✨在当前人工智能技术快速发展的背景下，ChatGPT作为一种强大的语言模型工具️，受到了广泛关注。然而，在获取ChatGPT账号的过程中，用户需审慎考虑多项关键因素，以确保所购账号的安全、可靠及合法性✅，规避潜在风险⚠️。本文将深入探讨购买ChatGPT账号时需重点关注的几个方面，并提供相关建议。1.账号来源审查️‍♂️账号来源是决定其安全性和可靠性的首要因素
AI 模型的优化与应用：大模型本体、蒸馏、量化与 GGUF CCSBRIDGE 人工智能人工智能
引言近年来，大型语言模型（LLM）在人工智能领域取得了突破性的进展，但其计算需求高昂，训练和推理成本巨大。因此，如何优化大模型，使其在不同设备和应用场景下更高效地运行，成为了AI研究的重要课题。本文将探讨大模型本体（FullModel）、蒸馏（Distillation）、量化（Quantization）和GGUF（GPT-GeneratedUnifiedFormat）等优化技术，并分析它们的区别、
C语言： return的解释 ZTT-Erolii C语言
return:1、学习背景：(今天发现不论是带返回值还是不带返回值的函数中都可以写return)2、解释：i）.return表示把程序流程从被调函数转向主调函数并把表达式的值带回主调函数，实现函数值的返回，返回时可附带一个返回值，由return后面的参数指定。如：doubleadd(doublea,doubleb){returna+b;/*此处的return是返回了一个double类型的值，并中止
上下文感知 AI Agent 将赋予我们的“超能力” 塞大花 AI架构与工具学习之路人工智能 ai Agent 上下文感知技术发展 AI发展行业发展
随着科技的进步，工具正在逐渐演化成真正意义上的“能力”，为我们的生活、工作和思维方式带来前所未有的改变。2025年，我们将从“向人们出售更强大的工具”转向“向人们出售更强大的能力”，这场变革将由上下文感知的AIAgent（人工智能代理）推动。我们即将进入一个新的时代，在这个时代里，AIAgent不仅仅是外部的工具，它们将与我们的日常生活无缝融合，赋予我们“超人”般的能力。工具与能力的区别人类历史上
谷歌 AI Agent 白皮书：2025 年，智能体时代已来人工智能googleagent
谷歌在2024年底发布了AIAgent（AI智能体）白皮书，表明人工智能在商业中将扮演更积极和独立的角色的未来，并详细阐述了智能体的概念、架构、运作方式以及相关技术，为智能体的开发和应用提供了理论框架和实践指导。AI4AI社区为大家对白皮书内容进行了整理，简单概括回顾核心内容，欢迎点击文章底部“阅读原文”获取完整版白皮书。智能体时代已来人类擅长处理复杂的模式识别任务。然而，我们往往需要借助工具——
有哪些好用的AI工具？(你想要的AI工具都在这) c++
1.常见应用场景1.1.国内通用大模型模型名称简介官网地址DeepSeek深度求索公司研发的高性能开源模型，以低成本、高推理能力著称，支持数学、代码等复杂任务。https://chat.deepseek.com/豆包字节跳动开发的智能语言模型，基于深度学习技术，支持多种自然语言处理任务。https://www.doubao.com/Kimi月之暗面科技推出的长文本处理AI助手，擅长中英文对话、文件
【SpringBoot】34、SpringBoot整合Redis实现序列化存储Java对象 Asurplus SpringBoot 2.x系列 redis 序列化 springboot java对象
前面我们已经介绍过【SpringBoot】十七、SpringBoot中整合Redis，我们可以看出，在SpringBoot对Redis做了一系列的自动装配，使用还是非常方便的一、背景1、思考通过我们前面的学习，我们已经可以往Redis中存入字符串，那么我们要往Redis中存入Java对象该怎么办呢？2、方案我们可以将Java对象转化为JSON对象，然后转为JSON字符串，存入Redis，那么我们从
SpringCloud03—服务治理：SpringCloud Eureka m0_75011249 程序员 spring cloud eureka java
《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》，点击传送门，即可获取！spring-boot-starter-parent2.5.1org.springframework.cloudspring-cloud-starter-eureka1.4.7.RELEASEorg.springframework.cloudspring-cloud-dependencies2020
【洛谷】P1886 滑动窗口 /【模板】单调队列，经典！ SiMmming 算法算法 c++数据结构
目录题目AC代码详解deque语法一道经典的单调队列模板题！！“如果一个选手比你小还比你强，你就可以退役了。”——单调队列的原理——算法学习笔记(66):单调队列-知乎题目P1886滑动窗口/【模板】单调队列-洛谷【普及/提高-】AC代码#includeusingnamespacestd;intn,m;structNode{intid;//编号intval;//大小};dequeq1;//min,
快速入门Springboot+vue——MybatisPlus多表查询及分页查询 ONEPEICE-ing vue.js spring boot 前端 mybatis
学习自哔哩哔哩上的“刘老师教编程”，具体学习的网站为：7.MybatisPlus多表查询及分页查询_哔哩哔哩_bilibili，以下是看课后做的笔记，仅供参考。多表查询多表查询[Mybatis中的]：实现复杂关系映射，可以使用@Results直接，@Result注解，@One注解，@Many注解组合完成复杂关系的配置。@Results：代替标签，该注解中可以加入单个或多个@Result注解@Res
Java中的自然语言处理（NLP）工具：Stanford NLP、Apache OpenNLP、DL4J 花千树-010 RAG java 自然语言处理 apache nlp AIGC
随着人工智能技术的快速发展，自然语言处理（NLP）已经成为各行各业中不可或缺的技术。对于Java开发者来说，选择合适的NLP工具可以极大地提升开发效率。今天，我们将探讨几款常用的JavaNLP工具：StanfordNLP、ApacheOpenNLP和DL4J，并通过代码实例展示如何使用它们。1.StanfordNLP：功能全面的NLP工具StanfordNLP是由斯坦福大学开发的自然语言处理工具包
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs