天狼啸月1990

数据挖掘流程（三）：特征工程

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

特征工程流程：这些过程不是必须全部要有，需要根据业务需求和数据格式特点，适宜调整！

- 数据理解EDA
- 特征清洗
- 特征构造
- 特征选择
- 特征降维
- 特征类别不平衡

特征工程

1. 数据理解EDA

1.1 数据简略观测

1.2 数据统计

1.3 数据正态性检验

1.4 绘图

2. 特征清洗

2.1 特征分类不平衡

2.2 缺失值处理

2.3 异常值处理

2.4 数据转换

2.5 数据分桶

2.6 一人多次

3. 特征构造（特征生成）

4. 特征选择

4.1 Filter（过滤式），单变量特征选择

4.2 Wrapper（包装法）

4.3 Embedded（嵌入法）

5. 特征降维

5.1 PCA

5.2 LDA

6. 直接预测

特征工程

1. 数据理解EDA

这一步最重要的是形成分类变量名列表和连续变量名列表。这样做的好处：

1）方便查看分类变量数据分布。分类变量正负样本比例全是1或95%是1的，没意义，可以删去；连续变量缺失率大于50%和数值分布范围

2）方便后面的相关性检测。分类变量用卡方检验；连续变量用t检验或方差分析。

1.1 数据简略观测

head()
shape
unique()、nunique()
相关统计量。describe()
数据类型。info()
pandas_profiling数据报告，不建议。因为在数据量大时，pandas_profiling生成的数据报告可能出错、生成的图较大较慢。

1.2 数据统计

print('----------------全体变量数据统计描述----------------------')
# 统计全变量体系各变量的平均数、上下四分位数、缺失率
feature_list=[]
mean_list=[]
up_quarter_list=[]
down_quarter_list=[]
miss_list=[]

for i in df_model.columns:
    data = df_model[i]
    stat_result = pd.DataFrame(data.describe())
    # print(stat_result)
    mean_value=stat_result.loc['mean',i]
    up_quarter=stat_result.loc['25%',i]
    down_quarter=stat_result.loc['75%',i]
    num=stat_result.loc['count',i]
    miss_rate=1-num/df_model.shape[0]
    miss_rate="%.2f%%" % (miss_rate * 100)      # 百分数输出

    feature_list.append(i)
    mean_list.append(round(mean_value,2))
    up_quarter_list.append(round(up_quarter,2))
    down_quarter_list.append(round(down_quarter,2))
    miss_list.append(miss_rate)

df_stat=pd.DataFrame({'特征':feature_list,'平均值':mean_list,'上四分位':up_quarter_list,'下四分位':down_quarter_list,'缺失率':miss_list})
df_stat=df_stat.reset_index(drop=True)

writer=pd.ExcelWriter(project_path+'/data/v2.0/df_全体变量数据统计.xlsx')
df_stat.to_excel(writer)
writer.save()

1.3 数据正态性检验

数据正态性检验，是为了方便相关性分析和显著性分析。当样本量巨大时，可以近似认为数据符合正态分布，不用做正态性检验。

SPSS。
- P-P图/Q-Q图
- k-s和s-w检验。
- 直方图。Analysis--统计描述--频率
python。详见特征选择-相关性分析
查看特征的偏度和峰度

1.4 绘图

画出原始的数据
画出他们的简单的统计特征（mean plots, box plots, residual plots)
画出不同的数据间的相关性
- 小提琴图。相当于进阶版箱线图，可以看出某个值附近分布的频率。
- 直方图。便于观察数据分布
- 箱线图。便于观察数据的异常情况，以及不同数据间的对比。
- 时序图。便于观察数据特点，例如是否具有周期性、震荡幅度等

2. 特征清洗

2.1 特征分类不平衡

分类变量正负样本分类不平衡，少类别提供信息太少，没有学会如何判别少数类。

删除。分类变量正负样本比例全是1或95%是1的，没意义，可以删去
重采样

过采样是针对minority样本，欠采样是针对majority样本；而综合采样是既对minority样本，又对majority样本，同时进行操作的方法

过采样over-sampling。smote，adasyn，TabGan，CTGAN(github)
欠采样under-sampling。cluster centrolds，Tomek's links，Edited Nearest Neighbours，AllKNN，Condensed Nearest Neighbour，MearMiss-1,2,3
- 尝试其他评价指标。AUC
- 调整θ值
- 选择其他模型:决策树等;

例：

原始数据（Original）：未经过任何采样处理（1831X21）每条数据有21个特征。其中正例176个（9.6122%），反例1655个（90.3878%）

欠采样（Undersampling）：从反例中随机选择176个数据，与正例合并（352X21）

过采样（Oversampling）：从正例中反复抽取并生成1655个数据（势必会重复），并与反例合并（3310X21）

SMOTE：也是一种过采样方法。SMOTE通过找到正例中数据的近邻，来合成新的1655-176=1479个“新正例”，并与原始数据合并（3310X21）

欠采样

from imblearn.under_sampling import TomekLinks
 
X_train = train_df.drop(['id', 'type'], axis=1)
y = train_df['label']
tl = TomekLinks()
X_us, y_us = tl.fit_sample(X_train, y)
print(X_us.groupby(['label']).size())
# label
# 0    36069
# 1     2757

SMOTE

from imblearn.over_sampling import SMOTE
smote = SMOTE(k_neighbors=5, random_state=42)
X_res, y_res = smote.fit_resample(X_train, y)
X_res.groupby(['label']).size()
# label
# 0    37243
# 1    37243

ADASYN

from imblearn.over_sampling import ADASYN 
adasyn = ADASYN(n_neighbors=5, random_state=42)
X_res, y_res = adasyn.fit_resample(X_train, y)
X_res.groupby(['label']).size()
 
# label
# 0    37243
# 1    36690

综合采样

from imblearn.combine import SMOTETomek
 
smote_tomek = SMOTETomek(random_state=0)
X_res, y_res = smote_tomek.fit_sample(X_train, y)
X_res.groupby(['label']).size()
# label
# 0    36260
# 1    36260

结果：

1）过采样（右上）只是单纯的重复了正例，因此会过分强调已有的正例。如果其中部分点标记错误或者是噪音，那么错误也容易被成倍的放大。因此最大的风险就是对正例过拟合

2）欠采样（左下）抛弃了大部分反例数据，从而弱化了中间部分反例的影响，可能会造成偏差很大的模型。当然，如果数据不平衡但两个类别基数都很大，或许影响不大。数据总是宝贵的，抛弃数据是很奢侈的，因此另一种常见的做法是反复做欠采样，生成1655/176=9

3）SMOTE（右下）可以看出和过采样（右上）有了明显的不同，因为不单纯是重复正例了，而是在局部区域通过K-近邻生成了新的正例。

2.2 缺失值处理

删除。缺失率超过50%的变量删除
传统方法。（均值、中位数）
机器学习。（随机森林rf插补、xgboost）

# 使用随机森林对缺失值进行插补
import pandas as pd
pd.set_option('mode.chained_assignment', None)
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
def missing_value_interpolation(df,missing_list=[]):
    df = df.reset_index(drop=True)
    # 提取存在缺失值的列名
    if not missing_list:
        for i in df.columns:
            if df[i].isnull().sum() > 0:
                missing_list.append(i)
    missing_list_copy = missing_list.copy()
    # 用该列未缺失的值训练随机森林，然后用训练好的rf预测缺失值
    for i in range(len(missing_list)):
        name=missing_list[0]
        df_missing = df[missing_list_copy]
        # 将其他列的缺失值用0表示。
        missing_list.remove(name)
        for j in missing_list:
            df_missing[j]=df_missing[j].astype('str').apply(lambda x: 0 if x=='nan' else x)
        df_missing_is = df_missing[df_missing[name].isnull()]
        df_missing_not = df_missing[df_missing[name].notnull()]
        y = df_missing_not[name]
        x = df_missing_not.drop([name],axis=1)
        # 列出参数列表
        tree_grid_parameter = {'n_estimators': list((10, 50, 100, 150, 200))}
        # 进行参数的搜索组合
        grid = GridSearchCV(RandomForestRegressor(),param_grid=tree_grid_parameter,cv=3)
        #rfr=RandomForestRegressor(random_state=0,n_estimators=100,n_jobs=-1)
        #根据已有数据去拟合随机森林模型
        grid.fit(x, y)
        rfr = RandomForestRegressor(n_estimators=grid.best_params_['n_estimators'])
        rfr.fit(x, y)
        #预测缺失值
        predict = rfr.predict(df_missing_is.drop([name],axis=1))
        #填补缺失值
        df.loc[df[name].isnull(),name] = predict
    return df

GAN。伪造数据、fake sample

2.3 异常值处理

删除。箱线图分析删除异常值box-plot

# 过滤异常值，大于正常值超过100倍！
def filter_exce_value(df,feature):
    # 过滤文字!!!!!!!!!!!!!!!!!!!!!!!!!!!
    df=df[df[feature].str.contains('\d')]
    # 过滤异常大值!!!!!!!!!!!!!!!!!!!!!!!!!!
    median_value=df[feature].median()
    df[feature]=df[feature].apply(lambda x: x if abs(float(x)) < (100 * abs(median_value)) else np.nan)
    df=df[df[feature].notnull()]
    return df

孤立森林
长尾截断

2.4 数据转换

一般是用于连续变量不满足正态分布的时候

最重要的一点：如果对因变量进行数据转换，要记得对模型预测结果进行恢复！

正态纠偏（修复偏斜特征），box-cox转换

Box-Cox变换通过对因变量进行变换，使得变换过的向量与回归自变量具有线性相依关系，误差也服从正态分布．误差各分量是等方差且相互独立。Box-Cox变换兼顾了变量在时间序列维度上的回归特性，所以也可以用于时间序列方面的预测。

from scipy.stats import boxcox
boxcox_transformed_data = boxcox(original_data)

在一些情况下（P值正态化处理，所以优先使用BOX-COX转换，但是当P值>0.003时两种方法均可，优先考虑普通的平方变换

其他非正态数据转换
- 对数变换（log）
- 平方根转换
- 倒数转换
- 平方根后取到数，平方根后再取反余弦，幂转换

for col in continuous_list:
    df_final_10_1[col] = df_final_10_1[col].apply(lambda x: np.log(x) if x > 0 else np.nan if x!=x else 0)

中心化。把数据整体移动到以0为中心点的位置，将数据减去这个数据集的平均值
标准化（Z-score）。(x-mean)/std
归一化（Max-min）。(x-min)/(max-min)。从经验上说，归一化是让不同维度之间的特征在数值上有一定的比较性，可以大大提高分类器的准确性。

minmax = MinMaxScaler()
num_data_minmax = minmax.fit_transform(num_data)
num_data_minmax = pd.DataFrame(num_data_minmax, columns=num_data.columns, index=num_data.index)

转换数据类型（astype）
独热编码（one-hot Encoder）

"""类别特征某些需要独热编码一下"""
hot_features = ['bodyType', 'fuelType', 'gearbox', 'notRepairedDamage']
cat_data_hot = pd.get_dummies(cat_data, columns=hot_features)

标签编码（Label Encoder）

2.5 数据分桶

医学数据挖掘里用处不大

等频分桶
等距分桶
Best-KS分桶
卡方分桶

2.6 一人多次

3. 特征构造（特征生成）

在特征构造的时候，需要借助一些业务知识（比如医学中的BMI、肌酐转化率），遵循的一般原则就是需要发挥想象力，尽可能多的创造特征，不用先考虑哪些特征可能好，可能不好，先弥补这个广度。

医学数据挖掘一般不需要考虑数值、类别和时间特征。

数值特征
类别特征
时间特征

4. 特征选择

filter--主要对应单变量特征选择；wrapper--主要对应多个特征选择。

特征选择原因：对于一个特定的学习算法来说，哪一个特征是有效的是未知的。因此，需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中，经常会出现维度灾难问题。如果只选择所有特征中的部分特征构建模型，那么可以大大减少学习算法的运行时间，也可以增加模型的可解释性

特征选择原则：获取尽可能小的特征子集，不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强等特点

4.1 Filter（过滤式），单变量特征选择

filter按照发散性或相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。

优点：运行速度快，是一种非常流行的特征选择方法。

缺点：无法提供反馈，特征选择的标准/规范的制定是在特征搜索算法中完成，学习算法无法向特征搜索算法传递对特征的需求。另外，可能处理某个特征时由于任意原因表示该特征不重要，但是该特征与其他特征结合起来则可能变得很重要

相关性检验。分别计算每个特征与输出值之间的相关系数，设定一个阈值，选择相关系数大于阈值的部分特征

https://note.youdao.com/s/9HR1GEQG

显著性检验
- t检验
- 卡方检验
- 方差检验。
- 非参数检验

https://note.youdao.com/s/aTVlqmDy

互信息
Relief

独立样本t检验和Mann-Whitney U test

discrete_list = ['gender']
continuous_list = [x for x in df_model.columns if x not in discrete_list]
# 高低剂量组利伐沙班服药前后WBC显著性检验
from scipy.stats import kstest,shapiro
import scipy.stats as st
from scipy.stats import chi2_contingency
##检验是否正态
def norm_test(data):
    if len(data) > 30:
        norm, p = kstest(data, 'norm')
    else:
        norm, p = shapiro(data)
    #print(t,p)
    if p>=0.05:
        return True
    else:
        return False

def test2(data_b, data_p):
    if norm_test(data_b) and norm_test(data_p):
        x = 1
        y = '独立样本T检验'
        t, p = st.ttest_ind(list(data_b),list(data_p), nan_policy='omit')
    else:
        x = 0
        y = 'Mann-Whitney U检验'
        t,p = st.mannwhitneyu(list(data_b),list(data_p))
    return x,y,t,p
def sig_test(df_high,df_low,list):

    field_list=[]
    y_list=[]
    t_list=[]
    p_list=[]
    result_list=[]
    high_mean_list=[]
    low_mean_list=[]
    # high_num_list=[]
    # high_rate_list=[]
    # low_num_list=[]
    # low_rate_list=[]
    for i in range(len(list)):
        field=list[i]
        df_high_nt=df_high[df_high[field].notnull()]
        data_high=df_high_nt[field]
        high_mean=round(data_high.mean(),2)
        # high_num=df_high_nt.shape[0]
        # all_num=df_high.shape[0] + df_low.shape[0]
        # high_rate = "%.2f%%" % (round(high_num/all_num) * 100)
        df_low_nt=df_low[df_low[field].notnull()]
        data_low=df_low_nt[field]
        low_mean=round(data_low.mean(),2)
        # low_num=df_low_nt.shape[0]
        # low_rate="%.2f%%" % (round(low_num/all_num) * 100)
        if data_high.shape[0] >= 10 and data_low.shape[0]>=10:
            x,y,t,p = test2(data_high, data_low)
            if p <=0.05:
                sig='显著'
            else:
                sig='不显著'
            field_list.append(field)
            y_list.append(y)
            t_list.append(t)
            p_list.append(p)
            result_list.append(sig)
            high_mean_list.append(high_mean)
            low_mean_list.append(low_mean)
    df_result=pd.DataFrame({'特征':field_list,
                            '高剂量均值':high_mean_list,
                            '低剂量均值':low_mean_list,
                            '检验指标':y_list,
                            't值':t_list,
                            'p值':p_list,
                            '显著性结果':result_list})
    return df_result
# 住院时长到用药时长的显著性检验
df_inp_time=sig_test(df_lfsb_high,df_lfsb_low,['住院时长'])
df_inp_time=df_inp_time.reset_index(drop=True)

writer=pd.ExcelWriter(project_path+r'/data/result/df_高低剂量组住院时长显著性检验.xlsx')
df_inp_time.to_excel(writer)
writer.save()

卡方检验

## 卡方检验
print('----------------------卡方检验-------------------------')
from scipy.stats import chi2_contingency

r1 = []
r2 = []
tran_test['MPA类药物'] = tran_test['MPA类药物'].astype('str')
for i in range(len(np.unique(tran_test['MPA类药物']))):
    r1.append(
        tran_test[(tran_test['group'] == 0) & (tran_test['MPA类药物'] == np.unique(tran_test['MPA类药物'])[i])].shape[0])
    r2.append(
        tran_test[(tran_test['group'] == 1) & (tran_test['MPA类药物'] == np.unique(tran_test['MPA类药物'])[i])].shape[0])

abcd = np.array([r1, r2])
print(abcd)
result = chi2_contingency(abcd)
print(result)

tran_x_1 = tran_x_1.drop(['group'], axis=1)
test_x_1 = test_x_1.drop(['group'], axis=1)

print(tran_x_1.columns)

pearsonr检验

from scipy import stats
r, p = stats.pearsonr(x,y)

spearmanr检验

#  连续变量，spearmanr相关性检验(统计量r);
print('--------------------------计算连续变量的spearmanr相关性系数---------------------------------')
from scipy import stats
t_list = []
p_list = []
q_list = []

for i in continuous_list:
    # 删除连续变量中的<、>号
    tdm_7_other_filter[i] = tdm_7_other_filter[i].astype('str').apply(lambda x: re.sub(r'<|>', '',x))
    x= tdm_7_other_filter[tdm_7_other_filter[i].astype('float').notnull()][i]
    y= tdm_7_other_filter[tdm_7_other_filter[i].astype('float').notnull()]['test_result']
    t, p = stats.spearmanr(x,y)
    t = round(t, 2)
    p = round(p, 3)
    q = '斯皮尔曼'
    # print(i, t, p)

    t_list.append(t)
    p_list.append(p)
    q_list.append(q)
df_spearmanr= pd.DataFrame(data={'连续检测指标': continuous_list,
                                't值': t_list,
                                'p值': p_list,
                                '方法': q_list})
df_spearmanr_1 = df_spearmanr[df_spearmanr['p值'] <= 0.05]
df_spearmanr_2 = df_spearmanr[df_spearmanr['p值'] >= 0.05]  # 显著性不成立
df_spearmanr = pd.concat([df_spearmanr_1,df_spearmanr_2], axis=0)

df_spearmanr=df_spearmanr.sort_values(by=['p值'],ascending=True)
df_spearmanr = df_spearmanr.reset_index()
del df_spearmanr['index']

writer = pd.ExcelWriter(project_path + '/result/df_12_其他检测指标连续变量的spearmanr相关性检测.xlsx')
df_spearmanr.to_excel(writer)
writer.save()

4.2 Wrapper（包装法）

根据目标函数（通常是预测效果评分）作为评价函数，每次选择若干特征，排除若干特征。

主要方法：递归特征消除算法。

优点：对特征进行搜索时围绕学习算法展开的，对特征选择的标准/规范是在学习算法的需求中展开的，能够考虑学习算法所属的任意学习偏差，从而确定最佳子特征，真正关注的是学习问题本身。由于每次尝试针对特定子集时必须运行学习算法，所以能够关注到学习算法的学习偏差/归纳偏差，因此封装能够发挥巨大的作用。

缺点：运行速度远慢于过滤算法，实际应用用封装方法没有过滤方法流行。

逐步向前（Forward stepwise）

# 判断文件路径是否存在，如果不存在则创建该路径
def mkdir(path):
    folder = os.path.exists(path)
    if not folder:  # 判断是否存在文件夹如果不存在则创建为文件夹
        os.makedirs(path)  # makedirs 创建文件时如果路径不存在会创建这个路径

df = pd.read_excel(project_path+'/data/v2.0/建模用数据集（未插补）20210525-3.xlsx')
if 'Unnamed: 0' in df.columns:
    df = df.drop(['Unnamed: 0'], axis=1)
continuous_list = [
  '年龄', '身高(cm)', '体重(kg)', 'BMI', '他克莫司频次', '他克莫司单次剂量', '他克莫司日剂量',
  'C反应蛋白_检测结果', '丙氨酸氨基转移酶_检测结果', '中性粒细胞总数_检测结果', '低密度脂蛋白胆固醇_检测结果',
  '凝血酶原时间比率_检测结果', '天门冬氨酸氨基转移酶_检测结果', '尿素_检测结果', '尿酸_检测结果',
  '平均RBC血红蛋白浓度_检测结果', '平均红细胞体积_检测结果', '平均红细胞血红蛋白量_检测结果', '平均血小板容积_检测结果',
  '总胆固醇_检测结果', '总胆红素_检测结果', '总蛋白_检测结果', '极低密度脂蛋白胆固醇_检测结果', '活化部分凝血活酶时间_检测结果',
  '淋巴细胞总数_检测结果', '球蛋白_检测结果', '甘油三酯_检测结果', '白/球比值_检测结果', '白细胞计数_检测结果',
  '白蛋白_检测结果', '直接胆红素_检测结果', '红细胞比积测定_检测结果', '肌酐_检测结果', '葡萄糖_检测结果',
  '血小板计数_检测结果', '血浆D-二聚体测定_检测结果', '血红蛋白测定_检测结果', '转氨酶比值_检测结果', '间接胆红素_检测结果',
  '非高密度脂蛋白胆固醇_检测结果', '高密度脂蛋白胆固醇_检测结果', '乳酸脱氢酶_检测结果', '心型肌酸激酶_检测结果',
  '肌酸激酶_检测结果', '尿白细胞(仪器定量)_检测结果', '尿红细胞(仪器定量)_检测结果', 'TDM检测结果'
]
#连续变量取log
df_final_10_1 = df.copy()
#df_final_11_1 = df_final_11.copy()
for col in continuous_list:
    df_final_10_1[col] = df_final_10_1[col].apply(lambda x: np.log(x) if x > 0 else np.nan if x!=x else 0)
def model_xy(model):
    x = model[model.columns[2:-1]]
    y = model['TDM检测结果']
    return x, y
col=['身高(cm)', '他克莫司日剂量', '其他免疫抑制剂', '低密度脂蛋白胆固醇_检测结果', '平均红细胞体积_检测结果', '平均红细胞血红蛋白量_检测结果',
     '白细胞计数_检测结果', '直接胆红素_检测结果', '红细胞比积测定_检测结果']
df_model_4 = df_final_10_1.copy()
x4, y4 = model_xy(df_model_4)
all_all_results = []
for j in range(1,52):
    for xy in [[x4, y4]]:
        train_x, test_x, train_y, test_y = train_test_split(xy[0],xy[1],test_size=0.2,random_state=78)
    # 津源xgboost模型
    sfs = SFS(xgb.XGBRegressor(max_depth=5,
                              learning_rate=0.01,
                              n_estimators=500,
                              min_child_weight=0.5,
                              eta=0.1,
                              gamma=0.5,
                              reg_lambda=10,
                              subsample=0.5,
                              colsample_bytree=0.8,
                              nthread=4,
                              scale_pos_weight=1),
             k_features=j,
             forward=True,
             floating=False,
             verbose=2,
             scoring='r2',
             cv=3)

    sfs = sfs.fit(train_x, train_y)
    # 逐步向前筛选结果，包括特征个数，最优特征组合及其r2
    sfs_result = sfs.subsets_
    print(sfs_result)
    df_sfs = pd.DataFrame(sfs_result)
    # DataFrame转置
    df_sfs_T=pd.DataFrame(df_sfs.values.T,index=df_sfs.columns,columns=df_sfs.index)
    df_sfs_T=df_sfs_T.reset_index(drop=True)
    # 保存逐步向前筛选结果
    r2_list=list(df_sfs_T['avg_score'])
    feature_list=list(df_sfs_T['feature_names'])

    # 根据逐步向前测试结果筛选最优特征组合
    r2_max=max(r2_list)
    print(r2_max)
    r2_max_index=r2_list.index(r2_max)
    df_feature_select=df_sfs_T.iloc[r2_max_index:r2_max_index+1,:]
    all_all_results.append(df_feature_select)
df_feature_select=all_all_results[0]
for j in range(1,len(all_all_results)):
    df_feature_select=pd.concat([df_feature_select,all_all_results[j]],axis=0)
df_feature_select=df_feature_select.reset_index(drop=True)
# 保存模型测试和测试结果到本地文件
writer = pd.ExcelWriter(project_path + '/data/v2.0/df_逐步向前特征测试结果.xlsx')
df_feature_select.to_excel(writer)
writer.save()

逐步向后（Backward stepwise）

4.3 Embedded（嵌入法）

用model进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。

特征选择完成后，还能基于特征选择完成的特征和模型训练出的超参数，再次训练优化。

主要思想：在模型既定的情况下学习出对提高模型准确性最好的特征。也就是在确定模型的过程中，挑选出那些对模型的训练有重要意义的特征。

# 重要性评分
import catboost,xgboost
model_boost=xgboost.XGBRegressor()
model_boost.fit(tran_x,tran_y)
importance = model_boost.feature_importances_
print(tran_x.columns)
print(importance)

df_importance= pd.DataFrame(data={'特征':tran_x.columns,'重要性评分':importance})
df_importance['重要性评分']=df_importance['重要性评分'].apply(lambda x: round(x,3))
df_importance=df_importance.sort_values(['重要性评分'],ascending=False)
df_importance=df_importance.reset_index(drop=True)
writer = pd.ExcelWriter(project_path + '/result/df_19_模型重要性评分.xlsx')
df_importance.to_excel(writer)
writer.save()

L1正则化/Lasso regression

L1正则化将系数w的l1范数作为惩罚项加到损失函数上。Lasso能够挑出一些优质特征，同时让其他特征的系数趋于0。当如需要减少特征数的时候它很有用，但是对于数据理解来说不是很好用。

L2正则化/Ridge regression

L2正则化对于特征选择来说一种稳定的模型，不像L1正则化那样，系数会因为细微的数据变化而波动。所以L2正则化和L1正则化提供的价值是不同的，L2正则化对于特征理解来说更加有用：表示能力强的特征对应的系数是非零。

5. 特征降维

5.1 PCA

5.2 LDA

6. 直接预测

boosting体系用于基因分析挖掘

SVM体系（kernel函数进行更改），适用于缺失值和异常值存在的情况

DeepLearning，aml-net，tabnet，TabTransformer

不均衡：loss入手，focal loss，teacher-student-network（多网络互学习）
不均衡+小样本：GAN体系，对比学习体系（学习特征的表征向量+下游任务预测）
小样本：建议使用传统机器学习，svm优先（稳定性强）；加了正则化的线性模型（L1正则--Lasso回归，L2正则--Ridge回归-->导致的问题是泛化，正则是学习的时候尽量不要给它强规则，而重点学习数据分布和推理逻辑，有一定的降维效果）

你可能感兴趣的:(数据挖掘,数据挖掘,特征工程)

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
【字节跳动】数据挖掘面试题0010：解释全国人均收入下降，各省份人均收入增加的现象，属于辛普森悖论（开放性问题）言析数智数据挖掘常见面试题辛普森悖论局部与整体分析差异归因数据分析面试题
文章大纲一、辛普森悖论的核心定义二、现象成因：加权平均中的“权重偏移”三、数学逻辑与案例说明1.数学表达式2.具体案例四、辛普森悖论的本质：忽略“混杂因素”的影响五、生活中常见的辛普森悖论案例及应对策略1.医疗疗法效果评估2.大学录取率的性别偏差3.篮球运动员投篮效率4.公司员工绩效与部门规模如何利用辛普森悖论？（数据分析中的价值）六、总结全国人均收入下降而各省份人均收入增加的现象，确实属于辛普森
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
【力扣（LeetCode）】数据挖掘面试题0003： 356. 直线镜像
文章大纲题目描述**坐标变化规律**解题方案题目描述在一个二维平面空间中，给你n个点的坐标。问，是否能找出一条平行于y轴的直线，让这些点关于这条直线成镜像排布？平行于y轴的直线（即垂直于x轴的直线，其方程形式为(x=a)，其中(a)为常数）的对称点具有以下显著特点：坐标变化规律设直线为(x=a)，平面内任意一点(P(x,y))关于该直线的对称点为(P’(x’,y’))，则两者坐标满足：纵坐标不变：
【机器学习笔记Ⅰ】10 特征工程
特征工程（FeatureEngineering）详解特征工程是机器学习和数据科学中的核心环节，旨在通过对原始数据的转换、组合和提取，构建更适合模型的高质量特征。其质量直接决定模型性能上限（“数据和特征决定了模型的上限，而算法只是逼近这个上限”）。1.特征工程的核心目标提升模型性能：增强特征与目标变量的相关性。降低计算成本：减少冗余特征，加速训练。改善泛化能力：避免过拟合，提高鲁棒性。2.特征工程的
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
基于大模型的急性出血坏死性胰腺炎预测技术方案 LCG元人工智能 python
目录一、算法实现伪代码1.数据预处理与特征工程2.大模型训练（以Transformer为例）3.实时预测与动态调整二、模块流程图1.术前预测流程2.术中动态决策流程3.术后护理流程三、系统集成方案1.系统架构图2.核心模块交互流程四、系统部署拓扑图1.物理部署拓扑2.部署说明五、技术验证方案1.交叉验证流程2.实验验证设计六、健康教育模块示例一、算法实现伪代码1.数据预处理与特征工程#数据清洗与归
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
满血DeepSeek加持的AlphaGPT，助力高文律师事务所全面拥抱AI
2025年初,中国团队精心雕琢的通用大模型DeepSeek凭借其创新的架构优化以及深入的数据挖掘技术,在逻辑推理、多轮对话和知识搜索等关键领域大放异彩,其为诸多垂直领域,特别是法律行业的智能化转型,开拓了全新的方向。2月8日,法律科技领域的领军者iCourt将旗下的AlphaGPT与DeepSeek深度融合,重磅推出业内首款“DeepSeek+法律专业”AI大模型。这一创举彻底打破了传统法律智能工
量化策略进阶：事件驱动与另类数据挖掘实战
前面的章节，我们已经详细探讨了量化系统的基础架构：从数据的获取与管理（数据层），到策略的研发与验证（回测层），再到指令的高速执行（交易执行层），以及确保资金安全的防线（风控与监控运维层），我们共同构建了一套完整的量化交易体系。今天，我们将深入探讨量化策略的更高维度：事件驱动型策略和另类数据挖掘。这不仅仅是技术栈的扩展，更是对市场洞察力和信息处理能力的全面提升，旨在帮助您的策略在传统量价数据之外，捕
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
【力扣（LeetCode）】数据挖掘面试题0013：1264. 页面推荐（泛化后，基于MySQL题解）言析数智数据挖掘常见面试题 leetcode 数据挖掘 mysql 笔试笔试题
文章大纲一、题目要求：二、模拟数据构建三、题解参考方案朋友关系列表：Friendship+---------------+---------+|ColumnName|Type|+---------------+---------+|user1_id|int||user2_id|int|+---------------+---------+(user1_id,user2_id)是这张表具有唯一值的列
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比（逻辑回归 vs 决策树）蓝婷儿 python python 数据分析逻辑回归
✅今日目标回顾整个本周数据分析&建模流程学会训练第二种模型：决策树（DecisionTree）掌握多模型对比评估的方法与实践输出综合对比报告：准确率、精确率、召回率、F1等指标为后续模型调优与扩展打下基础一、本周流程快速回顾步骤内容第1天高级数据操作（索引、透视、变形）第2天缺失值和异常值处理第3天多表合并与连接第4天特征工程（编码、归一化、时间）第5天数据集拆分（训练集/测试集）第6天逻辑回归模
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
【数据挖掘】支持向量机（SVM）大雨淅淅大数据数据挖掘支持向量机算法大数据回归
目录一、支持向量机（SVM）算法概述二、支持向量机（SVM）算法优缺点和改进2.1支持向量机（SVM）算法优点2.2支持向量机（SVM）算法缺点2.3支持向量机（SVM）算法改进三、支持向量机（SVM）算法实现3.1支持向量机（SVM）算法C语言实现3.2支持向量机（SVM）算法JAVA实现3.3支持向量机（SVM）算法python实现四、支持向量机（SVM）算法应用五、支持向量机（SVM）算法发
【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
【字节跳动】数据挖掘面试题0006：SVM（支持向量机）详细原理言析数智数据挖掘常见面试题支持向量机数据挖掘算法 SVM
文章大纲SVM（支持向量机）原理：用最通俗的话讲清楚1.核心思想：找一条“最安全”的分界线2.数学背后的“人话”逻辑3.处理“分不开”的情况：核函数的魔法4.为什么SVM有时比神经网络“聪明”？`5.SVM的优缺点：适合什么场景？`6.一句话总结SVM7.SVM常见的面试知识点除了原理相关内容外**1.硬间隔SVM的数学表达****2.软间隔SVM的数学表达****3.拉格朗日对偶问题推导****
Orange3机器学习建模和可视化分析数据预处理、特征工程、算法训练维度软件库测试工具开源软件电脑
各位数据挖掘爱好者们！今天给你们介绍一款超厉害的开源软件——Orange3。它就像一个神奇的工具箱，你只要通过拖放组件就能完成机器学习建模和可视化分析，软件下载地址安装包它支持数据预处理、特征工程、算法训练和评估整个流程，就像一个贴心的管家，把数据挖掘的事儿全给你安排得明明白白！它还内置了箱线图、决策树这些可视化工具，能直观地把数据分布和模型结构展示出来，就像给你开了个透视眼，让数据一目了然！这软
推荐算法化身 “购物读心术”！ZKmall开源商城如何让用户消费激增 30%？ zkmall ZMkall B2C商城 B2B2C商城推荐算法算法机器学习
在电商竞争白热化的当下，如何精准把握用户需求、提升消费转化，成为企业突围的关键。ZKmall开源商城以推荐算法为核心驱动力，通过深度数据挖掘与智能策略优化，实现用户平均消费金额提升30%，复购率增长25%。这套被称为“购物读心术”的技术，究竟如何颠覆传统电商的人货匹配模式？一、传统推荐的痛点：“猜不准”导致用户流失传统电商平台的推荐功能往往依赖简单的“热销商品”“同类推荐”逻辑，无法满足用户个性化
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
Python Pandas 数据的体育数据处理和分析 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 开发语言 ai
PythonPandas数据的体育数据处理和分析关键词：PythonPandas,体育数据分析,数据清洗,数据可视化,特征工程,机器学习,体育统计摘要：本文将深入探讨如何使用PythonPandas库进行体育数据的处理和分析。我们将从基础的数据导入和清洗开始，逐步深入到复杂的统计分析、可视化展示以及机器学习建模。文章将涵盖数据处理的全流程，包括数据获取、清洗、转换、分析和可视化，并结合实际体育数据
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul