CS正阳

【特征工程】特征分箱

对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴，需要数据集、代码、行业报告等各类学习资料，可添加微信：wu805686220（记得要备注喔！），也可关注微信公众号：风控圏子（别打错字，是圏子，不是圈子，算了直接复制吧！）

关注公众号后，可联系圈子助手加入如下社群：

机器学习风控讨论群（微信群）
反欺诈讨论群（微信群）
python学习交流群（微信群）
研习社资料（qq群：102755159）（干货、资料、项目、代码、报告、课件）

相互学习，共同成长。

脚本介绍:

1）一份完整的自动化特征评估脚本

2）包括数据预处理、特征分箱、特征重要性评估

作者：研习社-正阳

一. 导入相关工具和路径

二. 数据预处理

1.自定义缺失值处理函数

1.1 缺失值计算

计算特征数据缺失占比

1.2 按特征（列）删除

若字段数据缺失严重，可先检查字段特性，是业务层面设计需求，或者是数据抓取异常
如无上述问题，建议删除缺失值占比大于设定阈值的字段
常见阈值为90%以上或者40%~50%以上，根据特征是否对应明确的业务含义而决定是否保留

1.3 按样本（行）删除

在无数据采集问题的情况下，若单样本数据缺失严重，可认为样本数据无效，建议删除。

2. 自定义常变量处理函数

同值化较严重的字段，如无特殊业务含义，某一数据占比超过阈值时，建议删除

3. 自定义data_processing函数，执行完整数据预处理步骤：

1、导入数据

2、删除缺失值（自定义函数）

3、删除常变量（自定义函数）

1）常变量（自定义函数）

2）方差为0

4、缺失值填充

1）分类型特征填充（自定义函数）

2）连续型特征填充（自定义函数）


def data_processing(df, target):
    """
    df:包含了label和特征的宽表

    return:
    df :清洗后的数据集
    """
    # 特征缺失处理
    df = missing_delete_var(df, threshold=0.8)
    # 样本缺失处理
    df = missing_delete_user(df, threshold=int(df.shape[1] * 0.8))
    col_list = [x for x in df.columns if x != target]
    # 常变量处理
    df = const_delete(df, col_list, threshold=0.9)
    desc = df.describe().T
    # 剔除方差为0的特征
    std_0_col = list(desc[desc['std'] == 0].index)
    if len(std_0_col) > 0:
        df = df.drop(std_0_col, axis=1)
    df.reset_index(drop=True, inplace=True)

    # 缺失值计算和填充
    miss_df = missing_cal(df)
    cate_col = list(df.select_dtypes(include=['O']).columns)
    num_col = [x for x in list(df.select_dtypes(include=['int64', 'float64']).columns) if x != 'label']

    # 分类型特征填充
    cate_miss_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in cate_col]
    cate_miss_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in cate_col]
    # 连续型特征填充
    num_miss_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in num_col]
    num_miss_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in num_col]
    for col in cate_miss_col1:
        df[col] = df[col].fillna('未知')
    for col in cate_miss_col2:
        df[col] = df[col].fillna(df[col].mode()[0])
    for col in num_miss_col1:
        df[col] = df[col].fillna(-999)
    for col in num_miss_col2:
        df[col] = df[col].fillna(df[col].median())

    return df, miss_df

三、特征分箱

分箱逻辑：

1、类别型特征

1）类别数在5个以下，可以直接根据类别来分箱 (binning_cate)

2）类别数在5个以上，建议做降基处理，再根据降基后的类别做分箱

2、数值型特征

1）离散型数值特征（特征value的变动幅度较小）：

若特征value的非重复计数在5个以下，可以直接根据非重复计数值来分箱(binning_cate)

若特征value的非重复计数在5个以上，建议根据业务解释或者数据分布做自定义分箱(binning_self)

2）连续型数值特征（特征value的变动幅度较大）：

可以用卡方分箱或自定义分箱。(binning_num,binning_self)

PS:一些特征用卡方分可能会报错，建议这些特征改为手动自定义分箱

3、特征有缺失

1）缺失率在5%以下，可以先对缺失做填充处理再分箱(binning_num)

2）缺失率在5%以上，建议将缺失当作一个类别来分箱(binning_sparse_col)

4、稀疏特征分箱

建议将稀疏值（一般为0）单独分为一箱，剩下的值做卡方或者自定义分箱(binning_sparse_col)

1.自定义指标评估函数

KS、precision、 tpr、 fpr

def cal_ks(df, col, target):
    """
    df:数据集
    col:输入的特征
    target:好坏标记的字段名

    return:
    ks: KS值
    precision:准确率
    tpr:召回率
    fpr:打扰率
    """

    bad = df[target].sum()
    good = df[target].count() - bad
    value_list = list(df[col])
    label_list = list(df[target])
    value_count = df[col].nunique()

    items = sorted(zip(value_list, label_list), key=lambda x: x[0])

    value_bin = []
    ks_list = []
    if value_count <= 200:
        for i in sorted(set(value_list)):
            value_bin.append(i)
            label_bin = [x[1] for x in items if x[0] < i]
            badrate = sum(label_bin) / bad
            goodrate = (len(label_bin) - sum(label_bin)) / good
            ks = abs(goodrate - badrate)
            ks_list.append(ks)
    else:
        for i in range(1, 201):
            step = (max(value_list) - min(value_list)) / 200
            idx = min(value_list) + i * step
            value_bin.append(idx)
            label_bin = [x[1] for x in items if x[0] < idx]
            badrate = sum(label_bin) / bad
            goodrate = (len(label_bin) - sum(label_bin)) / good
            ks = abs(goodrate - badrate)
            ks_list.append(ks)
    ks = round(max(ks_list), 3)

    ks_value = [value_bin[i] for i, j in enumerate(ks_list) if j == max(ks_list)][0]
    precision = df[(df[col] <= ks_value) & (df[target] == 1)].shape[0] / df[df[col] <= ks_value].shape[0]
    tpr = df[(df[col] <= ks_value) & (df[target] == 1)].shape[0] / bad
    fpr = df[(df[col] <= ks_value) & (df[target] == 0)].shape[0] / good

    return ks, precision, tpr, fpr

2.自定义卡方分箱函数

2.1 变量分割点

2.2 计算违约率

2.3 计算卡方值

2.4 卡方分箱（干货）

def ChiMerge(df, col, target, max_bin=5, min_binpct=0):
    col_unique = sorted(list(set(df[col])))  # 变量的唯一值并排序
    n = len(col_unique)  # 变量唯一值得个数
    df2 = df.copy()
    if n > 100:  # 如果变量的唯一值数目超过100，则将通过split_data和assign_group将x映射为split对应的value
        split_col = split_data(df2, col, 100)  # 通过这个目的将变量的唯一值数目人为设定为100
        df2['col_map'] = df2[col].map(lambda x: assign_group(x, split_col))
    else:
        df2['col_map'] = df2[col]  # 变量的唯一值数目没有超过100，则不用做映射
    # 生成dict_bad,regroup,all_bad_rate的元组
    (dict_bad, regroup, all_bad_rate) = bin_bad_rate(df2, 'col_map', target, grantRateIndicator=1)
    col_map_unique = sorted(list(set(df2['col_map'])))  # 对变量映射后的value进行去重排序
    group_interval = [[i] for i in col_map_unique]  # 对col_map_unique中每个值创建list并存储在group_interval中

    while (len(group_interval) > max_bin):  # 当group_interval的长度大于max_bin时，执行while循环
        chi_list = []
        for i in range(len(group_interval) - 1):
            temp_group = group_interval[i] + group_interval[i + 1]  # temp_group 为生成的区间,list形式，例如[1,3]
            chi_df = regroup[regroup['col_map'].isin(temp_group)]
            chi_value = cal_chi2(chi_df, all_bad_rate)  # 计算每一对相邻区间的卡方值
            chi_list.append(chi_value)
        best_combined = chi_list.index(min(chi_list))  # 最小的卡方值的索引
        # 将卡方值最小的一对区间进行合并
        group_interval[best_combined] = group_interval[best_combined] + group_interval[best_combined + 1]
        # 删除合并前的右区间
        group_interval.remove(group_interval[best_combined + 1])
        # 对合并后每个区间进行排序
    group_interval = [sorted(i) for i in group_interval]
    # cutoff点为每个区间的最大值
    cutoffpoints = [max(i) for i in group_interval[:-1]]

    # 检查是否有箱只有好样本或者只有坏样本
    df2['col_map_bin'] = df2['col_map'].apply(lambda x: assign_bin(x, cutoffpoints))  # 将col_map映射为对应的区间Bin
    # 计算每个区间的违约率
    (dict_bad, regroup) = bin_bad_rate(df2, 'col_map_bin', target)
    # 计算最小和最大的违约率
    [min_bad_rate, max_bad_rate] = [min(dict_bad.values()), max(dict_bad.values())]
    # 当最小的违约率等于0，说明区间内只有好样本，当最大的违约率等于1，说明区间内只有坏样本
    while min_bad_rate == 0 or max_bad_rate == 1:
        bad01_index = regroup[regroup['bad_rate'].isin([0, 1])].col_map_bin.tolist()  # 违约率为1或0的区间
        bad01_bin = bad01_index[0]
        if bad01_bin == max(regroup.col_map_bin):
            cutoffpoints = cutoffpoints[:-1]  # 当bad01_bin是最大的区间时，删除最大的cutoff点
        elif bad01_bin == min(regroup.col_map_bin):
            cutoffpoints = cutoffpoints[1:]  # 当bad01_bin是最小的区间时，删除最小的cutoff点
        else:
            bad01_bin_index = list(regroup.col_map_bin).index(bad01_bin)  # 找出bad01_bin的索引
            prev_bin = list(regroup.col_map_bin)[bad01_bin_index - 1]  # bad01_bin前一个区间
            df3 = df2[df2.col_map_bin.isin([prev_bin, bad01_bin])]
            (dict_bad, regroup1) = bin_bad_rate(df3, 'col_map_bin', target)
            chi1 = cal_chi2(regroup1, all_bad_rate)  # 计算前一个区间和bad01_bin的卡方值
            later_bin = list(regroup.col_map_bin)[bad01_bin_index + 1]  # bin01_bin的后一个区间
            df4 = df2[df2.col_map_bin.isin([later_bin, bad01_bin])]
            (dict_bad, regroup2) = bin_bad_rate(df4, 'col_map_bin', target)
            chi2 = cal_chi2(regroup2, all_bad_rate)  # 计算后一个区间和bad01_bin的卡方值
            if chi1 < chi2:  # 当chi1
                cutoffpoints.remove(cutoffpoints[bad01_bin_index - 1])
            else:  # 当chi1>=chi2时,删除bin01对应的cutoff点
                cutoffpoints.remove(cutoffpoints[bad01_bin_index])
        df2['col_map_bin'] = df2['col_map'].apply(lambda x: assign_bin(x, cutoffpoints))
        (dict_bad, regroup) = bin_bad_rate(df2, 'col_map_bin', target)
        # 重新将col_map映射至区间，并计算最小和最大的违约率，直达不再出现违约率为0或1的情况，循环停止
        [min_bad_rate, max_bad_rate] = [min(dict_bad.values()), max(dict_bad.values())]

    # 检查分箱后的最小占比
    if min_binpct > 0:
        group_values = df2['col_map'].apply(lambda x: assign_bin(x, cutoffpoints))
        df2['col_map_bin'] = group_values  # 将col_map映射为对应的区间Bin
        group_df = group_values.value_counts().to_frame()
        group_df['bin_pct'] = group_df['col_map'] / n  # 计算每个区间的占比
        min_pct = group_df.bin_pct.min()  # 得出最小的区间占比
        while min_pct < min_binpct and len(cutoffpoints) > 2:  # 当最小的区间占比小于min_pct且cutoff点的个数大于2，执行循环
            # 下面的逻辑基本与“检验是否有箱体只有好/坏样本”的一致
            min_pct_index = group_df[group_df.bin_pct == min_pct].index.tolist()
            min_pct_bin = min_pct_index[0]
            if min_pct_bin == max(group_df.index):
                cutoffpoints = cutoffpoints[:-1]
            elif min_pct_bin == min(group_df.index):
                cutoffpoints = cutoffpoints[1:]
            else:
                minpct_bin_index = list(group_df.index).index(min_pct_bin)
                prev_pct_bin = list(group_df.index)[minpct_bin_index - 1]
                df5 = df2[df2['col_map_bin'].isin([min_pct_bin, prev_pct_bin])]
                (dict_bad, regroup3) = bin_bad_rate(df5, 'col_map_bin', target)
                chi3 = cal_chi2(regroup3, all_bad_rate)
                later_pct_bin = list(group_df.index)[minpct_bin_index + 1]
                df6 = df2[df2['col_map_bin'].isin([min_pct_bin, later_pct_bin])]
                (dict_bad, regroup4) = bin_bad_rate(df6, 'col_map_bin', target)
                chi4 = cal_chi2(regroup4, all_bad_rate)
                if chi3 < chi4:
                    cutoffpoints.remove(cutoffpoints[minpct_bin_index - 1])
                else:
                    cutoffpoints.remove(cutoffpoints[minpct_bin_index])
    return cutoffpoints

3. 自定义变量分箱函数

3.1 类别型特征

3.2 数值型特征

3.2.1 离散型数值特征

def binning_self(df, col, target, cut=None, right_border=True):
    """
    df:数据集
    col:输入的特征
    target:好坏标记的字段名
    cut:总定义划分区间的list
    right_border：设定左开右闭、左闭右开

    return:
    bin_df :特征的评估结果
    """

    total = df[target].count()
    bad = df[target].sum()
    good = total - bad
    bucket = pd.cut(df[col], cut, right=right_border)
    d1 = df.groupby(bucket)
    d2 = pd.DataFrame()
    d2['样本数'] = d1[target].count()
    d2['黑样本数'] = d1[target].sum()
    d2['白样本数'] = d2['样本数'] - d2['黑样本数']
    d2['逾期用户占比'] = d2['黑样本数'] / d2['样本数']
    d2['badattr'] = d2['黑样本数'] / bad
    d2['goodattr'] = d2['白样本数'] / good
    d2['WOE'] = np.log(d2['badattr'] / d2['goodattr'])
    d2['bin_iv'] = (d2['badattr'] - d2['goodattr']) * d2['WOE']
    d2['IV'] = d2['bin_iv'].sum()

    bin_df = d2.reset_index()
    bin_df.drop(['badattr', 'goodattr', 'bin_iv'], axis=1, inplace=True)
    bin_df.rename(columns={col: '分箱结果'}, inplace=True)
    bin_df['特征名'] = col
    bin_df = pd.concat([bin_df['特征名'], bin_df.iloc[:, :-1]], axis=1)

    ks, precision, tpr, fpr = cal_ks(df, col, target)
    bin_df['准确率'] = precision
    bin_df['召回率'] = tpr
    bin_df['打扰率'] = fpr
    bin_df['KS'] = ks

    return bin_df

3.2.2 连续型数值特征

def binning_num(df, target, col, max_bin=None, min_binpct=None):
    """
    df:数据集
    col:输入的特征
    target:好坏标记的字段名
    max_bin:最大的分箱个数
    min_binpct:区间内样本所占总体的最小比

    return:
    bin_df :特征的评估结果
    """
    total = df[target].count()
    bad = df[target].sum()
    good = total - bad
    inf = float('inf')
    ninf = float('-inf')

    cut = ChiMerge(df, col, target, max_bin=max_bin, min_binpct=min_binpct)
    cut.insert(0, ninf)
    cut.append(inf)
    bucket = pd.cut(df[col], cut)
    d1 = df.groupby(bucket)
    d2 = pd.DataFrame()
    d2['样本数'] = d1[target].count()
    d2['黑样本数'] = d1[target].sum()
    d2['白样本数'] = d2['样本数'] - d2['黑样本数']
    d2['逾期用户占比'] = d2['黑样本数'] / d2['样本数']
    d2['badattr'] = d2['黑样本数'] / bad
    d2['goodattr'] = d2['白样本数'] / good
    d2['WOE'] = np.log(d2['badattr'] / d2['goodattr'])
    d2['bin_iv'] = (d2['badattr'] - d2['goodattr']) * d2['WOE']
    d2['IV'] = d2['bin_iv'].sum()

    bin_df = d2.reset_index()
    bin_df.drop(['badattr', 'goodattr', 'bin_iv'], axis=1, inplace=True)
    bin_df.rename(columns={col: '分箱结果'}, inplace=True)
    bin_df['特征名'] = col
    bin_df = pd.concat([bin_df['特征名'], bin_df.iloc[:, :-1]], axis=1)

    ks, precision, tpr, fpr = cal_ks(df, col, target)
    bin_df['准确率'] = precision
    bin_df['召回率'] = tpr
    bin_df['打扰率'] = fpr
    bin_df['KS'] = ks

    return bin_df

3.3 稀疏特征分箱

def binning_sparse_col(df, target, col, max_bin=None, min_binpct=None, sparse_value=None):
    """
    df:数据集
    col:输入的特征
    target:好坏标记的字段名
    max_bin:最大的分箱个数
    min_binpct:区间内样本所占总体的最小比
    sparse_value:单独分为一箱的value值

    return:
    bin_df :特征的评估结果
    """

    total = df[target].count()
    bad = df[target].sum()
    good = total - bad

    # 对稀疏值0值或者缺失值单独分箱
    temp1 = df[df[col] == sparse_value]
    temp2 = df[~(df[col] == sparse_value)]

    bucket_sparse = pd.cut(temp1[col], [float('-inf'), sparse_value])
    group1 = temp1.groupby(bucket_sparse)
    bin_df1 = pd.DataFrame()
    bin_df1['样本数'] = group1[target].count()
    bin_df1['黑样本数'] = group1[target].sum()
    bin_df1['白样本数'] = bin_df1['样本数'] - bin_df1['黑样本数']
    bin_df1['逾期用户占比'] = bin_df1['黑样本数'] / bin_df1['样本数']
    bin_df1['badattr'] = bin_df1['黑样本数'] / bad
    bin_df1['goodattr'] = bin_df1['白样本数'] / good
    bin_df1['WOE'] = np.log(bin_df1['badattr'] / bin_df1['goodattr'])
    bin_df1['bin_iv'] = (bin_df1['badattr'] - bin_df1['goodattr']) * bin_df1['WOE']

    bin_df1 = bin_df1.reset_index()

    # 对剩余部分做卡方分箱
    cut = ChiMerge(temp2, col, target, max_bin=max_bin, min_binpct=min_binpct)
    cut.insert(0, sparse_value)
    cut.append(float('inf'))

    bucket = pd.cut(temp2[col], cut)
    group2 = temp2.groupby(bucket)
    bin_df2 = pd.DataFrame()
    bin_df2['样本数'] = group2[target].count()
    bin_df2['黑样本数'] = group2[target].sum()
    bin_df2['白样本数'] = bin_df2['样本数'] - bin_df2['黑样本数']
    bin_df2['逾期用户占比'] = bin_df2['黑样本数'] / bin_df2['样本数']
    bin_df2['badattr'] = bin_df2['黑样本数'] / bad
    bin_df2['goodattr'] = bin_df2['白样本数'] / good
    bin_df2['WOE'] = np.log(bin_df2['badattr'] / bin_df2['goodattr'])
    bin_df2['bin_iv'] = (bin_df2['badattr'] - bin_df2['goodattr']) * bin_df2['WOE']

    bin_df2 = bin_df2.reset_index()

    # 合并分箱结果
    bin_df = pd.concat([bin_df1, bin_df2], axis=0)
    bin_df['IV'] = bin_df['bin_iv'].sum().round(3)

    bin_df.drop(['badattr', 'goodattr', 'bin_iv'], axis=1, inplace=True)
    bin_df.rename(columns={col: '分箱结果'}, inplace=True)
    bin_df['特征名'] = col
    bin_df = pd.concat([bin_df['特征名'], bin_df.iloc[:, :-1]], axis=1)

    ks, precision, tpr, fpr = cal_ks(df, col, target)
    bin_df['准确率'] = precision
    bin_df['召回率'] = tpr
    bin_df['打扰率'] = fpr
    bin_df['KS'] = ks

    return bin_df

四. 自定义get_feature_result函数，执行完整数据预处理步骤：

1、数据预处理，调用data_processing函数

2、变量分箱

1）类别型变量分箱

2）数值型变量分箱

2）卡方分箱报错的变量分箱

3、得到分箱结果feature_result及其评估指标

order_col = [‘特征名’, ‘分箱结果’, ‘样本数’, ‘黑样本数’, ‘白样本数’, ‘逾期用户占比’, ‘WOE’, ‘IV’, ‘准确率’, ‘召回率’, ‘打扰率’, ‘KS’]

def get_feature_result(df, target):
    """"
    df-- 含有特征和标签的宽表
    target -- 好坏标签字段名

    return:
    feature_result -- 每个特征的评估结果
    """
    if target not in df.columns:
        
        print('请将特征文件关联样本好坏标签(字段名label)后再重新运行!')
    
    else:
        
        print('数据清洗开始')
        df, miss_df = data_processing(df, target)
        print('数据清洗完成')

        cate_col = list(df.select_dtypes(include=['O']).columns)
        num_col = [x for x in list(df.select_dtypes(include=['int64', 'float64']).columns) if x != 'label']

        # 类别性变量分箱
        
        bin_cate_list = []
        for col in cate_col:
            bin_cate = binning_cate(df, col, target)
            bin_cate['rank'] = list(range(1, bin_cate.shape[0] + 1, 1))
            bin_cate_list.append(bin_cate)

        # 数值型特征分箱
        num_col1 = [x for x in list(miss_df[miss_df.missing_pct > 0.05]['col']) if x in num_col]
        num_col2 = [x for x in list(miss_df[miss_df.missing_pct <= 0.05]['col']) if x in num_col]
        
        print('特征分箱开始')
        bin_num_list1 = []
        err_col1 = []
        for col in tqdm(num_col1):
            try:
                bin_df1 = binning_sparse_col(df, 'label', col, min_binpct=0.05, max_bin=4, sparse_value=-999)
                bin_df1['rank'] = list(range(1, bin_df1.shape[0] + 1, 1))
                bin_num_list1.append(bin_df1)
            except (IndexError,ZeroDivisionError):
                err_col1.append(col)
            continue

        bin_num_list2 = []
        err_col2 = []
        for col in tqdm(num_col2):
            try:
                bin_df2 = binning_num(df, 'label', col, min_binpct=0.05, max_bin=5)
                bin_df2['rank'] = list(range(1, bin_df2.shape[0] + 1, 1))
                bin_num_list2.append(bin_df2)
            except (IndexError,ZeroDivisionError):
                err_col2.append(col)
            continue

        # 卡方分箱报错的特征分箱
        err_col = err_col1 + err_col2
        bin_num_list3 = []
        if len(err_col) > 0:
            for col in tqdm(err_col):
                ninf = float('-inf')
                inf = float('inf')
                q_25 = df[col].quantile(0.25)
                q_50 = df[col].quantile(0.5)
                q_75 = df[col].quantile(0.75)

                cut = list(sorted(set([ninf, q_25, q_50, q_75, inf])))

                bin_df3 = binning_self(df, col, target, cut=cut, right_border=True)
                bin_df3['rank'] = list(range(1, bin_df3.shape[0] + 1, 1))
                bin_num_list3.append(bin_df3)
        print('特征分箱结束')

        bin_all_list = bin_num_list1 + bin_num_list2 + bin_num_list3 + bin_cate_list

        feature_result = pd.concat(bin_all_list, axis=0)
        feature_result = feature_result.sort_values(['IV', 'rank'], ascending=[False, True])
        feature_result = feature_result.drop(['rank'], axis=1)
        order_col = ['特征名', '分箱结果', '样本数', '黑样本数', '白样本数', '逾期用户占比', 'WOE', 'IV', '准确率', '召回率', '打扰率', 'KS']
        feature_result = feature_result[order_col]
        return feature_result

五. 导入数据，运行函数，实现自动化特征评估功能

图像基础知识入门【图像概念&不同图像格式】 NPE~ 理论教程图像分辨率像素图像格式色域
图像基础知识入门【图像概念&不同图像格式】最近有在处理图像转换，因此稍微补足了一下图像相关知识，特在此记录。下面汇总是我根据自己理解和网上查阅资料而来。如有错误，欢迎大家指正。1基础概念像素/分辨率像素(Pixel)：构成数字图像的最基本单位【小方块】像素是构成数字图像的最基本单位，是图像显示设备（如电脑屏幕、手机屏幕）上最小的可寻址的显示单元。每个像素都有自己的颜色值，这些颜色值由红、绿、蓝三种
Java 核心与应用：Java 继承与多态码力全開《Java 核心与应用》java python 开发语言
目录Java核心与应用：Java继承与多态引言1.Java继承基础1.1什么是继承？1.1.1继承的语法1.1.2继承的类型1.2方法重写（Override）1.2.1方法重写的规则1.2.2方法重写vs方法重载1.3继承体系中的构造方法调用链1.3.1构造方法调用链的执行顺序1.4动态绑定原理与虚方法表1.4.1动态绑定的实现原理1.4.2虚方法表的结构1.5继承的缺陷与组合优于继承原则1.5.
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
【llm对话系统】大模型源码分析之llama模型的long context更长上下文支持 kakaZhui llama 深度学习 pytorch AIGC chatgpt
1.引言Llama模型的一个重要特性是支持长上下文处理。本文将深入分析Llama源码中实现长上下文的关键技术点，包括位置编码(positionembedding)的外推方法、注意力机制的优化等。我们将通过详细的代码解析来理解其实现原理。2.位置编码的外推实现2.1旋转位置编码(RoPE)基础Llama采用旋转位置编码(RoPE,RotaryPositionEmbedding)来编码token的位置
OpenCV中的图像处理函数详解 Luzem0319 opencv 图像处理人工智能
在OpenCV中，图像处理函数是实现图像处理和计算机视觉任务的基础。下面将详细介绍六个重要的图像处理函数：二值化函数、自适应二值化函数、腐蚀函数、膨胀函数、仿射变换函数和透视变换函数。一、二值化函数功能二值化函数（cv2.threshold()）用于将灰度图像转换为二值图像。二值图像中，每个像素只有两种可能的值（通常是0和255），分别代表黑色和白色。参数src：输入图像，应为灰度图像。thres
基础渗透测试实验—永恒之蓝漏洞复现锅盖'awa' 网络安全小白之路 linux windows 系统安全安全性测试
文章目录概述一、漏洞简述二、组件概述三、漏洞影响四、漏洞复现4.1环境搭建4.2复现过程：1.查看上线主机2.使用Metasploit（MSF）工具3.选择一个编码技术，用来绕过杀毒软件的查杀4.远程控制目标机缓解措施概述永恒之蓝是指2017年4月14日晚，黑客团体ShadowBrokers（影子经纪人）公布一大批网络攻击工具，其中包含“永恒之蓝”工具，“永恒之蓝”利用Windows系统的SMB漏
Qt控件简述 Roadinforest qt 开发语言
引入本篇文章仅作Qt入门的控件指引，如果您已经具有一定Qt开发的基础，那么这篇文章可能不适合您。控件入门指引QLabel用于显示文本或图像，不需要用户交互，适合用作静态信息的展示QLabel*label=newQLabel(this);//在本窗口创建一个新对象QLabellabel->setText("Hello,world");//设置文本内容label->move(x,y);//距离父控件左
java基础深化与提高--容器盗格拉斯 java java基础深化 java 开发语言
泛型基本概念泛型是JDK5.0以后增加的新特性。泛型的本质就是“数据类型的参数化”，处理的数据类型不是固定的，而是可以作为参数传入。我们可以把“泛型”理解为数据类型的一个占位符(类似：形式参数)，即告诉编译器，在调用泛型时必须传入实际类型。参数化类型，白话说就是：1把类型当作是参数一样传递。2只能是引用类型。泛型的好处在不使用泛型的情况下，我们可以使用Object类型来实现任意的参数类型，但是在使
I2C协议与FPGA开发教程_VHDL/Verilog实现侯昂
本文还有配套的精品资源，点击获取简介：本压缩包文件包含了I2C协议的学习资料，特别是针对FPGA开发的实验教程。内容涵盖了I2C基础知识、通信模式、总线仲裁机制，以及用VHDL和Verilog语言实现I2C控制器的方法。教程还包括在FPGA平台配置I2C接口的详细步骤和实验指导，帮助读者深入理解I2C协议，并在FPGA上实现其控制。1.I2C协议基础介绍I2C（Inter-IntegratedCi
华为2024校招AI芯片开发工程师面试题详解 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
引言核心关键词华为2024校招AI芯片开发工程师面试题详解摘要本文旨在详细解析华为2024校招AI芯片开发工程师的面试题，通过系统的分析，帮助读者深入了解AI芯片的基础知识、设计原理以及面试策略。文章将分为七个主要部分，从AI芯片的概述到面试经验分享，再到行业动态和未来展望，全面覆盖AI芯片开发的核心内容。通过实际案例分析，本文还将展示如何将理论知识应用于实际项目中，为读者提供宝贵的开发实践经验和
操作系统——基础练习(期末复习) 馒头配咸菜笔记操作系统
1、(D)不是操作系统关心的主要问题A、管理计算机裸机B、设计、提供用户程序与计算机硬件系统的界面C、管理计算机系统资源D、高级程序设计语言的编译器2、财务软件是一种©。A、系统软件B、接口软件C、应用软件D、用户软件3、操作系统负责为方便用户管理计算机系统的©。A、程序B、文档资料C、资源D、进程4、操作系统是一种(B)。A、应用软件B、系统软件C、通用软件D、工具软件5、操作系统是一组©。A、
企业技术架构图 iteye_14949 企业架构图技术架构图
发布一企业技术架构图，供大家参考。该技术架构图是本人根据多年企业技术架构经验而制定，是企业技术的总架构图，希望对CTO们有所借鉴。简单说明：1.中间件基础运行环境是经过统一规划的以WebLogic、JBOSS为主的集群环境2.企业集成平台是以基础业务应用为基础服务于上层平台和基础业务应用的高度集成平台3.数据中心是企业公共数据的集中管理比如用户数据、企业编码，可以通过数据集成平台或服务集成平台分发
基于Maven的Spring/SpringMVC/Mybatis/Mybatis-plus/Apache-Shiro基础环境配置 weixin_30685029 java json 测试
记录一下，以便不时之需。pom.xml122.534.2.5.RELEASE41.8.9563.4.071.3.089101.1.7110.1.4121.7.211314151.0.18165.1.381718191.2.22021224.122324252627javax.servlet28servlet-api29${servlet-api.version}30provided31323334
如何使用深度学习中的 Transformer 算法进行视频目标检测 go5463158465 python 算法深度学习 python 开发语言
以下将介绍如何使用深度学习中的Transformer算法进行视频目标检测，并给出一个复现相关论文思路及示例代码。这里以DETR（End-to-EndObjectDetectionwithTransformers）为基础进行说明，它是将Transformer引入目标检测领域的经典论文。步骤概述环境准备：安装必要的库，如PyTorch、torchvision等。数据准备：使用公开的视频目标检测数据集，
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
青少年编程与数学 02-008 Pyhon语言编程基础 05课题、数据类型明月看潮生编程与数学第02阶段青少年编程开发语言 python 编程与数学数据类型
青少年编程与数学02-008Pyhon语言编程基础05课题、数据类型一、数据类型1.数字类型（NumericTypes）2.序列类型（SequenceTypes）3.集合类型（SetTypes）4.映射类型（MappingType）5.布尔类型（BooleanType）6.二进制数据类型（BinaryDataTypes）7.None类型类型转换二、Python与Go数据类型比较1.类型系统2.基本
知了课堂Day2——微信小程序基础02——wxss 淡定ya 知了课堂小程序微信小程序笔记
1.box-sizing:content-box|border-box|inherit;content-box这是由CSS2.1规定的宽度高度行为。宽度和高度分别应用到元素的内容框。在宽度和高度之外绘制元素的内边距和边框。border-box为元素设定的宽度和高度决定了元素的边框盒。就是说，为元素指定的任何内边距和边框都将在已设定的宽度和高度内进行绘制。通过从已设定的宽度和高度分别减去边框和内边距
队列的两种实现方式---数组+链表 @烟雨倾城ゝ趣味算法数据结构与算法链表数据结构算法
1、什么是队列？队列是一个线性的数据结构，并且这个数据结构只允许在一端进行插入，另一端进行删除，禁止直接访问除这两端以外的一切数据，且队列是一个先进先出的数据结构。队列存储结构的实现有以下两种方式：①顺序队列：在顺序表的基础上实现的队列结构②链队列：在链表的基础上实现的队列结构2、数组实现队列（1）实现步骤实现思路：定义一个数组，数组中定义三个属性：头指针front，尾指针rear和长度maxSi
Python学习——numpy ToToBe python 学习 numpy
参考资料：numpy官网一、基础NumPy的主要对象是同构多维数组。它是一个元素表（通常是数字），所有类型都相同，由非负整数元组索引。在NumPy维度中称为axes.例如，3D空间中的点的坐标[1,2,1]具有一个轴。该轴有3个元素，所以我们说它的长度为3.在下图所示的例子中，数组有2个轴。第一轴的长度为2，第二轴的长度为3。[[1.,0.,0.],[0.,1.,2.]]NumPy的数组类被叫做n
数据结构--数组链表 ToToBe 算法数据结构
数据结构--数组链表1.数组（顺序存储）2.链表（链式存储）3.环形数组技巧1.数组（顺序存储）「静态数组」就是一块连续的内存空间，我们可以通过索引来访问这块内存空间中的元素，这是数组的原始形态。「动态数组」是编程语言为了方便我们使用，在静态数组的基础上帮我们添加了一些常用的API，比如push,insert,remove等，这些API可以让我们更方便地操作数组元素，不用自己去写代码实现这些操作。
有道子曰推理模型“子曰-o1”发布即开源，14B小参数复现OpenAI o1强推理效果百态老人笔记
根据我搜索到的资料，网易有道于2025年1月22日正式发布了国内首个输出分步式讲解的推理模型“子曰-o1”，并宣布其开源。这一模型以14B（140亿）参数规模为基础，支持在消费级显卡上部署，采用思维链技术，能够提供详细且逻辑严密的解题过程，显著提升了推理能力和准确性，尤其是在中文逻辑推理方面表现突出。“子曰-o1”复现了OpenAI发布的o1模型的单模型推理能力，但通过更轻量级的设计实现了在低算力
基于matlab的lte组网实验,基于Matlab的TD-LTE链路级仿真平台的建立 weixin_39668282
应用研究数字技术与应用831背景TD-LTE是无线通信领域的一次革新,它采用了许多增强型的技术来提高系统的性能,使其具有更高的复杂性。随着TD-LTE亮相上海世博会之后,TD-LTE-Advanced也被国际电信联盟确定为国际4G标准之一[1]。TD-LTE的飞速发展,离不开仿真对其性能的不断验证。仿真包括链路级仿真和系统级仿真,而链路级仿真又是系统级仿真的基础,因此搭建TD-LTE链路级仿真平台
Python计算【15】 sakura_sea 物理数学与计算 python
文章目录t分布理论基础python参考文献t分布理论基础通常用于样本量较小或总体标准差未知的情况下，进行假设检验和构建置信区间。t分布是一类对称且形状接近正态分布的概率分布，随自由度（(df)）的增加逐渐趋近于标准正态分布。t=Xˉ−μS/n
verilog Matlab GPS C/A码发生器. today_typ verilog 学习日志开发语言 matlab 经验分享 fpga开发
本文所涉文献资料均为开源免费,参考文献、声明链接等均写在文末。1.C/A码简要介绍GPS卫星信号包括载波信号、测距码和数据码．其中的测码粗码即C／A码(CoarseAcquisitionCode)除了作为粗测码外，还由于其具有码长短，易于捕获的特点而作为GPS卫星信号的捕获码，因此C／A码是GPS信号捕获以及接收机实现的基础。[1]GPS系统中使用了两种伪随机码，一种是时钟速率为10．23MHz用
网易有道开源 “子曰 - o1” 推理模型 timer_017 开源
网易有道开源的“子曰-o1”推理模型支持消费级显卡，主要通过以下技术实现：轻量级模型设计：“子曰-o1”采用14B参数规模，相比许多对硬件配置要求高的大型推理模型，选择了较小的参数规模，从基础上降低了对硬件的性能需求，尤其是对显卡的要求，使其可以在消费级显卡上运行。低比特量化技术：该模型使用低比特量化技术，在不影响模型推理能力的前提下，对模型数据进行量化处理，减少数据存储和计算所需的空间和资源，进
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
java cap理论_架构设计之「 CAP 定理」 Can Li java cap理论
点击上方“Java知音”，选择“置顶公众号”技术文章第一时间送达！作者：奎哥来源：不止思考在计算机领域，如果是初入行就算了，如果是多年的老码农还不懂CAP定理，那就真的说不过去了。CAP可是每一名技术架构师都必须掌握的基础原则啊。现在只要是稍微大一点的互联网项目都是采用分布式结构了，一个系统可能有多个节点组成，每个节点都可能需要维护一份数据。那么如何维护各个节点之间的状态，如何保障各个节点之间数据
Rust中奖励函数的实现与应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Rust中奖励函数的实现与应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域，特别是在强化学习（ReinforcementLearning,RL）中，奖励函数（RewardFunction）扮演着至关重要的角色。它定义了智能体（Agent）在执行任务时
Docker常用知识点问题晚风-夏不凉 docker
1.dockerfile基础命令及作用—copy和add区别—为什么要指定workdir—expose作用，能不能不用，不用会导致什么情况？—env，不用怎么打镜像—from2.dockerfile编写规范—jdk版本—依赖问题—shell指令引用—字体和时区配置3.多阶段构建优点4.构建过程—-t，-rm参数意思—构建文件（dockerfile）可以自定义名吗5.执行过程—不做端口映射会有什么情
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要