一只勤奋爱思考的猪

天池二手车价格预测-特征工程

特征工程

（1）删除分布严重不平衡的特征
（2）对预测值进行对数正态转化
（3）针对日期特征进行分桶（按年、月）统计
（4）针对两个日期字段进行间隔天数计算
（5）构造品牌-价格的量化特征(最大、最小、平均值、方差)
（6）对功率字段进行异常值检测
（7）构造功率与价格的量化特征
（8）针对地区编码进行处理
（9）代码实现
（10）结果

特征工程

（1）删除分布严重不平衡的特征

（2）对预测值进行对数正态转化

（3）针对日期特征进行分桶（按年、月）统计

（4）针对两个日期字段进行间隔天数计算

（5）构造品牌-价格的量化特征(最大、最小、平均值、方差)

（6）对功率字段进行异常值检测

（7）构造功率与价格的量化特征

（8）针对地区编码进行处理

（9）代码实现

（10）结果

代码

#!/usr/bin/env python
# coding: utf-8
import os
from collections import Counter

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import scipy
from scipy.stats import stats
import statsmodels.api as sm
from numpy import loadtxt
from sklearn import metrics
from xgboost import XGBClassifier
from matplotlib import pyplot
from xgboost import XGBClassifier
from sklearn.model_selection import StratifiedKFold, GridSearchCV, train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, mean_squared_error, mean_absolute_error
from matplotlib import pyplot
from xgboost import plot_importance
import xgboost as xgb
import lightgbm as lgb

class DataSearch(object):
    def load_data(self,train_data_path,test_data_path):
        # 训练数据初步统计
        train_data_df = pd.read_csv(train_data_path, sep=' ')
        pd.set_option('display.max_columns', None)

        test_data_df = pd.read_csv(test_data_path, sep=' ')
        pd.set_option('display.max_columns', None)

        train_data_df['train'] = 1
        test_data_df['train'] = 0
        data = pd.concat([train_data_df, test_data_df], ignore_index=True)

        # test_data_path = r"C:\Users\ccs\Documents\dataWhale\used_car_testA_20200313\used_car_testA_20200313.csv"
        # test_data_df =  pd.read_csv(test_data_path, sep=' ')

        # train_data_df = train_data_df.append(test_data_df)

        print("训练数据的数量:\n",train_data_df.count())
        print("测试数据的数量:\n",test_data_df.count())
        print("训练数据合并上测试数据后的数量:\n",data.count())
        print("合并后数据去重后的数量:\n",data.drop_duplicates().count())
        data.describe(include='all')
        # 空值统计
        print(data.isnull().sum())
        print(data.columns)


        return data


    def categorial_statistus(self,train_data_df,category_columns):
        """
        总体特征或者字符特征数据统计
        """
        print(train_data_df.columns)
        # train_data_df.loc[train_data_df['regDate'][4:6],'C']=train_data_df['regDate'][4:6]
        # train_data_df
        for i in category_columns:
            #     print(train_data_df.groupby(i).size())
            total = pd.DataFrame({'count': train_data_df.groupby(i).size()})
            total = total.sort_values(['count'], ascending=False)
            print(total, '\n', total.count())
        return train_data_df

    def categorial_extend(self,train_data_df):
        """
        字符特征扩展
        """
        def fun(x):
            if str(x)[4:6] == '00':
                rst = str(x)[0:4] + '03' + str(x)[6:]
                return rst
            else:
                return str(x)

        train_data_df['regDate'] = train_data_df['regDate'].apply(lambda x: fun(x))

        train_data_df["year_regDate"] = train_data_df['regDate'].astype("str").str[0:4]
        train_data_df["month_regDate"] = train_data_df['regDate'].astype("str").str[4:6]

        #构造车辆使用天数特征

        train_data_df['used_time'] = (pd.to_datetime(train_data_df['creatDate'], format='%Y%m%d', errors='coerce') -
                             pd.to_datetime(train_data_df['regDate'], format='%Y%m%d', errors='coerce')).dt.days


        #构造品牌与价格相关的特征
        #选取为训练数据的那部分数据--计算品牌与价格的关联特征
        train_data_df_actual = train_data_df[train_data_df['train']==1]
        
        def combine_data(train_data_df,column):
            Train_gb = train_data_df_actual.groupby(column)
            all_info = {}
            for kind, kind_data in Train_gb:
                print("kind, kind_data is ",kind, kind_data)
                info = {}
                kind_data = kind_data[kind_data['price'] > 0]
                info[column + 'amount'] = len(kind_data)
                info[column + 'price_max'] = kind_data.price.max()
                info[column + 'price_median'] = kind_data.price.median()
                info[column + 'price_min'] = kind_data.price.min()
                info[column + 'price_sum'] = kind_data.price.sum()
                info[column + 'price_std'] = kind_data.price.std()
                info[column + 'price_average'] = round(kind_data.price.sum() / (len(kind_data) + 1), 2)
                all_info[kind] = info
                print("all_info[kind]  is ",all_info)
            brand_fe = pd.DataFrame(all_info).T.reset_index().rename(columns={"index": column})
            train_data_df = train_data_df.merge(brand_fe, how='left', on='brand')
            return train_data_df
        train_data_df = combine_data(train_data_df,"brand")
        train_data_df = combine_data(train_data_df,"power")
        train_data_df.describe(include='all')
        
        return train_data_df

    #数字特征可视化
    def plot_nemurical(self,train_data_df,numerical_columns):
        ## 3) 每个数字特征得分布可视化--连续型取值的
        ##去除掉字符型的变量
        # numerical_columns = ['regDate', 'power', 'kilometer', 'creatDate', 'price', 'v_0', 'v_1', 'v_2', 'v_3',
        #                      'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12',
        #                      'v_13', 'v_14']
        f = pd.melt(train_data_df, value_vars=numerical_columns)
        g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False)
        g = g.map(sns.distplot, "value")

        ## 4) 数字特征相互之间的关系可视化
        sns.set()
        columns = ['price', 'v_12', 'v_8', 'v_0', 'power', 'v_5', 'v_2', 'v_6', 'v_1', 'v_14']
        sns.pairplot(train_data_df[columns], size=2, kind='scatter', diag_kind='kde')
        plt.show()

    def normal_test(self,train_data_df):
        # 对于连续型指标---正态分布检验
        # 判断是否符合近似正态分布
        # 若p_value比较小，表示不大可能来自正态分布
        #经检验，都不是正态分布，因此需要对重要的power和kilometer进行转换。

        numerical_columns = ['regDate', 'power', 'kilometer', 'creatDate', 'price', 'v_0', 'v_1', 'v_2', 'v_3',
                             'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12',
                             'v_13', 'v_14']
        train_data_df['regDate'] = train_data_df['regDate'].astype('int')
        train_data_df['notRepairedDamage'] = train_data_df['notRepairedDamage'].replace('-', np.nan, inplace=True)
        train_data_df = train_data_df.fillna(0)
        train_data_df.info()
        print('看P-Value是否满足正态分布，不大表明不大可能来自正态分布',
              list(map(lambda x: scipy.stats.normaltest(train_data_df[x])[1], numerical_columns)))

    #画指标原图与对数转化后的原图
    def log_plot(self,train_data_df):

        ## 3) 查看预测值的具体频数
        plt.subplot(2,2,1)
        plt.hist(train_data_df['price'], orientation='vertical', histtype='bar', color='red',label='price')
        plt.subplot(2, 2, 2)
        plt.hist(train_data_df['kilometer'], orientation='vertical', histtype='bar', color='green',label='price')
        # plt.subplot(2, 3, 3)
        # plt.hist(train_data_df['power'], orientation='vertical', histtype='bar', color='yellow',label='price')

        # log变换 z之后的分布较均匀，可以进行log变换进行预测，这也是预测问题常用的trick
        plt.subplot(2, 2, 3)
        plt.hist(np.log(train_data_df['price']), orientation='vertical', histtype='bar', color='red',label='price')
        plt.subplot(2, 2, 4)

        #会发现，这种离散的做了对数变化，正态化效果并不明显
        # plt.hist(np.log(train_data_df['kilometer']), orientation='vertical', histtype='bar', color='red',label='kilometer')
        #转换不了，会报错，ValueError: supplied range of [-inf, 9.868481943337313] is not finite
        # plt.subplot(2, 3, 6)
        # plt.hist(np.log(train_data_df['power']), orientation='vertical', histtype='bar', color='red',label='power')
        plt.show()

    def change_to_nomal(self,train_data_df):
        """
        转换为正态分布
        """
        train_data_df[train_data_df['train']==1]['price'] = train_data_df[train_data_df['train']==1].apply(lambda x: np.log(x))
        # train_data_df['log_kilometer'] = train_data_df['kilometer'].apply(lambda x: np.log(x))
        # train_data_df['log_power'] = train_data_df['power'].apply(lambda x: np.log(x))
        # train_data_df['log_model'] = train_data_df['model'].apply(lambda x: np.log(x))
        return train_data_df



    # 异常值检测
    def detect_outliers(self,df, n, features):
        """

        """
        outlier_indices = []
        df_raw =  df
        #只对测试数据进行异常值检测
        df = df[df['train']==1]
        # iterate over features(columns)
        for col in features:
            # 1st quartile (25%)
            Q1 = np.percentile(df[col], 25)
            # 3rd quartile (75%)
            Q3 = np.percentile(df[col], 75)
            # quartile spacing (IQR)
            IQR = Q3 - Q1
            # outlier step
            outlier_step = 1.5 * IQR

            # Determine a list of indices of outliers for feature col
            outlier_list_col = df[(df[col] < Q1 - outlier_step) | (df[col] > Q3 + outlier_step)].index

            # append the found outlier indices for col to the list of outlier indices
            outlier_indices.extend(outlier_list_col)

        # select observations containing more than n outliers

        outlier_indices = Counter(outlier_indices)
        print("outlier_indices is ", outlier_indices)
        print("outlier_indices length is ", outlier_indices.__len__())

        multiple_outliers = list(k for k, v in outlier_indices.items() if v > n)
        print("multiple_outliers is ",multiple_outliers)
        #删除测试集中数据索引为异常的那部分样本
        df_raw = df_raw.drop(multiple_outliers)
        print("set(multiple_outliers) & set(df_raw.index) should be empty ",set(multiple_outliers) & set(df_raw.index))
        return df_raw

    def person_corr(self,train_data_df):
        numerical_columns = ['regDate', 'power', 'kilometer', 'creatDate', 'price', 'v_0', 'v_1', 'v_2', 'v_3',
                             'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12',
                             'v_13', 'v_14']
        ## 1) 与价格的相关性分析
        price_numeric = train_data_df[numerical_columns]
        correlation = price_numeric.corr()
        print(correlation['price'].sort_values(ascending=False), '\n')
        f, ax = plt.subplots(figsize=(7, 7))

        plt.title('Correlation of Numeric Features with Price', y=1, size=16)

        sns.heatmap(correlation, square=True, vmax=0.8)

        #自变量与自变量相关系数
        # 设置路径
        os.chdir(os.getcwd())  # os.getcwd()获取当前路径，os.chdir(...)改变路径为...
        # 输入数据
        columns = ['bodyType', 'brand', 'creatDate', 'fuelType', 'gearbox',
                   'kilometer', 'model', 'name', 'notRepairedDamage', 'offerType', 'power',
                   'regDate', 'regionCode', 'seller', 'v_0', 'v_1', 'v_10',
                   'v_11', 'v_12', 'v_13', 'v_14', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6',
                   'v_7', 'v_8', 'v_9', "year_regDate", "month_regDate", 'price']
        data = train_data_df[columns]
        # 求解相关系数
        correlations = data.corr()
        correction = abs(correlations)  # 取绝对值，只看相关程度 ，不关心正相关还是负相关
        # plot correlation matrix
        fig = plt.figure(figsize=(60, 60))
        ax = fig.add_subplot(figsize=(40, 40))  # 图片大小为20*20
        ax = sns.heatmap(correction, cmap=plt.cm.Oranges, linewidths=0.05, vmax=1, vmin=0, annot=True,
                         annot_kws={'size': 12, 'weight': 'bold'})
        # 热力图参数设置（相关系数矩阵，颜色，每个值间隔等）
        # ticks = numpy.arange(0,16,1) #生成0-16，步长为1
        plt.xticks(np.arange(30) + 0.5, columns)  # 横坐标标注点
        plt.yticks(np.arange(30) + 0.5, columns)  # 纵坐标标注点
        # ax.set_xticks(ticks) #生成刻度
        # ax.set_yticks(ticks)
        # ax.set_xticklabels(names) #生成x轴标签
        # ax.set_yticklabels(names)
        ax.set_title('Characteristic correlation')  # 标题设置
        plt.savefig('cluster.tif', dpi=300)
        plt.show()

    def ridge_cv(self,train_data_df,feature_columns):
        """
        注意此时价格为正态
        """

        # 使用岭回归处理共线性  ；逐步回归法（Stepwise Regression）；
        from sklearn import linear_model
        # 初始化一个Ridge Cross-Validation Regression
        # train_data_df = train_data_df.fillna(0)
        data = train_data_df[feature_columns]
        clf = linear_model.RidgeCV(fit_intercept=False)

        # 训练模型---岭回归训练模型
        clf.fit(data, train_data_df['price'])

        print('alpha的数值 : ', clf.alpha_)
        rst = list(map(lambda x: '{:.5f}'.format(abs(x)), clf.coef_))
        rst = sorted(rst)
        print(rst)
        print(len(rst), len(feature_columns))
        print('参数的数值：', dict(zip(feature_columns, rst)))
        """
        结果是：
        参数的数值： {'name': '0.00000', 'regDate': '0.07543', 'model': '0.20068', 'brand': '1.91918', 'bodyType': '12.22141', 'fuelType': '15027.09136', 'gearbox': '1506.17263', 'power': '154331.09559', 'kilometer': '17103.78850', 'notRepairedDamage': '18457.71267', 'regionCode': '194831.93107', 'v_0': '20013.22587', 'v_1': '20882.49239', 'v_2': '2249.08699', 'v_3': '22750.43400', 'v_4': '236965.73075', 'v_5': '24.47606', 'v_6': '241.11729', 'v_7': '2456.38493', 'v_8': '2465.45254', 'v_9': '319.47281', 'v_10': '32640.53892', 'v_11': '333.91531', 'v_12': '38188.50573', 'v_13': '43.12500', 'v_14': '43445.24262', 'year_regDate': '451.61198', 'month_regDate': '9.24321', 'price': '987.79713'}
        ['0.00000', '0.07543', '0.20068', '1.91918', '12.22141', '15027.09136', '1506.17263', '154331.09559', '17103.78850', '18457.71267', '194831.93107', '20013.22587', '20882.49239', '2249.08699', '22750.43400', '236965.73075', '24.47606', '241.11729', '2456.38493', '2465.45254', '319.47281', '32640.53892', '333.91531', '38188.50573', '43.12500', '43445.24262', '451.61198', '9.24321', '987.79713']

        """


    def stepwise_selection(self,X, y,
                           initial_list=[],
                           threshold_in=0.01,
                           threshold_out=0.05,
                           verbose=True):
        """
        逐步回归，筛选特征
        """

        included = list(initial_list)

        while True:
            changed = False
            # forward step
            excluded = list(set(X.columns) - set(included))
            new_pval = pd.Series(index=excluded)
            for new_column in excluded:
                model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included + [new_column]]))).fit()
                new_pval[new_column] = model.pvalues[new_column]
            best_pval = new_pval.min()
            if best_pval < threshold_in:
                best_feature = new_pval.argmin()
                included.append(best_feature)
                changed = True
                if verbose:
                    print('Add  {:30} with p-value {:.6}'.format(best_feature, best_pval))

            # backward step
            model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included]))).fit()
            # use all coefs except intercept
            pvalues = model.pvalues.iloc[1:]
            worst_pval = pvalues.max()  # null if pvalues is empty
            if worst_pval > threshold_out:
                changed = True
                worst_feature = pvalues.argmax()
                included.remove(worst_feature)
                if verbose:
                    print('Drop {:30} with p-value {:.6}'.format(worst_feature, worst_pval))
            if not changed:
                break
        return included

    def xgb_model_fit(self,
                      X_train, X_test, y_train, y_test,alg,  useTrainCV=True, cv_folds=5, early_stopping_rounds=50):
        if useTrainCV:
            """训练集训练数据"""
            xgb_param = alg.get_xgb_params()
            xgtrain = xgb.DMatrix(X_train, label=y_train)
            cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
                              metrics='mae', early_stopping_rounds=early_stopping_rounds)
            alg.set_params(n_estimators=cvresult.shape[0])

        # 拟合模型
        alg.fit(X_train, y_train, eval_metric='mae')

        # 预测训练集、测试集
        train_data_df_predictions = alg.predict(X_train)
        test_data_df_predictions = alg.predict(X_test)


        # 回归问题评价标--训练集
        print("training mean_absolute_error is : " )
        print(mean_absolute_error(y_train, train_data_df_predictions))

        #测试集
        print("test mean_absolute_error is : ")
        print(mean_absolute_error(y_test, test_data_df_predictions))

        #特征重要度
        plt.ylabel('Feature Importance is')
        plot_importance(alg)
        plt.show()

    def light_gbm_model_fit(self,X_train, X_test, y_train, y_test):
        gbm = lgb.LGBMRegressor(objective='regression', num_leaves=31, learning_rate=0.05, n_estimators=20)
        gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], eval_metric='l1', early_stopping_rounds=5)

        print('Start lightgbm  predicting...')
        # 训练集与测试集预测
        y_train_pred = gbm.predict(X_train, num_iteration=gbm.best_iteration_)

        y_test_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration_)
        # 模型评估
        print('The y_train mae of test prediction is:', mean_absolute_error(y_train, y_train_pred))
        print('The y_test mae of test prediction is:', mean_absolute_error(y_test, y_test_pred) )

        # feature importances
        print('Feature importances:', list(gbm.feature_importances_))


        # 网格搜索，参数优化
        estimator = lgb.LGBMRegressor(num_leaves=64, metrics='mae', max_depth=7, min_child_samples=1000)



        param_grid = {
            'learning_rate': [0.01, 0.1, 1],
            'n_estimators': [20, 40]
        }

        gbm_grid = GridSearchCV(estimator, param_grid)

        gbm_grid = gbm_grid.fit(X_train, y_train)
        print("用网格搜索的方式开始进行预测")
        print('Best parameters found by grid search are:', gbm_grid.best_params_)

        # 训练集与测试集预测
        y_train_pred = gbm_grid.predict(X_train)

        y_test_pred = gbm_grid.predict(X_test)
        # 模型评估
        print('grid search cv  The y_train mae of test prediction is:', mean_absolute_error(y_train, y_train_pred))
        print('grid search cv  The y_test mae of test prediction is:', mean_absolute_error(y_test, y_test_pred))

        # feature importances
        print('Feature importances:', list(gbm_grid.feature_importances_))






def data_process(data_path,test_data_path):
    data_search = DataSearch()
    # 加载数据
    data_df = data_search.load_data(data_path,test_data_path)
    # 枚举特征分类统计
    category_columns = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage', 'regionCode',
                        'seller', 'offerType']
    # data_df = data_search.categorial_statistus(data_df, category_columns)
    # 数字特征可视化
    numerical_columns = ['power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9',
                         'v_10', 'v_11', 'v_12', 'v_13', 'v_14']
    # data_search.plot_nemurical(data_df,numerical_columns)
    # 字符特征--扩展及去噪
    data_df = data_search.categorial_extend(data_df)

    # 数字特征异常值检测---price的原始值异常值检测有10353个，---对power异常值筛选
    data_df =  data_search.detect_outliers(data_df, 0, ['price'])

    # 正态分布检测
    # data_search.normal_test(data_df)
    # 对数转化图形对比
    # data_search.log_plot(data_df)

    # 正态转化---对价格进行对数正态变换
    data_df = data_search.change_to_nomal(data_df)

    # 数字特征异常值检测---price的正态化后异常值检测有 个
    # data_search.detect_outliers(data_df, 1, ['power'])

    # 特征选择,根据数据分布，手动删除3个特征：'seller', 'offerType'，'creatDate'；
    all_col = ['name', 'regDate', 'model', 'brand', 'bodyType', 'fuelType',
               'gearbox', 'power', 'kilometer', 'notRepairedDamage', 'regionCode',
                'v_0', 'v_1', 'v_2', 'v_3',
               'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12',
               'v_13', 'v_14', 'year_regDate', 'month_regDate', 'price']

    print(data_df.columns)
    data_df[all_col] = data_df[all_col].apply(pd.to_numeric, errors='coerce').fillna(0.0)
    data_df.describe(include='all')
    return data_df,all_col


if __name__ == '__main__':
    data_search = DataSearch()
    #加载训练数据
    train_data_path = r"C:\Users\ccs\Documents\dataWhale\used_car_train_20200313\used_car_train_20200313.csv"
    test_data_path = r"C:\Users\ccs\Documents\dataWhale\used_car_testA_20200313\used_car_testA_20200313.csv"
    train_data_df,all_col = data_process(train_data_path,test_data_path)

    # #岭回归
    # feature_cols = list(all_col)
    # feature_cols.remove("price")
    # data_search.ridge_cv(train_data_df,feature_cols)
    #
    # #逐步回归
    # result = data_search.stepwise_selection(train_data_df[feature_cols], y_train)

    # 运用树模型训练特征
    
    predictors = [x for x in all_col if x not in ['price', 'SaleID']]
    #选择训练数据进行训练集及测试集的划分
    train_data_df =  train_data_df[train_data_df['train'] == 1]
    X_train, X_test, y_train, y_test = train_test_split(train_data_df[predictors], train_data_df['price'], test_size=0.3)


    xgb_model = xgb.XGBRegressor(max_depth=5, learning_rate=0.1, n_estimators=160, silent=False, objective='reg:gamma')

    data_search.xgb_model_fit(X_train, X_test, y_train, y_test,xgb_model)



    data_search.light_gbm_model_fit(X_train, X_test, y_train, y_test)

    #


"""
#xgboost的方法进行预测
training mean_absolute_error is : 
0.14024175116320706
test mean_absolute_error is : 
0.14639476706968618

#lightGBM的方法预测
Start lightgbm  predicting...
The y_train mae of test prediction is: 0.39791827020196974
The y_test mae of test prediction is: 0.39712612190553775

用网格搜索的方式开始进行预测
Best parameters found by grid search are: {'learning_rate': 1, 'n_estimators': 40}
grid search cv  The y_train mae of test prediction is: 0.1658337832367841
grid search cv  The y_test mae of test prediction is: 0.17248839882027442

"""

结果
“”"

#xgboost的方法进行预测
training mean_absolute_error is : 
0.14024175116320706
test mean_absolute_error is : 
0.14639476706968618

#lightGBM的方法预测
Start lightgbm  predicting...
The y_train mae of test prediction is: 0.39791827020196974
The y_test mae of test prediction is: 0.39712612190553775

#lightGBM的方法用网格搜索的方式开始进行预测
Best parameters found by grid search are: {'learning_rate': 1, 'n_estimators': 40}
grid search cv  The y_train mae of test prediction is: 0.1658337832367841
grid search cv  The y_test mae of test prediction is: 0.17248839882027442

"""

Redis 源码分析-内部数据结构 quicklist 笨手笨脚の #Redis redis 数据结构数据库 quicklist 链表快速链表 ziplist
Redis源码分析-内部数据结构quicklistquicklist是Redis对外暴露的list数据结构的内部实现，经常被当作队列或栈使用，我们可以从常用的一些api上先思考一下它的结构最常用的就是lpush、lpop、rpush、rpop，同时它也支持lindex查询某元素在list中的索引，linsert在指定元素旁边插入新元素。从头、尾节点的push、pop来看，这就是双向链表最优秀的设计
【AI热点】Manus技术细致洞察报告（篇2）碣石潇湘无限路人工智能
针对大家对Manus产品褒贬不一的现象，基于近期对Manus的多方实测、公开信息与开源竞品的比对分析而撰写，旨在为从业者、技术爱好者以及潜在用户提供一个较为系统、专业的视角。报告将围绕Manus的核心原理、功能特点、技术亮点、常见应用场景与不足，以及与其他Agent产品和开源方案的对比进行深入探讨。1.引言与背景1.1产品崛起与「全自主通用Agent」的概念自2023年底至2024年初，大模型及其
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
Spring Boot 启动失败：Failed to start bean ‘documentationPluginsBootstrapper’ 解决方案总是学不会. 异常报错处理 spring boot 后端 java
文章目录1.问题描述2.可能原因分析原因1：SpringFox版本与SpringBoot版本不兼容❌✅解决方案：添加兼容性配置（首选！！！！）原因2：SpringFox依赖冲突⚠️✅解决方案：确保只使用正确的SpringFox依赖原因3：SpringBoot3.x不支持SpringFox✅解决方案：使用springdoc-openapi替代SpringFox原因4：Swagger配置文件错误✅解决
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
【AI热点】OpenAI新发布API技术深度洞察碣石潇湘无限路人工智能
以下内容基于对OpenAI最新发布的AgentAPI及相关工具的官方信息、技术演示和已有报道进行综合解读与深度分析，供您参考。本报告将围绕最新发布的ResponsesAPI（智能体核心新接口）、内置工具（websearch、filesearch、computeruse）、全新的AgentsSDK以及核心安全与可观测性机制，帮助您深入理解其原理、特性及应用价值。一、背景：为什么要推出新的AgentA
【奇点时刻】通义千问开源QwQ-32B技术洞察报告（扫盲帖）碣石潇湘无限路开源人工智能
以下报告将基于今天各大社区对Qwen/QwQ-32B（下文简称「QwQ-32B」）模型的讨论、测评与实测体验进行综合性分析与洞察。本报告将从模型背景与定位、核心技术、性能表现与对比、部署与使用方式，以及未来潜力与可能的影响五个维度，帮助读者更好地了解这一新兴且备受瞩目的开源推理模型。一、模型背景与定位1.发布方与家族概览QwQ-32B模型由阿里巴巴（Alibaba）旗下的Qwen团队推出，属于Qw
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
使用agent搭建一个简易的ai论文写作程序喂喂喂喂位 langChain手搓AI Agent记录人工智能 langchain 深度学习 python AIGC
本程序能够自动化完成从规划、研究、撰写到修改的整个论文创作流程。基于LangGraph和LangChain框架构建，利用大型语言模型和搜索工具协同工作，形成了一个完整的论文写作流水线。核心功能分析计划生成功能(plan_node)这个node将接收状态，然后创建一个消息列表。其中一个将是PLAN_PROMPT，那将是SystemMessage。然后创建HumanMessage，传入我们要做的tas
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
hive开窗函数总结 weixin_46134848 大数据 hive mysql
文章目录概要整体架构流程示例1示例2小结概要hive开窗函数总结整体架构流程1.窗口函数的基本用法函数名()over()over关键字来指定函数执行的范围,包含三个分析子句:分组(partitionby)子句,排序(orderby)子句,窗口(rows)子句函数名(字段名)over(partitionbyorderbyrowsbetween)窗口大小可以通过rowsbetween…and…来限定,
《数据挖掘导论》第二章数据爱吃草莓的西瓜酱数据挖掘导论数据挖掘
第二章数据数据类型数据质量数据预处理相似度测量数据Collectionofdataobjectsandtheirattributes特征值数值型的或者描述性的（男/女-->0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值1.特征的类型Nominal（标称）Examples:IDnum
基于5G智慧园区的车联网系统应用示范宋罗世家技术屋人工智能
【摘要】5G智慧园区作为建设智慧城市的关键切入点，具有交通组成元素相对单一、相关业务要求明确的特点，有利于实现5G+C-V2X商业化的快速落地，5G网络可以为园区内的交通群体带来超大带宽、超低时延、超大连接的网络接入条件。首先结合5G网络特性以及智慧园区内交通群体的实际需求进行了分析，在此基础之上提出了一套基于5G+C-V2X的智慧园区车联网系统。该系统能提供多种智慧交通创新技术及业务示范，用于在
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
ThreeJs中使用lil-gui无法改变其所属父元素一只程序熊前端 3d
项目场景：之前一直在研究Threejs，遇到一个很头疼的问题！就是我自己使用了Vite+V3创建了一个项目框架，用来记录自己学习Three的一个过程，但是里面就存在了一个问题，我们在newGUI()后不能改变其父级元素，就像默认父级元素在body上一样问题描述GUI父级元素无法被改变letgui=newGUI()原因分析：正好这段时间有空，本主就疯狂去找了lil-gui的官方文档，还好作者是个好人
二叉树中两个节点最近公共祖先的查找算法研究 cloudman08 深度优先算法
目录摘要一、引言二、问题定义三、问题分析3.1二叉树的特性利用3.2暴力搜索的不足四、算法设计4.1递归算法（适用于普通二叉树）4.2迭代算法（适用于二叉搜索树）4.3代码实现（Python）4.4代码解释五、复杂度分析5.1递归算法复杂度（普通二叉树）5.2迭代算法复杂度（二叉搜索树）六、实际应用6.1文件系统目录结构6.2遗传算法中的基因树分析6.3数据库索引结构优化七、结论摘要在二叉树相关算
透视B/S架构与C/S架构：构建未来网络应用的智慧选择无限大. 杂谈架构
透视B/S架构与C/S架构：构建未来网络应用的智慧选择在信息技术迅猛发展的今天，网络架构的选择对企业和开发者来说至关重要。B/S架构（Browser/Server）与C/S架构（Client/Server）是两种主流的架构模式，各自具有独特的优势与适用场景。随着技术的不断发展，B/S架构逐渐取代C/S架构成为主流选择。接下来，我将深入探讨这两种架构，并分析B/S架构为何能够占据主导地位。一、什么是
现代游戏UI架构深度解析——以UIController为核心的模块化界面管理系统晴空了无痕项目框架游戏 ui 架构
一、架构全景与设计哲学本文将以重构后的UIController为核心，深入探讨Unity引擎下的高效UI管理方案。该体系采用"分层-分治"设计理念，通过界面生命周期管理、动态适配策略、资源优化机制三个维度的协同工作，构建了适应复杂交互需求的弹性UI框架。我们将从以下关键维度展开技术分析：二、核心模块技术解析2.1中枢控制器（UIController）namespaceGameCore.Interf
Deepseek-R1大模型微调实战技术深度解析大势下的牛马搭建本地gpt Deepseek 大模型评测微调
一、Deepseek-R1架构特性与微调适配性分析1.1核心架构创新对微调的影响Deepseek-R1基于Deepseek-V3-Base架构，通过MoE（Mixture-of-Experts）与MLA（Multi-HeadLatentAttention）的协同设计，实现了参数规模与计算效率的平衡。其6710亿参数总量中，每个token仅激活37B参数的机制，使得微调过程中可针对不同任务动态调整专
模型可解释性：基于博弈论的SHAP值计算与特征贡献度分析（附PyTorch/TensorFlow实现）燃灯工作室 Ai pytorch tensorflow 人工智能
一、技术原理与数学推导（含典型案例）1.1Shapley值基础公式SHAP值基于合作博弈论中的Shapley值，计算公式为：ϕi=∑S⊆F∖{i}∣S∣!(∣F∣−∣S∣−1)!∣F∣![f(S∪{i})−f(S)]\phi_i=\sum_{S\subseteqF\setminus\{i\}}\frac{|S|!(|F|-|S|-1)!}{|F|!}[f(S\cup\{i\})-f(S)]ϕi=S
Nature：你的大脑衰老速度受这64个基因影响量子位
你的大脑衰老速度，原来受这64个基因影响！事情是这样的。根据Nature最新报道，科学家们通过利用AI模型分析大量脑部扫描和遗传数据，确定了64个影响大脑衰老速度的基因，并指出了13种潜在的抗衰老药物。相关研究发表在最新一期Science子刊《ScienceAdvances》上。按照Nature的评价，这是尝试确定影响器官衰退遗传因素这一研究领域里：迄今为止规模最大的一次尝试都柏林圣三一学院的神经
边缘设备模型量化部署：TFLite INT8校准实现细节深度解析燃灯工作室 Ai 人工智能机器学习
一、技术原理与数学公式INT8量化的核心是通过线性映射将浮点数值范围（[-max,max]）映射到8位整数范围（[-128,127]）。校准过程通过分析真实数据分布确定最优缩放因子（scale）和零点（zeropoint）：量化公式：Q=round(float_valuescale)+zero_pointQ=round(\frac{float\_value}{scale})+zero\_point
软件测试之测试用例详细解读隐居人家的炊烟测试用例软件测试自动化测试
一、通用测试用例八要素1、用例编号；2、测试项目；3、测试标题；4、重要级别；5、预置条件；6、测试输入；7、操作步骤；8、预期输出二、具体分析通用测试用例八要素1、用例编号一般是数字和字符组合成的字符串，可以包括（下划线、单词缩写、数字等等），但是需要注意的是，尽量不要写汉语拼音，因为拼音的意义可能有好几种，有可能会导致乱码；用例编号具有唯一性和易识别性。（比如说我们唯一标识一个人：中国-上海市
不知道天气咋样？一起用Python爬取天气数据分析告诉你 Dragon少年 Python python 爬虫图表可视化
前言今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！一、核心功能设计总体来说，我们需要先对中国天气网中的天气数据进行爬取，保存为csv文件，并将这些数据进行可视化分析展示。拆解需求，大致可以整理出我们需要分为以下几步完成：通过爬虫获取中国天气网7.20-7.21的降雨数据，包括城市，风力方向，风级，降水量，相对湿度，空气质量。对获取的天气数据进行预处理，分析河南的风力等
虚拟机中Hadoop集群NameNode进程缺失问题解析与解决申朝先生 hadoop 大数据分布式 linux
目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。问题分析导致NameNode进程缺失的原因可能有以下几点：集群未正确停止：在关闭虚拟机或重启Hadoop集群之前，未执行stop-all.sh命令正确停止集群，导致Hadoop服务异常退出，留下残留数据
Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践在股市中，信息的力量是巨大的。一条新闻、一篇报道，甚至一条推文，都可能引发股价的波动。因此，利用自然语言处理（NLP）技术来分析股票新闻的情感倾向，可以帮助我们预测市场动向，从而做出更明智的投资决策。本文将带你了解如何开发和优化一个基于Pytho
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

天池二手车价格预测-特征工程

天池二手车价格预测-特征工程

特征工程

（1）删除分布严重不平衡的特征

（2）对预测值进行对数正态转化

（3）针对日期特征进行分桶（按年、月）统计

（4）针对两个日期字段进行间隔天数计算

（5）构造品牌-价格的量化特征(最大、最小、平均值、方差)

（6）对功率字段进行异常值检测

（7）构造功率与价格的量化特征

（8）针对地区编码进行处理

（9）代码实现

（10）结果

你可能感兴趣的:(数据挖掘分析)