卡小葵

二手车交易价格预测——特征工程（2）生成适用于树，xgboostde的数据

二手车交易价格预测——特征工程（1）生成适用于树，xgboostde的数据

针对生成LR的模型的链接：https://editor.csdn.net/md/?articleId=105156750

文章目录

二手车交易价格预测——特征工程（1）生成适用于树，xgboostde的数据
针对生成LR的模型的链接：[https://editor.csdn.net/md/?articleId=105156750](https://editor.csdn.net/md/?articleId=105156750)
生成可以用于tree的数据

1.通过箱线图删除异常值
2.特征构造
3. 数据分桶

总结
参考文献

通过对赛题的分析，我们可以看出此类问题是对价格进行回归预测，那我们对于数据需要事先做预处理分析，前期我们已经进行了EDA探索性数据分析，下面是对进行特征工程。
特征工程本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。

二手车交易价格预测——特征工程（2）生成适用于树，xgboostde的数据_第1张图片

图片来源：特征工程全过程

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from operator import itemgetter

%matplotlib inline

Train_data= pd.read_csv(r'D:\ershouche\used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(r'D:\ershouche\used_car_testA_20200313.csv', sep=' ')

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
Train_data['notRepairedDamage'].value_counts()

0.0    111361
1.0     14315
Name: notRepairedDamage, dtype: int64

生成可以用于tree的数据

#对偏斜类做删除处理
del Train_data["seller"]
del Train_data["offerType"]
del Test_data["seller"]
del Test_data["offerType"]

1.通过箱线图删除异常值

def out_proc(data,col_name,scale=3):  #(data:接收pandas 数据格式，col_name： pandas 列名， scale 尺度)
    def box(data_ser,box_scale):   #(接收箱线图的数据格式，箱线图尺度)
        iqr=box_scale*(data_ser.quantile(0.75)-data_ser.quantile(0.25))
        val_low=(data_ser.quantile(0.25)-iqr)
        val_up=(data_ser.quantile(0.75)+iqr)
        rule_low=(data_ser<val_low)
        rule_up=(data_ser>val_up)
        
        return (rule_low,rule_up),(val_low,val_up)
    
    data_n=data.copy()
    data_series=data_n[col_name]
    rule,value = box(data_series,box_scale=scale)
    index = np.arange(data_series.shape[0])[rule[0]|rule[1]]
    print('delete number is: {}'.format(len(index)))
    data_n=data_n.drop(index)
    data_n.reset_index(drop=True,inplace=True)
    print('now column number is :{}'.format(data_n.shape[0]))
    index_low = np.arange(data_series.shape[0])[rule[1]]
    out=data_series.iloc[index_low]
    print("description of data larger than the upper bound is :{}")
    print(pd.Series(out).describe())
    fix ,ax = plt.subplots(1,2)
    sns.boxplot (y = data[col_name],data = data,palette='Set1',ax=ax[0])
    sns.boxplot (y=data_n[col_name],data=data_n,palette='Set1',ax=ax[1])
    return data_n

通过EDA数据分析，我们对不对匿名数据进行任何处理，仅仅对数值数据中的power，kilometer进行异常值处理。

dcol=['power','kilometer']
for cst in dcol:
    print(cst+ "异常值处理：")
    print(out_proc(Train_data,cst,scale=1.5))

power异常值处理：
delete number is: 4878
now column number is :145122
description of data larger than the upper bound is :{}
count     4878.000000
mean       410.132021
std        884.219933
min        264.000000
25%        286.000000
50%        306.000000
75%        349.000000
max      19312.000000
Name: power, dtype: float64
        SaleID    name   regDate  model  brand  bodyType  fuelType  gearbox  \
0            0     736  20040402   30.0      6       1.0       0.0      0.0   
1            1    2262  20030301   40.0      1       2.0       0.0      0.0   
2            2   14874  20040403  115.0     15       1.0       0.0      0.0   
3            3   71865  19960908  109.0     10       0.0       0.0      1.0   
4            4  111080  20120103  110.0      5       1.0       0.0      0.0   
...        ...     ...       ...    ...    ...       ...       ...      ...   
145117  149995  163978  20000607  121.0     10       4.0       0.0      1.0   
145118  149996  184535  20091102  116.0     11       0.0       0.0      0.0   
145119  149997  147587  20101003   60.0     11       1.0       1.0      0.0   
145120  149998   45907  20060312   34.0     10       3.0       1.0      0.0   
145121  149999  177672  19990204   19.0     28       6.0       0.0      1.0   

        power  kilometer  ...       v_5       v_6       v_7       v_8  \
0          60       12.5  ...  0.235676  0.101988  0.129549  0.022816   
1           0       15.0  ...  0.264777  0.121004  0.135731  0.026597   
2         163       12.5  ...  0.251410  0.114912  0.165147  0.062173   
3         193       15.0  ...  0.274293  0.110300  0.121964  0.033395   
4          68        5.0  ...  0.228036  0.073205  0.091880  0.078819   
...       ...        ...  ...       ...       ...       ...       ...   
145117    163       15.0  ...  0.280264  0.000310  0.048441  0.071158   
145118    125       10.0  ...  0.253217  0.000777  0.084079  0.099681   
145119     90        6.0  ...  0.233353  0.000705  0.118872  0.100118   
145120    156       15.0  ...  0.256369  0.000252  0.081479  0.083558   
145121    193       12.5  ...  0.284475  0.000000  0.040072  0.062543   

             v_9      v_10      v_11      v_12      v_13      v_14  
0       0.097462 -2.881803  2.804097 -2.420821  0.795292  0.914762  
1       0.020582 -4.900482  2.096338 -1.030483 -1.722674  0.245522  
2       0.027075 -4.846749  1.803559  1.565330 -0.832687 -0.229963  
3       0.000000 -4.509599  1.285940 -0.501868 -2.438353 -0.478699  
4       0.121534 -1.896240  0.910783  0.931110  2.834518  1.923482  
...          ...       ...       ...       ...       ...       ...  
145117  0.019174  1.988114 -2.983973  0.589167 -1.304370 -0.302592  
145118  0.079371  1.839166 -2.774615  2.553994  0.924196 -0.272160  
145119  0.097914  2.439812 -1.630677  2.290197  1.891922  0.414931  
145120  0.081498  2.075380 -2.633719  1.414937  0.431981 -1.659014  
145121  0.025819  1.978453 -3.179913  0.031724 -1.483350 -0.342674  

[145122 rows x 29 columns]
kilometer异常值处理：
delete number is: 25685
now column number is :124315
description of data larger than the upper bound is :{}
count    0.0
mean     NaN
std      NaN
min      NaN
25%      NaN
50%      NaN
75%      NaN
max      NaN
Name: kilometer, dtype: float64
        SaleID    name   regDate  model  brand  bodyType  fuelType  gearbox  \
0            0     736  20040402   30.0      6       1.0       0.0      0.0   
1            1    2262  20030301   40.0      1       2.0       0.0      0.0   
2            2   14874  20040403  115.0     15       1.0       0.0      0.0   
3            3   71865  19960908  109.0     10       0.0       0.0      1.0   
4            5  137642  20090602   24.0     10       0.0       1.0      0.0   
...        ...     ...       ...    ...    ...       ...       ...      ...   
124310  149992  183499  20001206   32.0      8       1.0       0.0      0.0   
124311  149995  163978  20000607  121.0     10       4.0       0.0      1.0   
124312  149996  184535  20091102  116.0     11       0.0       0.0      0.0   
124313  149998   45907  20060312   34.0     10       3.0       1.0      0.0   
124314  149999  177672  19990204   19.0     28       6.0       0.0      1.0   

        power  kilometer  ...       v_5       v_6       v_7       v_8  \
0          60       12.5  ...  0.235676  0.101988  0.129549  0.022816   
1           0       15.0  ...  0.264777  0.121004  0.135731  0.026597   
2         163       12.5  ...  0.251410  0.114912  0.165147  0.062173   
3         193       15.0  ...  0.274293  0.110300  0.121964  0.033395   
4         109       10.0  ...  0.260246  0.000518  0.119838  0.090922   
...       ...        ...  ...       ...       ...       ...       ...   
124310     82       15.0  ...  0.234736  0.000000  0.105834  0.042096   
124311    163       15.0  ...  0.280264  0.000310  0.048441  0.071158   
124312    125       10.0  ...  0.253217  0.000777  0.084079  0.099681   
124313    156       15.0  ...  0.256369  0.000252  0.081479  0.083558   
124314    193       12.5  ...  0.284475  0.000000  0.040072  0.062543   

             v_9      v_10      v_11      v_12      v_13      v_14  
0       0.097462 -2.881803  2.804097 -2.420821  0.795292  0.914762  
1       0.020582 -4.900482  2.096338 -1.030483 -1.722674  0.245522  
2       0.027075 -4.846749  1.803559  1.565330 -0.832687 -0.229963  
3       0.000000 -4.509599  1.285940 -0.501868 -2.438353 -0.478699  
4       0.048769  1.885526 -2.721943  2.457660 -0.286973  0.206573  
...          ...       ...       ...       ...       ...       ...  
124310  0.102435  3.735963 -0.176973 -2.353203  0.998859 -0.085879  
124311  0.019174  1.988114 -2.983973  0.589167 -1.304370 -0.302592  
124312  0.079371  1.839166 -2.774615  2.553994  0.924196 -0.272160  
124313  0.081498  2.075380 -2.633719  1.414937  0.431981 -1.659014  
124314  0.025819  1.978453 -3.179913  0.031724 -1.483350 -0.342674  

[124315 rows x 29 columns]

由上图异常值处理过后，我们发现对于kilometer的效果并不完美，所以我们不对此进行异常值处理


    print( "power异常值处理：")
    Train_data=(out_proc(Train_data,'power',scale=1.5))

power异常值处理：
delete number is: 4878
now column number is :145122
description of data larger than the upper bound is :{}
count     4878.000000
mean       410.132021
std        884.219933
min        264.000000
25%        286.000000
50%        306.000000
75%        349.000000
max      19312.000000
Name: power, dtype: float64

这样呢我们就得到了处理完异常值之后的数据。

2.特征构造

#训练集和测试集放在一起，方便构造 _——
Train_data['train']=1
Test_data['train']=0
data = pd.concat([Train_data,Test_data],ignore_index=True)

c:\users\administrator\appdata\local\programs\python\python37\lib\site-packages\ipykernel_launcher.py:4: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.

To retain the current behavior and silence the warning, pass 'sort=True'.

  after removing the cwd from sys.path.





SaleID                   0
bodyType              5868
brand                    0
creatDate                0
fuelType             11416
gearbox               7832
kilometer                0
model                    1
name                     0
notRepairedDamage    23903
power                    0
price                50000
regDate                  0
regionCode               0
train                    0
v_0                      0
v_1                      0
v_10                     0
v_11                     0
v_12                     0
v_13                     0
v_14                     0
v_2                      0
v_3                      0
v_4                      0
v_5                      0
v_6                      0
v_7                      0
v_8                      0
v_9                      0
dtype: int64

#找使用时间=creatDate-regDate,数据中出错歌神，用error ='coerce'
data['used_time']=(pd.to_datetime(data['creatDate'],format='%Y%m%d',errors='coerce')-
                   pd.to_datetime(data['regDate'],format='%Y%m%d',errors='coerce')).dt.days

# 看一下空数据，有 15k 个样本的时间是有问题的，我们可以选择删除，也可以选择放着。
# 但是这里不建议删除，因为删除缺失数据占总样本量过大，7.5%
# 我们可以先放着，因为如果我们 XGBoost 之类的决策树，其本身就能处理缺失值，所以可以不用管；
data['used_time'].isnull().sum()

# 从邮编中提取城市信息，相当于加入了先验知识
data['city']=data['regionCode'].apply(lambda x : str(x)[:-3]) #lambda函数也叫匿名函数，即没有具体名称的函数，它允许快速定义单行函数，可以用在任何需要函数的地方
data=data

## 计算某品牌的销售统计量，同学们还可以计算其他特征的统计量
# 这里要以 train 的数据计算统计量
Train_gb=Train_data.groupby('brand')
all_info={}
for kind,kind_data in Train_gb:
    info={}
    kind_data=kind_data[kind_data['price']>0]
    info['brand_amount']=len(kind_data)
    info['brand_prince_max']=kind_data.price.max()
    info['brand_prince_min']=kind_data.price.min()
    info['brand_prince_median']=kind_data.price.median()
    info['brand_prince_sum']=kind_data.price.sum()
    info['brand_prince_std']=kind_data.price.std()
    info['brand_prince_averge']=round(kind_data.price.sum()/(len(kind_data)+1),2)  #这个地方为什么要加1呢
    all_info[kind] =info
brand_fe = pd.DataFrame(all_info).T.reset_index().rename(columns={'index': 'brand'})
data = data.merge(brand_fe,how = 'left',on='brand')

这个部分是特征构造中，构造统计量特征，至于意义何在，目前不清楚。

3. 数据分桶

  为什么要做数据分桶呢，原因有很多，= =

离散后稀疏向量内积乘法运算速度更快，计算结果也方便存储，容易扩展；
离散后的特征对异常值更具鲁棒性，如 age>30 为 1 否则为 0，对于年龄为 200 的也不会对模型造成很大的干扰；
LR 属于广义线性模型，表达能力有限，经过离散化后，每个变量有单独的权重，这相当于引入了非线性，能够提升模型的表达能力，加大拟合；
离散后特征可以进行特征交叉，提升表达能力，由 M+N 个变量编程 M*N 个变量，进一步引入非线形，提升了表达能力；
特征离散后模型更稳定，如用户年龄区间，不会因为用户年龄长了一岁就变化

当然还有很多原因，LightGBM 在改进 XGBoost 时就增加了数据分桶，增强了模型的泛化性
关于数据分桶，具体可以参考数据分桶

（可以好好看一下该博客后面写的参考文献里的博客）

data.head()

	SaleID	bodyType	brand	creatDate	gearbox	kilometer	model	name	notRepairedDamage	...	v_9	used_time	city	brand_amount	brand_prince_max	brand_prince_min	brand_prince_median	brand_prince_sum	brand_prince_std	brand_prince_averge
0	0	1.0	6	20160404	0.0	12.5	30.0	736	0.0	...	0.097462	4385.0	1	10126.0	35990.0	13.0	1799.0	35138859.0	4353.895183	3469.82
1	1	2.0	1	20160309	0.0	15.0	40.0	2262	NaN	...	0.020582	4757.0	4	12938.0	84000.0	15.0	5950.0	110453942.0	8278.094769	8536.51
2	2	1.0	15	20160402	0.0	12.5	115.0	14874	0.0	...	0.027075	4382.0	2	1456.0	45000.0	100.0	8500.0	14334320.0	5416.367362	9838.24
3	3	0.0	10	20160312	1.0	15.0	109.0	71865	0.0	...	0.000000	7125.0		13081.0	89000.0	15.0	4900.0	98590188.0	7789.654875	7536.32
4	4	1.0	5	20160313	0.0	5.0	110.0	111080	0.0	...	0.121534	1531.0	6	4660.0	29950.0	20.0	2300.0	15379822.0	3319.801819	3299.68

5 rows × 39 columns

通过看上述数据描述，我们可以看到对于匿名特征来讲，其值较为均匀，没有做数据分桶的必要，我们这里只对分布较广的数据做数据分桶，因此仅选择power做数据分桶。

bin = [i*10 for i in range(31)]
data['power_bin'] = pd.cut(data['power'], bin, labels=False)
data[['power_bin', 'power']].head()

	power_bin	power
0	5.0	60
1	NaN	0
2	16.0	163
3	19.0	193
4	6.0	68

print('power变量中31个桶中的个数：')
pd.value_counts(data['power_bin'])

power变量中31个桶中的个数：





10.0    24263
7.0     17580
13.0    16023
5.0     15385
14.0    14252
11.0    12903
8.0     11962
16.0    10920
12.0     9108
6.0      7269
17.0     5412
19.0     4602
4.0      4486
9.0      4190
23.0     3196
18.0     3165
15.0     2832
21.0     2688
20.0     1932
22.0     1823
24.0     1403
25.0      586
3.0       287
27.0      227
26.0      152
28.0      142
29.0      135
0.0       113
1.0        56
2.0        25
Name: power_bin, dtype: int64

接下来我们看一下现有数据集中的变量有哪些，并进行一定的筛选

data.columns

Index(['SaleID', 'bodyType', 'brand', 'creatDate', 'fuelType', 'gearbox',
       'kilometer', 'model', 'name', 'notRepairedDamage', 'power', 'price',
       'regDate', 'regionCode', 'train', 'v_0', 'v_1', 'v_10', 'v_11', 'v_12',
       'v_13', 'v_14', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9',
       'used_time', 'city', 'brand_amount', 'brand_prince_max',
       'brand_prince_min', 'brand_prince_median', 'brand_prince_sum',
       'brand_prince_std', 'brand_prince_averge', 'power_bin'],
      dtype='object')

因上面已经对 ‘creatDate’‘regDate’, 'regionCode’进行了一定的特征构造，所以，可以将其删除。

data = data.drop(['creatDate', 'regDate', 'regionCode'], axis=1)

data.columns

Index(['SaleID', 'bodyType', 'brand', 'fuelType', 'gearbox', 'kilometer',
       'model', 'name', 'notRepairedDamage', 'power', 'price', 'train', 'v_0',
       'v_1', 'v_10', 'v_11', 'v_12', 'v_13', 'v_14', 'v_2', 'v_3', 'v_4',
       'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'used_time', 'city', 'brand_amount',
       'brand_prince_max', 'brand_prince_min', 'brand_prince_median',
       'brand_prince_sum', 'brand_prince_std', 'brand_prince_averge',
       'power_bin'],
      dtype='object')

# 目前的数据其实已经可以给树模型使用了，所以我们导出一下
data.to_csv('D:/ershouche/data_for_tree.csv', index=0)

总结

对于生成树的数据处理
1.我们对于异常值，采取了运用箱线图删除异常值的方法，这里对，多个在EDA分析中对目标变量具有较强相关变量进行异常值处理。
2.在特征构造方面，我们针对brand变量构造了其统计量特征，另外修改了使用时间特征，以及其地理信息由邮编改为城市，有助于提高之后模型分析的效率。  
3.我们对于通过对31个变量的数据描述可以看出，power变量较适合数据分桶，因此对其进行分桶，以提高之后采样的效率等。
4.删除已被替代的数据。
5.在此过程中，我们并没有对缺失值进行相关处理，也没有进行相关特征的筛选，所以此时生成的数据，更适合XGBoost,以及随机森林进行建模处理。

参考文献

1.天池二手车

2.特征工程过程

3.数据预处理方法

4.数据分桶

5.箱线图，3标准差

《数据挖掘导论》第二章数据爱吃草莓的西瓜酱数据挖掘导论数据挖掘
第二章数据数据类型数据质量数据预处理相似度测量数据Collectionofdataobjectsandtheirattributes特征值数值型的或者描述性的（男/女-->0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值1.特征的类型Nominal（标称）Examples:IDnum
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
数据挖掘|关联分析与Apriori算法详解皖山文武数据挖掘商务智能数据挖掘关联分析 Apriori算法机器学习
数据挖掘|关联分析与Apriori算法1.关联分析2.关联规则相关概念2.1项目2.2事务2.3项目集2.4频繁项目集2.5支持度2.6置信度2.7提升度2.8强关联规则2.9关联规则的分类3.Apriori算法3.1Apriori算法的Python实现3.2基于mlxtend库的Apriori算法的Python实现1.关联分析关联规则分析（Association-rulesAnalysis）是数
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
OLAP与OLTP：数据处理系统的两种核心架构思静鱼 #Mysql-数据库架构
文章目录OLAP和OLTP的主要区别OLAP常见数据库和OLTP常见数据库OLAP是英文OnlineAnalyticalProcessing的缩写，中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术，用于从不同的角度进行数据挖掘和分析，以帮助用户快速发现数据之间的相关性和趋势。OLAP技术通常涉及到预计算、缓存和查询优化等方面的技术，可用于构建在线分析系统（OLAP系统）。该系统将大量的
数据分析在宇宙观测中的重要性 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
数据分析在宇宙观测中的重要性关键词：数据分析、宇宙观测、数据预处理、数据挖掘、数据可视化摘要：本文将探讨数据分析在宇宙观测中的重要性，从数据分析在宇宙观测中的应用背景、重要性、面临的挑战与机遇以及未来发展趋势等方面进行深入分析，旨在为读者提供一个全面而详细的了解。引言第1章:分析数据与宇宙观测的关联1.1.1数据分析在宇宙观测中的应用背景宇宙观测是研究宇宙的结构、演化、性质以及各种物理现象的科学。
k-Shape：高效准确的聚类方法优化算法侠Swarm-Opti 信号处理故障诊断聚类机器学习人工智能 matlab 数据挖掘
引言时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性汀、人工智能 LLM工业级落地实践 embedding langchain 人工智能智能问答 RAG 检索增强生成大模型
语义检索-BAAIEmbedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性语义向量模型（EmbeddingModel）已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代，它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而，当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。为加快解决大模型
知识图谱与金融——基于知识图谱的风险监控与决策支持 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构，它通过三元组（subject-predicate-object）的方式来表述实体之间的关系。它经常被用在文本分析、数据挖掘、推荐系统等领域。而随着金融行业对海量信息数据的需求越来越高，知识图谱技术也越来越受到重视。实际上，知识图谱已经成为构建和处理金融知识的重要工具之一。本文将探讨知识图谱在金融中的应
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析艾派森数据挖掘实战合集 python 人工智能数据挖掘信息可视化数据分析
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
【数据仓库与数据挖掘基础】第一章概论/基础知识精神病不行计算机不上班数据仓库与数据挖掘基础数据挖掘数据仓库
知识点复习：事务（关于事务的一些知识点可以点这里）一、数据仓库的一些基本的知识1.从数据库到数据仓库1.1数据库用于事务处理1.1.1定义：事务处理是指对数据库中数据的操作，这些操作通常包括插入、更新、删除和查询等。事务处理的核心是确保数据的一致性和完整性。事务的定义：事务是数据库操作的基本单位，包含一组逻辑上相关的操作。事务要么全部成功，要么全部失败。ACID特性：原子性（Atomicity）：
特征缩放：统一量纲，提高模型性能 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征缩放：统一量纲，提高模型性能1.背景介绍在机器学习和数据挖掘领域，我们经常会遇到不同特征之间量纲差异很大的情况。比如，一个数据集中可能包含年龄（0-100）、收入（0-100000）、身高（150-200cm）等不同尺度的特征。这种量纲不统一会给许多机器学习算法（如梯度下降）带来问题，导致收敛速度慢、模型性能差等。特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理
80| Python可视化篇 —— Matplotlib数据可视化小刘要努力。 Python教程系列专栏可视化数据分析 python
文章目录Matplotlib和数据可视化安装matplotlib绘制折线图绘制散点图绘制正弦曲线绘制直方图使用Pygal绘制矢量图3D图Matplotlib和数据可视化数据的处理、分析和可视化已经成为Python近年来最为重要的应用领域之一，其中数据的可视化指的是将数据呈现为漂亮的统计图表，然后进一步发现数据中包含的规律以及隐藏的信息。数据可视化又跟数据挖掘和大数据分析紧密相关，而这些领域以及当下
社会科学市场博弈和价格预测之时间序列挖掘（Datawhale AI 夏令营）会飞的Anthony 人工智能人工智能
深入理解赛题——探索性数据分析首先，我们先介绍一下什么是EDA：探索性数据分析（ExploratoryDataAnalysis,EDA）是一组数据分析技术，旨在总结其主要特征，通常通过可视化手段来实现。EDA的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。为什么进行EDA？在现在的数据挖掘类比赛中，模型和方法选择空间往往很小，同时存在不少自动机
企业数据挖掘平台×DeepSeek强强联合，多种应用场景适用泰迪智能科技01 DeepSeek 数据挖掘人工智能
企业数据挖掘建模平台简单易用，可提供代码方便定制，全面培训服务+丰富模型参考+专业建模人员支持服务。在科技飞速发展的今天，人工智能领域的每一次突破都如同投入湖面的巨石，激起层层波澜。DeepSeek作为大模型领域的璀璨新星，以其卓越的技术实力和创新的应用模式，成为了全球瞩目的焦点，也为高校教育、企业发展都带来了前所未有的机遇与变革。当数据挖掘平台×DeepSeek强强联合，又会碰撞出怎样的火花呢？
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
【数据挖掘】Pandas之DataFrame dundunmm 数据挖掘机器学习数据挖掘大数据人工智能 pandas 机器学习
在Pandas中，DataFrame提供了丰富的数据操作功能，包括查询、编辑、分类和汇总。1.数据查询（Filtering&Querying）1.1按索引或列名查询importpandasaspddata={"ID":[101,102,103,104,105],"Name":["Alice","Bob","Charlie","David","Eva"],"Age":[25,30,35,40,28]
学生行为习惯画像可视分析平台 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
学生行为习惯，画像分析，可视化，机器学习，数据挖掘，教育科技1.背景介绍随着教育信息化进程的不断加速，海量教育数据正在被生成和积累。这些数据蕴含着丰富的学生行为信息，例如学习时间、学习内容、学习方式、学习效果等。有效挖掘和分析这些数据，能够帮助教育工作者深入了解学生的学习习惯和行为模式，从而为个性化教学、精准指导和学习效果提升提供重要支撑。然而，传统的教育数据分析方法往往局限于简单的统计描述，难以
用python制作简单的小游戏,用python设计一个小游戏 w12130826 pygame python 开发语言人工智能
本篇文章给大家谈谈python编写小游戏详细教程，以及用python制作简单的小游戏，希望对各位有所帮助，不要忘了收藏本站喔。Python为什么能这么火热？Python相对于其他语言来说比较简单，即使是零基础的普通人也能很快的掌握，在其他方面比如，处于灰色界的爬虫，要VIP的视频，小说，歌，没有爬虫解决不了的；数据挖掘及分析，淘宝就是例子，想开个淘宝店，需要获取相关商品信息，这时数据分析就能解决等
python和java的优缺点-java有哪些python没有的优点? weixin_37988176
Java和Python都是目前最火的后台语言。Java的使用时间更久，更成熟，Python语言更年轻，更便捷。两者各有各的优势：Python的优势：1.学起来简单，开发效率高，同样的功能用Java开发可能需要写200条代码，但是用Python只需要30~50条;2.在大数据挖掘方面有突出优势，是大数据分析首选的编程语言，Python可以让开发人员轻松表达概念，程序员维护和更新代码库更容易;3.Py
基于hive的电信离线用户的行为分析系统赵谨言论文经验分享毕业设计
标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于Hive的电信离线用户行为分析系统。通过收集电信用户的通话记录、上网行为、短信使用等多源数据，利用Hive数据仓库工具进行数据存储和处理，采用数据挖掘和机器学习算法对用户行为进行分析。实验结果表明，该系统
从数据中挖掘洞见：初探数据挖掘的艺术与科学 Echo_Wish 大数据数据挖掘人工智能
从数据中挖掘洞见：初探数据挖掘的艺术与科学在当今信息爆炸的时代，我们每天都被海量数据所包围。这些数据不仅记录了我们每天的生活轨迹，还蕴含着无数潜在的模式和洞见。作为大数据领域的自媒体创作者，我笔名Echo_Wish，在这篇文章中，我将带领大家初探数据挖掘的奥秘，揭示如何从数据中寻找隐藏的模式。什么是数据挖掘？数据挖掘（DataMining），顾名思义，就是从大量数据中“挖掘”出有价值的信息和模式。
数据分析学习目录且行且安~ 数据分析进阶之路 #数据分析目录数据分析
在未来5个月里，将会陪伴大家一起来学习关于数据分析的相关内容，包括从数据思维，数据工具（Excel，Mysql，Hive，Python），数据方法论，数据展示（Tableau,BI），数据挖掘、数据实战项目一整套的内容，同步会将可能用到的以及有用的知识点整理出来。内容会慢慢更新。如下为数据分析的整个目录一、数据分析思维与方法论1.1、从0-1搭建指标体系、用户标签体系1.1.1、指标体系搭建-专项
【数据挖掘】异构图与同构图 dundunmm 数据挖掘深度学习数据挖掘知识图谱人工智能
在图论（GraphTheory）中，异构图（HeterogeneousGraph）和同构图（HomogeneousGraph）是两种不同的图结构概念，它们的主要区别在于节点和边的类型是否单一。1.异构图（HeterogeneousGraph）定义：异构图是指节点类型和/或边类型不同的图，通常用于建模具有多种实体和关系的复杂系统。例如，在社交网络、知识图谱、生物网络等领域，数据往往包含多个类别的实体
机器学习笔记有涯小学生赵卫东机器学习笔记机器学习人工智能
1概述1.1简介机器学习（MachineLearning）是计算机科学的子领域，也是人工智能的一个分支和实现方式。“对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序在从经验E学习。”（汤姆·米切尔（TomMitchell），1997，MachineLearning）1.2机器学习、人工智能、数据挖掘从本质上看，数据科学的目标是通过处理各
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

二手车交易价格预测——特征工程（2） 生成适用于树，xgboostde的数据