qq_40723803

天池二手车价格预测比赛（二）——特征工程步骤

特征工程

1.删除特征中的异常值
2.特征构造

a.训练集和测试集放在一起，方便构造特征
b.使用时间（天数）特征构造

b-1.对 pd.to_datetime的使用
b-2.时间特征的构造
b-3.对 nan 的判断
b-4.判断并找出日期值 nan 的数据

c.从邮编中提取城市信息——相当于加入了先验知识
d.计算品牌特征的销售统计量

d-1.统计每个商标品牌对应的销售信息——数据分组操作
d-2.查看所有的特征值，并排序（对1-d array）
d-3.df的转置、重置index、修改列名、数据合并操作

e.特征分桶

e-1.特征分桶函数用法
e-2.power特征分桶
e-3.特征分桶的作用

f.数据保存——特征用于树模型

f-1.删除不需要的数据——drop操作
f-2.数据的压缩保存和读取

g.特征构造2——用于 LR NN 之类的模型

g-1.power特征的分布图
g-2.power特征的重新处理——取 log，并归一化
g-3.kilometer 特征的归一化
g-4.对新构造的统计量特征的归一化——不可用元素级函数 map、apply
g-5.类别特征的虚拟化——独热码
g-6.删除部分特征，保存数据

3.特征选择

a.过滤式特征选择
b.包裹式特征选择

b-1.基于 mlxtend 库进行特征选择
b-2.排查数据中的 NaN 和 inf

c.嵌入式特征选择

1.删除特征中的异常值

包装的异常值处理的代码，可以随便调用。

def outliers_proc(data, col_name, scale=3):
    """
    用于清洗异常值，默认用 box_plot（scale=3）进行清洗
    :param data: 接收 pandas 数据格式
    :param col_name: pandas 列名
    :param scale: 尺度
    :return:
    """
    def box_plot_outliers(data_ser, box_scale):
        """
        利用箱线图去除异常值
        :param data_ser: 接收 pandas.Series 数据格式
        :param box_scale: 箱线图尺度，
        :return:
        """
        # 判断标准：四分位距 * scale ！！！
        iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
        # 异常值判断的下界： 下四分位距 - 判断标准
        val_low = data_ser.quantile(0.25) - iqr
        # 异常值判断的上界： 上四分位距 + 判断标准
        val_up = data_ser.quantile(0.75) + iqr
        # 下界过滤一次，生成bool索引
        rule_low = (data_ser < val_low)
        # 上界过滤一次，生成bool索引
        rule_up = (data_ser > val_up)
        return (rule_low, rule_up), (val_low, val_up)

    data_n = data.copy()
    data_series = data_n[col_name]
    
    # 删除条件取并集，满足任何一个异常值删除标准都 ok
    rule, value = box_plot_outliers(data_series, box_scale=scale)
    # 根据 bool 索引找出被删除数据的 index
    index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
    print("被删除的异常值数量为: {}".format(len(index)))
    # 根据 index 删除对应的数据
    data_n = data_n.drop(index)
    data_n.reset_index(drop=True, inplace=True)
    print("删除异常特征值后，数据总量为: {}".format(data_n.shape[0]))
    
    # data_series 未被改动，对异常值进行统计描述
    index_low = np.arange(data_series.shape[0])[rule[0]]
    outliers = data_series.iloc[index_low]
    print("对小于异常值下界的异常特征值进行统计描述:")
    print(pd.Series(outliers).describe())
    index_up = np.arange(data_series.shape[0])[rule[1]]
    outliers = data_series.iloc[index_up]
    print("对大于异常值上界的异常特征值进行统计描述:")
    print(pd.Series(outliers).describe())
    
    # 绘制 某个特征 删除异常值前后的箱线图
    fig, ax = plt.subplots(1, 2, figsize=(10, 7))
    sns.boxplot(y=data[col_name], data=data, palette="Set1", ax=ax[0])
    sns.boxplot(y=data_n[col_name], data=data_n, palette="Set1", ax=ax[1])
    return data_n

可以删掉一些异常数据，以 power 为例，但是最终删不删自行判断
但是要注意只能删除训练集的数据， 测试集的数据不能删(掩耳盗铃)！！！

# 被删除的异常值数量为: 963
Train_data = outliers_proc(Train_data, 'power', scale=3)

2.特征构造

a.训练集和测试集放在一起，方便构造特征

测试集的 price 特征为 nan

Train_data['train'] = 1
Test_data['train'] = 0
# 默认 axis=0
data = pd.concat([Train_data, Test_data], ignore_index=True)
# (199037, 32)
print(data.shape)

b.使用时间（天数）特征构造

反应汽车使用时间，一般来说价格与使用时间成反比，公式为：data[‘creatDate’] - data[‘regDate’]

b-1.对 pd.to_datetime的使用

# 首先介绍日期格式于python的格式转化：
1/17/07 has the format "%m/%d/%y"
17-1-2007 has the format "%d-%m-%Y"

# 通过以上的格式，可以将DataFrame中的时间格式转换为以下等python格式：
0   2007-03-02
1   2007-03-22
2   2007-04-06
3   2007-04-14
4   2007-04-15
Name: date_parsed, dtype: datetime64[ns]

b-2.时间特征的构造

由于原数据有问题（部分时间并不是统一的格式），直接计算会报错，提醒年月日不匹配

# 报错：ValueError: time data '20070009' does not match format '%Y%m%d' (match)
data['used_time'] = (pd.to_datetime(data['creatDate'], format='%Y%m%d') - pd.to_datetime(data['regDate'], format='%Y%m%d')).dt.days

检索出报错的数据

# 有不少，几十个，除此之外，还有其他的错误格式 
data[data.regDate == 20070009]

针对日期格式不一致，正确的构造方式

# 加入参数errors，errors='coerce'
data['used_time'] = (pd.to_datetime(data['creatDate'], format='%Y%m%d', errors='coerce') - 
                            pd.to_datetime(data['regDate'], format='%Y%m%d', errors='coerce')).dt.days

b-3.对 nan 的判断

查看某个日期数据错误处理后的结果

data[14:15].used_time
> 14   NaN
> Name: used_time, dtype: float64

type(data[14:15].used_time.values[0])
> <class 'numpy.float64'>

b-4.判断并找出日期值 nan 的数据

不可行的尝试

data[14:15].used_time.values[0] == np.nan
> False

data[14:15].used_time.values[0] == nan
> NameError: name 'nan' is not defined

data[14:15].used_time.values[0] == 'NaN'
> False

data[14:15].used_time.values[0] == 'nan'
> False

data[14:15].used_time.values[0] == float('nan')
> False

可行的方法1

from math import isnan
isnan(data[14:15].used_time.values[0])
> True

# 但是该函数不可以直接用于整个series
data[ isnan(data['used_time']) ]
> TypeError: cannot convert the series to <class 'float'>

# 但是可以作用于Series的每个元素，生成一个bool类型的Series(dytpe=bool)，然后series进行过滤
data[ data['used_time'].apply(isnan) ]  # 15072 rows × 33 columns

可行的方法2

# isnull() 可以直接找出所有的缺失值，不需要知道缺失值的数据类型
data['used_time'].isnull().sum()  # 15072

数据中有 15072 个样本的时间是有问题的，我们可以选择删除，也可以选择放着。
但是这里不建议删除，因为删除缺失数据占总样本量过大，为7.5%。可以先放着，因为XGBoost 之类的决策树本身就能处理缺失值，所以可以不用管。

c.从邮编中提取城市信息——相当于加入了先验知识

其中第四个数据处理后不是缺失值（nan），而是空的字符串

data['regionCode'][:5]

data['regionCode'][:5].apply(lambda x : str(x)[:-3])

data['city'] = data['regionCode'].apply(lambda x : str(x)[:-3])
data.city.isnull().sum()
> 0
data.city[123808:123809].values[0] == ''
> True

d.计算品牌特征的销售统计量

针对训练集，也可以计算其他特征的统计量

d-1.统计每个商标品牌对应的销售信息——数据分组操作

# 分组结果不可直接查看，但可以迭代查看
Train_groups = Train_data.groupby("brand")
all_info = {}
# 对于每个商标种类和其对应的分组数据
for kind, kind_data in Train_groups:
    info = {}
    kind_data = kind_data[kind_data['price'] > 0]
    info['brand_amount'] = len(kind_data)
    info['brand_price_max'] = kind_data.price.max()
    info['brand_price_median'] = kind_data.price.median()
    info['brand_price_min'] = kind_data.price.min()
    info['brand_price_sum'] = kind_data.price.sum()
    info['brand_price_std'] = kind_data.price.std()
    # Series 自带的不包括求均值，round 四舍五入保留两位小数
    info['brand_price_average'] = round(kind_data.price.sum() / (len(kind_data) + 1), 2)
    all_info[kind] = info

# 数据展示： index是每个指标的名称，columns是商标名称（0-39）
pd.DataFrame(all_info)

d-2.查看所有的特征值，并排序（对1-d array）

a = data.brand.unique()
# sort方法不返回任何参数
a.sort()
a
> array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39], dtype=int64)

d-3.df的转置、重置index、修改列名、数据合并操作

brand_stats = pd.DataFrame(all_info).T.reset_index().rename(columns={"index": "brand"})
# 基于 brand 特征（on='brand')将 brand_stats 的数据合并到 data（how='left'）
data = data.merge(brand_stats, how='left', on='brand')

商标种类对应的数字本来就是0到39，重置 index后仍然不变（本来的index就是0到39，多余的一步）

e.特征分桶

e-1.特征分桶函数用法

用来把一组数据分割成离散的区间，并打上标签

# 部分默认参数如下：
pd.cut(x, bins, labels=None)

部分参数的含义
x：被切分的类数组（array-like）数据，必须是1维的（不能用DataFrame）；
bins：bins是被切割后的区间（或叫“桶”），有3种形式：一个int型的标量、标量序列（数组）或者pandas.IntervalIndex 。

一个int型的标量
当bins为一个int型的标量时，代表将x平分成bins份。x的范围在每侧扩展0.1%，以包括x的最大值和最小值。
标量序列
标量序列定义了被分割后每一个bin的区间边缘，此时x没有扩展，如 [1, 10, 100]。
pandas.IntervalIndex
定义要使用的精确区间。

labels：给分割后的bins打标签，但长度必须和划分后的区间长度相等，比如把年龄x分割成2个年龄段bins后，可以给年龄段打上诸如青年、中年的标签。如果指定labels=False，则返回x中的数据在第几个bin中（从0开始）。

e-2.power特征分桶

data.power.isnull().sum()
> 0

bin = [i*10 for i in range(31)]
data['power_bin'] = pd.cut(data['power'], bin, labels=False)
data[['power_bin', 'power']].head(3).append(data[['power_bin', 'power']].tail(3))

可以看到，有的特征被分到了NaN桶，包括小的特征值0和大的特征值334，而且缺失值也进桶了！！！

e-3.特征分桶的作用

做数据分桶的原因有很多（也有很多其他原因）：

离散后稀疏向量内积乘法运算速度更快，计算结果也方便存储，容易扩展；

离散后的特征对异常值更具鲁棒性，如 age>30 为 1 否则为 0，对于年龄为 200 的也不会对模型造成很大的干扰；

LR 属于广义线性模型，表达能力有限，经过离散化后，每个变量有单独的权重，这相当于引入了非线性，能够提升模型的表达能力，加大拟合；

离散后特征可以进行特征交叉，提升表达能力，由 M+N 个变量变成 M*N 个变量，进一步引入非线形，提升了表达能力；

特征离散后模型更稳定，如用户年龄区间，不会因为用户年龄长了一岁就变化

增强模型的泛化性能，如：LightGBM 在改进 XGBoost 时就增加了数据分桶，增强了模型的泛化性（与第二条的区别？？）

f.数据保存——特征用于树模型

f-1.删除不需要的数据——drop操作

drop函数

# 几个默认参数
DataFrame.drop(self, labels=None, axis=0, index=None, columns=None,  inplace=False)

1.是 DataFrame.drop 而不是 pd.drop
labels：single label or list-like
Index or column labels to drop（根据index删除行还是根据columns删除列）.
axis：, default 0
columns：single label or list-like
Alternative to specifying axis (labels, axis=1 is equivalent to columns=labels) 与axis搭配使用.
inplace：default False

data = data.drop(['creatDate', 'regDate', 'regionCode'], axis=1)
data.shape
> (199037, 39)

f-2.数据的压缩保存和读取

目前的数据其实已经可以给树模型使用了，将文件压缩保存，相比于csv格式，会剩一半内存（81M—32M）

# index=0，不保存行索引
data.to_csv('data_for_tree.gz', index=0)

index（是否保存行索引）: default True
header（是否保留列名）: default True
压缩数据的读取

pd.read_csv('data_for_tree.gz')

g.特征构造2——用于 LR NN 之类的模型

分开构造是因为不同模型对数据集的要求不同，LR、NN需要特征归一化和分类特征独热编码？？
此外，归一化（Normalization）、标准化（Standardization）和中心化/零均值化（Zero-centered）是不同的

g-1.power特征的分布图

# pandas作图，分布图是hist，而不是distplot
data['power'].plot.hist()

前面已经对 train 数据集进行异常值处理了，现在分布极其不均的原因是 test 数据集中的 power 异常值没被处理。所以刚刚 train 中的 power 异常值还是不删为好，可以用长尾分布截断来代替

 # 不能直接加载Train_data，需要进行异常值处理 ，否则也是分布极其不均
Train_data['power'].plot.hist()

g-2.power特征的重新处理——取 log，并归一化

对该特征取 log（原因？？），再做归一化，原始的 power 特征不再保留

对特征取 log

data['power'] = np.log(data['power'] + 1)

注：np.log 的结果仍是Series，而不是 array

特征的归一化——方法一，基于 numpy 的实现

data['power'] = ((data['power'] - np.min(data['power'])) / (np.max(data['power']) - np.min(data['power'])))
data['power'].plot.hist()

注：np.min(data[‘power’]) 的结果是个标量，所以会和 data[‘power’] 进行广播

特征的归一化——方法二，基于 sklearn 的实现

# fit 或者 transform 的数据必须是二维的，单独的一个特征列或元素需要reshape为(-1,1)或(1，)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit( data['power'].values.reshape(-1,1) )
# 序列要求数据是一维的
data['power'] = scaler.transform(data['power'].values.reshape(-1,1)).reshape(-1,)
data['power'].plot.hist()

注：sklearn 的 MinMaxScaler 方法处理的是二维数据，而特征取 log 后仍是Series，必须加 .values 转换为 numpy 后才有 reshape方法（一维转化为二维）

g-3.kilometer 特征的归一化

该特征分布比较正常，应该是已经做过分桶了

data['kilometer'].plot.hist()

该特征可以直接做归一化，分布图的形状没变化

data['kilometer'] = (   (data['kilometer'] - np.min(data['kilometer']) ) / 
                        ( np.max(data['kilometer']) - np.min(data['kilometer']))    )
data['kilometer'].plot.hist()

g-4.对新构造的统计量特征的归一化——不可用元素级函数 map、apply

def max_min_Normalization(x):
    """minmax归一化，极差变换，直接作用于series，而不是series的元素"""
    return (x - np.min(x)) / (np.max(x) - np.min(x))

stats_cols = ['brand_amount', 'brand_price_average', 'brand_price_max', 'brand_price_median', 
              'brand_price_min', 'brand_price_std', 'brand_price_sum']
for col in stats_cols:
    data[col] = max_min_Normalization(data[col])

注：series 的 map 是元素级函数，DataFrame中对应的是applymap()函数，当然 DataFrame 的 apply() 函数也是元素级函数

g-5.类别特征的虚拟化——独热码

data = pd.get_dummies(data, columns=['model', 'brand', 'bodyType', 'fuelType', 
					'gearbox', 'notRepairedDamage', 'power_bin'])
data.shape
> (199037, 370)

g-6.删除部分特征，保存数据

由于在取对数及归一化那里进行了两种方法，多生成了两组特征，尾缀分别是 _1 和 _2
方法一：特征挨个删除

for col in stats_cols:
    data.drop(axis=1, columns=[col + '_2'], inplace=True)
    data.drop(axis=1, columns=[col + '_1'], inplace=True)

方法二：特征整组删除，速度更快

# 对列表中的每个字符串元素进行相同的操作
stats_cols1 = [col + '_1' for col in stats_cols]
stats_cols2 = [col + '_2' for col in stats_cols]

data.drop(columns=stats_cols1, axis=1, inplace=True)
data.drop(columns=stats_cols2, axis=1, inplace=True)

删除单个特征

del data['power_log']

数据保存和再读取

data.to_csv('data_for_lr.gz', index=0)
data = pd.read_csv('data_for_lr.gz')

3.特征选择

a.过滤式特征选择

每个数值特征与预测目标相关性分析

print(data['power'].corr(data['price'], method='spearman'))
print(data['kilometer'].corr(data['price'], method='spearman'))
print(data['brand_amount'].corr(data['price'], method='spearman'))
print(data['brand_price_average'].corr(data['price'], method='spearman'))
print(data['brand_price_max'].corr(data['price'], method='spearman'))
print(data['brand_price_median'].corr(data['price'], method='spearman'))

注意：上面是两个 series之间求相关矩阵

绘制 df 的相关矩阵热力图

data_numeric = data[['power', 'kilometer', 'brand_amount', 'brand_price_average', 
                     'brand_price_max', 'brand_price_median', 'price']]
correlation = data_numeric.corr()

# plt 设置画板，sns 作图
f, ax = plt.subplots(figsize = (7, 7))
plt.title('Correlation of Numeric Features with Price', y=1, size=16)
sns.heatmap(correlation, square = True, vmax=0.8, annot=True, fmt='.3f')

b.包裹式特征选择

b-1.基于 mlxtend 库进行特征选择

原始方法

# pip 下载 mlxtend 库，速度很快
from mlxtend.feature_selection import SequentialFeatureSelector as SFS
from sklearn.linear_model import LinearRegression
sfs = SFS(LinearRegression(),
           k_features=10,  # 选择10个特征，怎么选的？
           forward=True,
           floating=False,
           scoring = 'r2',
           cv = 0)
# 去除预测目标和填充缺失值，并未改变 data 数据
x = data.drop(['price'], axis=1)  
x = x.fillna(0)
y = data['price']
sfs.fit(x, y)
sfs.k_feature_names_

存在问题：只是填充了特征中的缺失值，但是没有填充预测目标的缺失值，所以报错：ValueError: Input contains NaN, infinity or a value too large for dtype(‘float64’).

新的方法

# 前面都一致，不同点在后面
x = data.drop(['price'], axis=1)  
x = x.fillna(0)
y = data['price'].fillna(0)
sfs.fit(x, y)
sfs.k_feature_names_

将特征选择结果绘制出来，可以看到边际效益

from mlxtend.plotting import plot_sequential_feature_selection as plot_sfs
import matplotlib.pyplot as plt
fig1 = plot_sfs(sfs.get_metric_dict(), kind='std_dev')
plt.grid()
plt.show()

b-2.排查数据中的 NaN 和 inf

排查NaN

a = data.fillna(0).isnull().sum()
a[a > 0]
b = np.isnan(data.fillna(0)).sum()
b[b > 0]

> Series([], dtype: int64) # 结果一致，都没有

排查inf

# False:不包含，所以加总和应该为样本数量，判断的标准应该是0
c = np.isfinite(data.fillna(0)).sum()
c[c == 0]
# True:包含,判断的标准应该大于0
d = np.isinf(data.fillna(0)).sum()
d[d > 0]

> Series([], dtype: int64) # 结果一致，都没有

类似的函数还有

# 正无穷(np.inf)和负无穷(-np.inf)
np.isneginf 
np.isposinf

刚开始忘记找预测目标里的缺失值，导致一直找不到任何缺失值和无穷大值，所以对报错很不解！！

c.嵌入式特征选择

下一章介绍，Lasso 回归和决策树可以完成嵌入式特征选择

参考：
[1] https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.1cd8593aK2i841&postId=95501

你可能感兴趣的:(天池二手车价格预测比赛（二）——特征工程步骤)

【大模型】ChatGPT 打造个人专属GPTs助手使用详解小码农叔叔 AI大模型实战与应用 ChatGPT GPTs ChatGPT GPTs配置 ChatGPT GPTs使用 ChatGPT GPTs总结 GPTs使用详解 GPTs配置详解 GPTs
目录一、前言二、GPTs介绍2.1GPTs是什么2.2GPTs工作原理2.3GPTs主要功能2.4GPTs应用场景2.5GPTs优缺点三、GPTs创建个人专属应用操作过程3.1内置GPTs模板3.1.1内置GPTs使用过程3.2手动配置方式创建GPTs3.2.1创建过程3.3使用对话方式创建GPTs3.3.1操作过程3.4GPTs上传文档3.5GPTs操作补充3.6高频常用内置GPTs推荐四、写在
【大模型】百度千帆大模型对接LangChain使用详解小码农叔叔 AI大模型实战与应用 LangChain使用详解 LangChain对接千帆 LangChain组件使用详解 LangChain使用 LangChain组件使用 LangChain组件 LangChain
目录一、前言二、LangChain架构与核心组件2.1LangChain核心架构2.2LangChain核心组件三、环境准备3.1前置准备3.1.1创建应用并获取apikey3.1.2开通付费功能3.2获取LangChain文档3.3安装LangChain依赖包四、百度千帆大模型对接LangChain4.1LLMS大语言模型能力使用4.1.1代码操作演示4.2Chatmodels能力使用4.2.1
【AI大模型】Prompt 提示词工程使用详解小码农叔叔 AI大模型实战与应用 Prompt 提示词工程使用 Prompt提示词工程 Prompt 提示词 Prompt使用详解 Prompt prompt使用总结 Prompt使用总结
目录一、前言二、Prompt提示词工程介绍2.1Prompt提示词工程是什么2.1.1Prompt构成要素2.2Prompt提示词工程有什么作用2.2.1Prompt提示词工程使用场景2.3为什么要学习Prompt提示词工程三、Prompt提示词工程元素构成与操作实践3.1前置准备3.2Prompt基本结构介绍与使用3.2.1明确指令3.2.2提供必要的原始内容3.2.3提供背景参考四、Promp
重生之我在异世界学编程之算法与数据结构：深入堆篇就爱学编程数据结构与算法算法数据结构 c语言
大家好，这里是小编的博客频道小编的博客：就爱学编程很高兴在CSDN这个大家庭与大家相识，希望能在这里与大家共同进步，共同收获更好的自己！！！本文目录正文一、堆的基本概念二、堆的存储表示三、堆的基本操作1.插入元素（Insert）2.删除最大/最小值（ExtractMax/Min）3.构建堆（BuildHeap）四、源码（1）heap.h（2）heap.c（3）Test.c五、堆的应用1.优先队列2
mysql窗口函数（保姆级文档）文学者 mysql mysql 数学建模数据库
mysql窗口函数第一步：创建数据库第二步：创建表格第三步：插入数据第四步:窗口函数1、序号函数2、其他函数3、头尾函数4、聚合函数5、分布函数6、前后函数第一步：创建数据库CREATEDATABASEjwdgUSE`jwdg`;第二步：创建表格DROPTABLEemployee;CREATETABLEemployee(employee_idINTPRIMARYKEY,--员工idemployee
python和PLC通信（以太网modbustcp） weixin_51506576 python 开发语言自动化
要在Python中与PLC建立通信，通常需要进行以下步骤流程：1.确定PLC的通信协议：不同的PLC厂商和型号可能采用不同的通信协议，例如Modbus、OPCUA、Profinet等。请先确定您的PLC使用的是哪种通信协议（本文为modbustcp）。2.安装相应的Python库：根据您所选择的PLC通信协议，在Python中安装相应的库。例如，如果使用Modbus协议，可以安装`pymodbus
时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
大模型的部署方法三：使用Xinference部署大模型微调部署人工智能 AI大模型大模型 AI 深度学习大模型部署
Xinference是一个分布式推理框架，它支持一键部署各种模型，包括大型语言模型（LLMs）。使用Xinference部署AI大模型的步骤：一、安装Xinference1）环境准备：确保您的系统上安装了Python3.9或以上版本。安装Docker（如果选择使用Docker部署）。2）安装Xinference：通过Python的包管理工具pip安装Xinference：pipinstall"xi
【OpenAI】获取OpenAI API Key的两种方法，从入门到精通的详解教程！ senger_lcc ai AI编程
文章目录OpenAIAPIKey的使用场景方式一：通过“OpenAI官网”获取APIKey（国外）步骤1：访问OpenAI官网步骤2：创建或登录账户步骤3：进入API管理界面步骤4：生成新的APIKey使用OpenAIAPI代码方式二：通过“CodeMoss”获取APIKey（国内）步骤1：访问CodeMoss工具步骤2：进入API管理界面步骤3：生成新的APIKey使用OpenAIAPI的实战教
IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性 Jackie_AI 计算机视觉 stable diffusion 自然语言处理语言模型 Imagen
IGModel——提高基于GNN与Attention机制的方法在药物发现中的实用性导言深度学习在药物发现（发现治疗药物）领域的应用以及传统方法面临的挑战。药物（尤其是我们将在本文中讨论的被称为抑制剂的药物）通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此，在设计药物时，必须优化这些结合的亲和力和药理特性，并准确预测蛋白质与药物之间的相互作用。近年来，人们尤其提倡使用
Spring Boot 各种事务操作实战(自动回滚、手动回滚、部分回滚） m0_74825108 spring boot java 数据库
概念事务定义事务，就是一组操作数据库的动作集合。事务是现代数据库理论中的核心概念之一。如果一组处理步骤或者全部发生或者一步也不执行，我们称该组处理步骤为一个事务。当所有的步骤像一个操作一样被完整地执行，我们称该事务被提交。由于其中的一部分或多步执行失败，导致没有步骤被提交，则事务必须回滚到最初的系统状态。事务特点原子性：一个事务中所有对数据库的操作是一个不可分割的操作序列，要么全做要么全不做一致性
如何有效控制 KV 缓存的内存占用，优化推理速度？ m0_70960708 笔记缓存
使用KV缓存技术的目的是在生成过程中计算过去tokens的键和值张量时，将这些张量存储（“缓存”）在GPU内存中，从而避免在每个生成步骤中重新计算这些tokens的键和值张量。KV缓存是一种妥协：我们以内存的消耗换取计算量的减少。在这篇文章中，我们将了解KV缓存的容量有多大、会带来哪些挑战，以及面对这些挑战最常用的应对策略是什么。01KV缓存的容量有多大？这相当简单：对于每个batch中每个序列的
基于大数据的商品推荐系统的设计与实现 JAVA编码选手个人作品案例展示分享大数据 spring boot maven vue.js 后端 javascript
摘要在当今互联网时代，随着电子商务的快速发展，各行各业都面临着海量数据的挑战和机遇，电子商务极大地改变了商业运作的方式，为消费者和企业带来了前所未有的便利和机会。该毕业设计以京东商品数据为来源，设计与实现基于大数据的电商商品推荐系统。通过对电商商品数据进行深度挖掘，可以发现消费趋势、产品热门度、价格以及地区差异等信息，为市场营销和产品策略提供重要参考。利用Java语言及SpringBoot框架、M
Arm64架构的Linux服务器安装tomcat并部署war包木枫Free 服务器架构 linux tomcat arm 运维
一、下载Tomcat打开浏览器，访问ApacheTomcat官方网站。在下载页面中，选择适合arm64架构的版本。一般来说，可以选择Tomcat的二进制发行版（BinaryDistributions）中的.tar.gz压缩包。我这里下载的是tomcat9二、安装Tomcat将下载的Tomcat压缩包上传到欧鹏操作系统的服务器上，或者使用命令行工具（如wget）直接下载到服务器上。解压Tomcat压
欧派家居被下调盈利预测：销售费用创新高，零售经销渠道压力不小港湾商业观察用户运营
《港湾商业观察》王璐在房地产等多重因素冲击之下，上半年不少家居上市公司交出的业绩答卷都不尽理想，这其中也包括了消费者所熟知的“家居一哥”欧派家居（603833.SH）。从2023年下半年开始，胡歌的代言令全民对欧派家居印象更加深刻。上个月的中秋节时，欧派携手胡歌发布的2分钟10秒短片《明月如家》，也引发诸多关注。然而，种种措施似乎依然未能止住双位数下滑的业绩走势，欧派家居下半年可谓挑战重重。零售经
华为HCIE面试问题-基于丢包问题处理步骤 eNSPLAB 华为HCIE面试问题华为面试职场和发展课程设计计算机网络安全网络
文章目录思路定位1、流控方式统计丢包类型1.1拓扑图1.2原理讲解2、延迟问题2.1拓扑图2.2背景2.3原因2.4解决办法3、友商设备pingAR设备存在丢包，AR设备ping友商设备不丢包3.1原因3.2解决办法思路定位1、流控方式统计丢包类型1.1拓扑图1.2原理讲解R1与R2进行ping测试，使用ACL抓报文，用流统界定问题，配置如下：Aclnumber3333//配置ACLRule10p
python PLC_IP协议 Modbus应用(一） Kamach_83 tcp/ip 网络 python 模块测试
在Python中与PLC建立通信，通常需要进行以下步骤：1.确定PLC的通信协议：不同的PLC厂商和型号可能采用不同的通信协议，例如Modbus、OPCUA、Profinet等。需要确定您的PLC使用的是哪种通信协议（本文为modbustcp）。2.安装相应的Python库：根据您所选择的PLC通信协议，在Python中安装相应的库。本文使用Modbus协议，故安装`pymodbus`库3.连接到
C语言编程笔记：文件处理的艺术就爱学编程新星杯 c语言笔记开发语言
大家好，这里是小编的博客频道小编的博客：就爱学编程很高兴在CSDN这个大家庭与大家相识，希望能在这里与大家共同进步，共同收获更好的自己！！！本文目录引言正文一、为什么要用文件二、文件的分类三、文件指针四、文件的打开与关闭1.文件的打开2.文件的关闭五、文件缓冲区六、文件的基本操作（1）打开文件（2）关闭文件（3）检测文件末尾和错误（4）清除文件错误标志七、顺序读写文件（1）字符级操作函数fgetc
为什么你的网站总是有安全漏洞 16年上任的CTO 网络安全安全漏洞网络安全 web安全安全性测试前端服务器
目录一、什么是安全漏洞二、安全漏洞的一般表象1.网站瘫痪2.链接指向篡改3.数据篡改4.挂入黑链5.信息泄露6.横向攻击7.流量损耗8.其他现象三、造成安全漏洞的原因1.SQL注入漏洞2.验证码前端校验3.表单重复提交4.文件上传格式校验不合格5.第三方框架的固有漏洞6.密码缺省7.端口开放太多8.Options不过滤9.XSS，CSRF漏洞10.X-Frame-Options劫持11.HTTP获
Python 中 PIL 构建图片裁剪工具 winfredzhang python crop
概述这篇博客将为您展示如何使用wxPython和PIL库开发一个图片裁剪工具。本工具能够加载图片，允许用户通过拖拽选择框裁剪图片，并保存裁剪后的结果。以下是完整代码和实现步骤。C:\pythoncode\new\cropimageandsave.py功能特性图片加载：支持加载JPG和PNG格式的图片。动态裁剪：通过鼠标绘制矩形选择框进行裁剪。缩放适配：图片会根据面板大小自动缩放显示。保存裁剪结果：
Oracle数据库恢复时要建库吗_Oracle数据ASM实例不能mount怎么恢复数据 weixin_39624461
一、数据库故障描述今天给大家分享一个Oracle数据库故障数据恢复案例，数据库故障表现为ASM磁盘组掉线，ASM实例不能mount。数据库管理员自己尝试进行简单的数据库修复后没有成功，于是联系到北京当地的数据恢复公司进行数据库的数据恢复操作。二、数据库故障分析方法数据库数据恢复工程师首先对底层的磁盘进行分析，通过分析组成ASM磁盘组的磁盘将ASM元数据提取出来进行进一步的分析。通过数据库工程师进一
mysql+binlog+查看+加密,mysql查看binlog日志疯疯疯狂的野兔
MySQL的二进制日志可以说是MySQL最重要的日志了，它记录了所有的DDL和DML(除了数据查询语句)语句，以事件形式记录，还包含语句所执行的消耗的时间，MySQL的二进制日志是事务安全型的。一般来说开启二进制日志大概会有1%的性能损耗(参见MySQL官方中文手册5.1.24版)。二进制有两个最重要的使用场景:其一：MySQLReplication在Master端开启binlog，Mster把它
ubuntu安装Redis详细教程开机重启大熊苏尔 ubuntu redis linux 运维服务器
我整理的一些关于【Ubuntu】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/f2PFnNUbuntu安装Redis详细教程（开机自动重启）在这篇文章中，我将带你通过一个详细的过程，帮你在Ubuntu系统上安装Redis，并设置为开机自动启动。下面我们将通过一个表格概述整个流程，然后深入每一步的具体操作。整体流程步骤操作1更新系统包2安装Redis3
杨建：网站加速--服务器编写篇黄传通服务器 centos buffer server tcp 多线程
杨建：网站加速--服务器编写篇（上）--提升性能的同时为你节约10倍以上成本From:http://blog.sina.com.cn/iyangjian一，如何节约CPU二，怎样使用内存三，减少磁盘I/O四，优化你的网卡五，调整内核参数六，衡量WebServer的性能指标七，NBAjs直播的发展历程八，新浪财经实时行情系统的历史遗留问题(7byte=10.68wRMB/year)---------
岭回归预测PM2.5 qianjinwang python
#-*-coding:utf-8-*-#@File:demo2.py#@Author:CJH#@Date:2019/4/9#@Software:PyCharm#@Desc:天气PM2.5预测importcsvimportnumpyasnpfromnumpyimport*importmatplotlib.pyplotaspltfromsklearnimportlinear_modeltraining
Python中Cache的使用爬虫俗手小马达 python 开发语言缓存
文章目录一、缓存的基础概念二、基础使用三、进阶使用四、外部缓存工具五、缓存的注意事项一、缓存的基础概念缓存（Cache）是一种在应用程序中提升性能的技术，它通过将一些数据临时存储在快速访问的存储介质（如内存）中，以减少数据的重复计算或重复读取。通常，缓存用于存储一些昂贵计算或IO密集型操作的结果，从而加快程序的执行速度。在Python中，缓存通常用于函数的输出、API请求的结果、数据库查询、文件读
Python学习：Pandas库使用（二）之读写Excel文件——read_excel()和to_excel()函数及其参数详解爬虫俗手小马达 python 学习 pandas
在Python的Pandas库中，读取和写入Excel文件主要使用read_excel和to_excel函数。以下是详细用法和示例：1.读取Excel文件：pd.read_excel()importpandasaspd#读取Excel文件df=pd.read_excel('文件路径.xlsx',sheet_name='Sheet1',header=0,usecols='A:C',skiprows=
2025 年成为 AI 独立开发者的 3 个步骤程序员陆通人工智能
2025年成为AI独立开发者的3个步骤每天拆解一个AI应用或模型功能选择一个热门的AI应用或开源模型（如ChatGPT、MidJourney、Whisper），深度体验其核心功能，分析背后的技术实现。用笔记工具记录其亮点、缺点，以及你认为可以改进的地方。思考如何通过自己的开发能力优化这些功能，形成自己的产品思路。每天学习1小时AI开发相关技能针对独立开发者需要的核心技能，每天学习一点点，比如：如何
人工智能之数学基础：一个小例子帮你快速搞懂极大线性无关向量组每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能线性代数机器学习极大线性无关向量组深度学习神经网络
本文重点在上一节课程中，我们学习了线性相关和线性无关。当线性相关的时候，那么说明这组向量至少存在一个向量可以被其它向量给表示，可以被表示就说明这个向量就是可有可无的，可以被替代的，这里就涉及到极大线性无关向量组的概念了，本文对此进行学习。极大无关向量组的定义与性质定义在线性空间中，如果存在一个向量组，它满足以下两个条件：一是它本身是线性无关的；二是向量空间中的任何包含它的向量组，如果仍然保持线性无
FLASK+VUE--前后端分离（三）- VUE+Element-UI搭建登陆页面且能够正常登陆 begefefsef 前端 html css css3 前端
FLASK+VUE–前后端分离（一）-Flask基础讲解之路由、视图函数及代码实现FLASK+VUE–前后端分离（二）-VUE基础安装及项目的简易介绍FLASK+VUE–前后端分离（三）-VUE+Element-UI搭建登陆页面且能够正常登陆FLASK+VUE–前后端分离（四）-VUE+Element-UI简单搭建主页布局FLASK+VUE–前后端分离（五）-VUE测试/线上/开发环境地址配置+拦
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &