DreamStar_w

Datawhale 数据挖掘新手入门笔记 -Task4 建模调参

文章目录

- 一、前言
- 二、学习目标
- 三、学习过程
- - 1.相关原理介绍与推荐
  - - （1）线性回归
    - (2)决策树(Decision Tree)
    - （3）GBDT模型
    - (4)XGBoost模型
    - (5)LightGBM模型
  - 2.读取数据
  - 3. 线性回归 & 五折交叉验证 & 模拟真实业务情况
  - - （1）简单建模
    - (2)五折交叉验证
    - (3)模拟真实业务情况
    - （4）绘制学习率曲线与验证曲线
  - 4.多种模型对比
  - - (1)线性模型&嵌入式特征选择
    - (2)非线性模型
  - 5.模型调参
  - - （1）贪心调参
    - （2）Grid Search调参
    - （3）贝叶斯调参
- 三、后记

一、前言

感谢Datawhale的给出的学习指南：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.1cd81b43dZv7yn&postId=95460
下面的数据主要都是基于零基础入门数据挖掘 - 二手车交易价格预测的比赛：https://tianchi.aliyun.com/competition/entrance/231784/information

二、学习目标

了解常用的机器学习模型，并掌握机器学习模型的建模与调参流程
完成相应学习打卡任务

三、学习过程

1.相关原理介绍与推荐

（1）线性回归

线性回归是一种被广泛应用的回归技术，也是机器学习里面最简单的一个模型，它有很多种推广形式。
本质上是一系列特征的线性组合。在二维空间中，可以视它为一条直线。在三维空间中，可以视为一个平面。
线性回归最普通的形式是：f(x)=w’x+b
x向量代表一条样本{x1,x2,x3…xn}，其中x1,x2,x3代表样本的各个特征。
w是一条向量代表了每个特征所占的权重。
b是一个标量代表特征都为0时的预测值，可以视为模型的basis或bias

参考：https://zhuanlan.zhihu.com/p/49480391

(2)决策树(Decision Tree)

在已知各种情况发现概率的基础上，通过构成决策树来求取净现值的期望值大于等于0的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。
由于这种决策分支画成图像很想一棵树的枝干，故称决策树。
决策树是一种预测模型，代表对象属性与对象值之间的一种映射关系。
决策树也是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
一个决策树包含：
1. 决策节点：通常用矩形框来表示。
2. 机会节点：通常用圆圈来表示。
3. 终结点：通常用三角形来表示。

（3）GBDT模型

GBDT模型是一个集成模型，是以决策树（CART）为基学习器的GB算法，是迭代数。
Goost是“提升”的意思，一般Boosting算法都是一个迭代的过程，每次新的训练都是为了改进上次的结果。
GBDT的核心在于：每棵树学的是之前所有树结论和的残差。
CART树是一个决策树模型，与普通的ID3和C4.5相比，
CART树的主要特征是：
1. 一个二分树
2. 每个节点特征取值为“是”和“不是”。

参考：https://zhuanlan.zhihu.com/p/45145899

参考：https://www.zhihu.com/topic/20066371/top-answers

(4)XGBoost模型

XGBoost是一套提升树可拓展的机器学习系统。
XGBoost的可信算法思想：
1. 不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。
2. 当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子结点，每个叶子结点就对应一个分数。
3. 最后只需要将每棵树对应的分数加起来就是该样本的预测值。
类似之前GBDT的套路，XGBoost也是需要将多棵树的得分累加得到最终的预测得分（每一次迭代，都在现有树的基础上，增加一棵树去拟合前面树的预测结果与真实值之间的残差）。

参考：https://www.cnblogs.com/mantch/p/11164221.html

参考：https://www.jianshu.com/p/a62f4dce3ce8

(5)LightGBM模型

LightGBM采用leaf-wise生长策略，每次从当前所有叶子中找到分裂增益最大（一般也是数据量最大）的一个叶子，然后分裂，如此循环。
LightGBM的优化方法是，在保留大梯度样本的同时，随机地保留一些小梯度样本，同时放大了小梯度样本带来的信息增益。
- 这样说起来比较抽象，我们过一遍流程：首先把样本按照梯度排序，选出梯度最大的a%个样本，然后在剩下小梯度数据中随机选取b%个样本，在计算信息增益的时候，将选出来b%个小梯度样本的信息增益扩大 1 - a / b 倍。这样就会避免对于数据分布的改变。
- 这给我的感觉就是一个公寓里本来住了十个人，感觉太挤了，赶走了六个人，但剩下的四个人要分摊他们六个人的房租。

-参考： https://zhuanlan.zhihu.com/p/89360721

参考：https://www.biaodianfu.com/lightgbm.html

2.读取数据

import pandas as pd 
import numpy as np 
import warnings 
warnings.filterwarnings('ignore')

warnings.filterwarnings():过滤警告，在警告过滤器规则列表中插入一个条目。
- warnings.filterwarnings(‘ignore’)：忽略匹配的警告。

def reduce_mem_usage(df):
    """ iterate through all the columns of a dataframe and modify the data type
        to reduce memory usage.
    """
    start_mem = df.memory_usage().sum()
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')
                
    end_mem = df.memory_usage().sum()
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    return df

reduce_mem_usage 函数通过调整数据类型，帮助我们减少数据在内存中占用的空间

sample_feature = reduce_mem_usage(pd.read_csv('data_for_tree.csv'))

Memory usage of dataframe is 62099624.00 MB
Memory usage after optimization is: 16520255.00 MB
Decreased by 73.4%

continuous_feature_names = [x for x in sample_feature.columns if x not in ['price','brand','model']]

3. 线性回归 & 五折交叉验证 & 模拟真实业务情况

sample_feature = sample_feature.dropna().replace('-', 0).reset_index(drop=True) 
sample_feature['notRepairedDamage'] = sample_feature['notRepairedDamage'].astype(np.float32) 
train = sample_feature[continuous_feature_names + ['price']]

train_X = train[continuous_feature_names] 
train_y = train['price']

sample_feature.dropna():删除缺失值

sample_feature.dropna().replace(’-’, 0).reset_index(drop=True):删除缺失值后，将有‘-’的位置替换成0，把原来的索引index列去掉

sample_feature[‘notRepairedDamage’].astype(np.float32):做强制类型转换

（1）简单建模

from sklearn.linear_model import LinearRegression
model = LinearRegression(normalize=True)

LinearRegression():普通最小二乘线性回归。normalize为True，回归前对回归量x进行归一化处理。

model = model.fit(train_X, train_y)

model.fit(X, y, sample_weight=None):拟合线性模型。
- 参数X：数组类或稀疏矩阵 -->训练数据
- 参数y：数组类 -->目标价值
- 参数sample_weight=None：每个样本的独立权值。

'intercept:'+ str(model.intercept_)
sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)

[('v_6', 3367064.341641862),
 ('v_8', 700675.5609398965),
 ('v_9', 170630.27723222625),
 ('v_7', 32322.66193204228),
 ('v_12', 20473.670796959854),
 ('v_3', 17868.079541492534),
 ('v_11', 11474.938996713121),
 ('v_13', 11261.76456001184),
 ('v_10', 2683.920090588445),
 ('gearbox', 881.822503924815),
 ('fuelType', 363.9042507216377),
 ('bodyType', 189.60271012071905),
 ('city', 44.94975120523428),
 ('power', 28.55390161675822),
 ('brand_price_median', 0.5103728134078572),
 ('brand_price_std', 0.4503634709263408),
 ('brand_amount', 0.14881120395067576),
 ('brand_price_max', 0.0031910186703164602),
 ('SaleID', 5.355989919853865e-05),
 ('offerType', 4.058936610817909e-06),
 ('train', -2.3469328880310059e-07),
 ('seller', -1.482432708144188e-06),
 ('brand_price_sum', -2.1750068681879964e-05),
 ('name', -0.0002980012713079153),
 ('used_time', -0.002515894332888446),
 ('brand_price_average', -0.4049048451011004),
 ('brand_price_min', -2.2467753486895097),
 ('power_bin', -34.42064411732811),
 ('v_14', -274.7841180773582),
 ('kilometer', -372.89752666071536),
 ('notRepairedDamage', -495.1903844629893),
 ('v_0', -2045.054957354484),
 ('v_5', -11022.986240434542),
 ('v_4', -15121.731109853818),
 ('v_2', -26098.299920531143),
 ('v_1', -45556.18929728326)]

sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True):代表将continuous_feature_names和model.coef_打包成元祖，放在字典中后变成列表。在排序的时候将model.coef_作为排序对象，并且是倒序排列。

查看训练的线性回归模型的截距（intercept）与权重(coef)

from matplotlib import pyplot as plt
subsample_index = np.random.randint(low=0, high=len(train_y), size=50)

np.random.randint(low=0, high=len(train_y), size=50):返回从low(包括)到high(不包括)的随机整数。其中，从分布中提取的最低值为0，最高值为train_y的长度，提取的个数为50.

plt.scatter(train_X['v_9'][subsample_index], train_y[subsample_index], color='black') 
plt.scatter(train_X['v_9'][subsample_index], model.predict(train_X.loc[subsample_index]), color='blue')
plt.xlabel('v_9') 
plt.ylabel('price') 
plt.legend(['True Price','Predicted Price'],loc='upper right') 
print('The predicted price is obvious different from true price') 
plt.show()

The predicted price is obvious different from true price

绘制特征v_9的值与标签的散点图，图片发现模型的预测结果（蓝色点）与真实标签（黑色点）的分布差异较大，且部分预测值出现了小于0的情况，说明我们的模型存在一些问题

import seaborn as sns
print('It is clear to see the price shows a typical exponential distribution')
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
sns.distplot(train_y)
plt.subplot(1,2,2)
sns.distplot(train_y[train_y < np.quantile(train_y, 0.9)])

It is clear to see the price shows a typical exponential distribution

第一个图是有全部的train_y的数据，第二个图是计算出train_y小于train_y按从小到大排序的的第90百分位数的所有train_y的数

通过作图我们发现数据的标签（price）呈现长尾分布，不利于我们的建模预测。原因是很多模型都假设数据误差项符合正态分布，而长尾分布的数据违背了这一假设。参考博客：https://blog.csdn.net/Noob_daniel/article/details/76087829

train_y_ln = np.log(train_y + 1)

在这里我们对标签进行了 log(x+1) 变换，使标签贴近于正态分布

import seaborn as sns
print('The transformed price seems like normal distribution')
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
sns.distplot(train_y_ln)
plt.subplot(1,2,2)
sns.distplot(train_y_ln[train_y_ln < np.quantile(train_y_ln, 0.9)])

The transformed price seems like normal distribution

model = model.fit(train_X, train_y_ln)

print('intercept:'+ str(model.intercept_))
sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)

intercept:18.75074946557286





[('v_9', 8.052409900568154),
 ('v_5', 5.764236596653902),
 ('v_12', 1.6182081236781853),
 ('v_1', 1.479831058297011),
 ('v_11', 1.1669016563603853),
 ('v_13', 0.9404711296032395),
 ('v_7', 0.7137273083565033),
 ('v_3', 0.6837875771077901),
 ('v_0', 0.008500518010088588),
 ('power_bin', 0.008497969302894976),
 ('gearbox', 0.007922377278324315),
 ('fuelType', 0.006684769706823328),
 ('bodyType', 0.00452352009270419),
 ('power', 0.0007161894205356782),
 ('brand_price_min', 3.3343511147486766e-05),
 ('brand_amount', 2.8978797042770635e-06),
 ('brand_price_median', 1.2571172873034594e-06),
 ('brand_price_std', 6.659176363444686e-07),
 ('brand_price_max', 6.194956307514967e-07),
 ('brand_price_average', 5.999345965034972e-07),
 ('SaleID', 2.1194170039643388e-08),
 ('seller', 1.000444171950221e-10),
 ('train', -4.547473508864641e-13),
 ('offerType', -8.637357495899778e-11),
 ('brand_price_sum', -1.5126504215913738e-10),
 ('name', -7.015512588892976e-08),
 ('used_time', -4.122479372350753e-06),
 ('city', -0.002218782481041604),
 ('v_14', -0.004234223418112898),
 ('kilometer', -0.01383586622688241),
 ('notRepairedDamage', -0.2702794234984524),
 ('v_4', -0.8315701200993837),
 ('v_2', -0.9470842241612685),
 ('v_10', -1.6261466689777442),
 ('v_8', -40.343007487616696),
 ('v_6', -238.7903638550667)]

plt.scatter(train_X['v_9'][subsample_index], train_y[subsample_index], color='black')
plt.scatter(train_X['v_9'][subsample_index], np.exp(model.predict(train_X.loc[subsample_index])), color='blue')
plt.xlabel('v_9')
plt.ylabel('price')
plt.legend(['True Price','Predicted Price'],loc='upper right')
print('The predicted price seems normal after np.log transforming')
plt.show()

The predicted price seems normal after np.log transforming

再次进行可视化，发现预测结果与真实值较为接近，且未出现异常状况

(2)五折交叉验证

在使用训练集对参数进行训练的时候，经常会发现人们通常会将一整个训练集分为三个部分（比如mnist手写训练集）。一般分为：训练集（train_set），评估集（valid_set），测试集（test_set）这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集很好理解，其实就是完全不参与训练的数据，仅仅用来观测测试效果的数据。而训练集和评估集则牵涉到下面的知识了。

因为在实际的训练中，训练的结果对于训练集的拟合程度通常还是挺好的（初始条件敏感），但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练，而是分出一部分来（这一部分不参加训练）对训练集生成的参数进行测试，相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证（Cross Validation）

from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_absolute_error,  make_scorer

def log_transfer(func):
    def wrapper(y, yhat):
        result = func(np.log(y), np.nan_to_num(np.log(yhat)))
        return result
    return wrapper

scores = cross_val_score(model, X=train_X, y=train_y, verbose=1, cv = 5, scoring=make_scorer(log_transfer(mean_absolute_error)))

cross_val_score():通过交叉检验来评估分数。其中参数x为数据；y为预测数据；verbose为详细程度；cv为交叉验证生成器或可迭代的次数;scoring中创建一个记分员，并将mean_absolute_error函数（评价绝对误差回归损失）传入函数log_transfer

平均绝对误差：表示预测值和观测值之间绝对误差的平均值。因此wrapper中的y就是预测值，yhat就是观测值（真实值）。

print('AVG:', np.mean(scores))

AVG: 1.365802392031409

使用线性回归模型，对未处理标签的特征数据进行五折交叉验证

scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=1, cv = 5, scoring=make_scorer(mean_absolute_error))

print('AVG:', np.mean(scores))

AVG: 0.1932530183704742

使用线性回归模型，对未处理标签的特征数据进行五折交叉验证

scores = pd.DataFrame(scores.reshape(1,-1))
scores.columns = ['cv' + str(x) for x in range(1, 6)]
scores.index = ['MAE']
scores

	cv1	cv2	cv3	cv4	cv5
MAE	0.190792	0.193758	0.194132	0.191825	0.195758

(3)模拟真实业务情况

但在事实上，由于我们并不具有预知未来的能力，五折交叉验证在某些与时间相关的数据集上反而反映了不真实的情况。通过2018年的二手车价格预测2017年的二手车价格，这显然是不合理的，因此我们还可以采用时间顺序对数据集进行分隔。在本例中，我们选用靠前时间的4/5样本当作训练集，靠后时间的1/5当作验证集，最终结果与五折交叉验证差距不大

import datetime

sample_feature = sample_feature.reset_index(drop=True)

split_point = len(sample_feature) // 5 * 4

train = sample_feature.loc[:split_point].dropna()
val = sample_feature.loc[split_point:].dropna()

sample_feature.loc[:split_point].dropna():访问从开始到第split_point的元素并且删除含有空值的行

train_X = train[continuous_feature_names]
train_y_ln = np.log(train['price'] + 1)
val_X = val[continuous_feature_names]
val_y_ln = np.log(val['price'] + 1)

model = model.fit(train_X, train_y_ln)

mean_absolute_error(val_y_ln, model.predict(val_X))

0.19577667270301036

（4）绘制学习率曲线与验证曲线

from sklearn.model_selection import learning_curve, validation_curve

? learning_curve

确定不同训练集大小的交叉验证训练和测试分数。

交叉验证生成器将整个数据集在训练和测试数据中分割k次。不同大小的训练集的子集将被用来训练估计器，每个训练子集的大小和测试集的分数都将被计算出来。然后，对每个训练子集大小的所有k次运行的分数取平均值。

def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None,n_jobs=1, train_size=np.linspace(.1, 1.0, 5 )):  
    plt.figure()  
    plt.title(title)  
    if ylim is not None:  
        plt.ylim(*ylim)  
    plt.xlabel('Training example')  
    plt.ylabel('score')  
    train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_size, scoring = make_scorer(mean_absolute_error))  
    train_scores_mean = np.mean(train_scores, axis=1)  
    train_scores_std = np.std(train_scores, axis=1)  
    test_scores_mean = np.mean(test_scores, axis=1)  
    test_scores_std = np.std(test_scores, axis=1)  
    plt.grid()#区域  
    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,  
                     train_scores_mean + train_scores_std, alpha=0.1,  
                     color="r")  
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,  
                     test_scores_mean + test_scores_std, alpha=0.1,  
                     color="g")  
    plt.plot(train_sizes, train_scores_mean, 'o-', color='r',  
             label="Training score")  
    plt.plot(train_sizes, test_scores_mean,'o-',color="g",  
             label="Cross-validation score")  
    plt.legend(loc="best")  
    return plt

plt.ylim()：获取或者设置当前y轴的限制。

learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_size, scoring = make_scorer(mean_absolute_error))：
- 参数estimator：实现“拟合”和“预测”方法的对象类型，该类型的对象为每个验证克隆；
- 参数X：训练集；
- 参数y：目标相对于X进行分类或回归，无监督学习；
- 参数n_jobs：要并行运行的作业数；
- 参数train_sizes：用于生成学习曲线的训练示例的相对或绝对数量；
- 参数scoring：记分员，可调用对象或函数。

np.mean():求取均值；（以mn矩阵举例）
- axis-不设置值，对mn个数求均值，返回一个实数；
- axis=0：压缩行，对各列求均值，返回1n矩阵；
- axis=1：压缩列，对各行求均值，返回m1矩阵。

np.std()：求全局标准差：
- axis=0：计算每一列的标准差；
- axis=1：计算每一行的标准差。

plt.fill_between():填充两条水平曲线之间的区域：（以第一个为例）
- train_sizes：曲线的节点的x坐标；
- train_scores_mean - train_scores_std：定义第一条曲线的节点的y坐标；
- train_scores_mean + train_scores_std：定义第二条曲线的节点的y坐标；
- 参数alpha：透明度。

plt.legend(loc=“best”):在坐标轴上放置一个图例。
- loc=“best”：将图例放在指定的九个位置中，与其他绘制的图重叠最少。对于具有大量数据的图，这个选择可能会非常慢。

plot_learning_curve(LinearRegression(), 'Liner_model', train_X[:1000], train_y_ln[:1000], ylim=(0.0, 0.5), cv=5, n_jobs=1)

4.多种模型对比

train = sample_feature[continuous_feature_names + ['price']].dropna()

train_X = train[continuous_feature_names]
train_y = train['price']
train_y_ln = np.log(train_y + 1)

(1)线性模型&嵌入式特征选择

过拟合（overfitting）

过拟合：简单地讲，就是知道怎么做，但是不知道里面用了什么规则或者是原理，导致复杂化而错误。

过拟合的两种原因：
1. 训练集和测试集特征分布不一致
2.模型太过复杂而样本量不足

解决过拟合从两方面下手：收集多样化的样本，简化模型，交叉检验。

参考：https://www.zhihu.com/question/32246256/answer/55320482

模型复杂度与模型的泛化能力

如果模型复杂度太低（参数过少），即模型可训练空间太小，就难以训练出有效的模型，就会出现欠拟合；
- 欠拟合就是训练过程中误差难以下降。

如果模型复杂度太高（参数很多），即模型可训练空间很大，在大量样本输入后容易训练过头，就会出现过拟合。
- 过拟合就是训练之后，测试误差要远比训练误差大。

所以控制好模型复杂度（参数数量），是调整欠拟合和过拟合的一种方法。

若欠拟合，表示无法充分训练，可将网络层的节点数调大些。

参考：http://yangyingming.com/article/434/

正则化的直观理解

机器学习中几乎都可以看到损失函数后添加个额外项。常用的额外项一般有两种：L1正则化和L2正则化。

L1正则化和L2正则化可看做是损失函数中某些参数做些限制。
- 对于线性回归模型：
- 使用L1正则化的模型叫做Lasso回归；
- 使用L2正则化的模型叫做Ridge回归(岭回归)。

L1正则化和L2正则化的说明：
- L1正则化是指权值向量w中各个元素的绝对值之和；
- L2正则化是指权值向量w中各个元素的平方和后求求平方根。

L1正则化和L2正则化的作用：
- L1正则化可产生稀疏权值矩阵，即产生一个稀疏模型，可用于特征选择；
- L2正则化可防止模型过拟合；一定程度上，L1也可以防过拟合。

参考：https://blog.csdn.net/jinping_shi/article/details/52433975

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

models = [LinearRegression(),
          Ridge(),
          Lasso()]

result = dict()
for model in models:
    model_name = str(model).split('(')[0]
    scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error))
    result[model_name] = scores
    print(model_name + ' is finished')

LinearRegression is finished
Ridge is finished
Lasso is finished

在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别。而嵌入式特征选择在学习器训练过程中自动地进行特征选择。嵌入式选择最常用的是L1正则化与L2正则化。在对线性回归模型加入两种正则化方法后，他们分别变成了岭回归与Lasso回归。

result = pd.DataFrame(result)
result.index = ['cv' + str(x) for x in range(1, 6)]
result

	LinearRegression	Ridge	Lasso
cv1	0.190792	0.194832	0.383899
cv2	0.193758	0.197632	0.381894
cv3	0.194132	0.198123	0.384090
cv4	0.191825	0.195670	0.380526
cv5	0.195758	0.199676	0.383611

对三种方法的效果对比

model = LinearRegression().fit(train_X, train_y_ln)
print('intercept:'+ str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

intercept:18.750726309297328

L2正则化在拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』

model = Ridge().fit(train_X, train_y_ln)
print('intercept:'+ str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

intercept:4.671709787661963

L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。如下图，我们发现power与userd_time特征非常重要。

model = Lasso().fit(train_X, train_y_ln)
print('intercept:'+ str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

intercept:8.67218477988307

除此之外，决策树通过信息熵或GINI指数选择分裂节点时，优先选择的分裂特征也更加重要，这同样是一种特征选择的方法。XGBoost与LightGBM模型中的model_importance指标正是基于此计算的

(2)非线性模型

除了线性模型以外，还有许多我们常用的非线性模型如下，在此篇幅有限不再一一讲解原理。我们选择了部分常用模型与线性模型进行效果比对。

from sklearn.linear_model import LinearRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.neural_network import MLPRegressor
from xgboost.sklearn import XGBRegressor
from lightgbm.sklearn import LGBMRegressor

models = [LinearRegression(),
          DecisionTreeRegressor(),
          RandomForestRegressor(),
          GradientBoostingRegressor(),
          MLPRegressor(solver='lbfgs', max_iter=100), 
          XGBRegressor(n_estimators = 100, objective='reg:squarederror'), 
          LGBMRegressor(n_estimators = 100)]

result = dict()
for model in models:
    model_name = str(model).split('(')[0]
    scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error))
    result[model_name] = scores
    print(model_name + ' is finished')

LinearRegression is finished
DecisionTreeRegressor is finished
RandomForestRegressor is finished
GradientBoostingRegressor is finished
MLPRegressor is finished
XGBRegressor is finished
LGBMRegressor is finished

result = pd.DataFrame(result)
result.index = ['cv' + str(x) for x in range(1, 6)]
result

	LinearRegression	DecisionTreeRegressor	RandomForestRegressor	GradientBoostingRegressor	MLPRegressor	XGBRegressor	LGBMRegressor
cv1	0.190792	0.198405	0.142131	0.168897	2772.442908	0.142367	0.141542
cv2	0.193758	0.193682	0.143025	0.171816	1708.891820	0.140923	0.145501
cv3	0.194132	0.189418	0.141544	0.170888	311.359174	0.139393	0.143887
cv4	0.191825	0.190877	0.141012	0.169083	902.516489	0.137492	0.142497
cv5	0.195758	0.203953	0.146057	0.174088	399.349459	0.143732	0.144852

可以看到随机森林模型在每一个fold中均取得了更好的效果

5.模型调参

三种常用的调参方法：

## LGB的参数集合：

objective = ['regression', 'regression_l1', 'mape', 'huber', 'fair']

num_leaves = [3,5,10,15,20,40, 55]
max_depth = [3,5,10,15,20,40, 55]
bagging_fraction = []
feature_fraction = []
drop_rate = []

（1）贪心调参

贪心算法

贪心算法是指，对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，它所做的仅仅是在某种意义上的局部最优解。

必须注意的是，贪心算法不是对所有问题都能得到整天最优解，选择的贪心策略必须具备无后效性（即某个状态以后的过程不会影响以前的状态，只与当前状态有关。）

贪心算法的基本思路：
1. 建立数学模型来描述问题
2.把求解的问题分成若干个子问题
3.对每个子问题求解，得到子问题的局部最优解
4.把子问题的解局部最优解合成原来问题的一个解

贪心算法策略使用的前提：局部最优策略能导致产生全局最优解。

贪心算法的实现框架：
- 从问题的某一初始解出发：
- while（朝给定总目标前进一步）
- {
- 利用可行的决策，求出可行解的一个解元素。
- }
- 由所有解元素组合成问题的一个可行解；

参考：https://www.jianshu.com/p/ab89df9759c8

best_obj = dict()
for obj in objective:
    model = LGBMRegressor(objective=obj)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_obj[obj] = score
    
best_leaves = dict()
for leaves in num_leaves:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0], num_leaves=leaves)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_leaves[leaves] = score
    
best_depth = dict()
for depth in max_depth:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0],
                          num_leaves=min(best_leaves.items(), key=lambda x:x[1])[0],
                          max_depth=depth)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_depth[depth] = score

sns.lineplot(x=['0_initial','1_turning_obj','2_turning_leaves','3_turning_depth'], y=[0.143 ,min(best_obj.values()), min(best_leaves.values()), min(best_depth.values())])

（2）Grid Search调参

网络调参

-网格搜索（Grid Search）：一种调参方法。
- 当你算法模型效果不是很好时，可通过该方法来调整参数，通过循环遍历，尝试每一种参数组合，返回最好的得分值得参数组合。
- 每个参数都能组合在一起，循环过程就像是在网格中遍历。
- 运行的过程中花费许多时间。

存在的问题：原来的数据集被分为训练集和测试集，其中测试集有两个作用：1.用来调整参数；2.用来评价模型的好坏；这样都会导致评分值比实际效果要好。

解决方法：可通过将数据集分三份：1.训练集（训练数据）；2.验证集（调整参数）；3.测试集（测试模型）。

参考：https://blog.csdn.net/weixin_43172660/article/details/83032029

from sklearn.model_selection import GridSearchCV

parameters = {
     'objective': objective , 'num_leaves': num_leaves, 'max_depth': max_depth}
model = LGBMRegressor()
clf = GridSearchCV(model, parameters, cv=5)
clf = clf.fit(train_X, train_y)

clf.best_params_

{'max_depth': 15, 'num_leaves': 55, 'objective': 'regression'}

model = LGBMRegressor(objective='regression',
                          num_leaves=55,
                          max_depth=15)

np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))

0.13754980533444577

（3）贝叶斯调参

贝叶斯调参

贝叶斯优化通过基于目标函数的过去评估结果建立代替函数（概率模型），来找到最小化目标函数的值。

贝叶斯方法与随机或网格搜索不同之处：贝叶斯方法在尝试下一组超参数时，会参考之前的评估结果，因此可以省去很多无用功。

贝叶斯优化的四个部分：
1. 目标函数：想要最小化的内容。在这里，目标函数是机器学习模型使用该超参数在验证集上的损失。
2. 域空间：要搜索的超参数的取值范围。
3. 优化算法：构造替代函数并选择下一个超参数值进行评估的方法。
4. 结果历史记录：来自目标函数评估的存储结果，包括超参数和验证集上的损失。

参考：https://blog.csdn.net/linxid/article/details/81189154

from bayes_opt import BayesianOptimization

def rf_cv(num_leaves, max_depth, subsample, min_child_samples):
    val = cross_val_score(
        LGBMRegressor(objective = 'regression_l1',
            num_leaves=int(num_leaves),
            max_depth=int(max_depth),
            subsample = subsample,
            min_child_samples = int(min_child_samples)
        ),
        X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)
    ).mean()
    return 1 - val

rf_bo = BayesianOptimization(
    rf_cv,
    {
     
    'num_leaves': (2, 100),
    'max_depth': (2, 100),
    'subsample': (0.1, 1),
    'min_child_samples' : (2, 100)
    }
)

rf_bo.maximize()

1 - rf_bo.max['Value']

三、后记

Task4 建模调参 END.
— By: 小雨姑娘
数据挖掘爱好者，多次获比赛TOP名次。作者的机器学习笔记：https://zhuanlan.zhihu.com/mlbasic

关于Datawhale：
Datawhale是一个专注于数据科学与AI领域的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员。Datawhale 以“for the learner，和学习者一起成长”为愿景，鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时 Datawhale 用开源的理念去探索开源内容、开源学习和开源方案，赋能人才培养，助力人才成长，建立起人与人，人与知识，人与企业和人与未来的联结。

你可能感兴趣的:(Datawhale 数据挖掘新手入门笔记 -Task4 建模调参)

LaTeX从零到精通的系统化指南 niuTaylor 学术区 latex
以下是一份结构清晰的LaTeX入门指南，整合了核心知识点与实战技巧，结合官方文档与社区经验总结而成：LaTeX从零到精通的系统化指南一、环境搭建与基础配置1.安装方案TeX发行版：推荐TeXLive（跨平台）或MiKTeX（Windows优先）编辑器：VSCode+LaTeXWorkshop插件（智能补全/实时预览）或TeXstudio（新手友好）2.中文支持\documentclass{arti
数学建模第三节一只自律的鸡数学建模数学建模
目录前言一钻井布局问题第一问分析第二问分析总结前言这里讲述99年的钻井布局问题，利用这个问题讲述模型优化，LINGO，MATLAB的使用一钻井布局问题这个是钻井布局的原题，坐标的位置为a=[0.50,1.41,3.00,3.37,3.40,4.72,4.72,5.43,7.57,8.38,8.98,9.50];b=[2.00,3.50,1.50,3.51,5.50,2.00,6.24,4.10,2
UML中的类图、时序图等常见图形的作用和基本元素 C++ 老炮儿的技术栈 c++学习笔记算法
UML（统一建模语言）是一种用于软件系统分析、设计和文档化的标准图形化语言，类图和时序图是其中常用的两种图形，以下是它们的作用和基本元素介绍：类图-作用：类图是UML中最核心的图之一，用于描述系统中的类、类的属性和操作，以及类之间的关系，帮助开发者理解系统的静态结构。-基本元素：包括类、属性、操作和关系。类用矩形表示，分为三层，上层是类名，中层是属性，下层是操作。属性包括名称、类型等，操作包含名称
AI学习教程DeepSeek使用教程合集免费下载 oneboxai 学习
1.DeepSeek本地部署2.Deepseek搭建个人知识库3.DeepSeek提示词详解4.Deepseek使用技巧大全5.DeepSeek提示词大全6.DeepSeek保姆级新手教程7.DeepSeek各类应用8.Deepseek写小说9.DeepSeekV3部署教程10.DeepseekwordExcel11.Deepseek科研论文12.Deepseek开发游戏13.大模型通用一-A1指
数学建模：将现实问题抽象为数学模型 AI天才研究院 AI大模型企业级应用开发实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1数学建模的重要性数学建模是一种将现实世界的问题抽象成数学模型的方法，通过对模型的分析和求解，可以得到问题的解决方案。数学建模在科学研究、工程技术、经济管理等领域具有广泛的应用，它可以帮助我们更好地理解现实世界的现象和规律，为决策提供依据。1.2数学建模的基本过程数学建模的基本过程包括以下几个步骤：确定问题：从现实世界中提取出一个具体的问题，明确问题的目标和约束条件。建立模型：将问
认识数学建模，什么是数学建模 ymchuangke 从零开始学数学建模数学建模
目录一、什么是数学建模？二、数学建模的核心思想三、数学建模的应用领域四、数学建模的基本步骤五、常用的数学建模方法和工具六、数学建模的挑战与未来发展一、什么是数学建模？数学建模（MathematicalModeling）是一种利用数学语言、结构和方法，对实际问题进行描述、简化、分析和求解的过程。其核心在于通过将复杂的现实世界问题转化为可操作的数学形式，从而利用数学理论和计算技术对其进行深入研究和解决
2025年美赛数学建模 ICM 问题 E：为农业腾出空间深度学习&目标检测实战项目数学建模 2025美赛 2025年数学建模美赛思路代码问题 E：为农业腾出空间 2025美赛E题
全部都是公开资料，不代写论文，请勿盲目订阅）2025年数学建模美赛期间，会发布思路和代码，赛前半价，赛前会发布往年美赛的经典案例，赛题会结合最新款的chatgpto1pro分析，会根据赛题难度，选择合适的题目着重分析，没有代写论文服务，只会发布思路和代码，因为赛制要求，不会回复私信。内容可能达不到大家预期，请不要盲目订阅。已开通200美元/月的chatgptpro会员，会充分利用chatgpto1
PySimpleGUI 4.60.5 孔帆贝
PySimpleGUI4.60.5【下载地址】PySimpleGUI4.60.5**PySimpleGUI**是一款专为简化PythonGUI（图形用户界面）编程而生的库。该库设计宗旨在于通过提供简洁、易懂的API接口，使开发者能够以更快的速度和更少的代码量创建出美观实用的应用程序。对于无论是GUI编程新手还是寻求快速开发工具的老手来说，PySimpleGUI都是一个极具吸引力的选择。其通过封装了
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
架构演进的方式 pumpkin84514 架构设计架构
架构演进过程中，常用的三种模式是拆迁者模式、绞杀者模式和修缮者模式。它们代表了三种不同的演进路径，适用于不同的业务环境和技术场景。下面详细解释每种模式的内容、使用场景，并对比它们的差异。1.拆迁者模式内容拆迁者模式（也称为重建模式）是一种彻底重构现有系统的方式。通常，在这种模式下，原有系统被完全放弃，并用一个全新的系统替代。在这种情况下，架构和代码需要从头开始重新设计和实现。使用场景系统老化严重：
关于离子滤波小记文弱_书生乱七八糟人工智能计算机视觉算法
粒子滤波（ParticleFilter,PF）粒子滤波是一种基于蒙特卡洛方法的贝叶斯滤波算法，主要用于解决非线性、非高斯的状态估计问题。它广泛应用于机器人定位、目标跟踪、金融建模等领域。1.粒子滤波的基本概念粒子滤波的核心思想是用一组加权的**随机样本（粒子）**来近似后验概率分布，而非采用卡尔曼滤波那样的参数化分布假设（如高斯分布）。设系统的状态模型如下：xk=f(xk−1,uk,wk)x_k=
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
一键掌控海量文件！Shell的find命令终极指南 + 高阶组合技芯有所享 java 前端 android 经验分享
你是否经历过这些崩溃瞬间？想清理3个月前的日志却无从下手要在10万张图片里找出某个版本突然发现服务器被临时文件塞爆…今天介绍的Linux三剑客之find命令，就是你的超级救星！不仅能精准定位文件，结合其他命令更能玩出自动化运维的花样！一、Find基础三连击（新手必看）按图索骥-名称搜索查找当前目录所有.txt文件（精准匹配）find.-name“*.txt”忽略大小写找配置文件（模糊匹配）find
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
10篇R1相关的研究全面汇总，万字思考！ datawhale
原创长琴DatawhaleDatawhale干货作者：长琴，Datawhale成员本文通过10篇R1相关的研究，介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。本文中的相关阅读，可以在主页找到对应文章：主页地址：https://yam.gift/基本框架首先是整体的框架，如下所示。•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
【BERT和GPT的区别】调皮的芋头人工智能深度学习机器学习 bert gpt
BERT采用完形填空（MaskedLanguageModeling,MLM）与GPT采用自回归生成（AutoregressiveGeneration）的差异，本质源于两者对语言建模的不同哲学导向与技术目标的根本分歧。这种选择不仅塑造了模型的架构特性，更决定了其应用边界与能力上限。以下从语言建模本质、任务适配性、技术约束及后续影响四个维度深入剖析：一、语言建模的本质差异1.BERT的“全知视角”与全
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
5分钟科普：AI网关是什么？应用场景是什么？有没有开源的选择？阿里-于怀机器学习
AI网关的功能及其定义AI网关位于企业应用与内外部大模型调用的交汇点，能够灵活地将请求转发给内部自建模型或外部大模型服务提供商，甚至海外的服务商。它管理着企业所有的AI出口流量，为企业内的不同团队提供了多方面的优势。对于开发团队而言，AI网关简化了模型的选择和使用过程，让他们可以专注于产品的快速迭代而无需担心成本控制或复杂的申请流程。针对安全和治理方面的团队而言，AI网关通过实施访问控制、加密传输
【AI论文】RWKV-7“鹅”模型，具备富有表现力的动态状态演化能力东临碣石82 人工智能
摘要：我们推出RWKV-7“鹅”，这是一种全新的序列建模架构，同时发布的还有预训练语言模型。在多语言任务中，这些模型在30亿参数规模下实现了下游性能的全新最优水平，并且在英语语言性能上，尽管训练所用的标记数量远少于其他顶尖30亿参数模型，但仍能与当前最优水平相媲美。然而，RWKV-7模型仅需常量内存使用和每个标记的常量推理时间。RWKV-7引入了一种新泛化的delta规则，该规则具有向量值门控和上
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite