努力努力再成长

项目：kaggle房价预测

一、项目背景

项目描述：比赛项目由 Kaggle 举办，要求选手依据爱荷华州房子的质量、面积、街区、壁炉个数等79个变量预测房子的价格。
项目网址：House Prices: Advanced Regression Techniques

二、代码展示

tips：原代码在jupyter notebook上由python编写完成

# Kaggle房价预测项目

# 首先，导入需要用到的包
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
color = sns.color_palette()
sns.set_style('darkgrid')
import warnings
def ignore_warn(*args, **kwargs):
    pass
warnings.warn = ignore_warn

from scipy import stats
from scipy.stats import norm, skew

# 读取数据集
train = pd.read_csv('E:/房价预测项目/train.csv')
test = pd.read_csv('E:/房价预测项目/test.csv')

1.对数据集进行可视化探索

train.head(5)

test.head(5)

# 对训练集train做相关性探索

corrmat = train.corr()
f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True)

#选出10个与房价相关性最强的变量查看相关性系数

k = 10 #选择变量的个数
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
cm = np.corrcoef(train[cols].values.T) # 
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={
     'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

通过上面的热力图，可以得到如下的结论：
1.‘OverallQual’, ‘GrLivArea’ 和 'TotalBsmtSF’与房价的相关性很强，可以后面再深入探索
2.‘GarageCars’（车库能放多少量车）和 ‘GarageArea’ （车库面积）和房价同样有比较强的相关性，但这两个变量本身的相关性也很强，因为车库面积和车库能放多少车本身就是有强相关性的，可能存在多重共线性问题，可以去掉一个
3.‘TotalBsmtSF’ 和 ‘1stFloor’ 似乎都是代表地下室面积，这里不确定这两个变量含义的区别，不过它们也有很强的相关性，考虑去掉一个

#TotalBsmtSF含义为地下室面积，发现地下室面积与房价似乎有更强的潜在线性关系，同时在右侧似乎也有一个异常值存在

fig, ax = plt.subplots()
ax.scatter(x=train.TotalBsmtSF,y=train.SalePrice)
plt.xlabel('TotalBsmtSF')
plt.ylabel('SalePrice')
plt.show()

# 可以看到有一个异常点在右下方

# GrLivArea为居住面积，发现有强相关关系，发现右边有2个异常点
fig, ax = plt.subplots()
ax.scatter(x=train.GrLivArea,y=train.SalePrice)
plt.xlabel('GrLivArea')
plt.ylabel('SalePrice')
plt.show()

# GarageArea为车库面积，发现有正相关关系
fig, ax = plt.subplots()
ax.scatter(x=train.GarageArea,y=train.SalePrice)
plt.xlabel('GarageArea')
plt.ylabel('SalePrice')
plt.show()

# 房屋质量与房价从经验上应该是强相关，可视化进行验证
var = 'OverallQual'
data = pd.concat([train['SalePrice'], train[var]], axis=1)
f, ax = plt.subplots(figsize=(8, 6))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
fig.axis(ymin=0, ymax=800000);

# 可以再看一下壁炉数量和房价的关系，发现壁炉越多，房价越高
var = 'Fireplaces'
data = pd.concat([train['SalePrice'], train[var]], axis=1)
f, ax = plt.subplots(figsize=(16, 8))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
fig.axis(ymin=0, ymax=800000)
plt.xticks(rotation=90)

2.数据预处理

# 1.首先对train进行处理，删除可视化中出现的异常值
train = train.drop(train[(train['TotalBsmtSF']>5000) & (train['SalePrice']<200000)].index)
train = train.drop(train[(train['GrLivArea']>4000) & (train['SalePrice']<200000)].index)

# 作图发现房价的分布是右偏的，根据前提假设需要做相应的转换使其符合正态分布
sns.distplot(train['SalePrice'] , fit=norm);

(mu, sigma) = norm.fit(train['SalePrice'])
print( '\n mu = {:.2f} and sigma = {:.2f}\n'.format(mu, sigma))

plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],
            loc='best')
plt.ylabel('Frequency')
plt.title('SalePrice distribution')

fig = plt.figure()
res = stats.probplot(train['SalePrice'], plot=plt)
plt.show()

mu = 180932.92 and sigma = 79467.79

# 这里采用对数变换的方法使其符合正态分布
train["SalePrice"] = np.log(train["SalePrice"])

sns.distplot(train['SalePrice'] , fit=norm);

(mu, sigma) = norm.fit(train['SalePrice'])
print( '\n mu = {:.2f} and sigma = {:.2f}\n'.format(mu, sigma))

plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],
            loc='best')
plt.ylabel('Frequency')
plt.title('SalePrice distribution')

fig = plt.figure()
res = stats.probplot(train['SalePrice'], plot=plt)
plt.show()

mu = 12.02 and sigma = 0.40

# 2.将train和test联合起来一起进行数据处理
train_id = train['Id']
test_id = test['Id']
ntrain = train.shape[0]
ntest = test.shape[0]
y_train = train.SalePrice.values
all_data = pd.concat((train, test)).reset_index(drop=True)
all_data.drop(['SalePrice'], axis=1, inplace=True)
print("all_data size is : {}".format(all_data.shape))  #     all_data size is : (2917, 80)

# 由于ID对预测没有作用，删除ID字段
all_data.drop(['Id'], axis=1, inplace=True)

# 查看缺失值比率
all_data_na = (all_data.isnull().sum() / len(all_data)) * 100
all_data_na = all_data_na.drop(all_data_na[all_data_na==0].index).sort_values(ascending=False)[:30]
all_data_na
missing_data = pd.DataFrame({
     'missing_data' : all_data_na})
missing_data.head(20)

#将缺失度用图表的方式展示
f, ax = plt.subplots(figsize=(15, 12))
plt.xticks(rotation='90')
sns.barplot(x=all_data_na.index, y=all_data_na)
plt.xlabel('Features', fontsize=15)
plt.ylabel('Percent of missing values', fontsize=15)
plt.title('Percent missing data by feature', fontsize=15)

# 对于缺失率在80%以上的特征删除
all_data = all_data.drop('PoolQC', axis=1)
all_data = all_data.drop('MiscFeature', axis=1)
all_data = all_data.drop('Alley', axis=1)
all_data = all_data.drop('Fence', axis=1)
all_data.shape      #  (2917, 75)

# 对于其他缺失值进行处理, 壁炉为空可能是没有，用none填充
all_data['FireplaceQu'] = all_data['FireplaceQu'].fillna('none')

# LotFrontage代表房屋前街道的长度, 房屋前街道的长度应该和一个街区的房屋相同，可以取同一个街区房屋的街道长度的平均值
all_data['LotFrontage'] = all_data.groupby('Neighborhood')['LotFrontage'].transform(lambda x: x.fillna(x.median()))

# 对于Garage类的4个特征，缺失率一致，一起处理，可能是没有车库，用none填充
for c in ('GarageType', 'GarageFinish', 'GarageQual', 'GarageCond'):
    all_data[c] = all_data[c].fillna('none')

# 对于garage，同样猜测缺失值缺失的原因可能是因为房屋没有车库，连续型变量用0填充
for c in ( 'GarageYrBlt', 'GarageArea', 'GarageCars'):
    all_data[c] = all_data[c].fillna(0)
    
#对于地下室相关的连续变量，缺失同样认为房屋可能是没有地下室，用0填充
for c in ('BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF','TotalBsmtSF', 'BsmtFullBath', 'BsmtHalfBath'):
    all_data[c] = all_data[c].fillna(0)

#地下室相关离散变量，同理用None填充
for c in ('BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2'):
    all_data[c] = all_data[c].fillna('None')
    
# Mas为砖石结构相关变量，缺失值我们同样认为是没有砖石结构，用0和none填补缺失值
all_data["MasVnrType"] = all_data["MasVnrType"].fillna("None")
all_data["MasVnrArea"] = all_data["MasVnrArea"].fillna(0)

#MSZoning代表房屋所处的用地类型，先看下不同取值
all_data.groupby('MSZoning')['MasVnrType'].count().reset_index()
# 由于业务上房屋类型是必须的，一般都有，考虑用众数填充
all_data['MSZoning'] = all_data['MSZoning'].fillna(all_data['MSZoning'].mode()[0])

# 由于数据Functional缺失即为Typ，所以进行填充Typ
all_data["Functional"] = all_data["Functional"].fillna("Typ")

# 对于Utilities,观察到除了一个“NoSeWa”和2个NA之外，所有记录都是“AllPub”，对于房价预测用处很小，删除这个特征
all_data.drop(['Utilities'], axis=1, inplace=True)

查看剩余的缺失值：

all_data_na = (all_data.isnull().sum() / len(all_data)) * 100
all_data_na = all_data_na.drop(all_data_na[all_data_na==0].index).sort_values(ascending=False)[:30]
all_data_na
missing_data = pd.DataFrame({
     'missing_data' : all_data_na})
missing_data

# 填充剩余的缺失值
for i in missing_data.index:
    print(all_data[i].head())  #未展示

for i in ( 'SaleType', 'KitchenQual', 'Electrical', 'Exterior2nd','Exterior1st'):
    all_data[i] = all_data[i].fillna(all_data[i].mode()[0])

# 查看缺失值的比率，发现已经处理完毕，all_data里已经没有缺失值
all_data_na = (all_data.isnull().sum() / len(all_data)) * 100
all_data_na = all_data_na.drop(all_data_na[all_data_na==0].index).sort_values(ascending=False)[:30]
all_data_na
missing_data = pd.DataFrame({
     'missing_data' : all_data_na})
missing_data

3.特征工程

特征工程可以说是最重要的步骤了，机器学习大佬吴恩达说过：“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”

# 对于一些数值型特征，数值并不表示大小，将其值转换为字符型
all_data['MSSubClass'] = all_data['MSSubClass'].apply(str)

all_data['OverallCond'] = all_data['OverallCond'].astype(str)

all_data['YrSold'] = all_data['YrSold'].astype(str)
all_data['MoSold'] = all_data['MoSold'].astype(str)

创造一些特征：

# 将地下室面积、1楼面积、2楼面积相加得到总面积特征
all_data['TotalSF'] = all_data['TotalBsmtSF'] + all_data['1stFlrSF'] + all_data['2ndFlrSF']
# 由前面的可视化将房子建造时间做一个划分，以1990进行划分，1990前为0,1990后为1
all_data['YearBuilt_cut'] = all_data['YearBuilt'].apply(lambda x: 1 if x>1990 else 0)

all_data['Total_sqr_footage'] = (all_data['BsmtFinSF1'] + all_data['BsmtFinSF2'] +
                                 all_data['1stFlrSF'] + all_data['2ndFlrSF'])

all_data['Total_Bathrooms'] = (all_data['FullBath'] + (0.5 * all_data['HalfBath']) +
                               all_data['BsmtFullBath'] + (0.5 * all_data['BsmtHalfBath']))

all_data.shape    # (2917, 79)

# 将all_data分开为训练集与测试集两部分，查看新特征与房价的相关性
new_train = all_data[:ntrain]
new_test = all_data[ntrain:]
new_train['SalePrice'] = y_train

# 画图查看新的总面积特征和房价的线性相关性，发现有强相关性，是一个比较好的新特征
fig, ax = plt.subplots()
ax.scatter(x=new_train['TotalSF'], y=new_train['SalePrice'])
plt.xlabel('TotalSF', fontsize=12)
plt.ylabel('SalePrice', fontsize=12)

# 发现有右下角有两个异常点，考虑删除
new_train = new_train.drop(new_train[(new_train['TotalSF']>7000) & (new_train['SalePrice']<200000)].index)
plt.show()

# 观察建筑年限不同导致的房价差异
yearb = 'YearBuilt_cut'
data = pd.concat([new_train['SalePrice'], new_train[yearb]], axis=1)
fig, ax = plt.subplots()
f = sns.boxplot(x=yearb, y='SalePrice', data=data)
# 发现房价在建筑年限上有较大的分布差异

# 查看Total_sqr_footage与房价的相关性
fig, ax = plt.subplots()
ax.scatter(x=new_train['Total_sqr_footage'], y=new_train['SalePrice'])
plt.xlabel('Total_sqr_footage', fontsize=12)
plt.ylabel('SalePrice', fontsize=12)
plt.show()

# 发现有强相关性

# 查看Total_Bathrooms与房价的相关性
bath_num = 'Total_Bathrooms'
data = pd.concat([new_train['SalePrice'], new_train[bath_num]], axis=1)
fig, ax = plt.subplots()
f = sns.boxplot(x=bath_num, y='SalePrice', data=data)

# 观察到Total_Bathrooms等于5或6时都只有一行，且对应房价较为异常，删除这两个值
new_train.loc[:, 'Total_Bathrooms'].value_counts()
new_train = new_train.drop(new_train[new_train['Total_Bathrooms'] >= 5.0].index)

# 将new_train与new_test重新组合成all_data进行数据的统一处理
ntrain = new_train.shape[0]
ntest = new_test.shape[0]
y_train = new_train.SalePrice.values
all_data = pd.concat((new_train, new_test)).reset_index(drop=True)
all_data.drop(['SalePrice'], axis=1, inplace=True)
print("all_data size is : {}".format(all_data.shape))  # all_data size is : (2915, 78)

对特征进行编码：

# 对有序性离散变量使用label encoder 进行编码
from sklearn.preprocessing import LabelEncoder

cols = ('FireplaceQu', 'BsmtQual', 'BsmtCond', 'GarageQual', 'GarageCond', 
        'ExterQual', 'ExterCond','HeatingQC', 'KitchenQual', 'BsmtFinType1', 
        'BsmtFinType2', 'Functional', 'BsmtExposure', 'GarageFinish', 'LandSlope',
        'LotShape', 'PavedDrive', 'Street', 'CentralAir', 'MSSubClass', 'OverallCond', 
        'YrSold', 'MoSold')
for c in cols:
    lbe = LabelEncoder()
    lbe.fit(list(all_data[c].values))
    all_data[c] = lbe.transform(list(all_data[c].values))
print(all_data.shape)   # (2915, 78)
all_data.head(5)

numeric_feats = all_data.dtypes[all_data.dtypes != "object"].index

# 查看所有数字特征的偏度
skewed_feats = all_data[numeric_feats].apply(lambda x: skew(x.dropna())).sort_values(ascending=False)
skewness = pd.DataFrame({
     'Skew' :skewed_feats})
skewness.head(10)

# 查看有多少特征的偏度不符合要求，并进行转换
skewness = skewness[abs(skewness) > 0.75]
print("有{}个特征需要转换 ".format(skewness.shape[0]))
  # 有59个特征需要转换
from scipy.special import boxcox1p
skewed_features = skewness.index
lam = 0.15
for feat in skewed_features:
    #all_data[feat] += 1
    all_data[feat] = boxcox1p(all_data[feat], lam)

# 将无序型离散变量转化为哑变量（one-hot编码）
all_data = pd.get_dummies(all_data)

为了避免多重共线性问题，删除皮尔森系数大于0.9的特征：

shreshold = 0.9
corr_all_data = all_data.corr().abs()
# 取矩阵的上三角部分，判断系数大于0.9的并删除
data_up = corr_all_data.where(np.triu(np.ones(corr_all_data.shape), k=1).astype(np.bool))

drop_col = [ column for column in data_up.columns if any(data_up[column] > 0.9)]
all_data = all_data.drop(columns=drop_col)
all_data.shape    # (2915, 207)

# 将训练集与测试集分开，用于建模与测试
train = all_data[:ntrain]
test = all_data[ntrain:]
train.head()

四、建模与预测

采用岭回归-Ridge Regression模型进行建模与预测
（还可以尝试使用其他模型进行对比，如随机森林）

# 导入模型相关的库
from sklearn.linear_model import Ridge, RidgeCV, ElasticNet, LassoCV, LassoLarsCV
from sklearn.model_selection import cross_val_score

def rmse_cv(model):
    rmse= np.sqrt(-cross_val_score(model, train, y_train, scoring="neg_mean_squared_error", cv = 5))
    return(rmse)
#导入ridge模型
model_ridge = Ridge()

# 对超参数取值进行猜测和验证
alphas = [0.05, 0.1, 0.3, 1, 3, 5, 10, 15, 30, 50, 75]
cv_ridge = [rmse_cv(Ridge(alpha = alpha)).mean() for alpha in alphas]

# 画图查看不同超参数的模型的分数
cv_ridge = pd.Series(cv_ridge, index = alphas)
cv_ridge.plot(title = "Validation - Just Do It")
plt.xlabel("alpha")
plt.ylabel("rmse")
cv_ridge

# alpha参数用我们之前验证过的10,然后用训练集对模型进行训练
clf = Ridge(alpha=10)
clf.fit(train,y_train)
# 输出 Ridge(alpha=10, copy_X=True, fit_intercept=True, max_iter=None, normalize=False,random_state=None, solver='auto', tol=0.001)

# 对测试集进行预测，并导出结果
predict = clf.predict(test)
test_pre = pd.DataFrame()
test_pre['ID'] = test_id
test_pre['SalePrice'] = np.exp(predict)
test_pre.to_csv('submission.csv', index=False)
test_pre.head()

【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
6.kaggle实战之房价预测温柔济沧海深度学习神经网络人工智能 python 深度学习
importhashlibimportosimporttarfileimportzipfileimportrequestsimportnumpyasnpimportpandasaspdimporttorchimportnumpyasnpfromtorchimportnnimportmatplotlib.pyplotaspltfromtorch.utils.dataimportDataLoader,
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
使用 Bank Churn 数据集进行二元分类
一、前言分类任务：预测客户是继续使用其帐户还是关闭帐户（例如，流失）项目地址：https://www.kaggle.com/competitions/playground-series-s4e1二、具体步骤（一）数据导入与预览importpandasaspdimportnumpyasnpimportmatplotlib.pylabaspltimportseabornassnsfromsklearn
【技术派专享】并行智算云：RTX 5090 免费算力深度评测 + 实战指南▎ 为什么开发者需要关注云端算力？山顶望月川人工智能云计算
在微调Llama3、训练扩散模型或跑Kaggle比赛时，本地显卡（比如RTX3090/4090）常面临显存不足、训练慢、散热差等问题。而购买多卡服务器成本极高（一台8×A100机器年成本超20万），对个人和小团队极不友好。并行智算云近期推出的“开发者扶持计划”，提供RTX5090免费算力（显存32GB，FP32算力60TFLOPS），实测比4090训练速度快1.8倍，且支持多卡并行。下面从技术优势
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
LightGBM：极速梯度提升机——结构化数据建模的终极武器大千AI助手人工智能 Python #OTHER 随机森林算法机器学习决策树人工智能 GBDT LightGBM
基于直方图与Leaf-wise生长的高效GBDT实现，横扫Kaggle与工业场景一、为什么需要LightGBM？GBDT的瓶颈传统梯度提升树（如XGBoost）在处理海量数据时面临两大痛点：训练速度慢：需预排序特征&层次生长（Level-wise）内存消耗高：存储特征值与分裂点信息LightGBM的诞生微软亚洲研究院于2017年开源，核心目标：✅训练效率提升10倍✅内存占用降低50%✅保持与XGB
Python打卡训练营-Day43-复习日 traMpo1ine python
@浙大疏锦行作业kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件
DAY 43 复习日 CNN训练与Grad-CAM可视化（模块化实现）沐兮兮兮 cnn 人工智能神经网络
目录Kaggle图像分类项目：项目结构一、数据准备模块1.config/paths.py2.data/preprocessing.py3.data/dataset.py二、模型定义模块1.models/cnn_model.py2.models/grad_cam.py三、训练脚本train.py四、可视化模块1.utils/visualization.py2.visualize.py五、实用工具ut
Kaggle量化比赛复盘: Optiver - Trading at the Close 熬夜造bug AI领域应用金融人工智能机器学习深度学习
目录前言一、开源方案1.6th获奖方案(代码未开源)1.1.特征工程（关键代码）1.2.方案解析2.7th获奖方案(开源)2.1.特征工程2.2.特征工程3.9th获奖方案(半开源)3.1.特征构造3.2.特征筛选3.3.模型3.4.zero_sum（标签后处理）4.14th获奖方案(开源)4.1.方案开源链接4.2.zero_sum（标签后处理）5.15th获奖方案（半开源）5.1.特征工程5.
Kaggle金牌方案复现：CGO-Transformer-GRU多模态融合预测实战
1背景分析在2023年Kaggle"GlobalMultimodalDemandForecastingChallenge"竞赛中，CGO-Transformer-GRU方案以领先第二名1.8个百分点的绝对优势夺冠，创下该赛事三年来的最佳成绩。本方案创新性地融合了协方差引导优化（CGO）、注意力机制和时序建模三大技术模块，解决了多模态数据融合中的关键挑战：模态对齐、特征冲突和时序依赖建模。(1)多模
day43python打卡 qq_58459892 py打开学习 pytorch python 深度学习算法人工智能
作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件importosimporttorchimporttorch.optimasoptimimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvisionimporttorchvision.transformsastransform
大批量数据分析挖掘思路-Kaggle项目：保险销售预测江枫渔火A 数据分析机器学习 python
1、问题背景Kaggle在6月份的季赛是保险销售预测问题，其原始数据集381109条的保险销售，季赛由利用原数据集的模型生成扩充而来。本篇文章以原始数据集为基础，用以抛砖引玉，探讨该问题的高效解法。原始数据地址：HealthInsuranceCrossSellPrediction(kaggle.com)2、问题描述原文：我们的客户是一家为其客户提供健康保险的保险公司，现在他们需要您的帮助来建立一个
Day22 复习日 cylat python打卡机器学习人工智能 python
一、如何使用kaggle平台：注册与个人资料注册方式：可以通过邮箱、Google、Facebook等方式注册。个人资料完善：尽量完整填写个人资料。竞赛板块竞赛选择兴趣与能力匹配：根据自己的兴趣和实际数据分析能力选择竞赛。对于初学者，建议从一些入门级或小型竞赛开始，逐步积累经验；有一定基础后再挑战更具难度的竞赛。竞赛规则研读：在参与竞赛前，务必仔细阅读竞赛的规则，包括比赛时间节点（报名时间、提交结果
Coggle数据科学 | Kaggle赛题解析：识别数据引用与分类双木的木深度学习拓展阅读分类数据挖掘人工智能计算机视觉 prompt python 算法
本文来源公众号“Coggle数据科学”，仅用于学术分享，侵权删，干货满满。原文链接：Kaggle赛题解析：识别数据引用与分类赛题名称：MakeDataCount-FindingDataReferences赛题类型：自然语言处理、信息检索赛题任务：从科学论文的全文中提取所有被引用的研究数据，并根据上下文将其分类为初级引用（Primary）或次级引用（Secondary）。https://www.ka
python打卡训练营打卡记录day22 m0_74839150 python 开发语言
复习日仔细回顾一下之前21天的内容，没跟上进度的同学补一下进度。作业：自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_split,GridSearchCVfromsklearn.preprocessingimportStan
【慧游鲁博】团队记录5 哇哦哇哦~~ 创新实训团队记录软件工程团队开发
文章目录进度总览完成细节Part11.图片上传与预加载功能2.前端功能扩展与密码修改页面3.DeepSeek模型微调与Kaggle实验4.前端组件化重构5.用户认证与信息管理完成细节Part21.多模态交互·语音输入，完善智能导览系统2.后台管理系统的数据分析模块3.用户画像分析功能4.用户系统基础架构5.剧情管理核心功能6.从Kaggle微调到模型调用进度总览任务要点完成情况多模态交互图片上传；
Kaggle-Predicting Optimal Fertilizers-(多分类+xgboost+同一特征值多样性) 美少女zss 分类数据挖掘人工智能
PredictingOptimalFertilizers题意：给出土壤的特性，预测出3种最佳的肥料数据处理：1.有数字型和类别型，类别不能随意换成数字，独热编码。cat可以直接处理category类型。2.构造一些相关土壤特性特征3.由于label是category类型，但是xgb不可以处理category类型，因此需要先编码，最后求出结果之后再解码。建立模型：1.catboost交叉验证、xgb
使用python代码实现电商用户行为分析 Vinceri python 开发语言
使用python实现电商用户行为分析描述：分析电商平台用户行为数据（点击、购买、收藏等），使用Pandas和Matplotlib统计用户活跃时段、热销商品类别，并用Seaborn绘制行为趋势图。工具：Pandas,NumPy,Matplotlib/Seaborn数据集：可从Kaggle获取用户行为日志（如ecommerce-behavior-data）以下是一个完整的电商用户行为分析Python实
DAY15 超大力王爱学Python 超大力王超大力王爱学Python python 开发语言
仔细回顾一下之前14天的内容，没跟上进度的同学补一下进度。作业：尝试找到一个kaggle或者其他地方的结构化数据集，用之前的内容完成一个全新的项目，这样你也是独立完成了一个专属于自己的项目。要求：有数据地址的提供数据地址，没有地址的上传网盘贴出地址即可。尽可能与他人不同，优先选择本专业相关数据集探索一下开源数据的网站有哪些？Titanic-MachineLearningfromDisaster|K
python打卡day43
作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化导入包importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderimportmatplotlib.pyplota
【DAY43】复习日 daomingwu017 Python打卡训练营内容 python
内容来自@浙大疏锦行python打卡训练营@浙大疏锦行作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件
60天python训练计划----day43 尘浮728 python 开发语言
复习日作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件我选择图像分类，该数据集分为六类，包含建筑、森林、冰川、山脉、海洋和街道。importtorchimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision.transformsastransformsfromtorc
机器学习算法实战系列：决策树与随机森林全攻略全息架构师 AI 行业应用实战先锋 Python 实战项目大揭秘机器学习算法决策树
机器学习算法实战系列：决策树与随机森林全攻略引言“想知道Kaggle竞赛冠军团队的秘密武器吗？决策树和随机森林算法在80%的数据科学项目中都会用到！”决策树和随机森林是机器学习中最强大、最实用的算法之一。它们不仅直观易懂，而且在处理结构化数据时往往能取得惊人的效果。本文将带你从决策树的数学原理出发，逐步深入到随机森林的工业级应用，最后通过多个实战案例巩固所学知识。准备好迎接这场机器学习的视觉盛宴了
6.2 打卡分散406 python
DAY43复习日作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件image_classification_gradcam/├──config.py#配置文件：路径、超参数等├──data_loader.py#数据加载和预处理├──model.py#CNN模型定义├──train.py#训练和评估逻辑├──visualize.py#Gra
python编程训练网站,python做项目的网站 2401_84471631 python
大家好，给大家分享一下python编程训练网站，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！文章目录前言1、leetcode2、牛客网3、github4、Checkio5、codewars6、PythonTip7、CodeCombat8、pythonchallenge9、codingame10、kaggle零基础Python学习资源介绍Python学习路线汇总Python必备开发工具
Python训练营打卡Day43 宸汐Fish_Heart Python打卡训练 python 开发语言
DAY43复习日作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化@浙大疏锦行选择DogsvsCats数据集（Kaggle经典二分类问题）完整代码实现1.设置环境并加载数据importosimportnumpyasnpimporttorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimpo
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多