Gaolw1102

实战Kaggle比赛----预测房价(多层感知机)

文章目录

- 实战Kaggle比赛----预测房价
- - 下载和缓存数据集
  - Kaggle简介
  - 访问和读取数据集
  - 数据预处理
  - - 标准正态化、缺失值填充、离散值one-hot编码
    - 小栗子帮助理解
  - 训练
  - $K$ 折交叉验证
  - 模型选择
  - 提交 Kaggle 预测
  - 小结

实战Kaggle比赛----预测房价

之前几节我们学习了一些训练深度网络的基本工具和网络正则化的技术（如权重衰减、暂退法等）。本节我们将通过Kaggle比赛，将所学知识付诸实践。

Kaggle的房价预测比赛是一个很好的起点。此数据集由Bart de Cock于2011年收集 [DeCock, 2011]，涵盖了2006-2010年期间亚利桑那州埃姆斯市的房价。这个数据集是相当通用的，不会需要使用复杂模型架构。它比哈里森和鲁宾菲尔德的波士顿房价数据集要大得多，也有更多的特征。

本节我们将详细介绍数据预处理、模型设计和超参数选择。通过亲身实践，你将获得一手经验，这些经验将有益数据科学家的职业成长。

下载和缓存数据集

在整本书中，我们将下载不同的数据集，并训练和测试模型。这里我们实现几个函数来方便下载数据。

首先，我们建立字典DATA_HUB，它可以将数据集名称的字符串映射到数据集相关的二元组上，这个二元组包含数据集的url和验证文件完整性的sha-1密钥。所有类似的数据集都托管在地址为DATA_URL的站点上。

import hashlib
import os
import tarfile
import zipfile
import requests


DATA_HUB = dict()
DATA_URL = 'http://d2l-data.s3-accelerate.amazonaws.com/'

下面的 download函数用来下载数据集，将数据集缓存在本地目录（默认情况下为…/data）中，并返回下载文件的名称。如果缓存目录中已经存在此数据集文件，并且其sha-1与存储在DATA_HUB中的相匹配，我们将使用缓存的文件，以避免重复的下载。

def download(name, cache_dir=os.path.join('..','data')):
    
    """下载一个DATA_HUB中的文件，返回本地文件名"""
    assert name in DATA_HUB, f"{name} 不存在于 {DATA_HUB}"                       #若名称未在DATA_HUB字典中，则中断程序，输出提示
    
    url, sha1_hash = DATA_HUB[name]                                               #获取DATA_HUB内的url地址和sha1_hash密钥
    
    #创建文件路径，并使用exist_ok=True进行指定，文件夹已存在时不报错
    os.makedirs(cache_dir, exist_ok=True)                                        

    fname = os.path.join(cache_dir, url.split('/')[-1])                           #连接文件夹路径与名称
    
    if os.path.exists(fname):                                                     #若该文件已经存在
        
        """
        哈希算法又称为摘要算法，它生成的是固定长度的不可逆的混杂字符串。
        不要与加密算法混为一谈，因为加密对应着解密。而哈希算法很难很难解密。
        """
        sha1 = hashlib.sha1()                                                     #使用hashlib进行编码
        with open(fname, 'rb') as f:
            while True:
                data = f.read(1048576)                                           
                if not data:
                    break
                
                sha1.update(data)                                                 #使用sha1生成的字符串对数据进行编码
                
        # 命中缓存，检查文件内容
        if sha1.hexdigest() == sha1_hash:                                        #若sha1.dexdigest()哈希编码字符串符合原定存储的字符串
            return fname                                                         #返回文件指针
        
    print(f'正在从{url}下载{fname}...')
    
    r = requests.get(url, stream=True, verify=True)                              #request库发出get()请求，准备下载文件

    with open(fname, 'wb') as f:
        f.write(r.content)
    
    return fname                                                                 #返回文件指针

我们还需实现两个实用函数：一个将下载并解压缩一个zip或tar文件，另一个是将本书中使用的所有数据集从DATA_HUB下载到缓存目录中。

def download_extract(name, folder=None):  #@save
    """下载并解压zip/tar文件"""
    fname = download(name)
    base_dir = os.path.dirname(fname)                                      #去掉文件名，返回目录
    data_dir, ext = os.path.splitext(fname)                                #将文件名全部路径与文件后缀名拆开为一个二元组
    if ext == '.zip':
        fp = zipfile.ZipFile(fname, 'r')                                   #解压zip压缩文件
    elif ext in ('.tar', '.gz'):
        fp = tarfile.open(fname, 'r')                                      #解压tar或者gz压缩文件
    else:
        assert False, '只有zip/tar文件可以被解压缩'
    
    fp.extractall(base_dir)                                                #解压文件，放到当前文件夹
    
    return os.path.join(base_dir, folder) if folder else data_dir


def download_all():  #@save
    """下载DATA_HUB中的所有文件"""
    for name in DATA_HUB:
        download(name)

Kaggle简介

Kaggle是一个当今流行举办机器学习比赛的平台，每场比赛都以至少一个数据集为中心。许多比赛有赞助方，他们为获胜的解决方案提供奖金。

该平台帮助用户通过论坛和共享代码进行互动，促进协作和竞争。虽然排行榜的追逐往往令人失去理智：有些研究人员短视地专注于预处理步骤，而不是考虑基础性问题。但一个客观的平台有巨大的价值：该平台促进了竞争方法之间的直接定量比较，以及代码共享。这便于每个人都可以学习哪些方法起作用，哪些没有起作用。如果你想参加Kaggle比赛，你首先需要注册一个账户，如下图

在房价预测比赛页面（如图4.10.2 所示），你在”Data”选项卡下可以找到数据集。你可以通过下面的网址提交预测，并查看排名：

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

访问和读取数据集

注意，竞赛数据分为训练集和测试集。每条记录都包括房屋的属性值和属性，如街道类型、施工年份、屋顶类型、地下室状况等。

这些特征由各种数据类型组成。例如，建筑年份由整数表示，屋顶类型由离散类别表示，其他特征由浮点数表示。

这就是现实让事情变得复杂的地方：例如，一些数据完全丢失了，缺失值被简单地标记为 “NA”。

每套房子的价格只出现在训练集中（毕竟这是一场比赛）。我们将希望划分训练集以创建验证集，但是在将预测结果上传到Kaggle之后，我们只能在官方测试集中评估我们的模型。

开始之前，我们将使用pandas读入并处理数据。

import numpy as np
import pandas as pd                                          #引入numpy, pandas数据计算处理包
import torch
from torch import nn
from d2l import torch as d2l

为方便起见，我们可以使用上面定义的脚本下载并缓存Kaggle房屋数据集。

#DATA_HUB元组的第一个元素值是数据集下载地址，第二个值是hash编码的sha1值
DATA_HUB['kaggle_house_train'] = (  #@save
    DATA_URL + 'kaggle_house_pred_train.csv',
    '585e9cc93e70b39160e7921475f9bcd7d31219ce')

DATA_HUB['kaggle_house_test'] = (  #@save
    DATA_URL + 'kaggle_house_pred_test.csv',
    'fa19780a7b011d9b009e8bff8e99922a8ee2eb90')

我们使用pandas分别加载包含训练数据和测试数据的两个CSV文件。

train_data = pd.read_csv(download('kaggle_house_train'))                   #使用pandas读取下载好的csv文件，或者直接下载
test_data = pd.read_csv(download('kaggle_house_test'))

训练数据集包括1460个样本，每个样本80个特征和1个标签，而测试数据集包含1459个样本，每个样本80个特征。

print(train_data.shape)
print(test_data.shape)

(1460, 81)
(1459, 80)

让我们看看前四个和最后两个特征，以及相应标签（房价）。

train_data.iloc[:4, [0,1,2,3,-3,-2,-1]]

	Id	MSSubClass	MSZoning	LotFrontage	SaleType	SaleCondition	SalePrice
0	1	60	RL	65.0	WD	Normal	208500
1	2	20	RL	80.0	WD	Normal	181500
2	3	60	RL	68.0	WD	Normal	223500
3	4	70	RL	60.0	WD	Abnorml	140000

我们可以看到，在每个样本中，第一个特征是ID，这有助于模型识别每个训练样本。虽然这很方便，但它不携带任何用于预测的信息。因此，在将数据提供给模型之前，我们将其从数据集中删除。

all_features = pd.concat((train_data.iloc[:,1:-1], test_data.iloc[:,1:]))               #将训练集与测试集的所有特征连接到一起
all_features

	MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	LotConfig	...	ScreenPorch	PoolArea	PoolQC	Fence	MiscFeature	MiscVal	MoSold	YrSold	SaleType	SaleCondition
0	60	RL	65.0	8450	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	2	2008	WD	Normal
1	20	RL	80.0	9600	Pave	NaN	Reg	Lvl	AllPub	FR2	...	0	0	NaN	NaN	NaN	0	5	2007	WD	Normal
2	60	RL	68.0	11250	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	9	2008	WD	Normal
3	70	RL	60.0	9550	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	2	2006	WD	Abnorml
4	60	RL	84.0	14260	Pave	NaN	IR1	Lvl	AllPub	FR2	...	0	0	NaN	NaN	NaN	0	12	2008	WD	Normal
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1454	160	RM	21.0	1936	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	6	2006	WD	Normal
1455	160	RM	21.0	1894	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	4	2006	WD	Abnorml
1456	20	RL	160.0	20000	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	9	2006	WD	Abnorml
1457	85	RL	62.0	10441	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	MnPrv	Shed	700	7	2006	WD	Normal
1458	60	RL	74.0	9627	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	11	2006	WD	Normal

2919 rows × 79 columns

数据预处理

如上所述，我们有各种各样的数据类型。在开始建模之前，我们需要对数据进行预处理。首先，我们将所有缺失的值替换为相应特征的平均值。然后，为了将所有特征放在一个共同的尺度上，我们通过将特征重新缩放到零均值和单位方差来标准化数据：

正态分布的标准化公式为:
$\frac{X-\mu}{\sigma}$

直观地说，我们标准化数据有两个原因：首先，它方便优化。其次，因为我们不知道哪些特征是相关的，所以我们不想让惩罚分配给一个特征的系数比分配给其他任何特征的系数更大。

标准正态化、缺失值填充、离散值one-hot编码

#若无法获得测试数据，则可根据训练数据计算均值和标准差
numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index

#将所有的数值型特征均转化为符合标准正态分布的特征数值
all_features[numeric_features] = all_features[numeric_features].apply(
    lambda x: (x - x.mean())/(x.std()))

#在标准化数据之后，所有均值消失，因此我们可以把缺失值设置为0
all_features[numeric_features] = all_features[numeric_features].fillna(0)

all_features

	MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	LotConfig	...	ScreenPorch	PoolArea	PoolQC	Fence	MiscFeature	MiscVal	MoSold	YrSold	SaleType	SaleCondition
0	0.067320	RL	-0.184443	-0.217841	Pave	NaN	Reg	Lvl	AllPub	Inside	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	-1.551918	0.157619	WD	Normal
1	-0.873466	RL	0.458096	-0.072032	Pave	NaN	Reg	Lvl	AllPub	FR2	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	-0.446848	-0.602858	WD	Normal
2	0.067320	RL	-0.055935	0.137173	Pave	NaN	IR1	Lvl	AllPub	Inside	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	1.026577	0.157619	WD	Normal
3	0.302516	RL	-0.398622	-0.078371	Pave	NaN	IR1	Lvl	AllPub	Corner	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	-1.551918	-1.363335	WD	Abnorml
4	0.067320	RL	0.629439	0.518814	Pave	NaN	IR1	Lvl	AllPub	FR2	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	2.131647	0.157619	WD	Normal
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1454	2.419286	RM	-2.069222	-1.043758	Pave	NaN	Reg	Lvl	AllPub	Inside	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	-0.078492	-1.363335	WD	Normal
1455	2.419286	RM	-2.069222	-1.049083	Pave	NaN	Reg	Lvl	AllPub	Inside	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	-0.815205	-1.363335	WD	Abnorml
1456	-0.873466	RL	3.884968	1.246594	Pave	NaN	Reg	Lvl	AllPub	Inside	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	1.026577	-1.363335	WD	Abnorml
1457	0.655311	RL	-0.312950	0.034599	Pave	NaN	Reg	Lvl	AllPub	Inside	...	-0.285886	-0.063139	NaN	MnPrv	Shed	1.144116	0.289865	-1.363335	WD	Normal
1458	0.067320	RL	0.201080	-0.068608	Pave	NaN	Reg	Lvl	AllPub	Inside	...	-0.285886	-0.063139	NaN	NaN	NaN	-0.089577	1.763290	-1.363335	WD	Normal

2919 rows × 79 columns

接下来，我们处理离散值。这包括诸如“MSZoning”之类的特征。我们用独热编码替换它们，方法与前面将多类别标签转换为向量的方式相同。例如，“MSZoning”包含值“RL”和“Rm”。我们将创建两个新的指示器特征“MSZoning_RL”和“MSZoning_RM”，其值为0或1。

根据独热编码，如果“MSZoning”的原始值为“RL”，则：“MSZoning_RL”为1，“MSZoning_RM”为0。 pandas软件包会自动为我们实现这一点。

#"Dummy_na=True"将"na"(缺失值)视为有效的特征值，并为其创建指示符特征
all_features = pd.get_dummies(all_features, dummy_na=True)
all_features.shape

(2919, 331)

你可以看到，此转换会将特征的总数量从79个增加到331个。最后，通过values属性，我们可以从pandas格式中提取NumPy格式，并将其转换为张量表示用于训练。

n_train = train_data.shape[0]                                 #获取训练集样本个数

#获取训练集特征张量
train_features = torch.tensor(all_features[:n_train].values,
                              dtype=torch.float32)

#获取测试集特征张量
test_features = torch.tensor(all_features[n_train:].values,
                              dtype=torch.float32)

#获取训练集标签
train_labels = torch.tensor(train_data.SalePrice.values.reshape(-1, 1),
                            dtype=torch.float32)

小栗子帮助理解

为了更好地理解预处理的步骤，现在我们可以自己测试这些预处理的具体操作。

首先生成5个样本，分别为名称和年龄

dictionary = {
    'name':['China','USA','Japan','India','England'],
    'age':[1,2,None,4,5]
}


dic = pd.DataFrame(dictionary)                              #先将字典转化为pd形式
dic

	name	age
0	China	1.0
1	USA	2.0
2	Japan	NaN
3	India	4.0
4	England	5.0

对所有样本的数值类型特征作正则分布标准化操作。

此时所有数值类型的均值为0，标准差为1，为缺失值填充均值0。

numeric_dic = dic.dtypes[dic.dtypes != 'object'].index      #获取数值类型列下标
print(numeric_dic)

#数值数据进行标准正态分布
dic[numeric_dic] = dic[numeric_dic].apply(
    lambda x:(x - x.mean())/(x.std()))                      

#对所有缺失值填充均值0
dic[numeric_dic] = dic[numeric_dic].fillna(0)                                  
dic

Index(['age'], dtype='object')

	name	age
0	China	-1.095445
1	USA	-0.547723
2	Japan	0.000000
3	India	0.547723
4	England	1.095445

对于离散值，类似于 ‘name’ 使用热编码(one-hot)代替它们，如下

dic = pd.get_dummies(dic, dummy_na=True)
dic

	age	name_China	name_England	name_India	name_Japan	name_USA
0	-1.095445	1	0	0	0	0
1	-0.547723	0	0	0	0	1
2	0.000000	0	0	0	1	0
3	0.547723	0	0	1	0	0
4	1.095445	0	1	0	0	0

以上就是对数据集预处理的小栗子讲解。

训练

首先，我们训练一个带有损失平方的线性模型。显然线性模型很难让我们在竞赛中获胜，但线性模型提供了一种健全性检查，以查看数据中是否存在有意义的信息。如果我们在这里不能做得比随机猜测更好，那么我们很可能存在数据处理错误。如果一切顺利，线性模型将作为 基线（baseline）模型，让我们直观地知道最好的模型有超出简单的模型多少。

loss = nn.MSELoss()                                             #定义均方损失函数
num_inputs = train_features.shape[1]                            #输入样本特征的个数

#定义线性神经网络
def get_net():
    net = nn.Sequential(nn.Linear(num_inputs, 1))
    return net

房价就像股票价格一样，我们关心的是相对数量，而不是绝对数量。因此，我们更关心相对误差 $\frac{y - y^{hat}}{y}$ ，而不是绝对误差 $y - y^{hat}$
。例如，如果我们在俄亥俄州农村地区估计一栋房子的价格时，假设我们的预测偏差了10万美元，然而那里一栋典型的房子的价值是12.5万美元，那么模型可能做得很糟糕。另一方面，如果我们在加州豪宅区的预测出现同样的10万美元的偏差，（在那里，房价中位数超过400万美元）这可能是一个不错的预测。

解决这个问题的一种方法是用价格预测的对数来衡量差异。事实上，这也是比赛中官方用来评价提交质量的误差指标。

即将 $-\delta <= |y - y^{hat}| <= \delta$ 转化为 $e^{-\delta} <= |\frac{y}{y^{hat}}| <= e^{\delta}$ 。这使得预测价格的对数与真实标签价格的对数之间出现以下均方根误差：

$\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}(log y_i - log y_{i}^{hat})^2}$

#定义均方根误差函数
def log_rmse(net, features, labels):
    #对小于1的预测值均取最小值1
    clipped_preds = torch.clamp(net(features), 1, float('inf'))
    
    rmse = torch.sqrt(loss(torch.log(clipped_preds),
                           torch.log(labels)))                                            #计算对数形式二点均方根误差
    
    return rmse.item()                                                                   #返回损失的值

与前面的部分不同，我们的训练函数将借助Adam优化器（我们将在后面章节更详细地描述它）。 Adam优化器的主要吸引力在于它对初始学习率不那么敏感。

#训练数据集，并返回对数情况下的训练集与测试集的损失列表
def train(net, train_features, train_labels, test_features, test_labels,
         num_epochs, learning_rate, weight_decay, batch_size):
    
    #定义训练集、测试集损失列表
    train_ls, test_ls = [], []
    
    #获取数据集迭代器，没次迭代大小为batch_size
    train_iter = d2l.load_array((train_features, train_labels), batch_size)
    
    #这里使用的是Adam优化算法，参数分别为线性神经网络参数w，学习率，正则化参数
    optimizer = torch.optim.Adam(net.parameters(), 
                                 lr=learning_rate, weight_decay=weight_decay)
    
    #迭代训练神经网络
    for epoch in range(num_epochs):
        #遍历训练集
        for X, y in train_iter:
            optimizer.zero_grad()                     #清除缓存的梯度
            l = loss(net(X), y)                       #计算损失值
            l.backward()                              #反向传播计算梯度
            optimizer.step()                          #更新参数w
        
        #计算对数情况下的损失函数，追加到训练集损失列表中
        train_ls.append(log_rmse(net, train_features, train_labels))
        
        #若测试集不为空，计算对数情况下的损失函数，追加到测试集损失列表中
        if test_labels is not None:
            test_ls.append(log_rmse(net, test_features, test_labels))
    
    #返回训练集、测试集损失列表
    return train_ls, test_ls

$K$ 折交叉验证

你可能还记得，我们之前介绍了 $K$ 折交叉验证，它有助于模型选择和超参数调整。

我们首先需要定义一个函数，在 $K$ 折交叉验证过程中返回第 $i$ 折的数据。具体地说，它选择第 $i$ 个切片作为验证数据，其余部分作为训练数据。注意，这并不是处理数据的最有效方法，如果我们的数据集大得多，会有其他解决办法。

#获取K折交叉对应的1种---训练集测试集切分方式(共有K种)
def get_k_fold_data(k, i, X, y):
    assert k > 1                                                          #K折交叉验证，其中K必须要大于1
    fold_size = X.shape[0] // k                                           #将数据集切分为K份，每份大小为 
    
    X_train, y_train = None, None                                        #初始化训练集为空
    
    #通过循环k次，将数据集进行切分，训练集包含样本数为 (k-1)*fold_size 份， 测试集包含样本数为 1*fold_size 份
    for j in range(k):
        
        #slice(start,end)：方法可从已有数组中返回选定的元素，返回一个新数组，包含从start到end（不包含该元素）的数组元素
        idx = slice(j * fold_size, (j + 1) * fold_size)                  #首先计算每一小份数据的下标，即(0, n)、(n, 2n)等
        
        X_part, y_part = X[idx, :], y[idx]                               #取出数据集对应的样本X[0, n]、X[n, 2n]个等
        
        #若j == i，此时该 fold_size个 数据集作为测试集数据
        if j == i:
            X_valid, y_valid = X_part, y_part                            #将此fold_size个样本作为测试数据集
        
        #如果训练数据集还是空
        elif X_train is None:
            X_train, y_train = X_part, y_part                            #将此fold_size个样本作为训练数据集
            
        
        #不是前面的两种情况，则将fold_size个样本添加到训练集中，完成(k-1) * fold_size个样本
        else:
            X_train = torch.cat([X_train, X_part], 0)                   #追加到训练集，0代表对每一列追加新的样本数据
            y_train = torch.cat([y_train, y_part], 0)                   #列数不变，样本数增加
    
    return X_train, y_train, X_valid, y_valid                          #返回训练集、测试集数据

当我们在 $K$ 折交叉验证中训练 $K$ 次后，返回训练和验证误差的平均值。

#K折交叉验证函数，进行K次训练集测试集的划分并训练，验证模型性能
def k_fold(k, X_train, y_train, num_epochs, learning_rate, weight_decay, batch_size):
    train_l_sum, valid_l_sum = 0, 0                                               #初始化训练集损失和、测试集损失和为0
    
    #进行K次交叉验证，测试模型的性能
    for i in range(k):
        data = get_k_fold_data(k, i, X_train, y_train)                            #获取K切分函数返回的数据集与测试集 
        net = get_net()                                                           #获取神经网络
    
        train_ls, valid_ls = train(net, *data, num_epochs, learning_rate,         #训练模型，并返回模型的训练集、测试集损失列表
                                  weight_decay, batch_size)
        
        #列表最后一项是训练的最终损失值
        train_l_sum += train_ls[-1]                                              #追加训练集损失                                           
        valid_l_sum += valid_ls[-1]                                              #追加测试集损失
        
        #绘图，画出第一次交叉验证时，训练集与测试集随着迭代次数增加的损失变化函数
        if i == 0:
            d2l.plot(list(range(1, num_epochs + 1)), [train_ls, valid_ls],
                     xlabel='epoch', ylabel='rmse', xlim=[1, num_epochs],
                     legend=['train', 'valid'], yscale='log')
            
        print(f'折{i + 1}, 训练log rmse{float(train_ls[-1]):f},'                 #输出每一次交叉验证时对应的训练集、测试集的损失
             f'验证log rmse{float(valid_ls[-1]):f}')
    
    return train_l_sum/k, valid_l_sum/k                                         #返回平均的训练集、测试集损失

模型选择

在本例中，我们选择了一组未调优的超参数，并将其留给读者来改进模型。找到一组调优的超参数可能需要时间，这取决于一个人优化了多少变量。有了足够大的数据集和合理设置的超参数， $K$ 折交叉验证往往对多次测试具有相当的稳定性。然而，如果我们尝试了不合理的超参数，我们可能会发现验证效果不再代表真正的误差。


"""
k为交叉验证的次数
num_epochs每次验证需迭代训练的次数
lr为学习率
weight_decay为正则化参数
batch_size小批量数据大小
"""

k, num_epochs, lr, weight_decay, batch_size = 5, 100, 5, 0, 64

#调用K折交叉验证函数获取模型最终训练集与测试集的损失
train_l, valid_l = k_fold(k, train_features, train_labels, num_epochs,
                         lr, weight_decay, batch_size)

#输出验证结果情况
print(f'{k}-折验证:平均训练log rmse: {float(train_l):f},'
     f'平均验证log rmse: {float(valid_l):f}')

折1, 训练log rmse0.170476,验证log rmse0.157046
折2, 训练log rmse0.162232,验证log rmse0.189727
折3, 训练log rmse0.163782,验证log rmse0.168296
折4, 训练log rmse0.168180,验证log rmse0.154713
折5, 训练log rmse0.163380,验证log rmse0.182908
5-折验证:平均训练log rmse: 0.165610,平均验证log rmse: 0.170538

请注意，有时一组超参数的训练误差可能非常低，但 $K$ 折交叉验证的误差要高得多，这表明模型过拟合了。在整个训练过程中，你将希望监控训练误差和验证误差这两个数字。较少的过拟合可能表明现有数据可以支撑一个更强大的模型，较大的过拟合可能意味着我们可以通过正则化技术来获益。

提交 Kaggle 预测

既然我们知道应该选择什么样的超参数，我们不妨使用所有数据对其进行训练（而不是仅使用交叉验证中使用的数据）。

然后，我们通过这种方式获得的模型可以应用于测试集。将预测保存在CSV文件中可以简化将结果上传到Kaggle的过程。

"""
train_features训练集的特征
test_features测试集特征
train_labels训练集的标签
test_data测试数据
num_epochs迭代次数
lr学习率
weight_decay正则化参数
batch_size批量数据集大小
"""
def train_and_pred(train_features, test_features, train_labels, test_data,
                  num_epochs, lr, weight_decay, batch_size):
    
    net = get_net()                     #定义神经网络
    
    #训练模型，获取训练集损失
    train_ls, _ = train(net, train_features, train_labels, None, None,
                    num_epochs, lr, weight_decay, batch_size)
    
    #绘制出训练集的损失关于迭代次数的函数图
    d2l.plot(np.arange(1, num_epochs+1), [train_ls], xlabel='epoch',
            ylabel='log rmse', xlim=[1, num_epochs], yscale='log')
    
    print(f'训练log rmse: {float(train_ls[-1]):f}')
    
    #将网络应用于测试集，预测结果
    preds = net(test_features).detach().numpy()
    
    #将预测结果集转化为pandas数据类型，并作为test_data的列SalePrice
    test_data['SalePrice'] = pd.Series(preds.reshape(1, -1)[0])                           
    
    #连接预测样本的id和预测值SalePrice，生成一个新的pandas列表
    submission = pd.concat([test_data['Id'], test_data['SalePrice']], axis=1)
    
    #不保存索引
    submission.to_csv('submission.csv', index=False)
    


train_and_pred(train_features, test_features, train_labels, test_data, num_epochs, lr, weight_decay, batch_size)

训练log rmse: 0.162249

接下来，如下图所示，我们可以提交预测到Kaggle上，并查看在测试集上的预测与实际房价（标签）的比较情况。步骤非常简单：

登录Kaggle网站，访问房价预测竞赛页面。

点击“Submit Predictions”或“Late Submission”按钮（在撰写本文时，该按钮位于右侧）。

点击页面底部虚线框中的“Upload Submission File”按钮，选择你要上传的预测文件。

点击页面底部的“Make Submission”按钮，即可查看你的结果。

顺便附上我的提交与排名

小结

1、真实数据通常混合了不同的数据类型，需要进行预处理。

2、常用的预处理方法：将实值数据重新缩放为零均值和单位方法；用均值替换缺失值。

3、将类别特征转化为指标特征，可以使我们把这个特征当作一个独热向量来对待。

4、我们可以使用 $K$ 折交叉验证 来选择模型并调整超参数。

5、对数 $L o g$ 对于相对误差很有用。

你可能感兴趣的:(深度学习,#,动手学深度学习----学习笔记,神经网络,回归,深度学习)

《随园诗话》学习笔记六飞鸿雪舞
卷一诗写性情，惟吾所适四、引用他言【原文】于耐圃相公构蔬香阁，种菜数畦，题一联云：“今日正宜知此味；当年曾自咬其根。”鄂西林相公亦有菜圃对联云：“此味易知，但须绿野秋来种；对他有愧，只恐苍生面色多。”两人都用真西山语；而胸襟气象，却迥不侔。【译文】于敏中在园子里构筑小楼一座，名称“蔬香阁”，种菜几畦。小楼题一联：“今日正宜知此味；当年曾自咬其根。”鄂尔泰家中也有菜圃，园子门口也有对联一副：“此味易
墙云中听书
图片发自App不知何时那开阔的路上多了一道墙。这是一条通向远方的路也是我通向你心里的桥我站在路头再也看不清你的模样听不清你铜铃般的笑声。我憎恨这道墙怕你转身的时候看不见我无力的挥手。我憎恨这道墙怕你落下的泪水我不能及时拭擦我要推倒这，堵人的墙让道路更通畅我要拆掉这道墙让你的音容回归我的怀抱
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
2022-03-23 成长_3a8a
2022年3月23日中原焦点团队刘永利分享923天。咨询伦理第1课学习笔记。第1课：绪论、价值观与多元文化。一、专业伦理的意义。专业伦理系指心理咨询师在执行业务时能够节制自己的专业特权和个人欲望，遵循伦理守则和执业标准，提供个案最好的专业服务，以增进个案的福祉。伦理可以分为个人伦理和专业伦理两种。专业伦理又可分为两大类，一类是强制性伦理，另一类是理想性伦理。强制性能力是最低标准，理想性伦理目前可能
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
ROS2 通过相机确定物品坐标位置
要实现通过相机确定物品坐标位置，通常需要相机标定、物体检测和坐标转换几个步骤。下面我将提供一个完整的解决方案，包括相机标定、物体检测和3D坐标估计。1.系统架构相机标定-获取相机内参和畸变系数物体检测-使用OpenCV或深度学习模型检测物品坐标转换-将2D图像坐标转换为3D世界坐标ROS2集成-将上述功能集成到ROS2节点中2.实现步骤2.1创建功能包bashros2pkgcreateobject
自学软件测试需要学什么？ AIZHINAN 软件测试软件测试面试自学软件测试软件测试培训转行软件测试
软件测试是一个系统化的领域，需要掌握测试理论、工具、编程、环境配置、业务流程等多方面知识。以下是系统化的学习路径，涵盖从入门到进阶的核心内容：软件测试视频教程，从入门到精通（完整版）零基础小白也可学！一、测试理论基础1.测试基础概念软件测试的定义、目的（质量保障、缺陷预防）。测试流程：需求分析→测试计划→用例设计→执行→缺陷管理→报告。常见术语：黑盒/白盒测试、回归测试、冒烟测试、Alpha/Be
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
Python从入门到弃坑学习笔记——第一章 Python入门 youweilong033 Python学习学习笔记 python pycharm
笔主趁着假期闲的蛋疼，打算开始学习一下Python，主要是之前就有很多朋友问我Python问题，甚至还有新闻学专业的，但我Python从没学过，还挺尴尬的。打算从现在开坑写一系列的Python学习笔记（flag立下了，乐。毕竟是从零开始学，在我的系列文章中，你将会看到包括但不限于：根据自己的想法命名东西，各种概念胡言乱语，shi一样的排版，某网课上的内容拿来主义。希望大佬们海涵，批评指正，有问题可
基于深度学习的和平精英（吃鸡）内置锁头训练摆烂仙君深度学习人工智能
前言本教程以和平精英为例，主要讲解如何构建深度学习模型对游戏中角色进行头部标注，并控制鼠标对其进行锁定射击，同时围绕其游戏防作弊系统进行算法攻防讲解，该方案对于csgo,cf等游戏也同样适用。请注意，该教程仅供娱乐教学，若本教程评论超过100，将会开源相关代码并对实际的代码部署进行进一步分析。一、和平精英伤害机制分析在《刺激战场》（现为《和平精英》）中，击中头部的伤害远高于身体其他部位，这是由游戏
忆过...忆己落隐栖
归来......回归正常，懒散的状态一如既往，一年的时间快到都没来得及记忆，追忆！前两天整理照片时，看到一路景色，才回忆到，七月的酷暑，顶着将近38-9度的高温，冒着太阳的烘烤独自骑行到密云水库！去的路上无意间闯入的一条小路--安静扭头看了看胳膊上那道明显的黑白分界线！噢！一冬天都没有恢复....也想到了在一段爬坡的路上，车不给力，骑得像蜗牛，后面来的一个兄弟和一个妹子，轻松越过，旁边给我打气，姐
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
迁移学习让深度学习更容易城市中迷途小书童
摘要：一文读懂迁移学习及其对深度学习发展的影响！深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点，使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏，检测癌症，和人类交谈，自动驾驶。深度学习变得强大的同时也需要很大的代价。进行深度学习需要大量的数据、昂贵的硬件、甚至更昂贵的精英工程人才。在ClouderaFastForward实验室，我们
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
神经网络：模拟人脑的 AI 信息处理系统
1.神经网络是什么：AI的“数字大脑”1.1从生物神经元到人工神经元人脑由860亿个神经元通过突触连接形成复杂网络，神经元通过电信号传递信息——当信号强度超过阈值时，神经元被激活并向其他神经元发送信号。神经网络正是模仿这一结构设计的计算模型，其核心是“人工神经元”和“层级连接”。人工神经元接收多个输入信号，通过权重（模拟突触强度）加权求和，再经激活函数处理（模拟神经元“是否激活”），输出结果。例如
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
嵌入式学习-PyTorch（8）-day24 LGGGGGQ 学习 pytorch 深度学习
torch.optim优化器torch.optim是PyTorch中用于优化神经网络参数的模块，里面实现了一系列常用的优化算法，比如SGD、Adam、RMSprop等，主要负责根据梯度更新模型的参数。️核心组成1.常用优化器优化器作用典型参数torch.optim.SGD标准随机梯度下降，支持momentumlr,momentum,weight_decaytorch.optim.Adam自适应学习
Django学习笔记：（五）模板过滤器码农葫芦侠 Django django 学习笔记
模板过滤器1简介2语法3常见过滤器3.1add3.2addslashes3.3center3.4cut3.6date3.6default3.7default_if_none3.8dictsort3.9dictsortreversed3.10lower3.11filesizeformat3.12upper3.13first3.14last3.15floatformat3.16iriencode3.1
你相信命运吗，你对命运如何理解？ 960927173172
首先给出结论：我个人是相信命运、运气这种说法的。拿破仑曾说：“没有机遇，能力就毫无意义。”我回归我自己的经历，我跟同村的发小，一起出门，她总能获得意外收获，同时走一条路，同样做一件事，他的运气就比我好，比如：我们同样在一起走，她能看到地上的钞票，我却看不到，同时是买一些刮刮乐，他能中奖，而我却中不到，这些都是凭借运气获得的，这些微乎其微的小事，也足以说明一个人的运气是多么重要，可见做一个事情其中掺
K近邻算法【python】【sklearn】 weixin_44985842 python 近邻算法 sklearn
0定义K近邻算法（K-NearestNeighbors,KNN）是一种基于实例的监督学习算法，主要用于分类和回归任务。其核心思想是：在特征空间中，对于待预测的样本，找到与其距离最近的k个已知样本（“邻居”），根据这k个邻居的类别（分类任务）或属性值（回归任务）来决定该样本的预测结果，，常用欧氏距离公式：对于两个n维样本点xi=(xi1,xi2,...,xin)x_i=(x_{i1},x_{i2},
STM32+w5500+TcpClient学习笔记结城明日奈是我老婆嵌入式 stm32 学习笔记
文章目录参考文章本地和远程IP连接的配置(重点)TCP发送参考文章注意:SPI的CSRST脚这些都是通过cubeMX自定义的可以自行修改。用的是SPI1项目地址//MyTcpClient.h#ifndefMYTCPCLIENT_H#defineMYTCPCLIENT_H#include"main.h"#include"w5500.h"#include"socket.h"#include"wizch
pyQT学习笔记——Qt常用组件与绘图类的使用指南 tt555555555555 Qt pyqt 学习笔记
Qt常用组件与绘图类的使用指南一、大小策略（SizePolicy）1.1大小策略概述1.2具体参数1.3其他常见策略1.4伸展值的作用二、常用组件的使用2.1QSpinBox和QComboBox示例代码2.2QDialog示例代码2.3QTableView示例代码三、QPainter类介绍3.1QPainter的使用示例代码3.2QPainter的功能一、大小策略（SizePolicy）1.1大小
PyQt5学习笔记，带例子源码
一、很程序员，都喜欢开发windows桌面应用系统，基于python3开发，效率高二、PyQt5开发的桌面应用系统是可以跨平台的，可以在Mac上、Window上、Linux桌面系统上运行，以下为学习笔记及总级三、源码下载登录后复制1、QDateTimeEdit日期输入框setCalendarPopup弹出日期选择框setDisplayFormat("yyyy-MM-ddHH:mm:ss")设置展示
DataWhale 二月组队学习-深入浅出pytorch-Task04 －273.15K DataWhale组队学习学习 pytorch 人工智能
一、自定义损失函数1.损失函数的作用与自定义意义在深度学习中，损失函数（LossFunction）用于衡量模型预测结果与真实标签之间的差异，是模型优化的目标。PyTorch内置了多种常用损失函数（如交叉熵损失nn.CrossEntropyLoss、均方误差nn.MSELoss等）。但在实际任务中，可能需要针对特定问题设计自定义损失函数，例如：处理类别不平衡问题（如加权交叉熵）实现特殊业务需求（如对
PyQt5学习笔记 Shane1111111 qt 学习笔记
来源：王铭东老师的B站教程链接：PyQt5快速入门_哔哩哔哩_bilibili基本控件QRadioButtonQLineedit#清空xxx.clear()#插入新内容到最右光标处xxx.insert("内容")布局1.水平布局创建组#hobby主要是保证他们是一个组。hobby_box=QGroupBox("爱好")设置hobby_box的布局将组中内容添加到该组的容器中将组hobby_box添
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement