kgbkqLjm

学习笔记-李沐动手学深度学习（三）（10-11，隐藏层、多层感知机、激活函数、模型超参数选择、欠过拟合）

总结

多体会（宏观、哲学）

【深度学习的核心】首先是要模型足够大，在此基础上通过各种手段来控制模型容量，使得最终得到较小的泛化误差
【一般深度学习特指神经网络这一块】

【学习的核心是要学习本质上不变的那些核心思想，如欠过拟合、数据集怎么弄、训练误差泛化误差等等，因为很可能过几年有新的语言、新的技术出现。整个工科本质上都差不多，从某个方向深入学习到精髓，很容易向其他工科迁移】

世界上有三种东西：
艺术：我做了一件事，但我也不知道怎么解释，我觉得这样好看点
工程：我做的事情可以通过实际来验证，都可以通过定理来描述
科学：去理解为什么
深度学习（神经网络）一开始是艺术（我有个想法且也能work，得想个理由如何解释，虽然暂时也不知道如何解释是最合理的），但只要你能work，总有人帮你找到理由去解释为何work（此即engineer的任务）
比如蒸汽机先出现，解释蒸汽机的原理的物理学知识是100年后才出来的，有一定的滞后性

【多层感知机】经验：网络是宽点好（即隐藏层数少，每个隐藏层比较宽）还是深点好（有多个隐藏层）
一般来说多隐藏层时，前面到后面隐藏层宽度越来越小
（即
（1）从第一个隐藏层逐步压缩input并提炼信息，而不是一次压的特别小
或
（2）在第一个隐藏层开始先将input放大，然后再逐步压缩（即减小隐藏层宽度），如下图）

但一般不会一开始就先把图片压缩到很小再放大，因为这样会丢失很多特征信息（但是后面CNN也有这么做的，到时再看吧）

模型参数与超参数的区别

模型参数指w权重、b偏差的值
超参数：如人为选择模型（是线性模型还是多层感知机还是其他模型），如果是多层感知机选多少层、每层多大，训练的lr多少
个人概括：超参数就是人为可设置、人为可选的参数；模型参数就是通过训练模型自己得到的参数
hyperparameter

多层感知机与SVM

学术界就是个时尚界，每过几年就有不同的流行的东西
【SVM不怎么需要调参，而且数学理论有人推崇】

4.从时间顺序上来说：多层感知机是在SVM之前出现的
多层感知机虽然解决了XOR问题，但是其弊端是需要选择超参数；
但是SVM对于超参数不敏感，最中间结果好坏受超参数影响很小。SVM的优化更容易实现（无需 SGD这种东西）。SVM有很漂亮的数学定理，有很多数学性的东西，如果二者作用效果差不多当然使用SVM。

现在之所以推荐用多层感知机MLP是因为，当问题变了后你想改成别的神经网络，MLP的代码只需要简单修改、大体的优化算法等内容基本无修改即可实现，而用SVM的改动量较大

关于神经网络层数的说明

【隐藏层一般都是带非线性激活函数的】不带隐藏层的网络就是线性网络模型wx+b
【神经网络层数的说明】通常来讲，一层是指带权重的
一般来说，一层是包括【w、输入、b等权重的计算】+【（非线性）激活函数sigma】的。
如吴恩达，一般将input不算层数，是所有的隐藏层+output 层 = 层数（当然也能理解为 input+所有隐藏层不算输出层，其实意思是一样的，只是一般不算input层，算output层）

个人感觉看几层没有绝对的定论，只是比表述、描述方式不同
感觉也不一定,吴恩达说过几层有的是不包括输入层的,也就是看权重有几层.但在其他一些地方就包括了输入层,这个几层无伤大雅
【下图无论用哪种看法看都是两层】每个箭头相当于可以学习的权重

吴恩达中：

关于W、X、b的维度说明

【总结】写W·X或X·W 或有时W^T都没关系，意义都是权重W和输入X做矩阵运算，各种写法的目的最终都是为了能使二者的运算满足矩阵乘法运算规则。
怎么写都没有本质区别，和你如何定义矩阵、向量有关（比如矩阵是mxn还是nxm，向量是行还是列）

如下图w写4x5的shape或5x4均可，具体写法要看输入X是怎么定义的

注意：是否需要转置和你的声明有关，最终只要是能满足X和W能做矩阵乘法运算，如：X·W或W^T`X即可
H = relu(X @ W1 + b1) 如此处参与计算的X的shape为（自动计算，num_inputs）、W.shape为（num_inputs, num_hiddens）那么直接X·W就满足矩阵乘法了，就无需对W转置了

本课程中隐藏层大小

即单个隐藏层如何设计，即有多少个神经元，即待学习的权重如何

10-多层感知机+代码实现

感知机（二分类问题）

个人理解：
感知机即单层神经网络
多层感知机：多层神经网络

【多层感知器（多层感知机、multilayer perceptron）】就是如下图这种基本的多层的神经网络的宏观称呼

基本概述

六七十年前的模型：
加粗为向量，<>内积

从图像上来看感知机：有多个输入，一个输出（即二分类问题）
① 线性回归输出的是一个实数，感知机输出的是一个离散的类。

训练感知机

初始化w、b均为0

① 如果感知机预测分类正确的话，yi*[+b]为正数，负号后变为一个负数，max后输出为0，则梯度不进行更新。
② 如果分类错了，yi*[+b]为负数，则下图中的if判断就成立了，就梯度进行更新，对参数w、b进行一次更新。
重复上述过程，直到所有类都分类正确

等价于每次拿一个样本去基于梯度下降进行更新（原始的感知机并未使用随机方法）
即下图中的感知机过程等价于下图中下面红框的损失函数
yi应该是第i个样本的真实类别，绿框是预测类别结果

例子：狗、猫分类
domestication：驯化；驯养
当前分类模型的权重对应黑色线

当再来一个狗时，原权重不对，向下更新一点到下图黑色线
下面的几个图是重复这个过程，直到对所有样本都分类正确

收敛定理：什么时候才能够停止
r越大，数据越大，收敛越慢
ρ越小，你的预测模型的波动范围就不能太大，留给你的余量就小，那么花的时间自然就长

XOR：异或
感知机无法拟合XOR函数：红色代表一类（如-1），绿色代表一类（如+1），感知机（线性模型）无法产生线性分割面将共同的类别分割在一边（如下图中无法用一条直线将相同颜色的点分割在一边）

但是可以通过多层感知机解决上述问题

多层感知机（MLP、multilayer perceptron）

下图中各个隐藏层大小即指每个隐藏层样子如何设计（即有多少个节点及节点的权重）

个人理解多层感知机：一定是个非线性模型。线性模型中加入一或多个非线性隐藏层（即含非线性激活函数）后的模型
【作用】其解决了感知机（线性模型）不能拟合XOR的局限性（通过加入隐藏层和激活函数，感觉图片中是将隐藏层节点和激活函数画在一起了，有些图片也会把二者分开画）

【引言】基于单线性模型解决不了XOR问题
根据上节，单线性模型肯定不能解决XOR问题，那么分步来看（即如果一步做不了，就改成多步，分别学出两个不同的简单函数，最后将二者组合起来）：
蓝色线y 根据 x的正负来分隔（分开了1、3 和 2、4）；
黄色线x 根据y的正负来分隔（分开了1、2和3、4）；
然后对结果做同或运算，得到product

下图中横纵轴分别为两个特征，颜色是其label

多层感知机解决单分类问题

【正文】

我们能做的就是设置隐藏层大小，因为输入输出层的大小已经固定了（实际需求）

具体看下：
输入为一个n维向量
W1：mxn矩阵，b1：长为m的向量
h：每个隐藏层的输出
提示：下面左边参数和右边图无关

hence：因此

如果用线性的激活函数sigma，则最后的模型还是线性模型

激活函数（sigmoid、Tanh、ReLU）

sigmoid

Tanh

【常用】ReLU

【tips】选择激活函数的类型远远没有选择隐藏层大小（即如隐藏层超参数的学习）重要，因此一般用ReLU即可

【简单、快捷】指数运算的开销（时间、性能空间等）很大，ReLU相较于前面的激活函数，无指数运算

多层感知机解决多类分类问题（应用了softmax）

多类分类与softmax的唯一区别就是多加了隐藏层，其他没有本质区别
如下图中没有中间的隐藏层，就是简单的softmax回归；
如下图，则为多层感知机

多层感知机解决多分类问题时，除了向量、标量、矩阵等维度方面的变化，还有多了一步softmax

多隐藏层的多层感知机

h为每个隐藏层的输出
最后一层无需激活函数（即下图中 sigma）

【与之前单分类问题多层感知机的区别】超参数变多了（即选多少个隐藏层，以及每个隐藏层是什么样的（有经验在里面的））
经验：网络是宽点好（即隐藏层数少，每个隐藏层比较宽）还是深点好（有多个隐藏层）
一般来说多隐藏层时，前面到后面隐藏层宽度越来越小
（即
（1）从第一个隐藏层逐步压缩input并提炼信息，而不是一次压的特别小
或
（2）在第一个隐藏层开始先将input放大，然后再逐步压缩（即减小隐藏层宽度），如下图）

【W是否转置的说明】注意：是否W需要转置和你的声明有关，最终只要是能满足X和W能做矩阵乘法运算，如：X·W或W^T`X即可

但一般不会一开始就先把图片压缩到很小再放大，因为这样会丢失很多特征信息（但是后面CNN也有这么做的，到时再看吧）

【具体可看视频 P2多层感知机 17:00】https://www.bilibili.com/video/BV1hh411U7gn/?p=2&spm_id_from=pageDriver&vd_source=e81e116c4ffe5e79d4bc44738263eda4

代码实现

从零实现

import torch
from torch import nn
from d2l import torch as d2l
# 0.
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

# 1.实现一个具有单隐藏层的多层感知机，它包含256个隐藏单元
num_inputs, num_outputs, num_hiddens = 784, 10, 256 # 输入784、输出10是数据决定的，256是调参自己决定的（超参数，选的是10-784之间的一个数）
# 初始化w1的行数为784、列数256。此处加不加nn.Parameter都行。
# 为什么此处要随机初始化randn，而不是全初始化为0？（弹幕说：设置为零的话梯度为0，参数不会更新，相当于隐藏层只有一个单元）
W1 = nn.Parameter(torch.randn(num_inputs, num_hiddens, requires_grad=True))
b1 = nn.Parameter(torch.zeros(num_hiddens, requires_grad=True))  # 向量
W2 = nn.Parameter(torch.randn(num_hiddens, num_outputs, requires_grad=True))
b2 = nn.Parameter(torch.zeros(num_outputs, requires_grad=True))   # 向量
params = [W1,b1,W2,b2]

# 2.实现 ReLu 激活函数
def relu(X):
    a = torch.zeros_like(X) # a的数据类型、形状都和X一样，但是元素值全为 0
    return torch.max(X,a)

# 3.实现模型
def net(X):
    #print("X.shape:",X.shape)
    # 原输入X：batch*28*28的 先拉成 batch*784
    X = X.reshape((-1, num_inputs)) #将输入X拉成一个二维矩阵，-1自动计算（结果应该为batch_size），（应该是以便可以满足X·W的矩阵乘法）
    #print("X.shape:",X.shape)
    H = relu(X @ W1 + b1) # @：矩阵乘法
    #print("H.shape:",H.shape)
    #print("W2.shape:",W2.shape)
    return (H @ W2 + b2)

# 损失
loss = nn.CrossEntropyLoss() # 交叉熵损失

# 4.【训练】多层感知机的训练过程与softmax回归的训练过程完全一样
num_epochs ,lr = 30, 0.1
updater = torch.optim.SGD(params, lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

基于框架实现

和之前区别不大

import torch
from torch import nn
from d2l import torch as d2l
# 0.
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

# 1.实现一个具有单隐藏层的多层感知机，它包含256个隐藏单元
num_inputs, num_outputs, num_hiddens = 784, 10, 256 # 输入784、输出10是数据决定的，256是调参自己决定的（超参数，选的是10-784之间的一个数）
# 初始化w1的行数为784、列数256。此处加不加nn.Parameter都行。
# 为什么此处要随机初始化randn，而不是全初始化为0？（弹幕说：设置为零的话梯度为0，参数不会更新，相当于隐藏层只有一个单元）
W1 = nn.Parameter(torch.randn(num_inputs, num_hiddens, requires_grad=True))
b1 = nn.Parameter(torch.zeros(num_hiddens, requires_grad=True))  # 向量
W2 = nn.Parameter(torch.randn(num_hiddens, num_outputs, requires_grad=True))
b2 = nn.Parameter(torch.zeros(num_outputs, requires_grad=True))   # 向量
params = [W1,b1,W2,b2]

# 2.实现 ReLu 激活函数
def relu(X):
    a = torch.zeros_like(X) # a的数据类型、形状都和X一样，但是元素值全为 0
    return torch.max(X,a)

# 3.实现模型
def net(X):
    #print("X.shape:",X.shape)
    # 原输入X：batch*28*28的 先拉成 batch*784
    X = X.reshape((-1, num_inputs)) #将输入X拉成一个二维矩阵，-1自动计算（结果应该为batch_size），（应该是以便可以满足X·W的矩阵乘法）
    #print("X.shape:",X.shape)
    H = relu(X @ W1 + b1) # @：矩阵乘法
    #print("H.shape:",H.shape)
    #print("W2.shape:",W2.shape)
    return (H @ W2 + b2)

# 损失
loss = nn.CrossEntropyLoss() # 交叉熵损失

# 4.【训练】多层感知机的训练过程与softmax回归的训练过程完全一样
num_epochs ,lr = 30, 0.1
updater = torch.optim.SGD(params, lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

QA

1.下图中的两个x不是一个东西

2.【神经网络层数的说明】通常来讲，一层是指带权重的
一般来说，一层是包括【w、输入、b等权重的计算】+【（非线性）激活函数sigma的计算】的。
如吴恩达，一般将input不算层数，是所有的隐藏层+output 层 = 层数（当然也能理解为 input+所有隐藏层不算输出层，其实意思是一样的，只是一般不算input层，算output层）

3.涉及数学上的统计学与机器学习的区别，
收敛定理是统计学中的概念

可以认为：统计是数学上的概念，那么机器学习就是统计的计算机分支
因此从计算机的角度，不会看ρ怎么算
数学和计算机是有关联得

4.从时间顺序上来说：多层感知机是在SVM之前出现的
多层感知机虽然解决了XOR问题，但是其弊端是需要选择、学习超参数；
但是SVM对于超参数不敏感，最中间结果好坏受超参数影响很小。SVM的优化更容易实现（无需 SGD这种东西）。SVM有很漂亮的数学定理，有很多数学性的东西，如果二者作用效果差不多当然使用SVM。

5.无。单纯是为了举证单层感知机解决不了的问题而举的例子

6.是的。单层感知机不能处理

模型复杂度（模型容量）简单理解就是模型的能力。一般为了实现相同的模型复杂度，有两种修改思路：用宽的网络（隐藏层数量不多，但是单个隐藏层中神经元个数多）或深的网络（隐藏层数量多）
但是，胖的模型（如下图左侧）不如深的模型（下图中右侧）好训练，
胖的模型容易过拟合，很难一口吃成个胖子；
深的模型通过每一层逐步学习，每层学习不同的特征，整体更好实现效果
（弹幕说）这个问题推荐看李宏毅老师的鱼和熊掌可以兼得那集，讲得很细

8.后面讲

9.ReLU虽然在x大于0或小于0部分都是线性的，但是整体上是非线性的。

10.选择激活函数的类型远远没有选择隐藏层大小（即如隐藏层超参数的学习）重要，因此一般用ReLU即可

12.理论上没区别，但一般深一点的更好。没有最优
一般来说，当你没有什么想法时：都是从简单慢慢试到复杂，到更宽、更深。
如下图一开始就用线性模型，后来加一个隐藏层，改变单个隐藏层的设计，再增加多个隐藏层，再试着改变多个隐藏层中每一个的设计

当你有了自己的理解后：手感、只可意会

13.后面讲

14.怎么写都没有本质区别，和你如何定义矩阵、向量有关（比如矩阵是mxn还是nxm，向量是行还是列）

15.一般训练完参数都是固定的。

动态性和泛化性（鲁棒性）是两种东西
一旦有动态性可能会出现问题（如谷歌将黑人预测为猩猩）。
泛化性（鲁棒性）：感觉就是可靠准确的输出结果受输入数据变化的影响程度，
泛化性低：比如人脸识别时换个姿势就识别不准确了

弹幕说：其实，这个问题可以看看吴恩达机器学习的线上学习部分

17.后面讲

18.【即调参】可以用验证数据集做这个事情。可以猜、试，然后用数据去初试一下效果

11-模型选择（即选择超参数）+过拟合欠拟合

模型选择

引言

但其实穿蓝衣服作为特征是无意义的，但是模型不知道。

训练误差和泛化误差、训练+验证+测试集

我们关心的是泛化误差，不关心训练误差（但也不是这么绝对，毕竟训练误差也能说明一些问题给我们提供调整模型的指导意义）。

训练误差：高考前的模拟考试（摸底）
泛化误差：高考（模型在目前不在手上的数据上的误差）

如何计算训练误差和泛化误差，一般我们有两种数据集
【训练（数据）集】
（1）用于训练模型参数
（2）通俗理解：平时作业题、练习。

【验证（数据）集 cv】
（1）是一个额外的数据集、不参加训练，用于选择模型超参数
（2）通俗理解：验证集是小测和模拟考试
（3）个人补充（QA中提到）：用validation set来看欠、过拟合情况

【测试（数据）集 test】相当于正式考试（期末考试、高考）只能使用一次，不能用来调整超参数，一旦发生了就不能改变了。（测试数据集是用来评估模型泛化能力的，不在训练过程中使用，只在结束后使用）

【注意】
1.验证数据集的数据一定不能和训练数据集混在一起
2.用测试数据集当作验证数据集去评估模型的好坏并调整超参数，然后再在测试数据集上看所谓的最终效果效果（那肯定很好），相当于考试作弊（学术造假）【此时在验证数据集上的数据精度和指标不能代表该模型在新的数据集（即测试集）上的泛化能力】
（弹幕说）测试数据集用一次，就是防止调参过程中无意识的去拟合测试数据，那么这样测试数据就成了训练数据了，测试没有意义了
【注】实际场景下三个集肯定要单独分开的，此处课程为了方便把验证集当成测试集了

K-则交叉验证（k-fold cross validation）（数据集不大时才用）

【引言】实际场景下，我们手中的数据量有限，无法做到将 50%的数据用作训练集、50%用作验证集。
【作用】用来确定超参数
【应用】例如给你一个数据集，且模型有10种不同的超参数（如不同的lr、不同隐藏层大小等）供选择，通过k则交叉验证（如5则），对每一种超参数对应的模型都使用k则交叉验证并最终得到该种超参数的平均精度（或平均误差），从10个平均精度中选择最高的那组超参数作为最终的超参数。

个人理解：每组超参数通过k则交叉验证都能得到一个平均精度

【使用流程】
1.拿到数据集后，将其随机打乱并分割成k块，然后做k次训练，
2.每次我们将第i块作为验证数据集，其余的为训练数据集。这样这k次训练，每次都能拿到一个验证精度、验证误差，共k个
3.最后将这k个精度求平均值，就得到了k则交叉验证的误差
如下图3则：
相当于用了66%的数据作为train，虽然验证集validation不足之前的50%，但是其带来的误差可以通过求 3次的平均值来弥补

极端例子：k=n，n很大，这样的代价就是需要做n次训练，代价很大
【k的取值】如果数据量很大，k可以取小点如2、3；如果数据量很大，k可以取大点，如10.

欠拟合、过拟合

概述

【深度学习的核心】首先是要模型足够大（不大的话没有前途，很难解决复杂问题），在此基础上通过各种手段来控制模型容量，使得最终得到较小的泛化误差

模型容量即模型复杂度：拟合各种函数的能力。复杂的模型可以学习更复杂的函数。模型容量低就是简单的模型。
简单数据集如MNIST，复杂数据集如ImageNet

过拟合：过于关注细节，模型记住了所有的训练样本，导致对新样本的泛化能力差
（某种意义上来说过拟合不是一件坏事）

模型容量（模型复杂度、模型能力）

模型容量即模型复杂度：拟合各种函数的能力。复杂的模型可以学习更复杂的函数。模型容量低就是简单的模型。

【深度学习的核心】首先是要模型足够大，在此基础上通过各种手段来控制模型容量，使得最终得到较小的泛化误差

假设数据集是中等且固定的情况下：
目的是为了减小最优的泛化误差，因此不得不需要承担一定程度上的过拟合

横轴上每一个点都是不同的模型

估计模型容量

【1.参数个数】通过参数数量来判断模型容量
（1）对于线性模型（下图左侧）：可学习的参数个数为d+1（其中数据有d个，d+1的1是b（bias））
（2）对于单层隐藏层（下图右侧）：
隐藏层里有m个节点，每个节点包含d个w参数和一个bias参数，所以是(d+1)m
输出层最终预测为k个类别，输出层的每个y_hat节点包含m个w参数(由上一层的节点数决定)和一个bias，所以是(m+1)k
（3）结论：因此简单来说，可以通过可学习的参数数量来判断哪个模型容量大

【2.参数值的选择范围】通过参数值的可选择范围来判断模型容量
（1）如果一个参数可以在很大的范围内进行选择，模型复杂度高

【了解】VC维（偏统计学理论）

【简单理解】一个模型能记住的最大的数据集长什么样子
推荐《机器学习基石》林轩田老师对应的视频

深度学习中的VC维计算较困难，在深度学习中应用不多

（两个大佬的首字母缩写）
VC维简称为VC：
对于一个分类模型，VC维等价于一个最大的数据集的大小，无论我们如何给定这个数据集的标号（即数据的label），都存在一个模型（一个给定参数的模型）能对该数据集进行完美分类。

简单理解：假设我的模型能做（作用于）一个很复杂的数据集，假设有100张图片，不管这些图片的label如何变化、不管图片中的值如何选择，我都可以通过一个模型对该数据集进行分类，那么该模型的复杂度比我只能对一个 10张图片、且不管label怎么变化都能分类的数据集来得快。

模型复杂度等价于我能够完美的记住一个数据集，那么这个数据集有多大。

例子：
如下图，对于二维输入的感知机（二维即平面上的点），其可以对任何三个点进行正确分类，则VC维=3；
但不能对任何四个点正确分类

数据复杂度

即我们直观上的理解

如有时间、空间维度上的数据、特征信息

基于代码看现象

基于代码看一下模型选择、欠拟合过拟合的现象，通过一个简单的人工数据集：

参考链接：https://blog.csdn.net/weixin_46805040/article/details/122851333

0【公式】
① 使用以下三阶多项式来生成训练和测试数据的标签：
② 这个式子只是一个三次多项式，并不是哪个函数的泰勒展开。

公式中5为真实label；
除以2！和3！是希望x不要太大

4.模型net就是一个简单的线性回归模型（这个能很好地演示对于简单的模型，输入不同数量的数据时的效果）：
当给正好的数据量时，拟合效果很好（如(5)）；
当给的数据太少时，欠拟合如(6)；
当给全部的数据时，过拟合（因为后面16列都是噪音，是干扰，该模型为了拟合这些学的结果肯定不对）

5.拟合很好的效果：拿前4列数据（因为后面16列理论上都是0，后面都是噪音）
下图最终的gap不大，说明没有发生很明显的过拟合

# 三阶多项式函数拟合(正态)
train(poly_features[:n_train,:4],poly_features[n_train:,:4],labels[:n_train],labels[n_train:])  # 最后返回的weight值和公式真实weight值很接近

6.欠拟合效果：拿前两列来训练（数据都没给全，肯定最后训练不到位）

# 一阶多项式函数拟合(欠拟合)
# 这里相当于用一阶多项式拟合真实的三阶多项式，欠拟合了，损失很高，根本就没降
train(poly_features[:n_train,:2],poly_features[n_train:,:2],labels[:n_train],labels[n_train:])

7.过拟合效果：
这次把所有数据（共20列）都给你了（含16列噪音）

# 十九阶多项式函数拟合(过拟合)
# 这里相当于用十九阶多项式拟合真实的三阶多项式，过拟合了
train(poly_features[:n_train,:],poly_features[n_train:,:],labels[:n_train],labels[n_train:])

【其他部分总代码】

# 通过多项式拟合来交互地探索这些概念
import math
import numpy as np
import torch
from torch import nn
from d2l import torch as d2l


# 0.
max_degree = 20 # 输入特征为20种（长度为20）：就是每一个样本是一个[20,1]的tensor
n_train, n_test = 100, 100 # 100个训练样本、100验证样本（即测试样本）  注：为了偷懒方便，将验证集也写为test
true_w = np.zeros(max_degree)  # 真实的w是长为20的w
true_w[0:4] = np.array([5,1.2,-3.4,5.6]) # 真实label为5，即只有前4列是有非0权重的，剩下其他元素的均为0，即噪音项

features = np.random.normal(size=(n_train+n_test,1))
print(features.shape)
np.random.shuffle(features)
print(np.arange(max_degree))
print(np.arange(max_degree).reshape(1,-1))
print(np.power([[10,20]],[[1,2]]))
poly_features = np.power(features, np.arange(max_degree).reshape(1,-1)) # 对第所有维的特征取0次方、1次方、2次方...19次方  
for i in range(max_degree):
    poly_features[:,i] /= math.gamma(i+1) # i次方的特征除以(i+1)阶乘
labels = np.dot(poly_features,true_w) # 根据多项式生成y，即生成真实的labels
labels += np.random.normal(scale=0.1,size=labels.shape) # 对真实labels加噪音进去

#1.看一下前两个样本
true_w, features, poly_features, labels = [torch.tensor(x,dtype=torch.float32) for x in [true_w, features, poly_features, labels]]                 
print(features[:2]) # 前两个样本的x
print(poly_features[:2,:]) # 前两个样本的x的所有次方
print(labels[:2])  # 前两个样本的x对应的y

# 2.实现一个函数来评估模型在给定数据集上的损失
def evaluate_loss(net, data_iter, loss):
    """评估给定数据集上模型的损失"""
    metric = d2l.Accumulator(2) # 两个数的累加器
    for X, y in data_iter: # 从迭代器中拿出对应特征和标签
        out = net(X)
        y = y.reshape(out.shape) # 将真实标签改为网络输出标签的形式，统一形式
        l = loss(out, y) # 计算网络输出的预测值与真实值之间的损失差值
        metric.add(l.sum(), l.numel()) # 总量除以个数，等于平均
    return metric[0] / metric[1] # 返回数据集的平均损失

# 3.定义训练函数（输入数据，做线性回归，打印看下曲线变化，看下学到的weight）
def train(train_features, test_features, train_labels, test_labels, num_epochs=400):
    loss = nn.MSELoss()
    input_shape = train_features.shape[-1]
    net = nn.Sequential(nn.Linear(input_shape, 1, bias=False)) # 单层线性回归
    batch_size = min(10,train_labels.shape[0])
    train_iter = d2l.load_array((train_features,train_labels.reshape(-1,1)),batch_size)
    test_iter = d2l.load_array((test_features,test_labels.reshape(-1,1)),batch_size,is_train=False)    
    trainer = torch.optim.SGD(net.parameters(),lr=0.01)
    animator = d2l.Animator(xlabel='epoch',ylabel='loss',yscale='log',xlim=[1,num_epochs],ylim=[1e-3,1e2],legend=['train','test'])                   
    for epoch in range(num_epochs):
        d2l.train_epoch_ch3(net, train_iter, loss, trainer)
        if epoch == 0 or (epoch + 1) % 20 == 0:
            animator.add(epoch + 1, (evaluate_loss(net, train_iter, loss), evaluate_loss(net,test_iter,loss)))
    print('weight',net[0].weight.data.numpy()) # 训练完后打印，打印最终学到的weight值

QA

1
缺点：
（1）SVM是通过kernel来匹配模型复杂度的，.如果使用 kernel SVM，其kernel算起来麻烦，很难计算大的数据量（如百万千万），但神经网络就可以算
（2）可调整的东西不多，无非是kernel相关

神经网络的优点：
（1）神经网络本身是一种语言，不同的layer（相当于编程工具），我们通过编程来实现我们对世界的理解
（2）神经网络可通过卷积进行特征的提取和分类，SVM解决分类问题还是ok的
（3）神经网络解决大量数据问题也可以

3.是的。

4.如1

常用方法：
（1）train :test=7:3，然后在trainset上做5则交叉验证（即每次拿训练集的20%作为验证集，做5次）
（2）如果数据量足够多，就 train:test= 5:5，在train set上做k则交叉验证
（3）如ImageNet，有1000类label，平均一个类大概5000张样本，对每个类随机挑50张图片，最后得到50000张的验证集，剩下的作为测试

注：Andrew Ng’s machine learning里推荐0.6 0.2 0.2

6.用validation来看欠、过拟合

7.如股票预测，时序序列需要保证验证集是在训练集之后的
不能这么做：将前一个月数据拿出来，中间采样一些点作为验证集
一般时序序列数据的做法：获取一个月数据作为训练集，取一个星期作为验证集，该星期之前的作为训练集

当要做标准化时，如(数据-均值)/方差，均值和方差如何计算：
方法一：把训练集和测试集（即所有的数据集）都拿过来算均值和方差（模型鲁棒性更好）
方法二：只在训练集上算均值、方差，然后将二者作用到验证（测试）集上

具体看实际场景下，你是否能拿到验证集的数据，如果能拿到，用方法一，拿不到就方法二

9.是的。深度学习一般数据量大，用k则交叉验证成本太大

10.验证集只是用来选择超参数的

总的数据集就是一个，然后将数据分成几份数据集，不同的数据集做不同的事情

12.理论上k越大效果越好但成本和代价越大，因此实际上选择能承受的计算成本范围内选最大的k

13.不同。
模型参数指w权重、b偏差的值
超参数：如人为选择模型（是线性模型还是多层感知机还是其他模型），如果是多层感知机选多少层、每层多大，训练的lr多少
个人概括：超参数就是人为可设置、人为可选的参数；模型参数就是通过训练模型自己得到的参数
hyperparameter

14.例如给你一个数据集，且模型有10种不同的超参数（如不同的lr、不同隐藏层大小、不同权重等）供选择，通过k则交叉验证（如5则），对每一种超参数对应的模型都使用k则交叉验证并最终得到该种超参数的平均精度（或平均误差），从10个平均精度中选择最高的那组超参数作为最终的超参数。

15.问的应该是偏差和方差的区别

16.欠过拟合能告诉你什么样是好的，什么样是不好的，供你参考以便最后选择合适的超参数来得到泛化能力好的模型

17.HPO问题：超参数优化，Hyper-parameter optimization
涉及到两个问题：
1.设计：例如前面的例子设计了10组不同的超参数从里面选一种，那么这10种如何设计
2.每种超参数都告诉你有多少种选项，理论上有很多种组合方式，但是很难把所有情况都遍历一次（此即为网格）

答：
超参数的设计靠人的经验，一般别的太大或太小
如何选最好的搜索：
1.自己调（老中医）
2.每次随机选，最后选精度最高表现最好的那组超参数【推荐】

实际两类数据的占比是1:9：
当数据量很大时，随便划分比例都可；
当数据量不大时，验证数据集中两类数据最好比例1:1（因为可能分类器把所有样本都预测为占比为9的那类，准确率还有90%，显然不合理）

19.k则交叉验证就是用来确定超参数
有很多种做法，此处举例：
1.最常见的：基于k则交叉验证确定表现最好的一组超参数，然后用该组超参数再训练一次模型，得到最后结果
2.不重新训练，直接选择该组超参数以及该组超参数下的精度最好的那一则模型参数。（代价就是少看了一些训练集）
3.（也不错的选择，好处是增加了模型稳定性因为做了voting，代价是预测代价是只预测一次的k倍）基于k则交叉验证选择好一组超参数后，并把 k则交叉验证的k个模型都拿到，做预测时把测试集放到 k个模型的每个里面都预测一下，最后把预测结果取均值

20.验证误差 validation误差

21.不是打败，是流行

深度学习打败SVM是实用性更好（虽然理论不如SVM）

22.网上的图 Loss和epoch的曲线，全程是一个模型，横轴是迭代次数；
下图的横轴是代表不同的模型；

如果验证集上 loss和epoch的曲线先下降后上升，就是过拟合

24.一般深度学习特指神经网络这一块，随机森林和深度学习结合的较少。一般可能是用随机森林（不是用梯度下降的）、神经网络、其他方式各做一次，然后对多种方式的结果投票得到最终结果

25.有的

26.label

27.一般深度学习模型不做限制（如正则化、泛化等）都是无限VC维的

28.见19，有很多种方式

30.见19

CNN其实本质上也是MLP，只不过多了一些限制（比如将一些weight固定住了）
即通过神经网络来描述我对这个问题的理解

世界上有三种东西：
艺术：我做了一件事，但我也不知道怎么解释，我觉得这样好看点
工程：我做的事情可以通过实际来验证，都可以通过定理来描述
科学：去理解为什么

深度学习（神经网络）一开始是艺术（我有个想法且也能work，得想个理由如何解释，虽然暂时也不知道如何解释是最合理的），但只要你能work，总有人帮你找到理由去解释为何work（此即engineer的任务）
比如蒸汽机先出现，解释蒸汽机的原理的物理学知识是100年后才出来的，有一定的滞后性

32.看从哪个角度看
涉及统计学的优化
像大数定理

噪音肯定越少越好。此处只是为了讲解和演示才加了噪音

34.可以不平衡，但应该通过加权使得其平衡
以问题18举例：实际两类数据的占比是1:9，此时要结合实际场景看一下：
（1）是否在现实场景下，确实这两类的占比也是如你手头数据集这样的占比是1:9，那你的目标就是把90%做好，10%尽量做好，这倒没事
（2）如果数据集这种1:9的比例是因为采样没做好（即 10%比例的那类也是很有意义的时），应该把 10%数据的那类的权重提升，最简单的如把该类样本复制为9倍或在loss中为其提高权重

35.如果验证集上 loss和epoch的曲线先下降后上升，就是过拟合

你可能感兴趣的:(李沐动手学深度学习,学习,笔记,深度学习)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源