little_turtle_

深度学习方向（AI，图像处理，人工智能等）资料整理——读书笔记《Python深度学习》

书名：Python深度学习

作者：【英】尼格尔.刘易斯

什么是深度学习

有监督学习：训练的数据包含已知的结果。模型相对于这些结果进行训练。
无监督学习：训练的数据不包含任何已知的结果。算法自行发现数据中的联系。

激活函数

每个神经元都包含一个激活函数和一个阈值。阈值是输入信息激活神经元所必需的最小值。0~1，-1 ~ 1。
神经元的作用是对输入信号进行加权求和并应用于激活函数。输入层将数据传递给第一个隐藏层。然后隐藏层神经元将加权信息传输到输出层神经元。
ps1：随机梯度下降算法必须是可微的，如果函数有界会很有帮助。
ps2：隐藏层节点的激活函数将非线性引入网络中。

神经网络的大小通常由需要顾及的参数数量来度量。

sigmoid函数（logistic）：接收实数值，将其压扁到0-1的范围。函数的输出可被解释为人工神经元发射的概率。（运算成本低） f(u) = 1/1+exp(-cu)。c是参数，eg.1.5.

神经网络的学习算法

反向传播法：1.确定权重初始值。2.前向反馈。3.误差评估。4.使用输出层的误差重新调整权重。并计算想对于权重值变化的误差变化的梯度。5.以降低变化梯度对权重做出调整。根据激活函数的导数，网络输出和实际目标结果之间的偏差，以及神经元输出调整每个神经元的权重和偏差。神经网络通过设置随机值的权重和偏差进行初始化，随机值设置在（-2n~2n）内，其中n是输入属性的数量。

梯度下降算法容易陷入局部极小值的境地，解决方法
1.指定一个冲量参数
2.使用随机梯度下降（SGD）：随机选择样本来更新参数，并在该样本的相关梯度上移动，遵寻一条曲折的通往极小值的梯度路径。
SGD的一个非常好的理论特性是，如果损失函数是凸的，那么保证能找到全局最小值。

深度神经网络简介（DNN）

可以将DNN视为多个回归模型的组合，在某些情况下，我们可以将每个隐藏层解释为一个简单的对数线性模型。
在图像压缩中，使用线性整流（ReLu）激活函数，用在隐藏层的激活函数上。因为“得到更好的网络泛化，并减少实际的压缩–解压时间。”
如何快速地近似任何函数：一个隐藏层足以模拟任何分段连续函数。
来自研究人员Hornik等人的定理：设F是n维空间有限子集上的连续函数，那么存在一个包含有限个隐藏单元的双层神经网络F^，它近似等于F，对于F域中的所有的x，I F(x) - F^(x) 给的例子是使用neuralpy.Network方法训练的，每次都是不一样的权重，但是结果会非常逼近真实值。

有监督学习和无监督学习

有监督学习：有监督学习的基本目标是给定训练样本{xi，yi}的预测器。给定这样一组样本对，学习算法构造一个预测器，将实际映射到标签上。然后可以使用预测器从新的样本中预测y的适当值。如果y是真实值，那么做的是回归任务；如果y是无需的有限集合中的值那么做的是模式分类。
无监督学习：在无监督学习中，没有已标注的样本可以用来推断。无监督学习的关键是在于找到数据中的有用信息。
无监督学习利用数据中的特征，如可变性和可分性，来确定属性/特征的相关性。无监督学习的目标是将一组未标注的数据分成不同的种类或者聚类。
半监督学习：使用大量未标注数据和非常少量的标注数据。它可以在只有有限的带标注的观测值的情况下使用。

标准化的重要性

ps这里提供一个sklearn的软件包功能，可以轻松构建训练样本和测试样本。train_test_split方法。

import random
from sklearn.cross_validation import train_test_split
np.random.seed(2016)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)

即把20%的数据作为测试集，其他80%用来训练模型。

学习速率详解

学习速率决定了梯度下降算法达到极小值的步长大小。网络在大学习速率下会较快速的学习，但学习速率过快可能会导致错过全局最小值，学习速率过慢则需要较长时间才能找到最佳极小值。
“最佳学习速率通常接近最大学习速率的一半，不会造成训练标准的偏差…………从一个大的学习速率开始，如果偏离了训练标准，则再次尝试该学习速率的1/3值，如此反复直到没有观察到偏离为止。”

fit函数用于将指定的模型拟合到实际的数据。函数接收参数，训练属性存储在x_train中，目标储存在y_train中。

print “fitting the model right now”
fit1.fit(x_train,y_train)

评估模型在训练集性能的表现。

有许多技术可以评估模型性能。最直接的就是测量预测值和实际目标值之间的相关性。对于一个完美拟合，观测到的相关性应该为1. 由于相关系数的范围是在0-1之间，因此常常记录平方相关系数，0—1之间。

另一个流行的度量是均方差（MSE），它测量的是观测目标和预测值之间误差的平均值，
RMSE可以解释为以目标变量为单位度量的预测值和观测值之间的平均距离。

sigmoid激活函数的局限

sigmoid函数的一个局限性是当x增大或减小的时候，他的梯度变得越来越小，如果使用梯度下降或类似的方法，这就是一个问题。该问题成为梯度消失问题，随着梯度的变小参数值的变化导致网络输出的变化就会很小，极大的减慢了学习的速度。由于网络输出层的梯度相对于前面层中的参数变得非常小。因此随着层数的增加，学习速度的降低将会被放大。特别是压缩在0-1区间的中，即使输入中一个非常大的变化，也只会产生一个很小的输出变化。

掌握另一个激活函数，用一个非挤压式的函数替换掉一个挤压式的激活函数。其中之一是线性整流单元（ReLU）它的定义是：f（x）= max （0，x），
x是神经元输出，该函数进行一个阈值操作，任何小于0的输入值被设置为0.显著提高了语音识别和计算机视觉任务的分类率，简单的取最大操作让他比s形激活函数的网络要快的多，这也提高了神经网络的稀疏性。因为随机初始化的时候，整个网络中大约一半的神经元将被设置为0.
如果神经元的输出接近1，你可以认为他是”活跃的“，如果输出值接近于0，则认为是“不活跃的”。稀疏性把神经元在大部分时间限制在不活跃的状态。这通常会得到更好的泛化性能。

选择最佳层数的原则

如果将每一个隐藏层视为一个特征检测器，层数越多，就可以学习到越复杂的特征检测器。这就总结出一个简单的经验法则-----函数越复杂，需要使用的层数就越多。在一些情况下面，使用100次迭代就够了，有的情况10000次可能都不够。迭代的次数很大程度上取决于，样本数据的特征，网络拓扑结构，使用的激活函数，应用的学习算法，甚至网络被设计用来解决的人物的可接受的误差的阈值。

如何快速改进模型-------奥卡姆剃刀（Ocams Razor）法则
如果较小的一组属性能充分拟合观测值，便使用这些属性。避免“叠加”附加属性来提高模型的拟合度。
选择需要最少的假设的建模方法。
只保留那些与假设的预测有明显差异的假定子集。
如果几种假设能同样好地解释一种现象，通常在开始选择最简单的一个。
如果两个或更多模型具有相同的预测精度，请选择最简单的模型。

避免过度拟合（eg-音乐上拟合音乐，结果是模型完美的拟合了音乐和噪声。）说明模型太过复杂，过度拟合的关键的结果对未来（不可见的）数据的泛化（预测）能力较差。
——————为了降低深度神经网络的复杂度并提高泛化能力的一个常见的网络限制的方法是正则化，正则化限制了模型的复杂性，使得模型相对于预测或分类问题不会太过于复杂。这可以获得更好的泛化（预测）结果。不进行正则化，你的模型可能因为太过复杂而过度拟合，或者因为太简单而欠拟合，这两种情况都会导致很差的预测结果。

除非绝对必要，正则化将通过抑制网络权重避免其变得非常强大。添加衰减参数来惩罚较大的权重来实现的。

该模型的MSE比没有正则化的模型略高，但不是高很多。鉴于差异不大，并且为了响应简约法则，我们将选择fit4作为最终模型。
在构建DNN模型时，请牢记这一点，为了获得最好的泛化能力，DNN应该用尽可能少的神经元来解决手头的问题，并且有一个可容忍的误差。训练模式的数量越多，可以使用的神经元越多，同时能仍然保持DNN的泛化能力。

评估测试数据集的性能

from scipy.stats.stats import pearsonr
correl = pearsonr(pred4_test, y_test)

然后我们可以打印出相关性和R的平方

print “Test correlation is”, correl[0]
Test correlation is [0.9073899]

print "Test R^2 is", correl[0]*correl[0]
Test R^2 is [0.82335643]

冻结网络权重

冻结网络权重后可以将其用于未来的数据，而不用重新训练

fitFr = Regressor(
	layers = [
	Layer("Rectifier", units=6, frozen = True),
		Layer("Rectifier", units=14,frozen=True),
	Layer("Linear")],
	learning_rate=0.02,
	random_state = 2016,
		regularsize = "L2"
		weight_decay = 0.001,
		n_iter = 100)

在这个例子是冻结了所有的层，也可以冻结特定的层，如果你想调查非冻结层的权重如何响应输入属性，这样做就会很有用。

保存网络以供将来使用

保存fit4

import pickle
pickel.dump(fit4,open('Boston_fit4.pkl','wb'))

在下面，我们打开之前保存为Boston_fit4.pkl(fit4)的网络，并储存在Python对象model中：

model = pickle.load(open('Boston_fit4.pkl','rb'))

注意：以下代码表示找到你的工作路径：

import os
print os.getcwdu()
c:\deepnetworks

在这个例子中，工作路径是C:\deepnetworks。如果使用pickle.dump保存深度神经网络，文件会保存在这个目录中。

使用python从网络下载数据

下面是获取数据的代码`

import numpy as np
import urllib
url = "http://goo.gl/j0Rvxq"
raw_data = urllib.urlopen(url)
dataset = np.loadtxt(raw_data, delimiter=",")

通常使用pandas处理数据比较容易，特别是对于检查和初始的完整性验证，因此我们把数据转换到一个pandas dataframe之中

import panda as pd
from pandas import DataFrame
data = pd.DataFrame(dataset)

处理丢失数据和观测值（不是所有的数据都要被改成nan）
1.把缺少的值换成符号“nan”

data= data.replace(0,np.nan)

这样就把所有的缺少数据改成了nan

2.首先把第一个特征中的nan改成0

data[0].fillna(0,inplace=True)

3.将第八个目标属性nan改成-1

data[8].filla(-1,inplace=True)

4.然后可以用count函数来看下有多少实际的观测值

print data.count()

这时候发现有的属性中有过多的缺失值，
这时候的简单的办法就是用一个合理的值来推测缺失的观测值。复杂的办法就是对数据使用一个分布模型（如最大似然和多重插补）
鉴于某两个属性中有大量的缺失值，我们把这两个属性从样本中去掉，并且使用drop的办法去掉其他剩下的缺失值。(第3，4个属性值被去掉)

data = data.drop(3,1)
data = data.drop(4,1)
data = data.dropna()

现在有724组样本，8-2=6组特征，1个目标
现在创建python对象来保存属性和目标变量

y = data[8]
data = data.drop(8,1)
x = data

将数据用与二元分类神经网络之前，我们需要对其进行标准化。like above

from sklearn import preprocessing
x_MinMax = preprocessing.MinMaxScaler()
y_MinMax  = preprocessing.MinmaxScaler()

y.as_matrix(y)
y = np.array(y).reshape((len(y),1))
x = np.array(x).reshape((len(x),6))

x = x_MinMax.fit_transform(x)
y = y_MinMiax.fit_transform(y)

x.mean(axis=0)

保存数据到指定位置
完成上述工作之后，最好把数据保存起来，构建神经网络是一个交互过程，你一定不会想在每次模型运行是都需要访问资源库。此外，你不会想从相同的机器过于频繁的访问UCI机器学习资料库，因为这会增加网络协议被齐屏蔽的风险，最好把数据离线保存起来。
把loc设置成保存数据的路径

cleaned_data = np.column_stack((y,x))
loc ="C:\\mydatasets\\PimaIndians_CleanData.txt"
np.savetxt(loc,cleaned_data)

冲量的简单入门

每个迭代的步长由学习速率控制，较大的步长降低了训练时间，但是增加了被局部极小值捕获的可能性。另一个帮助网络脱离局部最小值的技术是使用冲量。它的取值是在0-1之间。一个较高的冲量参数值能减少训练时间，并且帮助网络避免被局部极小值捕获。使用大冲量来降低学习速率.

留出法

训练样本观测值的20%~25%用于留出验证。

如何使用Python快速的构建一个深度神经网络二元分类器

1.打开保存的本地文件

import numpy as np
loc = "C:\\maydatasets\\PimaIndains_CleanData.txt"
data = np.loadtxt(loc.skiprows=0)
y = data[:,5]
x = data[:1:5]

2.生成训练集和测试集
用sklearn.cross_validation 生成训练和测试集：

import random
from sklearn.cross_validation import train_test_split
np.random.seed(2016)
x_train,x_test,y_train,y_test =
train_test_split(x,y,test_size = 0.2)

3.指定模型
我们用sknn.mlp来构建模型，所构建模型有3个隐藏层，在第一，第二和第三层分别有45，18，和18个神经元，所有隐藏层使用sigmoid激活函数，输出层使用softmax激活函数
将节点输出值转化为后验概率：

from sknn.mlp import Classfier, Layer
fit1 = Classifier(
	layers=[
		Layer("Sigmoid", units = 45)
		Layer("Sigmoid", units = 18)
		Layer("Sigmoid", units = 18)
		Layer("Softmax")],
	learning_rate=0.80,
	random_state = 2016,
	valid_size = 0.25,
	learning_momentum = 0.30,
	n_iter=100)

4.拟合模型
调用fit函数：

print"fitting model right now"
fit1.fit(x_train, y_train)

模型收敛完毕后，使用predict_proba函数来观察分类成员的预测概率：

prob = fit1.predict_proba(x_train)

后根据混淆矩阵发现模型的不可行性

Drop out

随机省略一部分隐藏的神经元的过程叫做随机失活（dropout）

双曲正切激活函数

（Tanh）反曲s形状。与sigmoid函数不同，这个是0对称的，因为他的输出范围较宽，在复杂非线性关系建模时，有时候更有效。

小批量方法获益（epoch）

一个批次由一个前向/反向传播的多个训练样本组成 ?代替? 原始随机梯度下降算法中的针对每个单独的样本计算梯度。

针对上述讲解重建模型

fit2 = Classifier(
	layers=[
		Layer("Tanh", units = 45)
		Layer("Tanh", units = 18)
		Layer("Tanh", units = 18)
		Layer("Softmax")],
	learning_rate=0.80,
	random_state = 2016,
	valid_size = 0.25,
	dropout_rate = 0.20,
	learning_momentum = 0.30,
	batch_size = 35,
	n_iter=100)

valid_size = 0.25,是指模型指定其中25%用于验证。

接下来，拟合模型查看混淆矩阵

print"fitting model right now"
fit2.fit(x_train, y_train)
pred2_train = fit2.predict_proba(x_train)
confu2 = confusion_matrix(y_train, pred2_train)

print confu2
[[332 44]
[100 103]]

性能准确率=（332+103）/579 =75.12%
可以用python计算

score2 = fit2.score(x_train, y_train)
print score2

此处通过混淆矩阵可以看出，这是一个不平衡样本，
y = -1 时，模型准确率 = 332/（332+44）= 0.8829
y = 1 时，模型准确率=103/（103+100）= 0.5074

此时应该使用平均类别准确率= （88.29%+50.74%）=69.52% 明显小于之前计算的准确率。

解决的办法是重新对样本进行采样，演示一下，我们对较小的样本进行采样，权重是1.10，设置所需对象

w_train = x_train[:,0]
w_train[y_train == 0] = 1
w_train[y_train == 1] = 1.10

然后指定模型拟合

fit3 = Classifier(
	layers=[
		Layer("Tanh", units = 45)
		Layer("Tanh", units = 18)
		Layer("Tanh", units = 18)
		Layer("Softmax")],
	learning_rate=0.80,
	random_state = 2016,
	valid_size = 0.25,
	dropout_rate = 0.20,
	learning_momentum = 0.30,
	batch_size = 35,
	n_iter=100)
	
print"fitting model right now"
fit3.fit(x_train, y_train)
pred3_train = fit3.predict_proba(x_train)

score3 = fit3.score(x_train, y_train)
print score3
0.746113989637

看到整体准确率更低，但是当我们查看混淆矩阵，

confu3 = confusion_matrix(y_train, pred3_train)

print confu3
[[353 23]
[124 79]]

评价类别准确率有77.48%，好很多。

PS。需要注意的是，类别频率会影响判定边界，如果过度纠正训练样本中的类别不平衡，测试样本的性能可能会更差，

查看在测试集上的表现。
最后一项任务是评估选定模型在真实测试集上的表现。

score_test3 = fit3.score(x_test, y_test)

print score_test3
0.765517241379

pred_test3 = fit3.predict(x_test)
confu3_test = confusion_matrix(y_test, pred_test)
print confu3_test
[[93   6]
[28   18]]

接下来保存创建的模型

import os
import pickle
pickle.dump(fit1, open('Pima_fit1.pkl',''wb'))
pickle.dump(fit2, open('Pima_fit1.pkl',''wb'))
pickle.dump(fit3, open('Pima_fit1.pkl',''wb'))

关于Softmax激活函数（多项式指数函数）

rmsprops算法：对每个更新向量分量使用不同的学习速率。它使用每个参数的梯度幅度的指数移动平均值除以该平均值的平方根对梯度进行归一化。

fit1 = Classifier(
	layers=[
		Layer("Tanh", units = 21)
		Layer("Tanh", units = 30)
		Layer("Sigmoid", units = 37)
		Layer("Softmax")],
	learning_rate=0.30,
	random_state = 2016,
	learning_rule = u'rmsprop'
	valid_size = 0.25,
	dropout_rate = 0.20,
	learning_momentum = 0.005,
	batch_size = 35,
	n_iter=100)

Adagrad学习算法：对训练样本中很少出现的特征使用较大的学习速率，降低稀疏特征的学习速率。
关键：：Adagrad通过结合过去观测值的几何结构来采用一个适应特定特征的学习速率。

learning_rule = u'adagrad'

Nesterov加速梯度下降算法：一阶优化方法，提高稳定性，并加快常规梯度下降的收敛速度。在常规梯度下降中更新了一个冲量。
Nesterov的加速梯度算法已经被证明是平滑凸优化的最佳方法

learning_rule = u"nesterov"

尝试冲量法

learning_rule = u'momentum'

常规随机梯度下降

learning_rule = u'sgd'

冲量法比常规sgd收敛速度快，并且增加了网络收敛的学习速率范围。

Adadelta算法：是Adagrad算法的一种改进，它使用固定大小的窗口上的累积的梯度平方和。在这种情况下，分母不能积累到无穷大，而作为一个使用最近梯度的局部估计，可以在每次迭代上继续学习，而不是像Adagrad算法那样慢下来。

你可能感兴趣的:(深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多