阿默mini

神经网络之学习过程

1、神经网络的学习：指的是从训练数据中自动获取最优权重参数的过程。学习的目的是以损失函数为基准，找出能使它的值达到最小的权重参数，采用函数斜率的梯度法可以找出尽可能小的损失函数的值。

2、从数据中学习：神经网络的特征就是从数据中学习，即由数据自动决定权重参数的值。对于线性可分问题，感知机可以利用数据自动学习，根据“感知机收敛定理”，通过有限次数的学习，线性可分问题是可解的，但是非线性可分问题无法通过自动学习解决。

3、数据驱动：数据是机器学习的核心，通常要解决某个问题时，特别是需要发现某种模式时，人们会综合考虑各种因素再给出答案，往往以自己的经验和直觉作为线索，通过反复试验推进工作，而机器学习的方法极力避免人为介入，神经网络或深度学习更是这样，往往尝试从收集到数据中发现答案。

4、识别数字的两种方案：
①先从图像中提取特征量，再用机器学习技术学习这些特征量的模式（部分需要人工参与）。
“特征量”是指可以从输入数据（输入图像）中准确提取本质数据（重要数据）的转换器，图像的特征量通常表示为向量的形式，计算机视觉领域常用的特征量包括SIFT、SURF和HOG等，先使用这些特征量将图像数据转换为向量（需要针对不同问题人工考虑合适的特征量），然后对转换后的向量使用机器学习中的SVM、KNN等分类器进行学习。
②神经网络直接学习图像本身，连图像中包含的重要特征量也都由机器来学习（完全机器学习）。
优点：对所有问题都可以用同样的流程来解决，与待处理问题无关，神经网络会通过不断地学习所提供的数据，尝试发现待求解的问题的模式。

5、机器学习中有关数据处理的一些要点：

数据——一般分为训练数据（监督数据）和测试数据两部分来进行学习和实验，首先使用训练数据进行学习以寻找最优参数，然后使用测试数据评价训练所得模型的实际能力。
泛化能力——指处理未被观察过的数据（不包含在训练数据中的数据）的能力，获得泛化能力是机器学习的终极目标，为了正确评价模型的泛化能力，必须划分训练数据和测试数据。应用场景类似于自动读取明信片的邮政编码的系统，手写数字识别必须具备较高的识别“任意人写的任意数字”的能力。
过拟合——只对某个数据集过度拟合的状态，会导致无法处理其他数据集的情况，这样无法进行正确评估。

6、损失函数：神经网络的学习通过某个指标表示现在的状态，然后以该指标为基准，寻找最优权重参数，这个指标称为损失函数，一般用均方误差和交叉熵误差等。损失函数表示的是神经网络性能的“恶劣程度”，即当前的神经网络对监督数据在多大程度上不拟合/多大程度上不一致，如果乘以一个负值，就可以解释为“性能有多好”。

均方误差：计算的是神经网络的输出和正确解监督数据的各个元素之差的平方和。y(k)表示神经网络的输出，t(k)表示监督数据，k表示数据的维度，例如，手写数字识别的例子中，k=10，数组元素的索引分别对应数字0-9，神经网络的输出y是softmax函数的输出，所以y表示的是图像数字“5”是0-9的概率，t是监督数据，将正确解标签设为1，其余为0（称为one_hot表示）。

def mean_squared_error(y,t):
	return 0.5 * np.sum((y-t)**2)

交叉熵误差：y(k)是神经网络的输出，t(k)是正确解标签，公式实际计算的是对应正确解标签的输出的自然对数，即交叉熵误差的值由正确解标签所对应的输出结果决定。当出现np.log(0)时，该值会变成负无穷-inf，会导致后续计算无法进行，作为保护性对策，添加微小值delta可以防止无穷大的发生。

def cross_entropy_error(y,t):
	delta = 1e-7
	return -np.sum(t * np.log(y+delta))

7、mini-batch学习：使用训练数据进行学习就是针对训练函数计算损失函数的值，找出使该值尽可能小的参数，计算损失函数时必须将所有训练数据作为对象。如果要求所有训练数据的损失函数的总和，以交叉熵误差为例，可以改写为下式：

其中，假设数据有N个，t(nk)表示第n个数据的第k个元素的值，y(nk)是神经网络的输出，公式主要是把求单个数据的损失函数扩大到N份数据，最后再除以N进行正规化，通过这样平均化可以获得和训练数据量无关的统一指标。神经网络的学习也是从训练数据中选出一批数据（称为mini-batch，小批量），然后对每个mini-batch进行学习，最后作为全体训练数据的近似值。

#mini-batch版交叉熵误差函数
def	cross_entropy_error(y,t):
	delta = 1e-7
	if y.ndim == 1:	#求单个数据的交叉熵误差需要改变数据的形状
		t = t.reshape(1,t.size)
		y = y.reshape(1,y.size)
	batch_size = y.shape[0]
	return -np.sum(t * np.log(y + delta)) / batch_size
	#return -np.sum(np.log(y[np.arange(batch_size),t] + delta)) / batch_size
	#（监督数据是标签形式，即非one_hot表示）

np.arange(batch_size)函数会生成一个0 - batch-size-1的有序数组，所以y[np.arange(batch_size)，t]能抽出各个数据的正确解标签对应的神经网络的输出。

8、设定损失函数的原因：在神经网络中，寻找最优参数时，要寻找使损失函数值尽可能小的参数，这时需要计算参数的导数（梯度），然后以该导数为指引逐步更新参数的值。
对权重参数的损失函数求导，表示的是“稍微改变这个权重参数的值，损失函数的值会如何变化”，如果导数值为负，通过使该权重参数向正方向改变可以增大损失函数的值；如果导数值为正，通过使该权重参数向负方向改变可以减小损失函数的值；当导数值为0时，无论权重参数如何变化，损失函数的值都不变。
不使用识别精度作为指标，是因为这样绝大多数地方的导数都会变为0，导致参数无法更新，仅仅微调参数无法改善识别精度，而把损失函数作为指标时，稍微改变参数值就会发生连续性的变化。

9、导数：表示某个瞬间的变化量，用公式表示导数的含义是，x的微小变化（h无限趋于0）将导致函数f（x）的值在多大程度上变化，对应函数在x处的斜率，在计算时往往对应的是（x+h）和x之间（前向差分即f(x+h)-f(x)）的斜率，这个差异的出现是因为h不可能无限接近于0，为了减小这个误差，可以使用中心差分（f(x+h)-f(x-h)）。在使用中将h设为10e-50这个微小值，往往会产生舍入误差（指因省略小数的精细部分的数值而造成最终计算结果上的误差），实际使用可以改为10^(-4)。

def numerical_diff(f,x):
	h = 1e-4
	return (f(x+h)-f(x-h)) / (2*h)

10、偏导数：求有多个变量的导数，每次只把其中的某一个变量当成目标变量求偏导，其他变量视作固定的某个值，偏导数和单变量导数一样，都是求某个地方的斜率。

11、梯度：由全部变量的偏导数汇总而成的向量称为梯度。梯度往往会指向各点处的函数值降低的方向，严格讲梯度指示的方向是各点处的函数值减小最多的方向，再由方向导数cos(Θ) x 梯度，表明所有下降方向中，梯度方向下降最多。

def numerical_gradient(f,x):
	h = 1e-4 #0.0001
	grad = np.zeros_like(x)	#生成和x形状相同的数组
	for idx in range(x.size):
		tmp_val = x[idx]
		x[idx] = tmp_val + h	#f(x+h)
		fxh1 = f(x)
		x[idx] = tmp_val - h	#f(x-h)
		fxh2 = f(x)
		grad[idx] = (fxh1 - fxh2) / (2*h)
		x[idx] = tmp_val #还原变量值
	return grad

12、梯度法：是解决机器学习中最优化问题的常用方法，通过使用梯度来寻找函数最小值或尽可能小的值的方法，可以让神经网络在学习时顺利找到最优参数，实际上无法保证梯度所指方向就是函数最小值或者真正应该前进的方向，但是沿着它的方向能够最大限度地减小函数的值。
在梯度法中，要以梯度的信息为线索，函数的取值从当前位置沿着梯度方向前进一定距离，然后在新的地方重新求梯度，再沿着新梯度方向前进，如此反复，不断沿着梯度方向前进，逐渐减小函数值。根据目的的不同可以分为梯度下降法（寻找最小值）和梯度上升法（寻找最大值），通过反转损失函数的符号可以求解反问题，所以本质上没有区别。

上式用于表示更新一次的结果，这个步骤反复执行会逐渐减小函数值。η表示更新量，在神经网络的学习过程中称为学习率，用来决定在学习过程中应该学习多少以及在多大程度上更新参数，作为一种超参数，通常由人工设定，不同于神经网络的参数可以通过训练数据和学习算法自动获得，如果学习率过大，会发散成一个很大的值，过小的话起不到更新作用。

def gradient_descent(f,init_x,lr=0.01,step_num=100):
	x = init_x
	for i in range(step_num):
		grad = numerical_gradient(f,x)
		x -= lr * grad		#梯度法公式
	return x

其中，f是要进行最优化的函数，Init_x是初始值，lr是学习率learning rate，step_num是梯度法的重复次数。

13、神经网络的梯度：指损失函数关于权重参数的梯度，比如对于一个形状为2x3的权重W的神经网络，损失函数用L表示，梯度可以表示为：

class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3)	#用高斯分布初始化
    def predict(self,x):
        return np.dot(x,self.W)
    def loss(self,x,t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y,t)
        return loss

14、学习算法的实现——随机梯度下降法SGD：
①前提——神经网络存在合适的权重和偏置，调整权重和偏置的过程即为学习过程；
准备工作：_ init _(self,input_size,hidden_size,output_size)是类的初始化方法（生产TwoLayerNet实例时被调用的方法），参数依次表示输入层神经元数、隐藏层神经元数、输出层神经元数，权重要使用符合高斯分布的随机数进行初始化，偏置使用0初始化。

class TwoLayerNet:
    def __init__(self,input_size,hidden_size,output_size,weight_init_std=0.01):
        #初始化权重
        self.params = {}	#保存神经网络参数的字典型变量
        self.params['W1'] = weight_init_std * np.random.randan(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randan(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        
    def predict(self,x):
        W1,W2 = self.params['W1'],self.params['W2']
        b1,b2 = self.params['b1'], self.params['b2']
        a1 = np.dot(x,W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1,W2) + b2
        y = softmax(a2)
        
        return y
    
    def loss(self,x,t):     #x:输入数据 t:监督数据
        y = self.predict(x)
        return cross_entropy_error(y,t)
    
    def accuracy(self,x,t):
        y = self.predict(x)
        y = np.argmax(y,axis=1)
        t = np.argmax(t,axis=1)
        accuracy = np.sum(y == t) / float(x.shape[0])
    
        return accuracy
    
    def numerical_gradient(self,x,t):
        loss_W = lambda W: self.loss(x,t)
        grads = {}		#保存梯度的字典型变量
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads

②mini-batch——从训练数据中随机选出一部分数据，目标是减小mini-batch的损失函数的值，在手写数据识别的神经网络中对包含100笔数据的mini-batch求梯度，使用SGD更新参数，更新次数设置为10000，每更新一次都对训练数据计算损失函数的值，并把该值添加到数组中，通过反复浇灌数据，神经网络逐渐向最优参数靠近；
③计算梯度——求出各个权重参数的梯度（损失函数值减小最多的方向）；
④更新参数——将权重参数沿着梯度方向进行微小更新；
⑤重复上述过程。

(x_train,t_train),(x_test,t_test) = load_mnist(normalize=True,one_hot_label=True)
train_loss_list = []
#超参数
iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1
network = TwoLayerNet(input_size=784,hidden_size=50,output_size=10)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size,batch_size)    #mini-batch
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]

    grad = network.numerical_gradient(x_batch,t_batch)    
    #更新参数
    for key in ('W1','b1','W2','b2'):
        network.params[key] -= learning_rate * grad[key]
    #记录学习过程
    loss = network.loss(x_batch,t_batch)
    train_loss_list.append(loss)

15、基于测试数据的评价：神经网络学习过程中，必须确认是否能够正确识别训练数据之外的其他数据，即确认是否发生过拟合（在训练数据中的数字图像能被正确识别，但是不在训练数据中的数字图像无法被识别），在进行学习的过程中，要定期对训练数据和测试数据记录识别精度，每经过一个epoch（表示学习中所有训练均被使用过一次时的更新次数）都要记录训练数据和测试数据的识别精度。

#加入for循环
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train,t_train)
        test_acc = network.accuracy(x_test,t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print("train acc|test acc")
        print(str(train_acc) + "|" + str(test_acc))

基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
AI绘画工具介绍编程小郭 ai作画
市面上AI绘画工具众多，它们利用深度学习和图像处理技术，为用户提供了丰富的创作体验和可能性。以下是对几款主流AI绘画工具的详细介绍及横向对比：一、主流AI绘画工具介绍Midjourney简介：Midjourney是一个独立的研究实验室，专注于人工智能绘图，被广泛应用于设计、艺术创作、广告制作等领域。特点：以其强大的图像生成能力和跨界融合的创新特点著称，能够根据文本描述和视觉输入生成兼具故事性与视觉
文心一言vsGPT-4全面对比编程小郭文心一言 chatgpt java python 人工智能 ai
文心一言和GPT-4都是当前非常先进的人工智能语言模型，它们各自具有独特的特点和优势。以下是对这两款工具的全面比较：文心一言是由百度开发的一款大型人工智能语言模型，它基于强大的深度学习技术和海量的数据资源，具备出色的语言理解和生成能力。文心一言在中文处理方面尤为出色，能够准确理解中文语境和语义，生成流畅、自然的中文文本。文心一言还具备丰富的知识库和推理能力，能够回答各种问题，提供有用的信息和建议。
基于深度学习的认知架构的AI SEU-WYL 深度学习dnn 人工智能深度学习架构
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统，旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统。结合深度学习技术，这类AI可以更好地应对动态和复杂的任务需求。1.基于深度学习的认知架构的组成一个典型的基于深度学习的认知架构包含多个关键模块：感知模块：负责从外部环境中获取数据，处理和提取特征。深度学习
什么是AI显卡，英伟达与AMD显卡的全面对比 wit_@ 人工智能 python 算法 deep learning 大数据网络
什么是AI显卡？AI显卡是专门为人工智能计算任务设计和优化的图形处理器（GPU）。相比传统显卡，AI显卡具备更强的计算能力、更高的并行处理效率以及针对深度学习、数据科学等领域的特殊硬件支持。在人工智能领域，尤其是深度学习中，训练和推理任务需要处理大量的矩阵运算，这正是GPU擅长的领域。AI显卡通过高度并行的架构，可以显著提升训练速度和模型性能，同时降低功耗和延迟。常见的AI显卡用途包括：深度学习模
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
【深度学习】Huber Loss详解小小小小祥深度学习人工智能算法职场和发展机器学习
文章目录1.HuberLoss原理详解2.Pytorch代码详解3.与MSELoss、MAELoss区别及各自优缺点3.1MSELoss均方误差损失3.2MAELoss平均绝对误差损失3.3HuberLoss4.总结4.1优化平滑4.2梯度较好4.3为什么说MSE是平滑的1.HuberLoss原理详解HuberLoss是一种结合了MSE（均方误差）与MAE（平均绝对误差）的损失函数，旨在克服两者的
【YOLOV8】YOLOV8模型训练train及参数详解小小小小祥 YOLO
介绍训练深度学习模型涉及为其提供数据并调整其参数，以便它能够做出准确的预测。UltralyticsYOLOv8的训练模式专为有效、高效地训练目标检测模型而设计，充分利用现代硬件的能力。本指南旨在涵盖使用YOLOv8强大功能集训练自定义模型所需的所有细节，帮助你快速入门。为什么选择UltralyticsYOLO进行训练？高效性：无论是单GPU设置还是跨多个GPU扩展，都能充分利用你的硬件。多功能性：
【YOLOV8】目标检测任务中应该如何选择YOLOV8n/s/m/l/x模型及输入尺寸大小小小小小祥 YOLO 目标检测人工智能
问题描述：YOLOV8作为目前主流的深度学习网络，支持图像分类、目标检测、实例分割、姿态检测、旋转目标检测等功能。对于目标检测任务官方提供了n/s/m/l/x五个模型，我们在使用YOLOV8模型进行自己任务训练时，应该如何选择YOLOV8的模型以及输入尺寸大小呢？YOLOV8官网：https://github.com/ultralytics/ultralyticsYOLOV8n/s/m/l/x信息
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
厉害了，LSTM+Transformer王炸创新，精准度又高了！马拉AI LSTM transformer
【LSTM+Transformer】作为一种混合深度学习模型，近年来在学术界和工业界都受到了极大的关注。它巧妙地融合了长短期记忆网络（LSTM）在处理时序数据方面的专长和Transformer在捕捉长距离依赖关系上的优势，从而在文本生成、机器翻译、时间序列预测等多个领域取得了突破性的进展。这种创新的结合不仅提升了模型的预测精度，还优化了性能和训练效率，使其在序列分析任务中展现出卓越的能力。例如，最
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
详解深度学习中的Dropout nk妹妹深度学习深度学习人工智能
Dropout是一种在神经网络训练中常用的正则化技术，其操作是在每次训练迭代中随机“丢弃”一部分神经元（即将其输出置为零）。以下是对这一操作的详细解释：一、基本思想Dropout的基本思想是减少神经元之间的复杂共适应关系，迫使网络在训练过程中不依赖于特定的神经元子集。这有助于增加模型的泛化能力，防止过拟合。二、具体实现随机选择：在每次训练迭代中，以一定的概率p（通常设定为0.2到0.5之间）随机选
【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格精通代码大仙数据挖掘深度学习 python 机器学习分类自动化人工智能数据挖掘深度学习
音乐流派分类–自动化分类不同音乐风格在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。音乐流派分类器模型音乐流派分类关于数据集：GTZAN流派收
AI歌手会成为主流吗？网络安全我来了 IT技术人工智能
AI歌手会成为主流吗？在如今这个科技迅猛发展的时代，AI歌手渐渐走入我们的视野。或许你会想，AI真的能够唱歌，它的歌声能与真实歌手相媲美吗？让我们一起探索这个引人入胜的主题，看看AI歌手的发展现状、优缺点，以及它在音乐行业的未来前景。1.AI歌手的发展现状1.1技术背景我们处于一个机器学习和深度学习技术飞速发展的时代，AI歌手的诞生并非偶然。通过收集和分析大量的音乐数据，AI能够学习并模仿特定歌手
数据增强方法及其工具 cxr828 大数据
数据增强（DataAugmentation）是指在训练深度学习模型时，通过对现有数据进行一系列变换，从而生成新的样本。数据增强有助于增加数据的多样性，减少过拟合，提升模型的泛化能力，尤其是在数据量有限的情况下。数据增强可以应用于图像、文本、音频等多种类型的数据。以下是一些常见的、简单易行的图像数据增强方法及其具体实现步骤，这些方法也可以广泛应用于目标检测、图像分类、图像分割等任务。一、图像数据增强
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

神经网络之学习过程

你可能感兴趣的:(#,深度学习)