糖公子没来过

卷积神经网络

卷积神经网络介绍

为什么要“卷积”

全连接所需要的参数数量过多，尤其对于现在处理的数据量来说更多，对应硬件显存要求巨大。为了减少这部分需求，同时对神经网络也能够实现很好的训练，提出了卷积神经网络的概念

如何实现

权值共享

一些概念

feature maps：
- 比如说在Computer Vision 领域中，feature map 指的就是图像，包括输入的原始图像以及通过神经网络各层处理出来的“中间图像”。中间图像加引号是因为有的层处理完之后的由于维度发生了变换，无法呈现出一个图像的样子，它只是一个概念。就像下面这个图展示的那样，都代表feature maps
2D Convolution：
- 二维卷积。有的图片输入是有R/G/B三个通道（Channel），在进行处理时要进行降维，也就是一个 Kernel 同时处理三个维度，然后再将这三个数字加到一起，成为新 feature map 上的一个点数值，像下面展示的那样
Kernel/Kernel size
- Kernel 就是进行计算的权值矩阵。是由 learned weights 组成，Kernel size 就是 Kernel 矩阵的shape
Padding & Stride
- 通常来讲，进行卷积之后的 feature map 的 shape 要小于卷积之前的 shape ，这是由 Kernel 卷积核的 shape 决定的。Kernel 如果 shape 比较大的话，就会把原来的 feature map 的 shape 压缩的比较多。为了让卷积之后的 map 大小和原来一样，就要在原来map的四周添加 pad，这个操作就叫 padding。
- 在对 map 进行卷积计算时，扫描的步长叫做 Stride。
Channels
- 对于输入图像来说，比如一个 [1, 32, 32, 3] 的图像，Channel 就是最后一位数字 3，代表3个通道，通常指R、G、B三个通道，如果是 [1, 32, 32, 1] 就代表是一个灰度图像。
- 在 Kernel 上还有一个 Channel 概念，这个Channel不是故意设置出来的，而是为了能够获得特定shape 的feature map 而设计的。比如说在经过神经网络的某一层时，想要把 [1, 32, 32, 3] 变成一个 [1, 30, 30, 4]的map，如果使用上面提到的 [5, 5] 的 Kernel 的话，最后会变成一个[1, 30, 30, 1] 的网络，达不到要求。如果让 Kernel Size 变成 [4, 3, 5, 5] 的话，也就是说，在扫描某一区域的时候，会将这个区域用4个 Kernel 分别扫描一遍，各自获得一个数值，成为新 map 上的一点。不管怎么说吧，最后得到的是在图像的长和宽变短，而深度变深的 feature map，也就是让图像的像素点拥有了更多的信息量
- 需要注意的是，Kernel Size 中第一个参数是你想让新的feature map 最后一个维度的 shape，第二个参数就是上一个feature map 最后一个维度的shape

TensorFlow中的卷积神经网络

layers.Conv2D

这里面的参数：4代表你想让新的feature map 的最后一维shape 是多少，这里就填多少；kernel_size 设置的是5*5，步长strides设置的是1，padding = 'valid' 表示不进行padding操作，这样的话图像的长宽会减少。像下面的 padding = 'same' 表示要进行padding 操作，它会自动帮你计算需要padding多少空白的pad，最后输出和输入一样的长宽。

补充一点，stride = 1，kernel_size = 5 还不进行 padding 的话，对于 input 是[1, 32, 32, 3]的图像来说，输出的28 = 32-(5-1)；对于stride = 2 来说，就是长宽折半了

weight & bias

可以看到，在TensorFlow 中kernel size 的表示是 [5, 5, 3, 4]，这种形式和之前的例子[4, 3, 5, 5]不太一样，能够对应上就好，意义是一样的

再说一嘴 bias ，这个 bias 就是在 kernel 都计算完（相乘取和）之后，对这个结果再加上一个 bias，得到最终的数值。在上面这个例子里并没有设置 bias 因此都是0。对了，bias的shape是输出图像最后一维的shape

nn.conv2d

nn.conv2d 也可以实现像上面 layers.Conv2D 相似的功能，但是推荐使用 layers.Conv2D

池化与采样

Pooling
upsample
ReLU

Max/Avg pooling

LeNet-5

layers.MaxPool2D / tf.nn.max_pool2d

upsample

UpSampling2D

ReLU

tf.nn.relu / layers.ReLU()

CIFAR100实战

CIFAR100

13 Layers

源代码

import  tensorflow as tf
from    tensorflow.keras import layers, optimizers, datasets, Sequential
import  os

os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
tf.random.set_seed(2345)

conv_layers = [ # 5 units of conv + max pooling
    # unit 1
    layers.Conv2D(64, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.Conv2D(64, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.MaxPool2D(pool_size=[2, 2], strides=2, padding='same'),

    # unit 2
    layers.Conv2D(128, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.Conv2D(128, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.MaxPool2D(pool_size=[2, 2], strides=2, padding='same'),

    # unit 3
    layers.Conv2D(256, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.Conv2D(256, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.MaxPool2D(pool_size=[2, 2], strides=2, padding='same'),

    # unit 4
    layers.Conv2D(512, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.Conv2D(512, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.MaxPool2D(pool_size=[2, 2], strides=2, padding='same'),

    # unit 5
    layers.Conv2D(512, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.Conv2D(512, kernel_size=[3, 3], padding="same", activation=tf.nn.relu),
    layers.MaxPool2D(pool_size=[2, 2], strides=2, padding='same')

]



def preprocess(x, y):
    # [0~1]
    x = tf.cast(x, dtype=tf.float32) / 255.
    y = tf.cast(y, dtype=tf.int32)
    return x,y


(x,y), (x_test, y_test) = datasets.cifar100.load_data()
y = tf.squeeze(y, axis=1)
y_test = tf.squeeze(y_test, axis=1)
print(x.shape, y.shape, x_test.shape, y_test.shape)


train_db = tf.data.Dataset.from_tensor_slices((x,y))
train_db = train_db.shuffle(1000).map(preprocess).batch(128)

test_db = tf.data.Dataset.from_tensor_slices((x_test,y_test))
test_db = test_db.map(preprocess).batch(64)

sample = next(iter(train_db))
print('sample:', sample[0].shape, sample[1].shape,
      tf.reduce_min(sample[0]), tf.reduce_max(sample[0]))


def main():

    # [b, 32, 32, 3] => [b, 1, 1, 512]
    conv_net = Sequential(conv_layers)

    fc_net = Sequential([
        layers.Dense(256, activation=tf.nn.relu),
        layers.Dense(128, activation=tf.nn.relu),
        layers.Dense(100, activation=None),
    ])

    conv_net.build(input_shape=[None, 32, 32, 3])
    fc_net.build(input_shape=[None, 512])
    optimizer = optimizers.Adam(lr=1e-4)

    # [1, 2] + [3, 4] => [1, 2, 3, 4]
    variables = conv_net.trainable_variables + fc_net.trainable_variables

    for epoch in range(50):

        for step, (x,y) in enumerate(train_db):

            with tf.GradientTape() as tape:
                # [b, 32, 32, 3] => [b, 1, 1, 512]
                out = conv_net(x)
                # flatten, => [b, 512]
                out = tf.reshape(out, [-1, 512])
                # [b, 512] => [b, 100]
                logits = fc_net(out)
                # [b] => [b, 100]
                y_onehot = tf.one_hot(y, depth=100)
                # compute loss
                loss = tf.losses.categorical_crossentropy(y_onehot, logits, from_logits=True)
                loss = tf.reduce_mean(loss)

            grads = tape.gradient(loss, variables)
            optimizer.apply_gradients(zip(grads, variables))

            if step %100 == 0:
                print(epoch, step, 'loss:', float(loss))



        total_num = 0
        total_correct = 0
        for x,y in test_db:

            out = conv_net(x)
            out = tf.reshape(out, [-1, 512])
            logits = fc_net(out)
            prob = tf.nn.softmax(logits, axis=1)
            pred = tf.argmax(prob, axis=1)
            pred = tf.cast(pred, dtype=tf.int32)

            correct = tf.cast(tf.equal(pred, y), dtype=tf.int32)
            correct = tf.reduce_sum(correct)

            total_num += x.shape[0]
            total_correct += int(correct)

        acc = total_correct / total_num
        print(epoch, 'acc:', acc)



if __name__ == '__main__':
    main()

你可能感兴趣的:(Deep,Learning,TensorFlow,深度学习,人工智能,计算机视觉,神经网络,tensorflow)

Deepseek的api调用报错乱码问题 2301_78002904 AI编程
最近的deepseek也是很火，但是在调用api的过程中也会出现一些大大小小的问题，所以这里也给出一种问题和他的解决方案，报错的类型如下图所示APIStreamingFailedCommandfailedwithexitcode1:powershell(Get-CimInstance-ClassNameWin32_OperatingSystem).caption'powershell'��ڲ
pycharm、anaconda安装tensorflow问题努力的南波万 pycharm tensorflow neo4j
(pythonconda01)C:\Users\lvd13>condainstalltensorflowChannels:-defaultsPlatform:win-64Collectingpackagemetadata(repodata.json):doneSolvingenvironment:|warninglibmambaAddedemptydependencyforproblemtypeS
Python 实现文本摘要功能热爱技术的小胡 python
互联网时代信息爆炸式增长，人们面对越来越多的信息无法一一阅读，而文本自动摘要技术可以一定程度上缓解这个问题。摘要就是一篇文章的核心部分信息，文本自动摘要技术分抽取式摘要和生成式摘要，前者是在原文中挑选一定比例的句子拼凑成一个摘要，后者更接近人为的总结式简写一篇文章。目前越来越多的研究者使用深度神经网络来研究生成式摘要技术，但是难度也挺大，效果有限。本文的方法是使用基于启发式规则的算法实现了一个抽取
2025年01月30日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：Janus项目地址url：https://github.com/deepseek-ai/Janus项目语言：Python历史star数：11942今日star数：2187项目维护者：learningpro,hills-code,TheOneTrueGuy,mowentian,soloice项目简介：Janus系列：统一多模态理解和生成模型项目名称：DeepSeek-Coder项目地址ur
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
DeepSeek：LLM在MoE训练中的无损平衡大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：AUXILIARY-LOSS-FREELOADBALANCINGSTRAT-EGYFORMIXTURE-OF-EXPERTS来源：arXiv,2408.15664摘要对于混合专家（MoE）模型，不平衡的专家负载将导致路由崩溃或计算开销增加。现有方法通常采用辅助损耗来促进负载平衡，但较大的辅助损耗会在训练中引入不可忽略的干扰梯度，从而损害模型性能。为了在训练过程中控制负载平衡，同时不产生不希望
Deepseek 对种猪市场会带来哪些影响？百态老人笔记大数据人工智能
DeepSeek对种猪市场的影响可以从以下几个方面进行分析：1.提高生产效率与降低成本根据，DeepSeek已经被用于养猪场中分析饲料配比，从而将猪的育肥周期从6个月缩短至5个月，并降低了15%的成本。这表明DeepSeek在优化养殖流程和提高生产效率方面具有显著作用，能够帮助养猪场降低运营成本，提升经济效益。2.推动智能化养殖技术的应用和提到，深度学习技术（如YOLOv5模型）已经被应用于生猪的
基于CNN-GRU-Attention混合神经网络的负荷预测方法（Python代码实现）宇哥预测优化代码学习神经网络 cnn gru
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、引言二、模型结构三、数据预处理四、模型训练与评估五、实验结果与分析六、结论与展望2运行结果3参考文献4Python代码实现及数据1概述基于CNN-GRU(convolutionalneuralnetworks-gaterecurrentunit)神经网络的电
如何获取 DeepSeek 多模态大模型 Janus-Pro-7B Channing Lewis AI #AGI #NLP deepseek
DeepSeek团队近期开源了新一代多模态模型Janus-Pro-7B，该模型在图像生成和多模态理解方面表现卓越，超越了OpenAI的DALL-E3，并在基准测试中取得了优异成绩。Janus-Pro-7B的代码和模型参数已经分别在github和huggingface上开源，我们拉取到本地后就能运行使用了。以下是如何获取Janus-Pro-7B模型的详细指南：步骤一：克隆代码库gitclonehtt
CVPR‘24开源 | ADA-Track：端到端3D多目标跟踪最新SOTA！计算机视觉工坊 3D视觉从入门到精通 3d 目标跟踪人工智能
编辑：计算机视觉工坊添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、3DGS系列、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
OpenCV中的图像处理函数详解 Luzem0319 opencv 图像处理人工智能
在OpenCV中，图像处理函数是实现图像处理和计算机视觉任务的基础。下面将详细介绍六个重要的图像处理函数：二值化函数、自适应二值化函数、腐蚀函数、膨胀函数、仿射变换函数和透视变换函数。一、二值化函数功能二值化函数（cv2.threshold()）用于将灰度图像转换为二值图像。二值图像中，每个像素只有两种可能的值（通常是0和255），分别代表黑色和白色。参数src：输入图像，应为灰度图像。thres
OpenCV中的边缘检测和轮廓处理 Luzem0319 opencv 人工智能计算机视觉
在图像处理和计算机视觉任务中，边缘检测和轮廓处理是非常重要的步骤。OpenCV库提供了多种函数来实现这些功能，包括Sobel算子、Laplacian算子、Canny算子、findContours函数、drawContours函数以及透视变换函数等。本文将详细介绍这些函数的功能、参数、返回值和应用。1.Sobel算子函数功能：Sobel算子用于计算图像灰度的近似梯度，梯度越大越有可能是边缘。参数：s
人工智能的前景与未来就业市场：机遇、挑战与社会影响苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
随着科技的飞速发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面，它不仅引领着技术革新的浪潮，更在无声中重塑着我们的就业市场和社会结构。站在这个时代的交汇点上，我们不禁要问：人工智能将如何影响我们的未来就业市场？它带来的究竟是机遇还是挑战？回望过去，每一次科技革命都伴随着就业市场的剧烈震荡。而今，人工智能作为第四次工业革命的核心驱动力，正以前所未有的速度改变着劳动力市场的格局。从自动化生产线上
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
对话系统(Chatbots) 原理与代码实例讲解 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1对话系统的发展历程对话系统，又称聊天机器人(Chatbots)，是模拟人类对话的计算机程序。从早期的基于规则的系统到如今基于深度学习的智能体，对话系统经历了漫长的发展历程。第一阶段：基于规则的系统(1960s-1990s)早期的对话系统主要基于预先定义的规则和模板。例如，ELIZA(1966)是一个模拟心理治疗师的程序，通过模式匹配和关键词识别来生成回复。这些系统只能处理有限的对
如何使用深度学习中的 Transformer 算法进行视频目标检测 go5463158465 python 算法深度学习 python 开发语言
以下将介绍如何使用深度学习中的Transformer算法进行视频目标检测，并给出一个复现相关论文思路及示例代码。这里以DETR（End-to-EndObjectDetectionwithTransformers）为基础进行说明，它是将Transformer引入目标检测领域的经典论文。步骤概述环境准备：安装必要的库，如PyTorch、torchvision等。数据准备：使用公开的视频目标检测数据集，
探索SakuraLLM：轻小说与Galgame翻译的新纪元蒋素萍Marilyn
探索SakuraLLM：轻小说与Galgame翻译的新纪元SakuraLLM适配轻小说/Galgame的日中翻译大模型项目地址:https://gitcode.com/gh_mirrors/sa/SakuraLLM在人工智能的浪潮中，SakuraLLM以其独特的魅力和强大的功能，成为了日中翻译领域的一颗璀璨明星。本文将深入介绍SakuraLLM项目，分析其技术特点，探讨其应用场景，并揭示其与众不同
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
各大模型厂商API使用：百度、阿里、豆包、kimi、deepseek、Yi loong_XL 深度学习大模型AI 百度大模型
百度ERNIE（支持requests接口）ERNIESpeed、ERNIELite免费免费测试下来模型ernie_speed输出吞吐量计算20-30来个，“{length/cost}tokens/s”输出总长度/耗时https://qianfan.cloud.baidu.com/文档：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/dltgsna1oapi
SpringBoot中运行Yolov5程序 eqa11 spring boot YOLO 后端
文章目录SpringBoot中运行Yolov5程序一、引言二、环境搭建1、SpringBoot项目创建2、YOLOv5环境配置三、SpringBoot与YOLOv5集成1、创建Python服务2、SpringBoot调用Python服务四、使用示例1、创建控制器五、总结SpringBoot中运行Yolov5程序一、引言在人工智能领域，目标检测是一个热门且实用的技术。YOLOv5作为目标检测算法中的
大语言模型原理与工程实践：残差连接与层归一化 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着自然语言处理（NLP）的发展，深度学习在过去几年中取得了令人瞩目的成果。其中，循环神经网络（RNN）和卷积神经网络（CNN）在图像和文本分类、语义角色标注、机器翻译等领域表现出色。然而，这些网络在训练过程中经常遭遇梯度消失和梯度爆炸的问题。为了解决这些问题，我们引入了残差连接（ResidualConnections）和层归一化（BatchNormalization）来改善模型性能。
【云原生】Docker搭建开源翻译组件Deepl使用详解小码农叔叔 linux与容器实战 docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用
目录一、前言二、微服务项目使用翻译组件的场景2.1多语言用户界面2.2业务逻辑中的翻译需求2.3满足实时通信的要求2.4内容管理系统2.5个性化推荐系统2.6日志和监控三、开源类翻译组件解决方案3.1国内翻译组件方案汇总3.1.1百度翻译3.1.2腾讯翻译3.1.3阿里翻译(通用版)3.1.4华为翻译3.1.5小牛翻译3.1.6有道翻译3.1.7火山翻译3.1.8讯飞翻译3.2国外翻译组件方案汇总
阿里巴巴Qwen团队发布AI模型，可操控PC和手机新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。1月
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他