ZhangJiQun&MXP

计算机视觉-卷积神经网络

计算机视觉的发展历程

卷积神经网络

卷积（Convolution）

卷积计算

感受野（Receptive Field）

步幅（stride）

感受野（Receptive Field）

多输入通道、多输出通道和批量操作

卷积算子应用举例

计算机视觉作为一门让机器学会如何去“看”的学科，具体的说，就是让机器去识别摄像机拍摄的图片或视频中的物体，检测出物体所在的位置，并对目标物体进行跟踪，从而理解并描述出图片或视频里的场景和故事，以此来模拟人脑视觉系统。因此，计算机视觉也通常被叫做机器视觉，其目的是建立能够从图像或者视频中“感知”信息的人工系统。

计算机视觉技术经过几十年的发展，已经在交通（车牌识别、道路违章抓拍）、安防（人脸闸机、小区监控）、金融（刷脸支付、柜台的自动票据识别）、医疗（医疗影像诊断）、工业生产（产品缺陷自动检测）等多个领域应用，影响或正在改变人们的日常生活和工业生产方式。未来，随着技术的不断演进，必将涌现出更多的产品和应用，为我们的生活创造更大的便利和更广阔的机会。

图1：计算机视觉技术在各领域的应用

重点介绍计算机视觉的经典模型（卷积神经网络）和两个典型任务（图像分类和目标检测）。主要涵盖如下内容：

卷积神经网络：卷积神经网络（Convolutional Neural Networks, CNN）是计算机视觉技术最经典的模型结构。本教程主要介绍卷积神经网络的常用模块，包括：卷积、池化、激活函数、批归一化、丢弃法等。

图像分类：介绍图像分类算法的经典模型结构，包括：LeNet、AlexNet、VGG、GoogLeNet、ResNet，并通过眼疾筛查的案例展示算法的应用。
目标检测：介绍目标检测YOLOv3算法，并通过林业病虫害检测案例展示YOLOv3算法的应用。

计算机视觉的发展历程

计算机视觉的发展历程要从生物视觉讲起。对于生物视觉的起源，目前学术界尚没有形成定论。有研究者认为生物视觉产生于距今约5亿年前寒武纪。寒武纪生物大爆发的原因一直是个未解之谜，不过可以肯定的是在寒武纪动物具有了视觉能力，捕食者可以更容易地发现猎物，被捕食者也可以更早的发现天敌的位置。

视觉能力加剧了猎手和猎物之间的博弈，也催生出更加激烈的生存演化规则。视觉系统的形成有力地推动了食物链的演化，加速了生物进化过程，是生物发展史上重要的里程碑。经过几亿年的演化，目前人类的视觉系统已经具备非常高的复杂度和强大的功能，人脑中神经元数目达到了1000亿个，这些神经元通过网络互相连接，这样庞大的视觉神经网络使得我们可以很轻松的观察周围的世界，如图2 所示。

图2：人类视觉感知

对人类来说，识别猫和狗是件非常容易的事。但对计算机来说，即使是一个精通编程的高手，也很难轻松写出具有通用性的程序（比如：假设程序认为体型大的是狗，体型小的是猫，但由于拍摄角度不同，可能一张图片上猫占据的像素比狗还多）。那么，如何让计算机也能像人一样看懂周围的世界呢？研究者尝试着从不同的角度去解决这个问题，由此也发展出一系列的子任务，如图3 所示。

图3：计算机视觉子任务示意图

(a) Image Classification： 图像分类，用于识别图像中物体的类别（如：bottle、cup、cube）。
(b) Object Localization： 目标检测，用于检测图像中每个物体的类别，并准确标出它们的位置。
© Semantic Segmentation： 图像语义分割，用于标出图像中每个像素点所属的类别，属于同一类别的像素点用一个颜色标识。
(d) Instance Segmentation： 实例分割，值得注意的是，（b）中的目标检测任务只需要标注出物体位置，而（d）中的实例分割任务不仅要标注出物体位置，还需要标注出物体的外形轮廓。

在早期的图像分类任务中，通常是先人工提取图像特征，再用机器学习算法对这些特征进行分类，分类的结果强依赖于特征提取方法，往往只有经验丰富的研究者才能完成，如图4 所示。

图4：早期的图像分类任务

在这种背景下，基于神经网络的特征提取方法应运而生。Yann LeCun是最早将卷积神经网络应用到图像识别领域的，

其主要逻辑是使用卷积神经网络提取图像特征

并对图像所属类别进行预测

通过训练数据不断调整网络参数

最终形成一套能自动提取图像特征并对这些特征进行分类的网络，如图5 所示。

图5：早期的卷积神经网络处理图像任务示意

这一方法在手写数字识别任务上取得了极大的成功，但在接下来的时间里，却没有得到很好的发展。其主要原因一方面是数据集不完善，只能处理简单任务，在大尺寸的数据上容易发生过拟合；另一方面是硬件瓶颈，网络模型复杂时，计算速度会特别慢。

目前，随着互联网技术的不断进步，数据量呈现大规模的增长，越来越丰富的数据集不断涌现。另外，得益于硬件能力的提升，计算机的算力也越来越强大。不断有研究者将新的模型和算法应用到计算机视觉领域。由此催生了越来越丰富的模型结构和更加准确的精度，同时计算机视觉所处理的问题也越来越丰富，包括分类、检测、分割、场景描述、图像生成和风格变换等，甚至还不仅仅局限于2维图片，包括视频处理技术和3D视觉等。

卷积神经网络

卷积神经网络是目前计算机视觉中使用最普遍的模型结构，包括：

卷积（Convolution）
池化（Pooling）
ReLU激活函数
批归一化（Batch Normalization）
丢弃法（Dropout）

我们介绍了手写数字识别任务，应用的是全连接网络进行特征提取，即将一张图片上的所有像素点展开成一个1维向量输入网络，存在如下两个问题：

1. 输入数据的空间信息被丢失。 空间上相邻的像素点往往具有相似的RGB值，RGB的各个通道之间的数据通常密切相关，但是转化成1维向量时，这些信息被丢失。同时，图像数据的形状信息中，可能隐藏着某种本质的模式，但是转变成1维向量输入全连接神经网络时，这些模式也会被忽略。

2. 模型参数过多，容易发生过拟合。 在手写数字识别案例中，每个像素点都要跟所有输出的神经元相连接。当图片尺寸变大时，输入神经元的个数会按图片尺寸的平方增大，导致模型参数过多，容易发生过拟合。

为了解决上述问题，我们引入卷积神经网络进行特征提取，既能提取到相邻像素点之间的特征模式，又能保证参数的个数不随图片尺寸变化。

图6 是一个典型的卷积神经网络结构，

多层卷积和池化层组合作用在输入图片上

在网络的最后通常会加入一系列全连接层

ReLU激活函数一般加在卷积或者全连接层的输出上

网络中通常还会加入Dropout来防止过拟合。

图6：卷积神经网络经典结构

说明：

在卷积神经网络中，计算范围是在像素点的空间邻域内进行的，卷积核参数的数目也远小于全连接层。卷积核本身与输入图片大小无关，它代表了对空间邻域内某种特征模式的提取。比如，有些卷积核提取物体边缘特征，有些卷积核提取物体拐角处的特征，图像上不同区域共享同一个卷积核。当输入图片大小不一样时，仍然可以使用同一个卷积核进行操作。

卷积（Convolution）

这一小节将为读者介绍卷积算法的原理和实现方案，并通过具体的案例展示如何使用卷积对图片进行操作，主要涵盖如下内容：

卷积计算
填充（padding）
步幅（stride）
感受野（Receptive Field）
多输入通道、多输出通道和批量操作
卷积算子应用举例

卷积计算

卷积是数学分析中的一种积分变换的方法

在图像处理中采用的是卷积的离散形式。这里需要说明的是，在卷积神经网络中，卷积层的实现方式实际上是数学中定义的互相关（cross-correlation）运算

与数学分析中的卷积定义有所不同，这里跟其他框架和卷积神经网络的教程保持一致，都使用互相关运算作为卷积的定义，具体的计算过程如图7 所示。

图7：卷积计算过程

说明：

卷积核（kernel）也被叫做滤波器（filter），假设卷积核的高和宽分别为kh和kw，则将称为kh×kw卷积，比如3×5卷积，就是指卷积核的高为3, 宽为5。

【思考】当卷积核大小为3×33 \times 33×3时，bbb和aaa之间的对应关系应该是怎样的？

图8：图形填充

感受野（Receptive Field）

输出特征图上每个点的数值，是由输入图片上大小为kh×kwk_h\times k_wkh×kw的区域的元素与卷积核每个元素相乘再相加得到的，所以输入图像上kh×kwk_h\times k_wkh×kw区域内每个元素数值的改变，都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动，都会影响输出点的数值变化。比如3×33\times33×3卷积对应的感受野大小就是3×33\times33×3，如 图10 所示。

图10：感受野为3×3的卷积

而当通过两层3×33\times33×3的卷积之后，感受野的大小将会增加到5×55\times55×5，如 图11 所示。

步幅（stride）

图8 中卷积核每次滑动一个像素点，这是步幅为1的特殊情况。图9 是步幅为2的卷积过程，卷积核在图片上移动时，每次移动大小为2个像素点。

图9：步幅为2的卷积过程

当宽和高方向的步幅分别为shs_hsh和sws_wsw时，输出特征图尺寸的计算公式是：

Hout=H+2ph−khsh+1H_{out} = \frac{H + 2p_h - k_h}{s_h} + 1Hout=shH+2ph−kh+1

Wout=W+2pw−kwsw+1W_{out} = \frac{W + 2p_w - k_w}{s_w} + 1Wout=swW+2pw−kw+1

假设输入图片尺寸是H×W=100×100H\times W = 100 \times 100H×W=100×100，卷积核大小kh×kw=3×3k_h \times k_w = 3 \times 3kh×kw=3×3，填充ph=pw=1p_h = p_w = 1ph=pw=1，步幅为sh=sw=2s_h = s_w = 2sh=sw=2，则输出特征图的尺寸为：

Hout=100+2−32+1=50H_{out} = \frac{100 + 2 - 3}{2} + 1 = 50Hout=2100+2−3+1=50

Wout=100+2−32+1=50W_{out} = \frac{100 + 2 - 3}{2} + 1 = 50Wout=2100+2−3+1=50

感受野（Receptive Field）

输出特征图上每个点的数值，是由输入图片上大小为kh×kwk_h\times k_wkh×kw的区域的元素与卷积核每个元素相乘再相加得到的，所以输入图像上kh×kwk_h\times k_wkh×kw区域内每个元素数值的改变，都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动，都会影响输出点的数值变化。比如3×33\times33×3卷积对应的感受野大小就是3×33\times33×3，如 图10 所示。

图10：感受野为3×3的卷积

而当通过两层3×33\times33×3的卷积之后，感受野的大小将会增加到5×55\times55×5，如 图11 所示。

图11：感受野为5×5的卷积

因此，当增加卷积网络深度的同时，感受野将会增大，输出特征图中的一个像素点将会包含更多的图像语义信息。

多输入通道、多输出通道和批量操作

前面介绍的卷积计算过程比较简单，实际应用时，处理的问题要复杂的多。例如：对于彩色图片有RGB三个通道，需要处理多输入通道的场景。输出特征图往往也会具有多个通道，而且在神经网络的计算中常常是把一个批次的样本放在一起计算，所以卷积算子需要具有批量处理多输入和多输出通道数据的功能，下面将分别介绍这几种场景的操作方式。

图12：多输入通道计算过程

多输出通道场景

一般来说，卷积操作的输出特征图也会具有多个通道CoutC_{out}Cout，这时我们需要设计CoutC_{out}Cout个维度为Cin×kh×kwC_{in}\times{k_h}\times{k_w}Cin×kh×kw的卷积核，卷积核数组的维度是Cout×Cin×kh×kwC_{out}\times C_{in}\times{k_h}\times{k_w}Cout×Cin×kh×kw，如 图13 所示。

对任一输出通道cout∈[0,Cout)c_{out} \in [0, C_{out})cout∈[0,Cout)，分别使用上面描述的形状为Cin×kh×kwC_{in}\times{k_h}\times{k_w}Cin×kh×kw的卷积核对输入图片做卷积。
将这CoutC_{out}Cout个形状为Hout×WoutH_{out}\times{W_{out}}Hout×Wout的二维数组拼接在一起，形成维度为Cout×Hout×WoutC_{out}\times{H_{out}}\times{W_{out}}Cout×Hout×Wout的三维数组。

说明：

通常将卷积核的输出通道数叫做卷积核的个数。

图13：多输出通道计算过程

批量操作

在卷积神经网络的计算中，通常将多个样本放在一起形成一个mini-batch进行批量操作，即输入数据的维度是N×Cin×Hin×WinN\times{C_{in}}\times{H_{in}}\times{W_{in}}N×Cin×Hin×Win。由于会对每张图片使用同样的卷积核进行卷积操作，卷积核的维度与上面多输出通道的情况一样，仍然是Cout×Cin×kh×kwC_{out}\times C_{in}\times{k_h}\times{k_w}Cout×Cin×kh×kw，输出特征图的维度是N×Cout×Hout×WoutN\times{C_{out}}\times{H_{out}}\times{W_{out}}N×Cout×Hout×Wout，如 图14 所示。

图14：批量操作

卷积算子应用举例

下面介绍卷积算子在图片中应用的三个案例，并观察其计算结果。

案例1——简单的黑白边界检测

下面是使用Conv2D算子完成一个图像边界检测的任务。图像左边为光亮部分，右边为黑暗部分，需要检测出光亮跟黑暗的分界处。

设置宽度方向的卷积核为[1,0,−1][1, 0, -1][1,0,−1]，此卷积核会将宽度方向间隔为1的两个像素点的数值相减。当卷积核在图片上滑动时，如果它所覆盖的像素点位于亮度相同的区域，则左右间隔为1的两个像素点数值的差为0。只有当卷积核覆盖的像素点有的处于光亮区域，有的处在黑暗区域时，左右间隔为1的两个点像素值的差才不为0。将此卷积核作用到图片上，输出特征图上只有对应黑白分界线的地方像素值才不为0。具体代码如下所示，结果输出在下方的图案中。

import matplotlib.pyplot as plt
import numpy as np
import paddle
from paddle.nn import Conv2D
from paddle.nn.initializer import Assign
%matplotlib inline

# 创建初始化权重参数w
w = np.array([1, 0, -1], dtype='float32')
# 将权重参数调整成维度为[cout, cin, kh, kw]的四维张量
w = w.reshape([1, 1, 1, 3])
# 创建卷积算子，设置输出通道数，卷积核大小，和初始化权重参数
# kernel_size = [1, 3]表示kh = 1, kw=3
# 创建卷积算子的时候，通过参数属性weight_attr指定参数初始化方式
# 这里的初始化方式时，从numpy.ndarray初始化卷积参数
conv = Conv2D(in_channels=1, out_channels=1, kernel_size=[1, 3],
       weight_attr=paddle.ParamAttr(
          initializer=Assign(value=w)))

# 创建输入图片，图片左边的像素点取值为1，右边的像素点取值为0
img = np.ones([50,50], dtype='float32')
img[:, 30:] = 0.
# 将图片形状调整为[N, C, H, W]的形式
x = img.reshape([1,1,50,50])
# 将numpy.ndarray转化成paddle中的tensor
x = paddle.to_tensor(x)
# 使用卷积算子作用在输入图片上
y = conv(x)
# 将输出tensor转化为numpy.ndarray
out = y.numpy()
f = plt.subplot(121)
f.set_title('input image', fontsize=15)
plt.imshow(img, cmap='gray')
f = plt.subplot(122)
f.set_title('output featuremap', fontsize=15)
# 卷积算子Conv2D输出数据形状为[N, C, H, W]形式
# 此处N, C=1，输出数据形状为[1, 1, H, W]，是4维数组
# 但是画图函数plt.imshow画灰度图时，只接受2维数组
# 通过numpy.squeeze函数将大小为1的维度消除
plt.imshow(out.squeeze(), cmap='gray')
plt.show()

# 查看卷积层的权重参数名字和数值
print(conv.weight)
# 参看卷积层的偏置参数名字和数值
print(conv.bias)

案例2——图像中物体边缘检测

上面展示的是一个人为构造出来的简单图片，使用卷积网络检测图片明暗分界处的示例。对于真实的图片，也可以使用合适的卷积核(3*3卷积核的中间值是8，周围一圈的值是8个-1)对其进行操作，用来检测物体的外形轮廓，观察输出特征图跟原图之间的对应关系，如下代码所示：

import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
import paddle
from paddle.nn import Conv2D
from paddle.nn.initializer import Assign
img = Image.open('./work/images/section1/000000098520.jpg')

# 设置卷积核参数
w = np.array([[-1,-1,-1], [-1,8,-1], [-1,-1,-1]], dtype='float32')/8
w = w.reshape([1, 1, 3, 3])
# 由于输入通道数是3，将卷积核的形状从[1,1,3,3]调整为[1,3,3,3]
w = np.repeat(w, 3, axis=1)
# 创建卷积算子，输出通道数为1，卷积核大小为3x3，
# 并使用上面的设置好的数值作为卷积核权重的初始化参数
conv = Conv2D(in_channels=3, out_channels=1, kernel_size=[3, 3], 
            weight_attr=paddle.ParamAttr(
              initializer=Assign(value=w)))
    
# 将读入的图片转化为float32类型的numpy.ndarray
x = np.array(img).astype('float32')
# 图片读入成ndarry时，形状是[H, W, 3]，
# 将通道这一维度调整到最前面
x = np.transpose(x, (2,0,1))
# 将数据形状调整为[N, C, H, W]格式
x = x.reshape(1, 3, img.height, img.width)
x = paddle.to_tensor(x)
y = conv(x)
out = y.numpy()
plt.figure(figsize=(20, 10))
f = plt.subplot(121)
f.set_title('input image', fontsize=15)
plt.imshow(img)
f = plt.subplot(122)
f.set_title('output feature map', fontsize=15)
plt.imshow(out.squeeze(), cmap='gray')
plt.show()

84.7k Star！Excalidraw：开源的在线白板工具，具备手绘风格和实时协作功能蚝油菜花每日 AI 项目与应用实例人工智能开源画板实时协作
❤️如果你也关注大模型与AI的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的AI应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读Excalidraw是一款开源的在线白板工具，具备手绘风格和实时协作功能。支持多种绘图工具、便捷导出、离线可用及跨平台兼容性。适用于远程协作、头脑风暴、产品设计和技术绘图等多个场景。正文（附运行
蓝牙协议栈低功耗之安全管理协议层(SMP) 写代码的无赖的猴子 BLE低功耗蓝牙协议栈网络信息与通信物联网
逻辑链路控制和适配协议层L2CAPSMP层阶段一阶段二Legacyparing安全连接交换公匙鉴权阶段1鉴权阶段2阶段三LElegacypairing：LESecureConnections交叉密匙特性配对PDU类型Hello，我是无赖的猴子，一个蓝牙爱好者，分享蓝牙相关的知识，关注我，学习蓝牙：蓝牙文章链接直达：1.profile层（待更新）2.属性协议层(ATT)（待更新）3.安全管理协议层(
企业内网系统：从传统开发到智能赋能的进化之路飞算JavaAI开发助手科技人工智能大数据 java
在当今数字化浪潮中，企业内网系统作为支撑日常运营的核心基础设施，其开发效率与质量直接关系到企业的竞争力。传统开发模式下，程序员需要手动完成需求分析、架构设计、代码编写、测试调试等全流程工作，不仅耗时费力，还容易因人为疏忽导致质量隐患。而随着人工智能技术的突破性进展，以飞算JavaAI为代表的智能开发工具正在重塑企业内网系统的开发范式，为程序员提供从设计到落地的全链路智能支持。一、传统企业内网系统开
MCP协议采用客户端-服务器架构的深层逻辑与架构对比分析
一、架构选择的核心动因1.功能解耦与安全边界的强制性要求MCP采用客户端-服务器（C/S）架构的核心动因源于AI系统与真实世界交互的特殊性：权限分层控制：主机（Host）作为协调层，严格划分客户端（Client）与服务端（Server）的操作权限。例如医疗场景中，诊断模型（Client）仅能通过医院授权的主机访问脱敏病历服务器，无法直接接触原始数据。沙箱隔离需求：每个MCP服务器运行在独立容器中（
Docker 高级管理 -- 容器通信技术与数据持久化婷儿z docker 容器运维
目录第一节:容器通信技术一：Docker容器的网络模式1：Bridge模式2：Host模式3：Container模式4：None模式5：Overlay模式6：Macvlan模式7：自定义网络模式二：端口映射关键对比三：容器互联关键对比四：容器间通信实现案例1.网络创建选项2.容器通信实现步骤3.通信方式对比第二节：数据持久化技术一：Docker的数据管理1.数据卷核心概念2.数据卷核心作用3.数据
从0到1：SQL注入与XSS攻防实战——数据库安全加固全攻略小张在编程 sql xss 数据库
引言2023年某电商平台用户数据泄露事件中，黑客仅用一行username='OR'1'='1的登录输入，就拖走了百万用户信息；另一家社交网站更离谱，用户在评论区输入alert('xss')，竟让千万级用户的浏览器成了“提线木偶”。这些看似简单的攻击，为何能撕开企业安全防线？今天我们就来拆解SQL注入与XSS的“作案手法”，并给出一套可落地的数据库安全加固方案——毕竟，防住这两类攻击，能解决80%的
华为云服务器debain11.1 安装zerotier,并改成moon节点碎风影华为云服务器运维
看到华为云，46元一年2c2g的云服务器，果断入手。首先用它“安装zerotier,并改成moon节点”，据说可以提升两台机器之间的网速Debian11.1系统中安装ZeroTier的步骤首先，您需要更新您的系统以确保所有的包都是最新的。这可以通过运行以下命令来完成：aptupdate&&aptupgrade接下来，您需要下载ZeroTier的安装脚本。可以通过运行以下命令来实现：curl-sht
AI生成一个战斗PK应用
这两天在CSDN顶部栏里面看到inscode，点进去发现“InsCode是一个一站式的软件开发服务平台，从开发-部署-运维-运营，都可以在InsCode轻松完成。”，里面有个一句话生成应用的功能挺有意思。下面是我生成的应用，AI战斗PKAI战斗PK简单来说就是想起来之前B站还是哪里看到的奥特曼大战叶问，由此想到了这个应用，输入两个历史、电影或动漫中的角色名字，然后AI输出他们战斗的过程和结果。这是
内网环境部署Deepseek+Dify，构建企业私有化AI应用我是鲁阿姨
0.简介#公司为生产安全和保密，内部的服务器不可连接外部网络，为了可以在内网环境下部署，采用的方案为ollama(Docker)+Dify(DockerCompose)，方便内网环境下迁移和备份，下文将介绍部署的全部过程。1.镜像拉取#镜像拉取为准备工作，因服务器在内网环境，需要先在可以连接外网的电脑上拉取相关镜像或文件。由于公司笔记本的Windows系统屏蔽了MicrosoftStore，导致D
【CSS】文本超过行数显示“展开”、“收起” 扶我起来还能学_ css 前端
使用css样式控制文本超过行数显示“展开”、“收起”css代码如下：.container{width:800px;position:relative;padding-bottom:20px;}.content{overflow:hidden;line-height:1;/*最多展示几行就(n*line-height)em，*/height:3em;background:yellow;}.more{
AI时代产品经理高薪密码！0经验转岗，月入27K的秘诀都在这！
“211计算机本硕，有2段学校项目经验，校招面了大厂AI产品经理岗，群面和专业面的时候挂了，怎么快速突击，提升AI产品专业能力呢？”“7年UI，被裁跳槽准备找产品工作了，上一家基本是半设计半产品，怎么包装过往经验，实现转岗？”“3年开发，每天写代码有点厌倦，想转产品经理，从0-1设计一款产品更有成就感，怎么快速上手产品工作？”这是上半年来咨询的几类同学的烦恼，近期求职市场些微回暖，产品经理岗位需求
docker启动报错时时刻刻看着自己的心 docker 容器运维
[root@96-8-0-231~]#systemctlstatusdocker●docker.service-DockerApplicationContainerEngineLoaded:loaded(/etc/systemd/system/docker.service;enabled;vendorpreset:disabled)Active:failed(Result:exit-code)si
使用Gemini实现AI驱动UI自动化测试测试 AI自动化测试
安装依赖pipinstallbrowser-uselangchain-google-genaipydantic编写代码#coding=utf-8importasyncioimportosfrombrowser_use.agent.serviceimportAgentfromlangchain_google_genaiimportChatGoogleGenerativeAIfrompydantici
华为手机手机与计算机传输,如何将华为手机的视频传到华为的电脑上？手机与电脑数据互传操作步骤... 人人保华为手机手机与计算机传输
手机与电脑数据互传操作bai步骤如下：1、手机du通过原装USB数据线与电脑相连，待zhi电脑自行dao安装驱动，并确认驱动安装成功，如下图所示：注：如驱动未安装成功，可通过安装HiSuite软件进行辅助驱动安装或者通过选择端口模式中的帮助进行电脑驱动安装。(1)在手机端弹出的对话框选择“是，访问数据”(2)在手机下拉菜单中USB连接方式中选择设备文件管理(MTP)注：关于设备文件管理(MTP)和
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
自动化测试 | UI Automator 进阶指南 aihuanshang9340
UIAutomator相关介绍：跨应用的用户界面自动化测试包含在AndroidXTest(https://developer.android.com/training/testing)中支持的Android系统：>=Android4.3(APIlevel18)基于instrumentation，依赖于AndroidJUnitRunner测试运行器设置UIAutomator(SetupUIAutom
检索增强生成(RAG)技术演进：从论文到工业级应用 AGI大模型与大数据研究院 AI大模型应用开发实战 ai
检索增强生成(RAG)技术演进：从论文到工业级应用关键词：RAG、检索增强生成、大语言模型、知识检索、工业应用、技术演进、AI系统架构摘要：本文深入探讨检索增强生成(RAG)技术从学术研究到工业应用的完整演进历程。我们将从基础概念出发，逐步解析RAG的核心原理、架构设计、实现细节和优化策略，并通过实际案例展示如何构建高效可靠的工业级RAG系统。文章还将分析当前技术挑战和未来发展方向，为读者提供全面
手机FunASR识别SIM卡通话占用内存和运行性能分析
手机FunASR识别SIM卡通话占用内存和运行性能分析--本地AI电话机器人上一篇：手机无网离线使用FunASR识别SIM卡语音通话内容下一篇：手机通话语音离线ASR识别商用和优化方向一、前言书接上一文《阿里FunASR本地断网离线识别模型简析》，我们其实在2023年底的时候输出过一版基于离线FunASR的ASR转文字方案。当时为了减少模型文件的数量和大小，只引入了【vad_res】、【asr_o
最近AI领域大火的MCP到底是什么？
文章目录AI领域的MCP（ModelContextProtocol）入门详解1.MCP是什么？2.为什么需要MCP？3.MCP的架构与运作方式4.MCP的核心优势5.实际应用场景6.MCP与相关技术的区别7.MCP开发实战：如何编写一个MCPServer？核心步骤小白也能用的工具8.MCP与区块链的深度融合为什么需要区块链？具体结合方式9.MCP的潜在挑战技术难点现实问题10.未来展望与学习路径M
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
深入剖析开源AI阅读器项目Saga Reader基于大模型的文本转换与富文本渲染优化方案魑魅丶小鬼人工智能
引言AI阅读器作为一种新型的内容消费工具，正在改变人们获取和处理信息的方式。本文将介绍SagaReader项目中如何利用大型语言模型(LLM)进行网页内容抓取、智能优化和富文本渲染，特别是如何通过精心设计的提示词(prompt)引导LLM生成样式丰富的HTML内容，提升用户阅读体验。关于SagaReader基于Tauri开发的著名开源AI驱动的智库式阅读器（前端部分使用Web框架），能根据用户指定
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
Arduino学习-按键灯
哎，别笑，总比刷抖音强点吧1、效果2、代码constintbuttonPin=2;constintledPin=13;intbuttonState=0;voidsetup(){//putyoursetupcodehere,torunonce:pinMode(buttonPin,INPUT);pinMode(ledPin,OUTPUT);}voidloop(){//putyourmaincodehe
DolphinScheduler 3.2.0 Master启动核心源码解析
目录1.手动调度工作流触发原理2.MasterServer启动入口与整体流程3.MasterRPC服务启动3.1启动RPCServer3.2启动RPCClient4.插件加载机制5.注册中心客户端初始化与心跳维护6.核心调度引擎启动6.1恢复Command6.2事件循环6.3任务派发7.事件处理服务8.故障转移线程8.1MasterFailover8.2WorkerFailover9.Quartz
linux 定时任务小小小欣
crontab-e0*/1***/usr/bin/curlhttp://manage.baicmotorsales.com/Lists/clueData每一小时访问一次这个方法servicecrondrestart重启任务crontab-l查看定时任务tail-f/var/log/cron查看任务日志
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

计算机视觉-卷积神经网络

计算机视觉的发展历程

卷积神经网络

卷积（Convolution）

卷积计算

感受野（Receptive Field）

步幅（stride）

感受野（Receptive Field）

多输入通道、多输出通道和批量操作

卷积算子应用举例

你可能感兴趣的:(2023,AI,计算机视觉,cnn,人工智能)