阿里云开发者

计算机如何“看懂”图片？达摩院提出新的研究方法

简介： 本文的部分内容基于英文论文"Learning in the frequency domain"翻译而来，英文论文已经被计算机视觉顶级会议Computer Vision and Pattern Recognition (CVPR) 2020接收。该论文的公开链接为：https://arxiv.org/abs/2002.12416

近年来，基于深度神经网络的机器学习方法在计算机视觉上获得的巨大的成功。我们现在应用的主流的深度神经网络都基于对空间域信号的处理和分析，即图像或视频的RGB信号。我们知道，现有的图像视频分析系统由多个模块组成。例如，实时图像分析系统由图像获取(capture)，图像压缩(compression)，图像传输(transmission)，图像解压缩(decompression)，图像推理(inference)组成。而对于非实时的图像分析系统，这些保存在存储中的图像已经经过压缩，因此需要经过解压缩和图像推理的模块。以实时图像分析系统为例，这个系统整体的性能（包括延时，功耗，精度等）取决于其中每一个模块的性能。以往的瓶颈来自于图像推理引擎，因为其中包含了非常大规模的计算量。由于这些计算具有结构性和并行度的特征，近年来在GPU和人工智能专用芯片的帮助下，图像推理引擎的性能得到了极大的提升。

因此，图像压缩/解压缩在整个系统中的占比会越来越大。例如在Figure 1中，我们看到在一个GPU的系统中图像处理的时间占比已经大约为图像推理（inference）的两倍之多[1]。这篇文章介绍图像分析系统的基本组成，以及我们如何利用频域特征来进行图像推理，从而省略频域到空间域的转换，因为这个转换是图像压缩/解压缩中计算量最大的步骤。同时我们可以在频域选择重要的信息，进一步减少系统中模块之间的数据传输量。因为模块之间的数据带宽往往远小于模块内部的数据带宽，减小模块间的数据传输量便可以提升整个系统的性能。

Figure 1. Latency breakdown in a single inference

本文的主要贡献如下：

第一，我们提出了一种系统方法可以在基本不改变现有的卷积神经网络（如ResNet，MobileNet等）的前提下做基于频域的机器识别。

第二，由于基于频域的机器识别可以在不增加计算量的前提下，接受空间域尺寸更大的图片，因此提高了图像识别的精度。

第三，我们提出了一种系统方法来区分每个频域分量对于机器学习的重要性，并且发现仅有很少部分的频域分量实际上对机器学习有贡献。

第四，之前基于频域的机器学习只完成了单一物体的图像分类 (single object recognition)，我们首次将基于频域的机器学习扩展到了图像的物体检测(object detection)和语义/实例分割(instance segmentation)任务中，通常物体检测和语义/实例分割被定义为高级视觉(High level vision) 任务。

本文的概要如下：

第一部分我们介绍了一个传统图像分析系统的基本框架，并分析的这个系统中计算量的瓶颈位置。

第二部分我们介绍了在频域实现机器学习的系统方法，以及我们提出了一种基于Gumbel softmax开关的选择频率信息重要性的方法。

第三部分我们介绍了利用我们提出的方法在频率域做图像分类（image classification）和实例分割（instancesegmentation）的结果。

1. 图像传输/存储/分析系统的基本框架

Figure 2. A framework for image transmission and analysis

Figure 2描述了一个实时图像分析系统的框架。图像输入（In）通常是RGB的空间域信号，在编码端经过RGB-to-YCbCr的转化，离散余弦变换（DCT），量化（Quantization），以及熵编码（Entropy coding)，得到压缩后用来传输的信号。这个信号传输到解码端，经过对应的熵解码（Entropy decoding），反量化（dequantization），逆离散余弦变换（IDCT），YCbCr-to-RGB转化得到原图像的重建图像。这个基于RGB空间域的重建图像作为深度神经网络的输入，经过分析可以得到所需要的结果。以下我们简要介绍以上这些操作，并分析它们的计算复杂度。

1.1 YCbCr-RGB conversion

YCbCr（有时也称YUV）是一系列表示图像/视频的色彩空间（color space）。通常RGB color space中三个通道的信号强相关，同时很难说明其中哪一个通道的信号更重要。YCbCr信号是RGB信号的一个点对点的可逆线性变换，其中Y信号表示的是亮度（luma）信息，而Cb和Cr表示的是色彩（chroma）信息（seeFigure 3)。对于人类的视觉系统，亮度信息比色彩信息更重要，因此我们可以通过不同的压缩方法来达到最佳的压缩性能。例如对Cb和Cr通道进行降采样。由于YCbCr和RGB信号的转换是point-wise linear，所以所需的计算量相对较小。

Figure 3. Conversion from RGB to YCbCr

1.2 Discrete cosine transform(DCT) and inverse discrete cosine transform (IDCT)

离散余弦变换是一种二维的可逆线性变换，它将呈现出图像不同的频率信息。以一个8x8的图像为例，它的二维DCT信号矩阵包含了直流分量（通常是(0,0)号元素），低频信号分量，以及高频信号分量。从Figure 4中可以看到，直流分量衡量了这个信号整体的幅度，而两个方向上不同的分量分别衡量了这个二维信号在x方向和y方向上不同的震荡频率。由于DCT（以及IDCT）是矩阵变换，而通常的图像压缩标准使用的是8x8的DCT变换，所需的计算量占据的整个压缩系统中的大部分。

Figure 4. Coefficients in a discrete cosine transform

1.3 Quantization

量化模块将信号由浮点数floating-point转换为整型表示。它对DCT变换后的对应位置的信号进行point-wise的量化。量化模块所需的计算量因此也相对较小，和矩阵的尺寸成正比。由于人类视觉系统对低频信号比较敏感，因此量化矩阵的左上角数字相对比较小。Figure 5展示了一个量化矩阵的例子。由于量化的操作是不可逆的操作，因此量化模块是图像压缩传输系统中有损的操作。

Figure 5. A quantization table for JPEG

1.4 Entropy coding

传输所需的信号是一维信号，而我们经过量化的信号是二维信号，因此我们首先通过Zig-zag的方式将二维信号转换为一位信号(see Figure 6）。由于量化矩阵中高频信号的量化间隔较大，因此许多信号矩阵中对应高频，也就是对应一维信号中靠后位置的信号将被量化为0. 这个一维信号经过Run length coding [2]（see Figure 7）和Huffman coding [3]（在视频压缩中会有更复杂的Arithmetic coding [4] 以及Context-adaptive binaryarithmetic coding [5]）被压缩成为用来传输/存储的信号. Entropy coding基于很成熟的算法和加速结构，所需的计算量也较小，和图像矩阵的尺寸称正比。由于Zig-zag转换和Entropy coding都是可逆的，因此这个模块也是无损的。

Figure 6. A zig-zag serialization from 2D to 1D

Figure 7. An example of run-length coding

以上各个模块在解码端都可以用对应的逆模块(inverse module)来实现，同时这些逆模块的计算复杂度和编码端对应的模块基本一致。

通过以上的介绍我们可以看出，在整个图像分析系统中，除去最后的图像推理（inference）引擎，前期的压缩，传输，解压缩的瓶颈在于其中的DCT和IDCT模块，因为这两个变换是矩阵变换，而其他的操作基本都是point-wise的操作。我们知道矩阵变换的计算复杂度远大于点变换的计算复杂度，因此如果我们能够减少，甚至省略这两个模块，将会对图像分析系统的前半部分带来极大的性能提升。

2. 基于频域信息的机器学习

在解码端，传统的图像传输系统使用IDCT将频域信号转换为空间域信号的目的是为了让人类视觉系统服务的。然而，在机器学习任务中，我们可以思考是否需要做IDCT这个对计算量需求较大的操作。如果我们可以省略IDCT的模块，我们就可以减少解码端的延时和功耗(see Figure 8）。

Figure 8. A framework of image transmission and analysis directly from the frequency domain.

我们面临两个问题，第一，我们如何利用频域的信息来进行机器学习，即如何将重建出的DCT的信号接入合适的深度神经网络。第二，我们如何利用不同频域信号的重要性来节省从解码端到图像推理引擎所需的带宽（see Figure 9）

Figure 9. A framework of image transmission and analysis from selected frequency component to reduce memory bandwidth between decoder and AI engine.

2.1 如何利用频域的信息来进行机器学习

首先考虑亮度通道（Y channel）。假设我们使用图像压缩标准中默认的8x8作为块的尺寸（blocksize）。对于每一个块（block），我们会得到64个DCT的信号，对应了64个不同的频率分量。如果我们原始的图像的尺寸是W x H, 那么我们将会有W/8 x H/8 个DCT信号组成的块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8的特征图片（feature map），这样我们会产生8x8=64个feature map。同样的对于Cb和Cr通道，我们也可以各自产生64个feature map。总共产生了64x3=192个feature map，这个过程如Figure 10(a)所示。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。现在的问题是如何将这些feature map合理的输入到一个已有的DNN网络结构中，使得feature map的尺寸和已有DNN网络的尺寸吻合。

Figure 10 (a). The data pre-processing pipeline for learning in the frequency domain

为了便于理解，我们以ResNet-50作为基础的图像分类举例。ResNet-50通常接受的图片输入尺寸为224x224. 在经过一次convolutional layer (stride=2)和pooling之后，此时网络的feature map的尺寸为56x56，和我们产生的频率信号的feature map尺寸吻合。我们可以将192个56x56的频域feature map全部或者部分直接接在ResNet-50的第一个Residue Block之前，从而达到不改变ResNet-50的结构而实现从频域做机器识别的目的。如果我们从192个feature map中选取的64个，则和一个标准的ResNet-50在这一层的feature map个数相同，则网络结构和ResNet-50达到了完全一致。这个过程如Figure10(b)所示。值得注意的是，由于我们做了8x8的DCT变换，我们实际输入的图片大小为448x448，是标准ResNet-50输入（224x224）的两倍。正因为我们提高了输入图片在空间域的分辨率，我们在后续的实验中可以得到更好的识别精度。

Figure 10 (b). Connecting the pre-processed input features in the frequency domain to ResNet-50. The three input layers (the dashed gray blocks) in a vanilla ResNet-50 are removed to admit the 56×56×64 DCT inputs.

2.2. 频域信息重要性提取

图像压缩理论的基础是人眼对于不同色彩空间和频率分量有不同的敏感度，因此我们可以对Cb，Cr通道降采样，也可以对每个DCT信号中高频分量设置更大的量化区间。然而，我们对于这些频率分量对于机器学习的重要性并不了解。如果我们可以忽略掉其中不重要的feature map，就可以不用将这部分数据从图像解码模块传输到图像推理引擎中，从而节省这部分可能成为瓶颈的带宽。

我们现在面临的问题是如何在这192个feature map中做出选择。类比人类视觉系统，在这192个feature map中，我们能否猜想Y通道和低频分量对应的feature map似乎更重要？如果是这样的话，我们如何确定Y通道中应该选择多少个feature map，而CbCr通道有应当选择多少个feature map？在这一部分，我们提出了利用机器学习中添加gate的方法来学习每一个feature map的重要性。在训练中，不仅图像推理的DNN中的weights被训练出来，同时每一个feature map的重要性也被确定。

FIgure 11. A gating method to select important frequency components

Figure 11展示了利用gate来选择重要的feature map的方法。原始所有频率分量组成的feature map的尺寸为WxHxC，其中C代表了feature map的个数，正如我们前面介绍的那样，在实验中使用的是C=192. 每个feautre map通过average pooling将会生成一个1x1xC的特征向量，其中每个数值代表了对应feature map。这个特征向量通过一个fully connected layer生成一个1x1xCx2的特征向量对。每一对数字表示这个对应的feature map是否重要，如果index为0的数字比index为1的数字更大，那么这个feature map被认为不重要，整个feature map将会被忽略而不参与后续DNN的计算；反过来说，如果index为1的数字比index为0的数字更大，那么这个feature map被认为重要，将会参与后续DNN的计算。这个操作等效于使用了一个开关（gate）来控制每一个频率信息组成的feature map是否流通到后续的计算中。

具体而言，由于我们使用了argmax函数来选择更大的index进而表示feature map是否被选择参与计算，我们需要一种特殊的方法在训练中将gradient传播到这C个开关的控制网络中。这种方法名为Gumbel-softmax [7]。

由于频率分量对应的开关被选为通过的数量决定了输入DNN的数据带宽，我们把选择为通过的开关的比例作为loss function中的一项，另一项就是对应机器学习任务中原始的loss。通过最小化loss function来实现机器学习任务精度和输入DNN数据带宽的平衡。

现在我们拥有了选择重要的feature map的方式，我们有两种方案来减少从图像解码模块到图像推理引擎的数据带宽，这两种方式我们称之为动态（Dynamic）方式和静态（Static）方式。

所谓动态方式，就是每一个频率分量的选择开关由当前输入的图像决定，这种方法可以自适应每一次图像推理（inference）的不同输入。由于选择开关的网络十分简单，我们可以将其放在图像解码模块中。这样从图像解码模块到图像推理引擎之间只需要对被选择的频率分量对应的feature map进行数据传输，可以极大的减少这两个模块之间的带宽需求(see 3rdrow in Figure 12）。

所谓静态方式，就是我们通过训练（training）得到最重要的一些频率分量。在做图像推理（inference）的时候，我们事先就确定只用这些事先确定好的频率分量对应的featuremap，而不会根据不同的图像进行自适应选择。这种静态方式在inference的时候无需选择开关的网络。这种方式不仅可以节省图像解码模块到图像推理引擎的带宽，还可以在编码模块中忽略不重要的频率分量，进而减少图像编码的计算量，延时，以及网络传输的带宽（see 4th row in Figure 12）。值得一提的是，通常网络传输的带宽远小于机器内部组件之间的带宽。

Figure 12. Comparisons of image transmission and analysis system

3. 结果展示

为了演示基于频率分量的机器学习系统和方法，我们选取了两个有代表性的机器学习任务，即图像分类(image classification)和实例分割（instancesegmentation）。

3.1 Image Classification

图像分类的任务是对给定的图像进行类别的区分。我们使用ImageNet作为数据集，其中包括大约128万张训练图像和5万张测试图像，总共1000个类别。我们使用了ResNet-50 [8] 和MobilenetV2 [9]作为DNN的网络结构。MobilenetV2使用了depth-wise convolution的方式，极大的减少了深度神经网络的计算量和网络的参数量。因此MobilenetV2有很大的潜力作为移动端图像推理引擎。

经过我们的训练，我们得到了一张不同频率分量重要性的Heat map。Figure 13描述了对应192个频率分量的重要性程度。我们可以看出，和我们直觉一致的是，Y通道的重要性高于Cb和Cr通道，同时低频分量的重要性高于高频分量。利用我们提出的gated方法，我们可以通过一次训练就了解该如何分配带宽资源。以Figure 13为例，我们可以使用14个Y通道，5个Cb通道5个Cr通道，共计24个feature map来做图像分类的任务，而不用将最初的192个feature map的数据都从图像解码模块传输到图像推理引擎中。这样我们的传输带宽需求降低为原来的八分之一，而推理的精度（accuracy）反而从标准ResNet-50的75.78%提升至77.196% (see DCT-24 in Table 14 (a))。同样的，在MobileNetV2的实验中，我们通过选取最重要的24个频率分量，得到的识别精度从标准MobileNetV2的71.702%提升至72.364% (see DCT-24 in Table 14(b) ). 其它的结果，例如选取64，48，12，6个频率分量的精度也展现在Table14中。值得一提的是，根据Figure 13的展示，我们发现低频分量在识别中相对重要，因此我们也尝试了使用heuristic的方式，选取了一个上三角的区域。例如对于DCT-24，我们直觉选取的是Y channel的[0-13]，Cb和Cr channel的[0-4]编号的频率分量。这些频率分量和Figure 13中的heatmap略有不同，但是识别的精度几乎没有区别 (See DCT-64T, DCT-48T, and DCT-24T in Table 14(a) )。这说明我们并不需要对于每个不同的任务都尝试首先获得heatmap，然后严格的按照heatmap来选取频率分量。我们直观上可以选择低频分量（例如这些上三角得到区域），达到和严格按照heatmap选择相同的精度。

Figure 13. A heat map of different frequency components being used in image classification tasks (a) and instance segmentation tasks (b)

(a)

(b)

Table 14. Accuracy comparison for image classification from RGB and DCT domain using ResNet-50 (a) and MobileNetV2 (b)

3.2 Instance segmentation

实例分割(instance segmentation)结合了物体检测(object detection) 和语义分割(semanticsegmentation)的需求，它的任务是检测出图像中的每个物体对应的像素点，同时将每一个检测出的物体分类。如Figure 15所示，实例分割任务需要检测出物体（例如，人，足球）的boundingbox，还需要在这个bounding box中将属于该物体的像素标注出来。

Figure 15. An example of instance segmentation (from selected frequency domain)

我们使用了COCO的数据集，其中包含了约10万张训练图像和5千张测试图像。我们使用了Mask RCNN [10]作为深度神经网络结构。Mask RCNN首先会检测出物体的bounding box，然后在bounding box内部的每个像素做二分，确定其是否属于该物体。

Table 16展示了我们在DCT频域做物体识别和实例分割的精度对比。可以看到，从频域做这两个任务，我们可以提升大约0.8%的精度(37.3%到38.1% 以及 34.2%到35.0%)。

(a)

(b)

Table 16. Accuracy comparison from RGB and DCT domain on object detection (a) and instance segmentation (b)

以下是另外几个利用在频域选择重要的feature map做实例分割的visual demo。

4. 未完成的工作以及思考

4.1 Figure 12展示了Dynamic和Static两种选取频率分量feature map的方式，现阶段我们使用的是dynamic的方式，主要考虑的因素是static的方式需要对压缩编码端进行修改才能实现编码端的性能提升和信道带宽节省。这部分改变将会需要视频获取设备的改动，而这通常不是我们集团可以控制的部分。我们相信作为这个方向有很大的研究价值，它可以对图像编码标准进行优化。

4.2 现有的实验均基于图像的压缩传输系统。下一步我们的目标是对视频压缩系统做类似的尝试。由于视频压缩标准中包含了帧间运动预测/补偿和帧内预测，对应的频域信息也会有比较大的差别。

4.3 通过我们利用频域信息来做机器学习的研究，我们的思考是：机器学习的目标和人眼观测图像/视频的方式不同，什么样的信息才是对于机器学习更友好，更有用的信息呢？传统的机器学习算法的输入都是空间域的RGB图像，然而我们是否可以设计更适合机器学习的特征来过滤掉空间域冗余的信息，从而真正做到节省解码端到推理引擎间的数据带宽。

Acknowledgement

本文的工作基于实习生Kai Xu在阿里巴巴达摩院实习期间的研究以及和Prof. Fengbo Ren (Arizona State University)的合作。在这个工作中，我们十分感谢来自于计算技术实验室其他同学许多重要的建议和意见。

Reference
[1] Jussi Hanhirova, Teemu Kämäräinen, Sipi Seppälä, Matti Siekkinen, Vesa Hirvisalo, Antti Ylä-Jääski, Latency and throughput characterization of convolutionalneural networks for mobile computer vision, In Proceedings of the 9th ACM Multimedia Systems Conference,MMSys ’18, pages 204–215, New York, NY, USA, 2018. ACM.

[2] Robinson, A.H.; Cherry, C. (1967). "Results of a prototype television bandwidthcompression scheme". Proceedings of the IEEE. IEEE. 55 (3): 356–364. doi:10.1109/PROC.1967.5493

[3]Huffman, D. (1952). "A Method for the Construction ofMinimum-Redundancy Codes" (PDF). Proceedings of the IRE. 40 (9): 1098–1101. doi:10.1109/JRPROC.1952.273898.

[4]MacKay, David J.C. (September 2003). "Chapter6: Stream Codes". Information Theory, Inference, and LearningAlgorithms.Cambridge University Press. ISBN0-521-64298-1. Archived from the original (PDF/PostScript/DjVu/LaTeX)on 22 December 2007. Retrieved 30 December 2007.

[5]Marpe, D., Schwarz, H., and Wiegand, T., Context-Based Adaptive Binary ArithmeticCoding in the H.264/AVC Video Compression Standard, IEEE Trans. Circuits andSystems

[6]Lionel Gueguen, Alex Sergeev, Ben Kadlec, Rosanne Liu, and Jason Yosinski. Fasterneural networks straight from JPEG. In S. Bengio, H. Wallach, H.Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances inNeural Information Processing Systems 31, pages 3933–3944. Curran Associates,Inc., 2018

[7]E. Jang, S. Gu, and B. Poole. Categorical reparameterization withgumbel-softmax. arXiv preprint arXiv:1611.01144, 2016.

[8]K. He, X. Zhang, S. Ren, J.Sun, Deep Residual Learning for ImageRecognition, arXiv:1512.03385, 2015

[9]M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen. Mobilenetv2:Inverted residuals and linear bottlenecks. CVPR, 2018.

[10]K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask R-CNN. arXiv:1703.06870, 2017.

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs