Victor的草原

CNN & Tensorflow 入门——以Cifar-10为例

其实这是算分Project的内容，受到CS231n启发，我和晶晶打算做图像分类的机器学习项目。很多人向我推荐tensorflow训练数据，因为有模板，不用手推python公式。

首先参考tensorflow官方文档中文版。
下载tensorflow (Mac OS) 很简单，安装了anaconda大礼包后，直接输入

$ pip install https://storage.googleapis.com/tensorflow/mac/tensorflow-0.5.0-py2-none-any.whl

然后是入门级的学习笔记：tensorflow，张量+数据流，是基于graph的计算。
session是上下文。tf在生成graph后，选择必要的路径计算，而不是逐条语句执行，因而高效。
笔记1 笔记2

接着跟随官方文档的脚步，看MNIST入门。
（啊我没怎么看，只知道MNIST是手写字符识别…）

CNN到底是什么

在tensorflow的模板中，CNN的结构是这样的。
模型的预测流程由inference()构造，该函数会添加必要的操作步骤用于计算预测值的 logits，其对应的模型组织方式如下所示：

由conv卷积层，pool池化层，norm归一化，local全连接层，softmax输出层构成。

由于时间紧张，主要参考机器之心的知乎回答
以及神经网络的直观解释

brief history

Yann Lecun 是深度学习三大鼻祖之一，他在90年代初提出的LeNet-5成为NN的基础。

经典的网络结构：Lecun做的是字符识别。

这是现在的网络结构：图像分类。其实30年来差别不大。

CNN在2012年的翻身之作，标志着CNN进入computer vision，NIPS2012，深度学习三大鼻祖之一Hinton的论文《imagenet classification with deep CNN》中的网络结构（AlexNet）：

我已经存在本地了，经典之作必须阅读。

现在逐一解释：

pixel 像素

现在我已经明白，图像是RGB三通道的，就会是一个三维tensor，深度是3，存储red,green,blue分量的值[0,255]。
而为了存储方便，有时会采用灰度矩阵。RGB转灰度值的著名心理学公式：
Gray=R∗0.299+G∗0.587+B∗0.114

convolutional layer 卷积层

第一层往往是卷积层convolutional layer.

这是卷积层的卷积核——过滤器filter，比如它是一个5*5*3的tensor，和图像的相应5*5*3作卷积，不断遍历相邻的块，得到一个28*28*1的matrix。
过滤器是一个特征识别器。

做卷积如图所示，符合这一特征的块对应的结果会很大。

我们把这个结果称作激活图/特征图（activation map/），相当于图像的某个小块激活了某一特征。
各种filter的效果

不同的过滤器会得到不同的激活映射matrix，将其叠成tensor，就构成了28*28*n的卷积层（n个feature map）。
如这是两个filter特征提取的动画。

至于相邻的卷积层，是指后一层的卷积层的输入是前一层的输出。这样越深的卷积层的视野越开阔，能看到更大的图像部分，提取整体的特征。如第一层是判断曲线直线，第二层是鼻子嘴，第三层是脸手。

ReLU层 rectified linear units

在每个卷积层之后，通常会立即应用一个非线性层（或激活层）。其目的是给一个在卷积层中刚经过线性计算操作（只是数组元素依次（element wise）相乘与求和）的系统引入非线性特征。过去，人们用的是像双曲正切和 S 型函数这样的非线性方程，但研究者发现 ReLU 层效果好得多，因为神经网络能够在准确度不发生明显改变的情况下把训练速度提高很多（由于计算效率增加）。它同样能帮助减轻梯度消失的问题——由于梯度以指数方式在层中消失，导致网络较底层的训练速度非常慢。ReLU 层对输入内容的所有值都应用了函数 f(x) = max(0, x)。用基本术语来说，这一层把所有的负激活（negative activation）都变为零。这一层会增加模型乃至整个神经网络的非线性特征，而且不会影响卷积层的感受野。

修正线性单元层。
简单来说，卷积层都是tensor乘法，线性代数，难免会有局限性。在卷积层之后加入ReLU层，把特征图的负激活值抹去，引入非线性特征？

当然还有sigmoid tanh代替ReLu层。

pooling layer 池化层

在样例代码中，conv和relu合并，之后是pooling，又称为downsampling。
通常取maxpooling（or averagepooling），即选取conv+relu的特征图的局部最大值。

作用：缩小空间维度+防止过拟合

Local Response Normalization

局部响应归一化。LRN
这一层没介绍，但代码里有。
公式是：

将相邻feature maps取“局部归一”处理。好像没啥用…

三剑客conv+ReLu+pooling负责特征提取，full connected负责分类

full connected layer 全连接层

最后一层是全连接层，比较简单。输入是tensor，输出是每个类别的概率向量。方法有softmax计算概率。每个类别有自己的特征组合，全连接层就是比对不同特征组合的吻合度。相当于一个分类器。

how to train

这是cifar10_train.py 内容。
一个学习周期：前向传播（CNN），损失函数（计算loss），反向传播（梯度下降），参数更新。
这里参数就是卷积层的那么多过滤器吧。初识化过滤器是随机的。
我们在全连接层得到结果后，与真实的标签作loss function，通过梯度下降法，指定学习率，更新参数。

关于参数

普通的权值参数就是过滤器本身的值。
超参数也很多，有步幅stride（过滤器一次移动几格），零填充（在图像周围填上0，处理边界，使得输出也是32*32*3），当然还有过滤器尺寸。
学习率，损失函数的选取，那真是更大的超参数。
stride=2

zero padding=2

dropout layer

直接暴力丢弃一些激活结果的值，置为0.防止过拟合。

我们发现，训练和测试用的模型是同一个2333，当然dropout只在训练中使用。

Data Augmentation

正如我们下面cifar10_input.py中看到的，保持标签不变，改变图片的性质（子图，翻转，旋转，白化，亮度，对比度），扩大数据集，防止过拟合

训练过程梗概

完整的卷积网络的训练过程可以总结如下：

第一步：我们初始化所有的滤波器，使用随机值设置参数/权重

第二步：网络接收一张训练图像作为输入，通过前向传播过程（卷积、ReLU 和池化操作，以及全连接层的前向传播），找到各个类的输出概率
我们假设船这张图像的输出概率是 [0.2, 0.4, 0.1, 0.3]
因为对于第一张训练样本的权重是随机分配的，输出的概率也是随机的

第三步：在输出层计算总误差（计算 4 类的和）
Total Error = ∑ ½ (target probability – output probability) ²

第四步：使用反向传播算法，根据网络的权重计算误差的梯度，并使用梯度下降算法更新所有滤波器的值/权重以及参数的值，使输出误差最小化
权重的更新与它们对总误差的占比有关
当同样的图像再次作为输入，这时的输出概率可能会是 [0.1, 0.1, 0.7, 0.1]，这就与目标矢量 [0, 0, 1, 0] 更接近了
这表明网络已经通过调节权重/滤波器，可以正确对这张特定图像的分类，这样输出的误差就减小了
像滤波器数量、滤波器大小、网络结构等这样的参数，在第一步前都是固定的，在训练过程中保持不变——仅仅是滤波器矩阵的值和连接权重在更新

第五步：对训练数据中所有的图像重复步骤 1 ~ 4

当然conv,pool层的分配及数量由我们自己决定，几十层乃至上百层效果更好。

3d数字识别

tf-CNN

时隔两周，让我们直奔主题。Cifar CNN
目前在我可怜的Macbook Air上运行着，第一次体会到炼丹的时间之漫长…估计要两三个小时。正好我可以学习tf。

对CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题，其任务是对一组32x32RGB的图像进行分类，这些图像涵盖了10个类别：
飞机，汽车，鸟，猫，鹿，狗，青蛙，马，船以及卡车。

本教程的重点

CIFAR-10 教程演示了在TensorFlow上构建更大更复杂模型的几个种重要内容：

相关核心数学对象，如卷积、修正线性激活、最大池化以及局部响应归一化

训练过程中一些网络行为的可视化，这些行为包括输入图像、损失情况、网络行为的分布情况以及梯度

算法学习参数的移动平均值的计算函数，以及在评估阶段使用这些平均值提高预测性能

实现了一种机制，使得学习率随着时间的推移而递减

为输入数据设计预存取队列，将磁盘延迟和高开销的图像预处理操作与模型分离开来处理

我们也提供了模型的多GUP版本，用以表明：

可以配置模型后使其在多个GPU上并行的训练

可以在多个GPU之间共享和更新变量值

模型架构

本教程中的模型是一个多层架构，由卷积层和非线性层(nonlinearities)交替多次排列后构成。这些层最终通过全连通层对接到softmax分类器上。这一模型除了最顶部的几层外，基本跟Alex Krizhevsky提出的模型一致。

在一个GPU上经过几个小时的训练后，该模型达到了最高86%的精度。细节请查看下面的描述以及代码。模型中包含了1,068,298个学习参数，分类一副图像需要大概19.5M个乘加操作。

代码

cifar10_input.py 读取本地CIFAR-10的二进制文件格式的内容。
cifar10.py 建立CIFAR-10的模型。
cifar10_train.py 在CPU或GPU上训练CIFAR-10的模型。
cifar10_multi_gpu_train.py 在多GPU上训练CIFAR-10的模型。
cifar10_eval.py 评估CIFAR-10模型的预测性能。

以下参考详细的博文，tf，及CNN分析源码。
一个标准的机器学习程序，应该包括数据输入、定义模型本身、模型训练和模型性能测试四大部分，可以分成四个.py文件。

输入数据 cifar10_input.py

输入模型是通过 inputs() 和distorted_inputs()函数建立起来的，这2个函数会从CIFAR-10二进制文件中读取图片文件，由于每个图片的存储字节数是固定的，因此可以使用tf.FixedLengthRecordReader函数。
注意我们下载的是二进制文件（即图片的像素点矩阵），相当于32*32*3 bits.

从概念上来说，这部分主要是关于数据管道（data pipe）的构建，数据流向为“二进制文件->文件名队列->数据队列->读取出的data-batch”。

分析源码
IMAGE_SIZE = 24
原图像的尺度为32*32,但根据常识，信息部分通常位于图像的中央，这里定义了以中心裁剪后图像的尺寸.

% Global constants describing the CIFAR-10 data set.
NUM_CLASSES = 10
NUM_EXAMPLES_PER_EPOCH_FOR_TRAIN = 50000
NUM_EXAMPLES_PER_EPOCH_FOR_EVAL = 10000

深度学习中batch_size指一次迭代的数据量，epoch指全体数据量。global constants
train和eval分别是训练和评价部分。

第一个函数负责格式转换->tensor.
def read_cifar10(filename_queue):

class CIFAR10Record(object):
    pass
  result = CIFAR10Record()
  # 建立一个空对象？
  label_bytes = 1  
  result.height = 32
  result.width = 32
  result.depth = 3
  image_bytes = result.height * result.width * result.depth
  record_bytes = label_bytes + image_bytes
  # 每个图片的数据大小是确定的，image+label，label在像素点之前。

  # Read a record, getting filenames from the filename_queue. 
  # 每次从reader里读入固定大小的数据(key,value)，注意是文件名队列，FIFO，读完就指向下一个文件。
  reader = tf.FixedLengthRecordReader(record_bytes=record_bytes)
  result.key, value = reader.read(filename_queue)

  # Convert from a string to a vector of uint8 that is record_bytes long.
  record_bytes = tf.decode_raw(value, tf.uint8)

  # The first bytes represent the label, which we convert from uint8->int32. 读取label
  result.label = tf.cast(
      tf.slice(record_bytes, [0], [label_bytes]), tf.int32)

  # The remaining bytes after the label represent the image, which we reshape
  # from [depth * height * width] to [depth, height, width]. 原本是一维向量，转换为三维tensor
  depth_major = tf.reshape(tf.slice(record_bytes, [label_bytes], [image_bytes]),
                           [result.depth, result.height, result.width])
  # Convert from [depth, height, width] to [height, width, depth].
  result.uint8image = tf.transpose(depth_major, [1, 2, 0])

  return result

以上是将二进制文件流的一维字符串转换为一个个[height,width,depth]的tensor。

def _generate_image_and_label_batch(image, label, min_queue_examples,batch_size):
#Construct a queued batch of images and labels.

第二个函数是随机生成一个tensor队列给每一个batch（注意我们不一定是顺序读）

第三个函数def distorted_inputs(data_dir, batch_size): 使图像变形！为了扩大数据量，防止过拟合。

# Randomly crop a [height, width] section of the image. 随机裁剪一个子图
  distorted_image = tf.image.random_crop(reshaped_image, [height, width])

  # Randomly flip the image horizontally.随机左右翻转
  distorted_image = tf.image.random_flip_left_right(distorted_image)

  # 随机调整亮度
  distorted_image = tf.image.random_brightness(distorted_image,                                      max_delta=63)
  # 随机调整对比度                                        
  distorted_image = tf.image.random_contrast(distorted_image,                                       lower=0.2, upper=1.8)
  # 白化处理
  float_image = tf.image.per_image_whitening(distorted_image)

多说一句白化处理：目的是降低输入图像的冗余性，尽量去除输入特征间的相关性。因为相邻像素往往特征一致，我们不希望冗余。
这个函数开了我的眼界。一张图片在我们的模型中是好几张图片，对称子图翻转亮度对比度白化，无所不用，使图片更普适。

Cifar10.py

build the network.
import cifar10_input 注意python直接import程序名进行调用，很方便
batch_size=128；好像是为了cache，2的幂。

# Constants describing the training process.
MOVING_AVERAGE_DECAY = 0.9999     # The decay to use for the moving average.
NUM_EPOCHS_PER_DECAY = 350.0      # Epochs after which learning rate decays. 
LEARNING_RATE_DECAY_FACTOR = 0.1  # Learning rate decay factor.
INITIAL_LEARNING_RATE = 0.1       # Initial learning rate.

学习率即步长会随着batch的增多而衰减，我们规定了衰减因子。

重量级函数 inference 规定了网络结构：conv1-pool1-norm1-conv2-norm2-pool2-local3-local4-softmax

还是逐个解释吧

首先是`conv`函数

 with tf.variable_scope('conv1') as scope:
     # 建立64个5*5*3大小的卷积核（过滤器），即产生64个feature maps
    kernel = _variable_with_weight_decay('weights', shape=[5, 5, 3, 64],stddev=1e-4, wd=0.0)
    # 计算卷积，stride=1, padding=same?
    conv = tf.nn.conv2d(images, kernel, [1, 1, 1, 1], padding='SAME')
    biases = _variable_on_cpu('biases', [64], tf.constant_initializer(0.0))
    bias = tf.nn.bias_add(conv, biases)
    # 配上ReLu层，抹掉负值
    conv1 = tf.nn.relu(bias, name=scope.name)
    _activation_summary(conv1)

接着是`pooling`

pool1 = tf.nn.max_pool(conv1, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1],padding='SAME', name='pool1')

得到的conv1，进行最大池化，3*3卷积核（注意pooling针对feature map平面），步长2*2?

然后是LRN局部归一化`norm`

norm1 = tf.nn.lrn(pool1, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75,name='norm1')

公式见上文分析部分

最后的full connected layer

with tf.variable_scope('local3') as scope:
    # Move everything into depth so we can perform a single matrix multiply.
    dim = 1
    for d in pool2.get_shape()[1:].as_list():
      dim *= d
    reshape = tf.reshape(pool2, [FLAGS.batch_size, dim])

    weights = _variable_with_weight_decay('weights', shape=[dim, 384],stddev=0.04, wd=0.004)
    biases = _variable_on_cpu('biases', [384], tf.constant_initializer(0.1))
    # 关键是个矩阵乘法: W*X+B 得到一维向量：分类的概率 W的参数是最多的
    **local3 = tf.nn.relu(tf.matmul(reshape, weights) + biases, name=scope.name)**
    _activation_summary(local3)

之后说是softmax，但我感觉还是fc。

计算`loss function`

def loss(logits, labels):
# label变换成dense_labels
# 重点是cross_entropy
cross_entropy = tf.nn.softmax_cross_entropy_with_logits(
      logits, dense_labels, name='cross_entropy_per_example')
  cross_entropy_mean = tf.reduce_mean(cross_entropy, name='cross_entropy')
  tf.add_to_collection('losses', cross_entropy_mean)
  return tf.add_n(tf.get_collection('losses'), name='total_loss')

核心是tf.nn.sparse_softmax_cross_entropy_with_logits 参考
先做softmax

再做cross entropy

y′i=1 当且仅当i对应的是真实的标签， yi 是我们预测的概率
理论就省略了，引入log肯定有原因…

Cifar10_train.py

我们实际运行就是这个程序python cifar10_train.py
程序的主体是train 函数，调用了cifar10.py的train函数。以下是后者的描述：

def train(total_loss, global_step):
# 我选取了主体部分
# Decay the learning rate exponentially based on the number of steps.字面意思
  lr = tf.train.exponential_decay(INITIAL_LEARNING_RATE,
                                  global_step,
                                  decay_steps,
                                  LEARNING_RATE_DECAY_FACTOR,
                                  staircase=True)
  tf.summary.scalar('learning_rate', lr)

  # Generate moving averages of all losses and associated summaries. 一个batch的loss平均
  loss_averages_op = _add_loss_summaries(total_loss)

  # Compute gradients. 计算梯度！
  with tf.control_dependencies([loss_averages_op]):
    opt = tf.train.GradientDescentOptimizer(lr)
    grads = opt.compute_gradients(total_loss)

回到cifar10_train.py
tf.app.flags.DEFINE_integer('max_steps', 100,"""Number of batches to run.""")
开头规定了batch多少次，即迭代次数，官方是100000次。相当于256 epochs，每张图片被提取256次。注意我们可不止学一遍!

Accuracy:
cifar10_train.py achieves ~86% accuracy after 100K steps (256 epochs of
data) as judged by cifar10_eval.py

86% accuracy GPU 4-5h。我的CPU估计要一两天了。
我尝试了2万次（李老板的修改版），72%。
这是宏观的train函数，梳理了每一步的逻辑。

def train():
  """Train CIFAR-10 for a number of steps."""
  with tf.Graph().as_default():
    global_step = tf.Variable(0, trainable=False)

    # Get images and labels for CIFAR-10. 使用data augmentation技术
    images, labels = cifar10.distorted_inputs()

    # Build a Graph that computes the logits predictions from the inference model. 建立CNN
    logits = cifar10.inference(images)

    # Calculate loss. 计算Loss
    loss = cifar10.loss(logits, labels)

    # Build a Graph that trains the model with one batch of examples and updates the model parameters. 
    train_op = cifar10.train(loss, global_step)

# 漫长的炼丹之路
for step in xrange(FLAGS.max_steps):
      start_time = time.time()
      # train 一次
      _, loss_value = sess.run([train_op, loss])
      duration = time.time() - start_time

      if step % 10 == 0:
        num_examples_per_step = FLAGS.batch_size
        examples_per_sec = num_examples_per_step / duration
        sec_per_batch = float(duration)
# 每10步输出
        format_str = ('%s: step %d, loss = %.2f (%.1f examples/sec; %.3f '
                      'sec/batch)')
        print (format_str % (datetime.now(), step, loss_value,
                             examples_per_sec, sec_per_batch))

cifar10_eval.py

比较简单，从略。

def evaluate():
  """Eval CIFAR-10 for a number of steps."""
  with tf.Graph().as_default():
    # Get images and labels for CIFAR-10.
    eval_data = FLAGS.eval_data == 'test'
    images, labels = cifar10.inputs(eval_data=eval_data)

    # Build a Graph that computes the logits predictions from the
    # inference model.
    logits = cifar10.inference(images)

    # Calculate predictions.
    top_k_op = tf.nn.in_top_k(logits, labels, 1)

    #调用eval_once函数

def eval_once(saver, summary_writer, top_k_op, summary_op):
     true_count = 0  # Counts the number of correct predictions.
      total_sample_count = num_iter * FLAGS.batch_size
      step = 0
      while step < num_iter and not coord.should_stop():
        predictions = sess.run([top_k_op])
        true_count += np.sum(predictions)
        step += 1

      # Compute precision @ 1.
      precision = true_count / total_sample_count
      print('%s: precision @ 1 = %.3f' % (datetime.now(), precision))

输出precision。

写的好长，以后再学习。

0基础学Python第八天 RUIOU_ python 机器学习 0基础开发语言
1.程序报错：程序在哪一行报错之后，后面的程序都不会被执行。（1）异常类型：IndexError——索引错误，ZeroDivisionError——除零错误FileNotFoundError——找不到文件错误，TypeError——类型错误等2.捕捉异常：格式——try，except语句：try:可能会产生报错的代码except你想捕捉错误的名字（异常类型）：错误发生后你想相应执行的操作excep
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
Chart GPT、DeepSeek 辅助学习H3C网络工程师考试（一） qq_58647543 H3C认证路由交换网络工程师 gpt 学习网络
计算机网络基本计算机网络基本概念是网络技术的基础，涵盖了计算机网络的定义、类型、发展历程及其各种重要概念。下面详细讲解这些内容：1.计算机网络的基本概念计算机网络（ComputerNetwork）指的是由多个计算机和其他硬件设备通过通信链路连接起来，通过交换信息资源和共享硬件、软件资源的系统。计算机网络的核心目标是实现计算机之间的数据传输、资源共享和远程访问。计算机网络的主要功能包括：数据通信：传
从零开始大模型开发与微调：编码器的实现 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：编码器的实现作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：自然语言处理，大模型，Transformer架构，编码器模块，序列到序列学习文章目录从零开始大模型开发与微调：编码器的实现1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系2.1编码器模块简介2.2编码器与Transfo
Vision Transformer (ViT)：将Transformer带入计算机视觉的革命性尝试（代码实现）阿正的梦工坊 Deep Learning DL Papers transformer 计算机视觉深度学习
VisionTransformer(ViT)：将Transformer带入计算机视觉的革命性尝试作为一名深度学习研究者，如果你对自然语言处理（NLP）领域的Transformer架构了如指掌，那么你一定不会对它在序列建模中的强大能力感到陌生。然而，2021年由GoogleResearch团队在ICLR上发表的论文《ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIM
【机械视觉】C#+VisionPro联合编程———【五、硬币检测小项目实现(C#+VisionPro联合编程和csv文件格式操作)】 _Csharp c#开发语言
【机械视觉】C#+VisionPro联合编程———【五、硬币检测小项目实现(C#+VisionPro联合编程和csv文件格式操作)】项目介绍总共有十二张检测的图片，当点击检测按钮时检测当前展示的图片并且将检测效果展示在表格中，当点击上一页或下一页时换检测图片，点击保存本地时通过csv文件格式将表格数据保存，当下一次运行时将数据读取出来并且展示在表格中。此项目通过异步进行优化，在加载时改变了以往卡顿
CMOS 图像传感器市场趋势和新兴应用沧海一升 CMOS 图像传感器成像 CIS sensor 图像传感器 image
2024年底，Yole举办了一场网络研讨会，有关CMOS图像传感器市场的最新趋势和新兴应用，本次网络研讨会由EdgeAI+Vision联盟联合举办，讨论了CIS供应商如何专注于增强传感器功能，以及如何将其产品组合转向更高潜在价值的市场。除此外还探讨了神经形态、光学超表面、短波红外和多光谱成像等新兴传感模式将如何在未来补充CMOS图像传感器，在某些情况下甚至取代CMOS图像传感器。可以在下面链接看到
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer 三谷秋水计算机视觉大模型智能体 transformer 深度学习计算机视觉语言模型人工智能机器学习
25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“DiffusionTransformerPolicy:ScalingDiffusionTransformerforGeneralistVision-Language-ActionLearning”。最近，在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型，已展示出利用少量域内数据泛化到
最近学习感悟总结格蕾丝重度依赖学习
图像识别技术与应用学习到了torchvision、imageFolder以及可视化工具（TensorBoard等）图像分类：将不同的图像，划分到不同的类别标签，实现最小的分类误差。图像分类的三层境界通用的多类别图像分类子类细粒度图像分类实例级图像分类图像分类评估指标--混淆矩阵（精确率；准确率；召回率；F1_Score；P-R曲线）模型基本概念-网络的深度（网络的深度；网络的宽度）图像分类中
【安装ollama】放飞自我的Coder 随手笔记 ollama
#安装1.参考官网安装2.使用modelscope镜像#使用命令行前，请确保已经通过pipinstallmodelscope安装ModelScope。modelscopedownload--model=modelscope/ollama-linux--local_dir./ollama-linux--revisionv0.5.7#运行ollama安装脚本（无需联网）cdollama-linuxsu
多模态大模型：技术原理与实战模型压缩实战 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战模型压缩实战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：多模态大模型，技术原理，模型压缩，实战，TensorFlow，PyTorch，模型压缩方法，应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型在图像识别、语音识别、自然语言处理等领域的应用越来越广泛。然而，多模态大模型通常具有庞大
第N2周：构建词典 OreoCC NLP
本人往期文章可查阅：深度学习总结我的环境：语言环境：Python3.11编译器：PyCharm深度学习环境：Pytorchtorch==2.0.0+cu118torchvision==0.18.1+cu118显卡：NVIDIAGeForceGTX1660本周任务：使用N1周的.txt文件构建词典，停用词请自定义1.导入数据fromtorchtext.vocabimportbuild_vocab_f
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
visionPro8.2r紧急许可重复利用方法吾与谁归in 视觉编辑器
VisionPro安装，个人学习使用VisionPro安装，紧急许可重复使用方法，目前仅是8.2r,在这备份一下。建议首次安装时进行备份紧急激活许可（1-4次激活都可以，第五次凉凉）。1.以管理员身份运行CognexSoftwareLicensingCenter软件2、配置连接类型一定要设置离线3，安装紧急许可这里第一个显示broken是因为第一次紧急许可过期了，第一个显示ok是新激活的紧急许可。
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
Git前言（版本控制） Starbright. Git git
1.Git目前世界上最先进的分布式版本控制系统。git官网：https://git-scm.com/2.版本控制2.1什么是版本控制版本控制(Revisioncontrol)是一种在开发的过程中用于管理我们对文件、目录或工程等内容修改历史，方便查看更改历史记录备份以便恢复以前的版本的软件工程技术。实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和文档统计工作量并行开发
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
3.10 项目总结不要不开心了 pyqt 深度学习机器学习数据挖掘人工智能
今天的项目是一个使用PyTorch框架构建和训练神经网络的实例，旨在实现手写数字识别。以下是项目的总结、内容分析以及优化建议：项目总结1.目标：使用神经网络对MNIST数据集中的手写数字进行分类。2.步骤：-数据加载和预处理。-构建神经网络模型。-定义损失函数和优化器。-训练模型并评估其性能。-可视化训练结果。内容分析1.数据加载和预处理：-使用`torchvision.datasets`加载MN
深度学习 PyTorch 中 18 种数据增强策略与实现 @Mr_LiuYang 计算机视觉基础数据增强深度学习 torchvision transforms
深度学习pytorch之简单方法自定义9类卷积即插即用数据增强通过对训练数据进行多种变换，增加数据的多样性，它帮助我们提高模型的鲁棒性，并减少过拟合的风险。PyTorch提供torchvision.transforms模块丰富的数据增强操作，我们可以通过组合多种策略来实现复杂的增强效果。本文将介绍18种常用的图像数据增强策略，并展示如何使用PyTorch中的torchvision.transfor
Vision Transformer 分类水果图片集 Python 代码（可训练自己数据集） Illusionna. transformer 深度学习人工智能
代码链接:https://github.com/Illusionna/ComputerVision/tree/main/EfficientTransformerArepositoryforViT.ContributetoIllusionna/TransformerdevelopmentbycreatinganaccountonGitHub.https://github.com/Illusionna
“面面俱到”！人脸活体检测让应用告别假面攻击 harmonyos
随着人脸识别技术在金融、医疗等多个领域的加速落地，网络安全、信息泄露等问题愈为突出，用户对应用稳定性和安全性的要求也更为严格。HarmonyOSSDK场景化视觉服务（VisionKit）提供人脸动作活体检测能力，增强对于非活体攻击的防御能力和活体通过率。在投资理财、在线支付等高风险金融服务场景中，通过检测用户的组合动作等来验证用户为真实活体操作，抵御攻击，提高安全性，降低业务风险，全方位保障用户体
Java开发高级工程师面试，etcd：一款比Redis更骚的分布式锁的实现方式 m0_60732427 程序员面试 java 后端
Watch机制支持Watch某个固定的key，也支持Watch一个范围（前缀机制）。当被Watch的key或范围发生变化，客户端将收到通知；在实现分布式锁时，如果抢锁失败，可通过Prefix机制返回的Key-Value列表获得Revision比自己小且相差最小的key（称为pre-key），对pre-key进行监听，因为只有它释放锁，自己才能获得锁，如果Watch到pre-key的DELETE事件
构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类 Jackie_AI transformer 分类深度学习
构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer，简称ViT）网络架构的部分代码。下面我将提供完整的VitNet类以及相关的辅助函数和训练流程示例代码。计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码
数字识别项目不要天天开心机器学习人工智能深度学习算法
集成算法·Bagging·随机森林构造树模型：由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样。集成算法·Stacking·堆叠：很暴力，拿来一堆直接上（各种分类器都来了）·可以堆叠各种各样的分类器（KNN,SVM,RF等等）·分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练实现神经网络实例利用PyTorch内置函数mnist下载数据。·利用torchvision对数据进
OpenManus：快速复刻Manus项目的技术路径与实施策略花生糖@ manus openmanus AI 开源人工智能
一、敏捷复刻的工程化基础1.1架构解耦设计OpenManus采用"微内核+插件"架构模式，其核心引擎仅保留智能体调度、消息路由等基础功能，将模型接入、任务处理等模块进行组件化封装。这种设计使得复刻项目时能够快速剥离非必要模块，例如：模块替换：通过修改config.toml的llm配置段，可在1小时内完成从GPT-4到Claude3的模型切换功能裁剪：删除vision模块相关代码及配置项即可实现15
Python 3.13 的改进 CS创新实验室 Python python 开发语言
Python3.13的改进Python3.13是一个充满新功能和改进的优秀版本，已经有大量文章详细介绍了发布说明。因此，本文不会讨论那些已经耳熟能详的内容，只就几个不鲜为人知的改进给予介绍。让调试变得更好尽管PDB的操作界面简陋，但它毕竟简单。之前，在PDB中会遇到这样的问题：try:1/0exceptZeroDivisionErrorase:breakpoint()那么，当读取e时会发生什么：-
电阻在电路中的不同作用及阻值选择详述 DeepGpt 器件选型硬件工程
一、电阻的常见作用限流（CurrentLimiting）描述:限制通过电路或元件的电流，保护器件（如LED）。特点:根据欧姆定律（R=V/I）计算阻值。阻值选择:取决于电流大小和电压降。分压（VoltageDivision）描述:与其他电阻串联，分担电压，提供特定电平。特点:常用于电位器或信号调整。阻值选择:根据分压比（Vout=Vin×R2/(R1+R2)）计算。上拉/下拉（Pull-up/Pu
教学使用python实现某某短剧下载实现流程阴-影 python 开发语言
#短剧爬取实现流程笔记#第一步：打开浏览器，搜索快手进入官网在官网里面找到小剧场，点击进去，然后右键检查或者F12打开开发者工具，刷新一下网页，点击网络面板，英文的就是（network）#第二部在里面找json数据，每一个都点击一下，看预览数据visionTubeEpisode是否有这个字典，在里面找到photo在里面找到photoUrl，然后浏览器地址栏请求一下网址，看是否是我们想要的#第三步#
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本