thriving_fcl

Tensorflow实现卷积神经网络，用于人脸关键点识别

今年来人工智能的概念越来越火，AlphaGo以4：1击败李世石更是起到推波助澜的作用。作为一个开挖掘机的菜鸟，深深感到不学习一下deep learning早晚要被淘汰。

既然要开始学，当然是搭一个深度神经网络跑几个数据集感受一下作为入门最直观了。自己写代码实现的话debug的过程和运行效率都会很忧伤，我也不知道怎么调用GPU… 所以还是站在巨人的肩膀上，用现成的框架吧。粗略了解一下，现在比较知名的有caffe、mxnet、tensorflow等等。选哪个呢？对我来说选择的标准就两个，第一要容易安装(想尽快入门的迫切心情实在难以忍受一大堆的配置安装…)；第二文档要齐全(这应该是废话 - -)。这几个大名鼎鼎的框架文档都是比较齐全的，那就看最容易安装的。看了几个文档，tensorflow算是最容易安装的了。基本就是pip intall 给定的URL就可以了。安装方式的文档可以在tensorflow安装教程上查看。

tensorflow基本概念与用法

tensorflow直译过来就是张量流。去年google刚推出tensorflow的时候我就纳闷，为什么深度学习会牵扯到张量，以前学弹塑性力学的时候就是一大堆张量看的很烦…不过还好要理解tensorflow里的tensor完全不用理会那些。先来看一下官方文档的说明：

class tf.Tensor

Represents a value produced by an Operation.

A Tensor is a symbolic handle to one of the outputs of an Operation. It does not hold the values of that operation’s output, but instead provides a means of computing those values in a TensorFlow Session.

首先，Tensor代表了执行一个操作(运算)所产生的值。其次，一个Tensor实例并不会保存具体的值，而只是代表了产生这些值的运算方式。好像有些拗口，也就是说假如有一个加法操作add，令c = add(1,1)。那么c就是一个tensor实例了，代表了1+1的结果，但是它并没有存储2这个具体的值，它只知道它代表1+1这个运算。从这里也可以看出，tensorflow里的api都是惰性求值，等真正需要知道具体的值的时候，才会执行计算，其他时候都是在定义计算的过程。

Tensor可以代表从常数一直到N维数组的值。

Flow指的是，指的是tensorflow这套框架里的数据传递全部都是tensor，也就是运算的输入，输出都是tensor。

常用操作

这里只是简单介绍一下在后面定义卷积神经网络的时候会用到的东西。想要了解更详细的内容还得参考官网上的文档。

首先import tensorflow as tf，后面的tf就代表tensorflow啦。

常数

tf.constant 是一个Operation,用来产生常数,可以产生scalar与N-D array. a是一个tensor,代表了由constant这个Operation所产生的标量常数值的过程。 b就是代表了产生一个2*2的array的过程。

a = tf.constant(3)
b = tf.constant(3,shape=[2,2])

变量

变量代表了神经网络中的参数，在优化计算的过程中需要被改变。tf.Variable当然也是一个Operation，用来产生一个变量，构造函数需要传入一个Tensor对象，传入的这个Tensor对象就决定了这个变量的值的类型(float 或 int)与shape。

变量虽然与Tensor有不同的类型，但是在计算过程中是与Tensor一样可以作为输入输出的。(可以理解为Tensor的派生类，但是实际上可能并不是这样，我还没有看源码)

变量在使用前都必须初始化。

w = tf.Variable(b)

Operation

其实Operation不应该单独拿出来说，因为之前的tf.constant和tf.Variable都是Op，不过还是说一下常规的操作，比如tf.matmul执行矩阵计算，tf.conv2d用于卷积计算，Op的详细用法以及其他的Op可以参考api文档。

tf.matmul(m,n)
tf.conv2d(...)

TensorFlow的计算由不同的Operation组成，比如下图

定义了6*(3+5)这个计算过程。6、3、5其实也是Op，这在前面介绍过了。

卷积神经网络用于人脸关键点识别

写到这里终于要开始进入正题了，先从CNN做起吧。Tensorflow的tutorial里面有介绍用CNN(卷积神经网络)来识别手写数字，直接把那里的代码copy下来跑一遍也是可以的。但是那比较没有意思，kaggle上有一个人脸关键点识别的比赛，有数据集也比较有意思，就拿这个来练手了。

定义卷积神经网络

首先是定义网络结构，在这个例子里我用了3个卷积层，第一个卷积层用 3∗3 的卷积核，后面两个用 2∗2 的卷积核。每个卷积层后面都跟max_pool池化层，之后再跟3个全连接层（两个隐层一个输出层）。每个卷积层的feature_map分别用32、64、128。

产生权值的函数代码如下

#根据给定的shape定义并初始化卷积核的权值变量
    def weight_variable(shape):
        initial = tf.truncated_normal(shape, stddev=0.1)
        return tf.Variable(initial)

    #根据shape初始化bias变量
    def bias_variable(shape):
        initial = tf.constant(0.1, shape=shape)
        return tf.Variable(initial)

定义卷积运算的代码如下。对tf.nn.con2d()的参数还是要说明一下
1. x是输入的样本，在这里就是图像。x的shape=[batch, height, width, channels]。
- batch是输入样本的数量
- height, width是每张图像的高和宽
- channels是输入的通道，比如初始输入的图像是灰度图，那么channels=1，如果是rgb，那么channels=3。对于第二层卷积层，channels=32。
2. W表示卷积核的参数，shape的含义是[height,width,in_channels,out_channels]。
3. strides参数表示的是卷积核在输入x的各个维度下移动的步长。了解CNN的都知道，在宽和高方向stride的大小决定了卷积后图像的size。这里为什么有4个维度呢？因为strides对应的是输入x的维度，所以strides第一个参数表示在batch方向移动的步长，第四个参数表示在channels上移动的步长，这两个参数都设置为1就好。重点就是第二个，第三个参数的意义，也就是在height于width方向上的步长，这里也都设置为1。
4. padding参数用来控制图片的边距，’SAME’表示卷积后的图片与原图片大小相同，’VALID’的话卷积以后图像的高为 Heightout=Height原图−Height卷积核+1StrideHeight ，宽也同理。

def conv2d(x,W):
    return tf.nn.cov2d(x,W,strides=[1,1,1,1],padding='VALID')

接着是定义池化层的代码，这里用 2∗2 的max_pool。参数ksize定义pool窗口的大小，每个维度的意义与之前的strides相同，所以实际上我们设置第二个，第三个维度就可以了。

def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1], padding='SAME')

定义好产生权重、卷积、池化的函数以后就要开始组装这个卷积神经网络了。定义之前再定义一下输入样本x与对应的目标值y_。这里用了tf.placeholder表示此时的x与y_是指定shape的站位符，之后在定义网络结构的时候并不需要真的输入了具体的样本，只要在求值的时候feed进去就可以了。激活函数用relu，api也就是tf.nn.relu。
keep_prob是最后dropout的参数，dropout的目的是为了抗过拟合。

rmse是损失函数，因为这里的目的是为了检测人脸关键点的位置，是回归问题，所以用root-mean-square-error。并且最后的输出层不需要套softmax，直接输出y值就可以了。

这样就组装好了一个卷积神经网络。后续的步骤就是根据输入样本来train这些参数啦。

    x = tf.placeholder("float", shape=[None, 96, 96, 1])
    y_ = tf.placeholder("float", shape=[None, 30])
    keep_prob = tf.placeholder("float")

    def model():
        W_conv1 = weight_variable([3, 3, 1, 32])
        b_conv1 = bias_variable([32])

        h_conv1 = tf.nn.relu(conv2d(x, W_conv1) + b_conv1)
        h_pool1 = max_pool_2x2(h_conv1)

        W_conv2 = weight_variable([2, 2, 32, 64])
        b_conv2 = bias_variable([64])

        h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
        h_pool2 = max_pool_2x2(h_conv2)

        W_conv3 = weight_variable([2, 2, 64, 128])
        b_conv3 = bias_variable([128])

        h_conv3 = tf.nn.relu(conv2d(h_pool2, W_conv3) + b_conv3)
        h_pool3 = max_pool_2x2(h_conv3)

        W_fc1 = weight_variable([11 * 11 * 128, 500])
        b_fc1 = bias_variable([500])

        h_pool3_flat = tf.reshape(h_pool3, [-1, 11 * 11 * 128])
        h_fc1 = tf.nn.relu(tf.matmul(h_pool3_flat, W_fc1) + b_fc1)

        W_fc2 = weight_variable([500, 500])
        b_fc2 = bias_variable([500])

        h_fc2 = tf.nn.relu(tf.matmul(h_fc1, W_fc2) + b_fc2)
        h_fc2_drop = tf.nn.dropout(h_fc2, keep_prob)

        W_fc3 = weight_variable([500, 30])
        b_fc3 = bias_variable([30])

        y_conv = tf.matmul(h_fc2_drop, W_fc3) + b_fc3
        rmse = tf.sqrt(tf.reduce_mean(tf.square(y_ - y_conv)))
        return y_conv, rmse

训练卷积神经网络

读取训练数据

定义好卷积神经网络的结构之后，就要开始训练。训练首先是要读取训练样本。下面的代码用于读取样本。

    import pandas as pd
    import numpy as np

    TRAIN_FILE = 'training.csv'
    TEST_FILE = 'test.csv'
    SAVE_PATH = 'model'


    VALIDATION_SIZE = 100    #验证集大小
    EPOCHS = 100             #迭代次数
    BATCH_SIZE = 64          #每个batch大小，稍微大一点的batch会更稳定
    EARLY_STOP_PATIENCE = 10 #控制early stopping的参数


    def input_data(test=False):
        file_name = TEST_FILE if test else TRAIN_FILE
        df = pd.read_csv(file_name)
        cols = df.columns[:-1]

        #dropna()是丢弃有缺失数据的样本，这样最后7000多个样本只剩2140个可用的。
        df = df.dropna()    
        df['Image'] = df['Image'].apply(lambda img: np.fromstring(img, sep=' ') / 255.0)

        X = np.vstack(df['Image'])
        X = X.reshape((-1,96,96,1))

        if test:
            y = None
        else:
            y = df[cols].values / 96.0       #将y值缩放到[0,1]区间

        return X, y

    #最后生成提交结果的时候要用到
    keypoint_index = {
        'left_eye_center_x':0,
        'left_eye_center_y':1,
        'right_eye_center_x':2,
        'right_eye_center_y':3,
        'left_eye_inner_corner_x':4,
        'left_eye_inner_corner_y':5,
        'left_eye_outer_corner_x':6,
        'left_eye_outer_corner_y':7,
        'right_eye_inner_corner_x':8,
        'right_eye_inner_corner_y':9,
        'right_eye_outer_corner_x':10,
        'right_eye_outer_corner_y':11,
        'left_eyebrow_inner_end_x':12,
        'left_eyebrow_inner_end_y':13,
        'left_eyebrow_outer_end_x':14,
        'left_eyebrow_outer_end_y':15,
        'right_eyebrow_inner_end_x':16,
        'right_eyebrow_inner_end_y':17,
        'right_eyebrow_outer_end_x':18,
        'right_eyebrow_outer_end_y':19,
        'nose_tip_x':20,
        'nose_tip_y':21,
        'mouth_left_corner_x':22,
        'mouth_left_corner_y':23,
        'mouth_right_corner_x':24,
        'mouth_right_corner_y':25,
        'mouth_center_top_lip_x':26,
        'mouth_center_top_lip_y':27,
        'mouth_center_bottom_lip_x':28,
        'mouth_center_bottom_lip_y':29
    }

开始训练

执行训练的代码如下，save_model用于保存当前训练得到在验证集上loss最小的模型，方便以后直接拿来用。

tf.InteractiveSession()用来生成一个Session，(好像是废话…)。Session相当于一个引擎，TensorFlow框架要真正的进行计算，都要通过Session引擎来启动。

tf.train.AdamOptimizer是优化的算法，Adam的收敛速度会比较快,1e-3是learning rate,这里先简单的用固定的。minimize就是要最小化的目标，当然是最小化均方根误差了。

    def save_model(saver,sess,save_path):
        path = saver.save(sess, save_path)
        print 'model save in :{0}'.format(path)

    if __name__ == '__main__':
        sess = tf.InteractiveSession()
        y_conv, rmse = model()
        train_step = tf.train.AdamOptimizer(1e-3).minimize(rmse)

        #变量都要初始化 
        sess.run(tf.initialize_all_variables())
        X,y = input_data()
        X_valid, y_valid = X[:VALIDATION_SIZE], y[:VALIDATION_SIZE]
        X_train, y_train = X[VALIDATION_SIZE:], y[VALIDATION_SIZE:]

        best_validation_loss = 1000000.0
        current_epoch = 0
        TRAIN_SIZE = X_train.shape[0]
        train_index = range(TRAIN_SIZE)
        random.shuffle(train_index)
        X_train, y_train = X_train[train_index], y_train[train_index]

        saver = tf.train.Saver()

        print 'begin training..., train dataset size:{0}'.format(TRAIN_SIZE)
        for i in xrange(EPOCHS):
            random.shuffle(train_index)  #每个epoch都shuffle一下效果更好
            X_train, y_train = X_train[train_index], y_train[train_index]

            for j in xrange(0,TRAIN_SIZE,BATCH_SIZE):
                print 'epoch {0}, train {1} samples done...'.format(i,j)

                train_step.run(feed_dict={x:X_train[j:j+BATCH_SIZE], 
                    y_:y_train[j:j+BATCH_SIZE], keep_prob:0.5})

            #电脑太渣，用所有训练样本计算train_loss居然死机，只好注释了。
            #train_loss = rmse.eval(feed_dict={x:X_train, y_:y_train, keep_prob: 1.0})
            validation_loss = rmse.eval(feed_dict={x:X_valid, y_:y_valid, keep_prob: 1.0})

            print 'epoch {0} done! validation loss:{1}'.format(i, validation_loss*96.0)
            if validation_loss < best_validation_loss:
                best_validation_loss = validation_loss
                current_epoch = i
                save_model(saver,sess,SAVE_PATH)   #即时保存最好的结果
            elif (i - current_epoch) >= EARLY_STOP_PATIENCE:
                print 'early stopping'
                break

在测试集上预测

下面的代码用于预测test.csv里面的人脸关键点，最后的y值要乘以96，因为之前缩放到[0,1]区间了。

    X,y = input_data(test=True)
    y_pred = []

    TEST_SIZE = X.shape[0]
    for j in xrange(0,TEST_SIZE,BATCH_SIZE):
        y_batch = y_conv.eval(feed_dict={x:X[j:j+BATCH_SIZE], keep_prob:1.0})
        y_pred.extend(y_batch)

    print 'predict test image done!'

    output_file = open('submit.csv','w')
    output_file.write('RowId,Location\n')

    IdLookupTable = open('IdLookupTable.csv')
    IdLookupTable.readline()

    for line in IdLookupTable:
        RowId,ImageId,FeatureName = line.rstrip().split(',')
        image_index = int(ImageId) - 1
        feature_index = keypoint_index[FeatureName]
        feature_location = y_pred[image_index][feature_index] * 96
        output_file.write('{0},{1}\n'.format(RowId,feature_location))

    output_file.close()
    IdLookupTable.close()

结果

用这个结构的卷积神经网络训练出来的模型，在测试集上预测的结果提交以后的成绩是3.4144，在kaggle的leaderboard上是41名，初试CNN，感觉还可以了。这只是数据，还是找一些现实的照片来试试这个模型如何，所以我找了一张anglababy的，标识出来的关键点感觉还算靠谱。基于TensorFlow的卷积神经网络先写到这了，有什么遗漏的想起来再补充，之后对深度学习更了解了，再写写CNN的原理，bp的推导过程之类的。

基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习大模型开发大模型微调 deepseek deepspeed python 人工智能 pytorch
深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。其核心目标是提供高吞吐、低内存占用、低成本的分布式训练方案，让数千亿甚至万亿级参数模型的训练成为可能。本文将从DeepSpeed的核心原理、关键组件、代码示例及实现过程详解等方面做详细阐述，帮助读者更好地理解并使用Deep
一学就会的深度学习基础指令及操作步骤（6）迁移学习小圆圆666 深度学习迁移学习人工智能卷积神经网络
文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。优势：节省训练时间，提高模型性能，尤其在小数据场景下效果显著。核心是利用源域的知识来帮助目标域任务，比如在ImageNet上预训练的模型用于医疗影像分类。源域（SourceDomain）：已有知识的领域（如ImageNet图像库）。目标域（
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
深度学习与普通神经网络有何区别？是理不是里深度学习神经网络人工智能
深度学习与普通神经网络的主要区别体现在以下几个方面：一、结构复杂度普通神经网络：通常指浅层结构，层数较少，一般为2-3层，包括输入层、一个或多个隐藏层、输出层。深度学习：强调通过5层以上的深度架构逐级抽象数据特征，包含多层神经网络，层数可能达到几十层甚至上百层。例如，ResNet（2015）包含152个卷积层。二、特征学习方式普通神经网络：特征提取通常依赖人工设计，需要领域专家的经验。这意味着在处
AI 技术引入 RTK（实时动态定位）系统，可以实现智能化管理和自动化运行小赖同学啊人工智能低空经济人工智能自动化运维
将AI技术引入RTK（实时动态定位）系统，可以实现智能化管理和自动化运行，从而提高系统的精度、效率和可靠性。以下是AI技术在RTK系统中的应用实例：一、AI技术在RTK系统中的应用场景1.整周模糊度快速解算问题：RTK的核心是解算载波相位的整周模糊度，传统方法耗时较长。AI解决方案：使用深度学习模型（如卷积神经网络CNN）预测整周模糊度。通过历史数据训练模型，实现快速解算。实例：某无人机公司使用A
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
使用Activeloop Deep Lake构建深度学习数据仓库与向量存储 dgay_hua 深度学习人工智能 python
技术背景介绍随着深度学习技术的发展，数据的存储与管理成为了一个重要的问题。尤其是对于需要处理大量数据的应用，例如自然语言处理和图像识别，传统的数据存储方式已经无法满足需求。ActiveloopDeepLake是专为深度学习设计的数据仓库，可以作为向量存储使用，支持多模态数据的存储和处理，并且可以直接用于细调大型语言模型（LLMs）。此外，它还提供自动版本控制，无需依赖其他服务，兼容主要云服务提供商
大语言模型原理基础与前沿挑战与机遇 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿挑战与机遇1.背景介绍大语言模型（LargeLanguageModels,LLMs）是近年来人工智能领域的一个重要突破。它们通过深度学习技术，特别是基于变换器（Transformer）架构的模型，能够在自然语言处理（NLP）任务中表现出色。大语言模型的出现不仅推动了学术研究的发展，也在实际应用中展现了巨大的潜力。1.1大语言模型的起源大语言模型的起源可以追溯到早期的统计语言
DeepSeek源码解析（2）白鹭凡 deepseek ai
Tensor（张量）的介绍在计算机科学和机器学习领域，“张量”（Tensor）是一个数学概念，它被用来表示多维数组。在大模型（如深度学习模型）中，张量扮演着核心角色，具体来说：数据表示：张量用于表示输入数据、模型参数和中间计算结果。例如，在图像处理中，一张图片可以被表示为一个三维张量（高度、宽度、颜色通道数），而在自然语言处理中，一段文本可以被编码为一系列词向量组成的二维张量（句子长度、词向量维度
点云语义分割：PointNet++在S3DIS数据集上的训练完美代码 3d neo4j 点云
点云语义分割：PointNet++在S3DIS数据集上的训练点云语义分割是计算机视觉领域的一个重要任务，旨在将点云数据中的每个点分配给其对应的语义类别。PointNet++是一种流行的深度学习方法，可用于处理点云数据，并在各种任务中取得了良好的性能。在本文中，我们将探讨如何使用PointNet++模型在S3DIS数据集上进行训练，并提供相应的源代码。数据集介绍S3DIS数据集是一个常用的用于室内场
PointNet、PointNet++ 基于深度学习的3D点云分类和分割一颗小树x 人工智能感知算法自动驾驶深度学习机器学习 3D点云 PointNet
前言PointNet是直接对点云进行处理的，它对输入点云中的每一个点，学习其对应的空间编码，之后再利用所有点的特征得到一个全局的点云特征。Pointnet提取的全局特征能够很好地完成分类任务，但局部特征提取能力较差，这使得它很难对复杂场景进行分析。PointNet++核心是提出了多层次特征提取结构，有效提取局部特征提取，和全局特征。目录一、PointNet1.1PointNet思路流程1.2Poi
基于YOLOv5的烟雾检测系统：从数据集准备到UI界面实现深度学习&目标检测实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言烟雾是火灾发生的一个重要早期信号。烟雾检测能够在火灾初期及时识别并报警，为火灾的扑灭争取宝贵的时间。因此，烟雾检测的研究一直是计算机视觉领域中的一个热点问题。近年来，随着深度学习技术的发展，目标检测算法被广泛应用于烟雾检测，尤其是基于YOLOv5的目标检测模型，由于其较高的精度和较低的计算开销，已经成为许多实时检测系统的首选模型。在这篇博客中，我们将介绍如何使用YOLOv5模型进行烟雾检测
【深度学习】Adam（Adaptive Moment Estimation）优化算法辰尘_星启机器学习--深度学习深度学习算法人工智能 Adam pytorch python
概述Adam算法结合了动量法（Momentum）和RMSProp的思想，能够自适应调整每个参数的学习率。通过动态调整每个参数的学习率，在非平稳目标（如深度神经网络的损失函数）中表现优异目录基本原理和公式笼统说明：为什么Adam算法可以帮助模型找到更好的参数基本概念动量（Momentum）：跟踪梯度的指数衰减平均（一阶矩），加速收敛并减少震荡。自适应学习率：跟踪梯度平方的指数衰减平均（二阶矩），调整
ONNX GraphSurgeon详细介绍 Lntano__y 模型部署算法
ONNXGraphSurgeon(ONNX-GS)是一个用于操作和修改ONNX（OpenNeuralNetworkExchange）模型图的Python库。它允许开发者在ONNX模型的图结构中进行修改、优化、插入节点、删除节点以及其他图结构操作，是在深度学习推理部署过程中非常有用的工具。ONNXGraphSurgeon常用于TensorRT中，用来优化和调整ONNX模型，以便于模型可以高效地在GP
benchmark和baseline的联系与区别 Lntano__y 人工智能深度学习机器学习
在深度学习算法中，benchmark（基准）和baseline（基线）是两个常用的概念，用于评估算法的性能和进行比较。尽管它们有一些相似之处，但它们在定义和使用上有一些区别。Benchmark（基准）：基准是指作为参考标准的一组算法或数据集，通常是在特定任务或领域中广泛接受的准则。基准的目标是提供一个衡量算法性能的标准，以便其他算法可以与之进行比较。基准可以是一种算法、一个数据集或者是两者的结合。
第N4周：NLP中的文本嵌入 OreoCC 自然语言处理人工智能
本人往期文章可查阅：深度学习总结词嵌入是一种用于自然语言处理（NLP）的技术，用于将单词表示为数字，以便计算机可以处理它们。通俗的讲就是，一种把文本转为数值输入到计算机中的方法。之前文章中提到的将文本转换为字典序列、one-hot编码就是最早期的词嵌入方法。Embedding和EmbeddingBag则是PyTorch中的用来处理文本数据中词嵌入（wordembedding）的工具，它们将离散的词
深度学习项目十一：mmdetection训练自己的数据集小啊磊_Vv 深度学习和视觉项目实战目标跟踪人工智能计算机视觉 python 深度学习
mmdetection训练自己的数据集这里写目录标题mmdetection训练自己的数据集一：环境搭建二：数据集格式转换(yolo转coco格式)yolo数据集格式coco数据集格式yolo转coco数据集格式yolo转coco数据集格式的代码三：训练dataset数据文件配置configs1.在configs/faster_rcnn/faster-rcnn_r101_fpn_1x_coco.py
深度学习和机器学习的差异 The god of big data 教程深度学习机器学习人工智能
一、技术架构的本质差异传统机器学习（MachineLearning）建立在统计学和数学优化基础之上，其核心技术是通过人工设计的特征工程（FeatureEngineering）构建模型。以支持向量机（SVM）为例，算法通过核函数将数据映射到高维空间，但特征提取完全依赖工程师的领域知识。这种"人工特征+浅层模型"的结构在面对复杂非线性关系时容易遭遇性能瓶颈。深度学习（DeepLearning）作为机器
深度学习 PyTorch 中 18 种数据增强策略与实现 @Mr_LiuYang 计算机视觉基础数据增强深度学习 torchvision transforms
深度学习pytorch之简单方法自定义9类卷积即插即用数据增强通过对训练数据进行多种变换，增加数据的多样性，它帮助我们提高模型的鲁棒性，并减少过拟合的风险。PyTorch提供torchvision.transforms模块丰富的数据增强操作，我们可以通过组合多种策略来实现复杂的增强效果。本文将介绍18种常用的图像数据增强策略，并展示如何使用PyTorch中的torchvision.transfor
Win11及CUDA 12.1环境下PyTorch安装及避坑指南：深度学习开发者的福音郁云爽
Win11及CUDA12.1环境下PyTorch安装及避坑指南：深度学习开发者的福音【下载地址】Win11及CUDA12.1环境下PyTorch安装及避坑指南本资源文件旨在为在Windows11操作系统及CUDA12.1环境下安装PyTorch的用户提供详细的安装步骤及常见问题解决方案。无论你是初学者还是有经验的开发者，这份指南都将帮助你顺利完成PyTorch的安装，并避免常见的坑项目地址:htt
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。