我真的太难了啊

平时学习随笔

一天

yolo之anchor
yolov1 只用了backbone，没有加其他的网络。
步长越大，得到的特征图就越小，特征图越小用的锚框就越大，为了更好检测大目标，反之相反。参照yolo3的anchor分配
FPN 多尺度特征融合（金字塔特征融合），就是yolo用的那个
FCN 全连接网络层
PAnet 参考文章
https://www.cnblogs.com/wzyuan/p/10029830.html
–cfg 是定义为可选参数；required=True，表示必须在命令行输入
遇到CUDA报错，cuda runtime error (801) : operation not supported at
试着把 number_work 调成 0（windows环境下）
如果 number_work != 0 可能会报错，例如

RuntimeError:
        An attempt has been made to start a new process before the
        current process has finished its bootstrapping phase.

        This probably means that you are not using fork to start your
        child processes and you have forgotten to use the proper idiom
        in the main module:

            if __name__ == '__main__':
                freeze_support()
                ...

        The "freeze_support()" line can be omitted if the program
        is not going to be frozen to produce an executable.

yacs 是yaml配置文件库
eval() 这个函数可就牛了，它将参数执行并将结果以字符串的形式返回，可以用来调用方法。
注意！神经网络里 eval() 代表测试模式的意思，分为 train() 和 eval() 俩模式
发现一件事，开着VPN，anaconda 打不开。。。
学到一个 getattr() 的用法
getattr() 函数用于返回一个对象属性值，这里的 config[name][‘type’] 是 model 的一个类，getattr() 返回这个类的同时，向这个类的 init() 里传入 *args, **config[name][‘args’] 将它初始化。

def get_instance(module, name, config, *args):
    # GET THE CORRESPONDING CLASS / FCT 
    return getattr(module, config[name]['type'])(*args, **config[name]['args'])

二天

分割的标签制作
用 labelme 打完标生成json，用 labelme 里面的脚本 json_to_dataset.py 生成 label 图片
labelme 可用 pip install labelme 安装

三天

返回数据时可以用 yield 写法

def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    random.shuffle(indices)  # 样本的读取顺序是随机的
    for i in range(0, num_examples, batch_size):
        j = torch.LongTensor(indices[i: min(i + batch_size, num_examples)]) # 最后一次可能不足一个batch
        yield  features.index_select(0, j), labels.index_select(0, j)

附上一位大佬的 yield 教程

四天

cifar10的数据读取

import cv2
import numpy as np
import os
 
def unpickle(file):
    import cPickle
    with open(file, 'rb') as f:
        dict = cPickle.load(f)
    return dict
 
 
def main(cifar10_data_dir):
    for i in range(1, 6):
        train_data_file = os.path.join(cifar10_data_dir, 'data_batch_' + str(i))
        print(train_data_file)
        data = unpickle(train_data_file)
        print('unpickle done')
        for j in range(10000):
            img = np.reshape(data['data'][j], (3, 32, 32))
            img = img.transpose(1, 2, 0)
            img_name = 'train/' + str(data['labels'][j]) + '_' + str(j + (i - 1)*10000) + '.jpg'
            cv2.imwrite(os.path.join(cifar10_data_dir, img_name), img)
 
    test_data_file = os.path.join(cifar10_data_dir, 'test_batch')
    data = unpickle(test_data_file)
    for i in range(10000):
        img = np.reshape(data['data'][i], (3, 32, 32))
        img = img.transpose(1, 2, 0)
        img_name = 'test/' + str(data['labels'][i]) + '_' + str(i) + '.jpg'
        cv2.imwrite(os.path.join(cifar10_data_dir, img_name), img)
 
 
if __name__ == "__main__":
    main('cifar-10-batches-py')

复制的别人的代码

zip() 用法技巧
可以将每一张图片和标签捆绑在一起迭代。

def show_fashion_mnist(images,labels):
    use_svg_display()
    _,figs = plt.subplots(1,len(images),figsize=(12,12))
    for f,img,lbl in zip(figs,images,labels):
        f.imshow(img.view((28,28)).numpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)
    plt.show()

五天

坐标转换
就是把旋转框 cx,cy,w,h,angle，转换成四点坐标x1,y1,x2,y2,x3,y3,x4,y4

xc,yc	中心点坐标
w,h,angle	宽高、角度
def rotatePoint(xc, yc, xp, yp, theta):
    xoff = xp - xc
    yoff = yp - yc
    cosTheta = math.cos(theta)
    sinTheta = math.sin(theta)
    pResx = cosTheta * xoff + sinTheta * yoff
    pResy = - sinTheta * xoff + cosTheta * yoff
    return str(int(xc + pResx)), str(int(yc + pResy))


x1, y1 = rotatePoint(x, y, x - w / 2, y - h / 2, -angle)
x2, y2 = rotatePoint(x, y, x + w / 2, y - h / 2, -angle)
x3, y3 = rotatePoint(x, y, x + w / 2, y + h / 2, -angle)
x4, y4 = rotatePoint(x, y, x - w / 2, y + h / 2, -angle)

想从两个数之间随机取几个数，可以这样

for i in random.sample(range(111,119),3):
	print(i)

六天

遇到了 NotImplementedError 这个东西是啥呢
简单来说，在python中，raise可以实现报出错误的功能，而报出错误的条件是程序员可以自己规定的。在面向对象编程中，如果想在父类中预留一个方法，使该方法在子类中实现。如果子类中没有对该方法进行重写就被调用，则报NotImplementError这个错误
demo如下

class One(object):
    
    def show(self):
        raise NotImplementedError

class Two(One):
    
    def show(self):
        print('hello world!')

number = Two()
number.show()

One 里的 show 函数，我想在子类中重写，所以在父类中，我声明一下就好了，如果你写子类时忘了重写了，让他报错 NotImplementedError 告诉你，你忘了在子类中实现啦！

七天

训练 segnet 时遇到了报错 Assertion `t 」= 0 && t 「 n_classes failed
是类别设置问题，每个像素对应的类别没有和类别标签对应上。查看 label 图片就知道了
训练 segnet 时遇到报错 shape ‘[4, 224, 224]’ is invalid for input of size 100352
这种报错可能是你的 batch_size 设置太大了

八天

填一个小坑
parser.add_argument('--num_workers',default=0,type=int)
这个参数 windows 环境不能用，只能设置 0 ，只有 Linux 环境可以用

第九天

torch.argmax的dim维度问题
自己看大神的博客吧，叫我也讲不明白，很抽象
torch.argmax中dim详解
x, id1 = F.max_pool2d(x, kernel_size=2, stride=2, return_indices=True)
说下里面的参数 return_indices 指的是，你做 MAX池化时选择的最大值在原图中的位置（index）
说说语义分割
他是对每个像素点进行分类，所以一般都是最后输出的是一个0，1的特征图，所以你可能会问，那多分类怎么办，多分类的话，他是每个类别都会输出一个0，1的特征图，也就是每一类都给你分一次。
torch 里的 shape 一般都是（batch，C，W，H），batch 是 batch_size，C是通道数，作为最后一层的输出层，他每个类别会输出一个特征图，所以有几个类别，通道数就是几。
python-opencv 的 erode（腐蚀）函数
opencv 更新的真快啊
4.5.4 版的 opencv 用 erode 之前，必须用 cv2.getStructuringElement() 构造他的 kernel，不然报错

九天

启动vscode 发生错误

删掉重装好了

十天

发现一个小东西
pytorch 保存模型时

torch.save(model, './model_para.pth')		#保存完整的模型结构
torch.save(model.state_dict(), './model_para.pth')		#只保存模型的参数

有啥用呢这玩意儿，在你可视化模型结构的时候，最好保存完整结构，不然可视化会很拉跨。
另外推荐一个可视化神器 netron

十一天

__call__ 函数说明
这个函数可以帮助你理解为什么有些类对象没有调用方法就可以执行某些其成员函数。
该方法的功能类似于在类中重载 () 运算符，使得类实例对象可以像调用普通函数那样，以“对象名()”的形式使用。
懂了吧，重载（）符号。
在 pytorch 中的__call__里面调用了 forward()函数，所以你在 model = VGG16() output = model(x)时，就会自动调用 forward()了
相关博客
梳理一下卷积过程的一些细节
一张图片是三通道的，那么对应的卷积核也是三通道的，一个卷积核是三通道，N 个卷积核就是 N*3 通道。一个卷积核对图片的三个通道做完卷积操作后，输出一个单通道的特征图，N 个卷积核做完卷积操作后输出 N 个特征图。
关于 torch.nn 和 torch.nn.functional 的用法问题
nn.Xxx和nn.functional.xxx的实际功能是相同的，运行效率也近乎相同。
至于喜欢哪一种方式，是个人口味问题，但PyTorch官方推荐：具有学习参数的（例如，conv2d, linear, batch_norm)采用nn.Xxx方式，没有学习参数的（例如，maxpool, loss func, activation func）等根据个人选择使用nn.functional.xxx或者nn.Xxx方式。但关于dropout，个人强烈推荐使用nn.Xxx方式，因为一般情况下只有训练阶段才进行dropout，在eval阶段都不会进行dropout。使用nn.Xxx方式定义dropout，在调用model.eval()之后，model中所有的dropout layer都关闭，但以nn.function.dropout方式定义dropout，在调用model.eval()之后并不能关闭dropout。

十二天

遇到报错
RuntimeError: DataLoader worker (pid(s) 6600, 6601) exited unexpectedly
原因： num_workers 设置问题
Dataset 中的 __getitem__ 函数
如果在类中定义了__getitem__()方法，那么他的实例对象（假设为P）就可以这样P[key]取值。当实例对象做P[key]运算时，就会调用类中的__getitem__()方法。
在 Dataset 中定义了__getitem__() 方法，之后用 Dataloader 得到了 train_iter，就可以直接遍历 train_iter（等于train_iter.next()）得到 img 和 label 信息。

十三天

今天编译 caffe 时遇到问题，先是缺少 protobuf 编译失败，然后开始安装 protobuf，
又遇到 aclocal-1.16: command not found
直接 autoreconf -ivf 这个命令解决，咱也不知道啥原理。

十四天

dim 参数
举个例子

X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((x,y),dim=0)
torch.cat((x,y),dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

dim = 0 是以行为目标进行操作，表现为，两个向量摞在一起。
dim = 1 是以列为目标进行操作，表现为，两个向量并排在一起。

十五天

一个python语法糖

y = torch.tensor([0,3])
y_hat = torch.tensor([[0.1,0.3,0.6,0.9],[0.3,0.2,0.5,0.1]])
y_hat[[0,1],y]

输出为

tensor([0.1000, 0.1000])

说下这里的逻辑

y_hat[[0,1],y] 是从 y_hat 里取值，[0,1] 你要取的第几个数，下标从0开始，这里表示要取两个数，
怎么取呢，根据 y 里面的值来取，把 y 里的值当作下标索引，所以 第一个数为，
y_hat 里的第一个数的第一个数（y_hat[0][0]），这样以此类推

十六天

关于 pytorch 中 apply() 的用法
这个函数一般用来对网络进行一些处理操作
net.apply(Function)
Function是封装的操作函数，apply 可以将 net(网络) 中的每一层放到 Function 中去遍历一遍，就等于每一层都处理一遍。
注：这里指的是 torch 的 apply，python 里也有 apply，好像不太一样。

十七天

pytorch 中用GPU训练
需要把数据和模型都放入GPU中
image = torch.Tensor(image).to(device) 数据
label = torch.Tensor([int(label)]).to(device) 标签
net = Net() 模型
net.cuda()
pytorch 中 maxpooling 的问题
关于 return_indices Sequential写法为True会报错，不知道为啥

 nn.Sequential 的写法
 nn.MaxPool2d(kernel_size=2,stride=2,return_indices=False)

nn.functional 的写法
output,id1 = F.max_pool2d(output,kernel_size=2,stride=2,return_indices=True)

把一个多维的张量拉平是一个在神经网络中经常要使用的操作，在pytorch中同样也有许多方法来进行拉平

output = torch.flatten(output,start_dim=1)    转 caffe 时支持这种写法
output = output.view(10,-1)
output = output.reshape(10,-1)

第十八天

给大家推荐一个pytorch转caffe的框架
推荐理由是，作者人很厉害，也很nice，并且他的框架一直更新维护到现在，其他框架两年前已经没人维护了。
地址在这，他是ubuntu下的，他有自己的caffe，需要编译

十九天

caffe训练遇到报错

F0216 14:08:23.464159  4731 blob.cpp:34] Check failed: shape[i] <= 0x7fffffff / count_ (1280 vs. 951) blob size exceeds INT_MAX
*** Check failure stack trace: ***
    @     0x7f173514b5cd  google::LogMessage::Fail()
    @     0x7f173514d433  google::LogMessage::SendToLog()
    @     0x7f173514b15b  google::LogMessage::Flush()
    @     0x7f173514de1e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f173580379b  caffe::Blob<>::Reshape()
    @     0x7f17358f12a5  caffe::BaseConvolutionLayer<>::Reshape()
    @     0x7f173583f992  caffe::CuDNNConvolutionLayer<>::Reshape()
    @     0x7f17357a2e61  caffe::Net<>::Init()
    @     0x7f17357a46e1  caffe::Net<>::Net()
    @     0x7f17357dec9a  caffe::Solver<>::InitTrainNet()
    @     0x7f17357e0007  caffe::Solver<>::Init()
    @     0x7f17357e03aa  caffe::Solver<>::Solver()
    @     0x7f1735783a53  caffe::Creator_SGDSolver<>()
    @           0x40afb9  train()
    @           0x4077c8  main
    @     0x7f17338e1840  __libc_start_main
    @           0x408099  _start
    @              (nil)  (unknown)
已放弃 (核心已转储)

是因为数据大小超出了caffe的最大范围,需要将数据resize一下

导入caffe时遇到报错

    from ._caffe import Net, SGDSolver, NesterovSolver, AdaGradSolver, \
ImportError: dynamic module does not define module export function (PyInit__caffe)

网上说因为是python版本问题

caffe训练遇到报错

I0216 15:01:55.187206  7881 upsample_layer.cpp:27] Params 'pad_out_{}_' are deprecated. Please declare upsample height and width useing the upsample_h, upsample_w parameters.
F0216 15:01:55.187214  7881 upsample_layer.cpp:59] Check failed: bottom[0]->height() == bottom[1]->height() (46 vs. 45)

原因是:
（1）如果输入图像的高和宽不是32的整数倍，需要指定upsample_h, upsample_w的大小，不然会出现维度不一致的错误，原因是upsample需要借助编码过程中pool层的位置信息，例如： pool前特征图大小为45， pool后为23，如果直接对23 unsample，其大小为46，而pool产生的位置图大小为45，造成upsample时大小不一致；

（2）指定upsample_h upsample_w的大小时，需要根据编码过程中对应pool特征图的大小，来设定upsample的大小，例如样例proto中输入图像大小为480*360，以360分析：360—pool1（180）—pool2 （90）—pool3 （45）—pool4（23）—pool5（12）， upsample5需要借助pool4位置信息，需要与pool4大小一致，因此upsamle_h=23 ~
原文链接

二十天

caffe prototxt里的 data 层的数据格式
有三种：
type: lmdb、hdf5 这俩是caffe的数据库，需要用脚本转换的。
type: ImageData 这个是 train.txt 形式，就是用txt保存数据的路径和标签（平时经常用的那种）

二十一天

pytorch 的自动调整学习率模块 torch.optim.lr_scheduler
torch.optim.lr_scheduler模块提供了一些根据epoch训练次数来调整学习率（learning rate）的方法。一般情况下我们会设置随着epoch的增大而逐渐减小学习率从而达到更好的训练效果。
用法：放在更新梯度之后

optimizer_1.step()
scheduler_1.step()

二十二天

编译 pycaffe 遇到报错

undefined symbol: _ZN5boost6python6detail11init_moduleER11PyModuleDefPFvvE

Google该错误，发现原因是boost_python的版本不匹配，默认python版本为3.5，而boost_python为2.7。
解决方法：
修改 makefile.config 里 72行的

PYTHON_LIBRARIES := boost_python3 python3.6m		#改成你自己的python版本

然后你可能会遇到 Cannot find -lboost_python3
请参考这俩链接链接一
链接二
然后重新编译caffe

二十三天

关于 manual_seed(SEED)
设置种子，让每次随机初始化的权重保持一致

torch.manual_seed(SEED)		CPU
torch.cuda.manual_seed(SEED)	GPU

二十四天

今天用ubuntu18.04编译GPU的caffe_segnet，遇到了gcc版本问题。
我用的cuda8.0，需要gcc4.8的
但是caffe，需要>=5.0的gcc
最后我找到一篇博客链接地址
这里面讲的是，在 /usr/local/cuda/include/host_config.h 中，有一行配置
是否支持gcc-5以上的开关，把注释掉就好了，很nice。

二十五天

今天安装Visual_Studio2022，运行项目时报错找不到exe文件，而且四百多个头文件不能导入。
找到了解决办法
链接地址
问题原因是：我为了安装双系统，分了一个硬盘出去，那个盘之前是装Visual_Studio的，所以注册表里的地址需要手动修改。

二十六天

最近碰到了caffe训练，不收敛的问题，找到一篇博客救了我。是一个batchnormal层的配置问题
链接地址

二十七天

Pytorch model.load_state_dict()加载模型遇到问题
‘model’ object has no attribute ‘copy’
是因为训练模型时没有用 model.state_dict() 来保存模型
保存和加载方式是对应的
链接地址

二十八天

今天找到一个vscode写C/C++的教程，很好用。
教程一
教程二
基本教程一就能解决

二十九天

还是vscode中写C++
在 tasks.json 这个配置文件中

"args": [
            "${file}",
            "-o",    // 指定输出文件名，不加该参数则默认输出a.exe，Linux下默认a.out
            "${fileDirname}/${fileBasenameNoExtension}.exe",
            "-g",    // 生成和调试有关的信息
            "-m64",  // 不知为何有时会生成16位程序而无法运行，此条可强制生成64位的
            "-Wall", // 开启额外警告
            "-static-libgcc",     // 静态链接libgcc，一般都会加上
            "-fexec-charset=UTF-8", // 生成的程序使用GBK编码，不加这条会导致Win下输出中文乱码；繁体系统改成BIG5
            "-D__USE_MINGW_ANSI_STDIO", // 用MinGW写C时留着，否则不需要，用于支持printf的%zd和%Lf等
            "-DNDEBUG",
        ], // 编译的命令，其实相当于VSC帮你在终端中输了这些东西

这个配置可以相当于gcc的编译参数
当你用 #ifndef NDEBUG 这个东西时，可以在这个配置里修改。

三十天

C++ 内联函数
内联函数一般作用于简单不复杂的函数中，可以减少运行时间。
内联函数一般定义在头文件中。
用 inline 来定义

三十一天

今天想训练下segnet，之前已经配置好caffe的训练环境，好久没用了，大概有一个月，今天训练时突然报错说cuda和cudnn相关的lib没有了，不知道为什么。

报错内容
./build/tools/caffe: error while loading shared libraries: libcudart.so.8.0: cannot open shared object file:  can not open shared object file: No such file or directory

解决链接

三十二天

今天在ubuntu上用微信，屏幕中间一直有个黑色的方块，在微信里发一条666的消息就好了，很奇怪。
解决ubuntu使用百度网盘闪退问题：
sudo apt-get install alien
因为缺少依赖，安装即可

三十三天

今天弄了下在caffe中用 Deconvolution 来替换 upsample ,先了解prototxt中的网络结构的配置含义。
参考链接

三十四天

找到一个关于 python ctypes 包的资料
链接地址

三十五天

找到一个 TensorRt的学习资料，trtpy第三方库，是一个开发好的运行环境
链接地址

三十六天

今天看到了几个语义分割的评价指标，分别是 G，C，Miou，BF
G：global accuracy，测量数据集中所有像素正确分类的百分比
C：class average accuracy，所有类的预测准确度的平均值
mIOU：每一个类的交并比的平均
BF：边界F1测量

三十七天

平时重装系统会发现 Anaconda 快捷方式没有了。
用这个吧

三十八天

遇到报错

OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.

#解决办法
import os
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'

平时跑代码时经常会遇到 __all__ 这个变量
说明链接

a.py
__all__ = ['UNet', 'NestedUNet']
b.py
import archs
ARCH_NAMES = archs.__all__

__all__是一个字符串list，用来定义模块中对于from XXX import *时要对外导出的符号，即要暴露的借口，但它只对import *起作用，对from XXX import XXX不起作用。
__all__ 里面的内容表示对外暴露的内容，其他内容及时你 import 了也找不到。

vars()
在 parse_args() 中常用

config = vars(parse_args())

vars 会将命令行参数解析成字典
vars() 函数返回对象的 __dic__ 属性。
__dict__ 属性是包含对象的可变属性的字典。
可以直接获得 parse_args() 字典中的值，也就是我们设置的参数

torch.stack()
可以将几张图片连起来以一张图显示，可用于对比原图，标签，结果。

torch.stack(img,label,result,dim = 0)

三十九天

找了几篇关于parser.add_argument参数的博客
资料
资料

四十天

在看UNet中，看到一个参数 deep_supervision 是深监督的意思，就是在网络的某个部位加入一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧，用来解决深度神经网络训练梯度消失和收敛速度过慢等问题。
链接资料
item()
链接资料
作用：取出单元素张量的元素值并返回该值，保持原元素类型不变。,即：原张量元素为整形，则返回整形，原张量元素为浮点型则返回浮点型。（就是取里面的值）
tqdm 的一些函数
资料链接
资料链接
pbar = tqdm(total=100)
pbar.set_postfix(‘loss’,‘iou’)
在进度条中可显示信息，如 loss，iou等
pbar.update(1)
进度条显示的百分比

四十一天

yaml.dump()
链接资料
作用：将内容写入你创建的 yaml 文件中
__dict__
资料链接

四十二天

今天尝试了pytorch.prune 的剪枝，但是模型并没有变小，网上查是说只是参数的计算变简单了，并没有减少。

if epoch % 2 == 0:
	name = [SegNet.encoder.conv1_1,SegNet.encoder.conv1_2,SegNet.encoder.conv2_1,SegNet.encoder.conv2_2,SegNet.encoder.conv3_1,SegNet.encoder.conv3_2,SegNet.encoder.conv3_3,
                    SegNet.encoder.conv4_1,SegNet.encoder.conv4_2,SegNet.encoder.conv4_3,SegNet.encoder.conv5_1,SegNet.encoder.conv5_2,SegNet.encoder.conv5_3,SegNet.conv6_1,
                    SegNet.conv6_2,SegNet.conv6_3,SegNet.conv7_1,SegNet.conv7_2,SegNet.conv7_3,SegNet.conv8_1,SegNet.conv8_2,SegNet.conv8_3,SegNet.conv9_1,SegNet.conv9_2,
                    SegNet.conv10_1,SegNet.conv10_2
           ]
    for i in name:
        model_ = i
        prune.ln_structured(i,'weight',amount=0.5,n=2,dim=0)
        prune.remove(i,'weight')

四十三天

from __future__ import print_function
链接资料

有时在代码开头会看到这样一行

from __future__ import print_function

是为了可以兼容不同版本的语言，例如 python2 像 python3 一样使用。

四十四天

资料链接

最近在做模型剪枝，发现这里需要一些解析模型结构和参数的操作，所以查了下相关资料，根据你模型设计不同，解析方式有所不同，个人认为，尽量少嵌套，这样便利起来很方便。

四十五天

今天突然需要在字典中切片，发现字典并没有切片，找到一个很nice 的方法，还是基础薄弱呀~
资料链接

四十六天

pytorch: MaxUnpool2d 与 Upsampling
Upsampling:上采样，被nn.functional.interpolate代替

      import torch
      import torch.nn as nn
      import numpy as np
      # pool of non-square window
      ## In the simplest case, the output value of the layer
      # with input size (N,C,H,W)(N, C, H, W)(N,C,H,W),
      # output (N,C,Hout,Wout)(N, C, H_{out}, W_{out})(N,C,Hout,Wout) and kernel_size (kH,kW)(kH, kW)(kH,kW) can be precisely described as:
      data = np.arange(64).reshape((8,8))
      A = torch.Tensor(data.reshape(1,1,8,8))
      print('A=',A)
      ## MAX POOL
      maxpool = nn.MaxPool2d((2, 2), stride=(2, 2),return_indices=True)
      B,indices = maxpool(A)
      print('B=',B)
      ## Upsample
      Upsample = nn.Upsample(scale_factor=2, mode='bilinear'
      ## interpolate
      x7 = F.interpolate(x6,scale_factor=2,mode='bilinear')

pytorch 加载模型、保存模型
链接资料
pytorch转onnx demo
链接资料
optimizer.step()和scheduler.step()的区别
optimizer 是梯度下降策略
scheduler 是学习率调整策略
optimizer.step()通常用在每个mini-batch之中，而scheduler.step()通常用在epoch里面,但是不绝对，可以根据具体的需求来做。只有用了optimizer.step()，模型才会更新，而scheduler.step()是对lr进行调整。

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum = 0.9)
scheduler = lr_scheduler.StepLR(optimizer, step_size = 100, gamma = 0.1)

四十天

数据处理时经常看到 [..., None] 这种东西。
找了个资料，讲的很不错链接资料
，是 numpy 的东西，简单来说是给数据增加了一个维度

四十一天

torch.backends.cudnn.benchmark的用法
总的来说可以让你的模型快一点。
资料链接

四十二天

这几天碰到一个很恶心的报错，现在还没有解决

C:\cb\pytorch_1000000000000\work\aten\src\ATen\native\cuda\NLLLoss2d.cu:95: block: [0,0,0], thread: [156,0,0] Assertion `t >= 
0 && t < n_classes` failed.
C:\cb\pytorch_1000000000000\work\aten\src\ATen\native\cuda\NLLLoss2d.cu:95: block: [0,0,0], thread: [157,0,0] Assertion `t >= 
0 && t < n_classes` failed.
C:\cb\pytorch_1000000000000\work\aten\src\ATen\native\cuda\NLLLoss2d.cu:95: block: [0,0,0], thread: [158,0,0] Assertion `t >= 
0 && t < n_classes` failed.
C:\cb\pytorch_1000000000000\work\aten\src\ATen\native\cuda\NLLLoss2d.cu:95: block: [0,0,0], thread: [159,0,0] Assertion `t >= 
0 && t < n_classes` failed.
Traceback (most recent call last):
  File "d:/code/Image_Segmentation-master/main.py", line 101, in <module>
    main(config)
  File "d:/code/Image_Segmentation-master/main.py", line 61, in main
    solver.train()
  File "d:\code\Image_Segmentation-master\solver.py", line 155, in train
    loss = self.criterion(SR,GT.long())
  File "E:\Anaconda3\envs\segnet\lib\site-packages\torch\nn\modules\module.py", line 1102, in _call_impl
    return forward_call(*input, **kwargs)
  File "E:\Anaconda3\envs\segnet\lib\site-packages\torch\nn\modules\loss.py", line 1150, in forward
    return F.cross_entropy(input, target, weight=self.weight,
  File "E:\Anaconda3\envs\segnet\lib\site-packages\torch\nn\functional.py", line 2846, in cross_entropy
    return torch._C._nn.cross_entropy_loss(input, target, weight, _Reduction.get_enum(reduction), ignore_index, label_smoothing)
RuntimeError: CUDA error: device-side assert triggered

相关资料先放这里
资料1
资料2
资料3
终于解决了，不太清楚咋解决的，反正有以下几点：
1.类别数量和最后一层输出的数量容易错
2.loss 函数这里，CrossEntropyLoss 的话需要有类别权重这个参数

报错 expected scalar type Long but found Float
出错原因：torch._C.nn.nll_loss(input, target)的target是LongTensor格式，也就是分类的标签要是LongTensor格式，不能是FloatTensor。修改的话data.long()就可以了
并且 CrossEntropyLoss 损失函数中是包含 nll_loss 的，所以原因是一样的。
资料链接
关于 CrossEntropyLoss
资料链接

四十三天

分割知识点：
分割网络最后输出的格式为（batch_size|，class_num,weights,wides）
这里的 class_num 一定注意，之前一直以为是图片的三通道，并不是一定为3.

四十四天

转换为ONNX后，可以用 onnx-simpifier 简化模型。
onnxruntime.capi.onnxruntime_pybind11_state.InvalidArgument: [ONNXRuntimeError] : 2 : INVALID_ARGUMENT : Invalid rank for input: input Got: 3 Expected: 4 Please fix either the inputs or the model.
这个报错，是因为你的输入shape不符合onnx model的输入shape。
如何解决：
1.使用unsqueeze()来改变shape
2.在导出 model 时使用 dynamic_axes 来使输入、输出维度变为动态。

四十五天

今天遇到一个奇葩问题，同一个onnx模型，在板子和pc上结果不一样。
作为尝试，发现 torch.nn.functional.interpolate 这个上采样插值里面有些参数可能会影响结果，比如里面的 align_corners 参数，插的方式不一样，不管咋说，先试试吧，可怜的我、
资料链接
发现一个小东西，在segnet的分割训练中，为了转 onnx，我将 Unmaxpool 层改成了 interpolate 层，在 interpolate 中的参数 align_corrners = True 时，效果会好很多，亲测！！！
昨晚又调了个参，我将segnet的maxpool2d的ceil_mode = True，并将输入大小增加到了416，训练了100个epoch，效果又提升了不少，请叫我调参侠。

四十六天

找到一篇讲 onnx 非常好的文章
真的非常好

四十七天

发现一个有意思的东西
pytorch save 模型时，可以将其从float32转为float16再保存，pytorch默认保存的是float32。
转换也很简单。

model = torch.load("float32模型路径")
torch.save(model.half(),"保存路径")

我用segnet试了下，模型变小了，精度下降了。

四十八天

opencv 的多边形填充函数
cv2.fillPoly()
做分割时，生成标签数据时会用到，你可以理解为抠图，把你的标注区域抠出来，上色。
资料链接

四十九天

看 MobileNet 涉及到的东西
Depthwise(DW)卷积与Pointwise(PW)卷积，合起来被称作Depthwise Separable Convolution(参见Google的Xception)，该结构和常规卷积操作类似，可用来提取特征，但相比于常规卷积操作，其参数量和运算成本较低。所以在一些轻量级网络中会碰到这种结构如MobileNet。

Pointwise Convolution，俗称叫做 1x1 卷积，简写为 PW，主要用于数据降维，减少参数量。
Bottleneck结构（沙漏型结构）

五十天

训练时遇到的报错

RuntimeError: shape '[2, 416, 416]' is invalid for input of size 173056

刚开始我以为是显存问题，后来仔细一看发现其实是你的数据总量除不尽你的 batch_size ，比如我一共2119张图，batch_size=2，最后一个epoch会剩一个,所以报错，我记得在torch.utils.data.Dataloader 中好像有一个参数，可以忽略除不尽那些，就解决了。但我太懒了，没改，哈哈~

五十一天

nn.Module里面关于参数有两个很重要的属性named_parameters()和parameters()，前者给出网络层的名字和参数的迭代器，而后者仅仅是参数的迭代器。
os.system('cat A > B')
这个语句的意思是将B文件接到A文件上，os.system() 作用是执行windows的命令语句 cat A > B 在windows中就是将两个文件相连接。
np.inf 表示+∞，是没有确切的数值的,类型为浮点型
cv2.split() 拆分通道
cv2.merge() 合并通道

import cv2

img = cv2.imread('test.jpg')            #opencv读取图像文件
b, g ,r =cv2.split(img)                 #顺序是b,g,r，不是r,g,b
merged = cv2.merge([b,g,r])

cv2.imshow('image',img)
cv2.imshow("Blue 1", b)
cv2.imshow("Green 1", g)
cv2.imshow("Red 1", r)
cv2.imshow("merged 1", merged)
cv2.waitKey(0)                          #一定要加cv2.waitKey(0),要不然会报错

np.clip() 用于截取数组中小于或者大于某值的部分，并使得被截取部分等于固定值。
np.clip( a, a_min, a_max, out=None):
out：可以指定输出矩阵的对象，shape与a相同

import numpy as np
# 一维矩阵
x= np.arange(12)
print(np.clip(x,3,8))
# 多维矩阵
y= np.arange(12).reshape(3,4)
print(np.clip(y,3,8))

clamp() 将输入input张量每个元素的值压缩到区间 [min,max]，并返回结果到一个新张量。
在pytorch中，我们需要注意，对于tensor的操作时候是in-place类型。
in-place类型是指，但在一个tensor上操作了之后，是直接修改了这个tensor，还是返回一个新的tensor，而旧的tensor并不修改。
如果对tensor的一个函数后加上了下划线，则表明这是一个in-place类型,也就是会修改原tensor
pytorch 中的 ceil() / floor() 作用是向上/下取整

五十二天

ubuntu18.04 安装nvidia驱动
在软件与更新里的附加驱动里，找到对应的版本更换就好，它自动安装驱动，装完后开机会有个蓝屏，是 perform mok management廷烦的，看这个链接
这个蓝屏大致意思是让你输入密码确认你的硬件是正常的。

五十三天

自动驾驶数据集
KITTI
BDD
CityScapes
Mapillary
ApolloScape

五十四天

安装 Scalabel 标签工具

在 pip install -U scalabel 时遇到报错

error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/

原因是因为没有 Microsoft Visual C++ 需要去这里下载安装 https://visualstudio.microsoft.com/visual-cpp-build-tools/

五十五天

RLE 格式
RLE，Run-Length Encoding，变动长度编码算法，是一种对于二值图像的编码方法，以不同码字来表示连续的黑、白像素数. RLE 是计算连续出现的资料长度再进行压缩，是一种简单的非破坏性资料压缩法，且压缩和解压缩都非常快.
很多分割数据集为了节省空间，标注文件采用了 RLE 格式，比如 COCO 等. 但在分割类模型学习与训练中，往往采用的是 png 格式的数据作为标注.
资料链接
autoware 卸载

sudo apt autoremove

五十六天

平时写代码路径问题会很麻烦，有一个包 Path 可以让你的路径高效、好看
链接地址

五十七天

import torch
a = torch.one([3,3])
a = a[None]
print(a.shape)
# a = a[None]  可以升维，多的维度为1

五十八天

遇到报错
ValueError: RGBA values should be within 0-1 range
我在用 matplotlib 库做bdd的分割 to mask 转换时遇到的。
原因：在给类别设置颜色时，rgb的值要在 0 - 1 之间，而不是以前用的 0 - 255

五十九天

代码

from pathlib import Path
img_root = Path(cfg.DATASET.DATAROOT)
self.img_root = img_root   /‘train’
self.img_root = self.img_root.iterdir()

这里的 / 的意思是在目录 img_root 后边拼接一个 train
属于 Path 的目录，可以用 iterdir() 遍历目录里的文件

六十天

一些自动驾驶的名词

六十一天

ubuntu中加入 sudo 权限
修改 /etc/sudoers 文件
在 #User privilege specification
下按照 root ALL=(ALL:ALL) ALL 格式写自己的
例：cc ALL=(ALL:ALL) ALL

六十二天

all() 这个函数是，用于判断给定的可迭代参数 iterable 中的所有元素是否都为 TRUE，如果是返回 True，否则返回 False。
一个非常好的 lambda 博客
lambda
一个 @staticmethod 和 @classmethod 的博客
链接资料

六十三天

RGB2BGR

color_seg = color_seg[..., ::-1]

六十四天

训练数据预加载，可提高训练速度

prefetch_generator

使用 prefetch_generator 库在后台加载下一 batch 的数据。

安装：

pip install prefetch_generator
使用：

新建DataLoaderX类

from torch.utils.data import DataLoader
from prefetch_generator import BackgroundGenerator
 
class DataLoaderX(DataLoader):
 
    def __iter__(self):
        return BackgroundGenerator(super().__iter__())

然后用 DataLoaderX 替换原本的 DataLoader。

提速原因：

原本 PyTorch 默认的 DataLoader 会创建一些 worker 线程来预读取新的数据，但是除非这些线程的数据全部都被清空，这些线程才会读下一批数据。
使用 prefetch_generator，我们可以保证线程不会等待，每个线程都总有至少一个数据在加载。

六十五天

增加 batch_size 有助于模型 loss 收敛
我用batch_size = 1 时，效果很不好，改成 8 后效果翻倍

六十六天

今天安装 ROS Melodic 后，执行 rviz 报错，和 Boundingbox 相关。
参考此博客解决
shell 编程技巧
find . -type f | xargs grep “str”
这句是在当前路径下的文件里查找包含 “str” 的文件

六十七天

今天跑 monodepth2 遇到几个报错
1.从 pytorch 官网下载 resnet 遇到 url 报错
解决方案
接着又报错，ImportError: DLL load failed while importing _ssl: 找不到指定的模块。
解决方案
2.Error loading “D:\Anaconda3\envs\segnet\lib\site-packages\torch\lib\caffe2_detectron_ops_gpu.dll” or one of its dependencies.
解决方案将 num_works 改成 0，因为我是windows

六十七天

今天学习ros发现一个问题
我在编写python文件时，第一行有个代码 #! /usr/bin/env python
这个是电脑去搜索python解释器，不能写成其他样子，他会自动找到你当前所在的python环境。

六十八天

立体视觉实现
立体视觉的基本模型是基于双目前向平行，而现实中基本不可能做到这一点，故需要通过算法进行解决。立体标定、矫正以及匹配的大部分就是基于这个目的而采用的方法。
立体标定的目的是获取左右相机的空间转换关系，通过这一步可以获取两种矩阵：本征矩阵(E)以及基础矩阵(F)。
立体矫正的目的是使得原来不平行的图像成为行对准图像，其利用了立体标定的R/T阵，输出行对准图像，为下一步匹配的工作量减少提供了便捷。
立体匹配的目的是输出视差图，输入为经过立体矫正的图像，输出服务于下一步：映射到三维空间坐标。

六十九

MatLab 标定双目报错，串联的数组维度不一致
因为matlab2020b双目标定工具箱有bug，不支持彩色图输入，只能输入灰度图。
所以要转成灰度图。

七十

全局快门与卷帘快门
相机的快门模式分为全局快门和卷帘快门两种，快门模式由相机使用的传感器特性决定。

支持全局快门的相机，每一行同时开始曝光，同时结束曝光，曝光完成后，数据开始逐行读出。
支持卷帘式快门的相机，第一行曝光结束后，立即开始读出数据，数据完全读出后，下一行开始读出数据。

全局快门同时曝光传感器网格中的所有像素，因此最终数字图像的每个像素都是在同一时刻捕获的。这意味着不会发生由于使用卷帘快门而导致的移动物体/场景的图像失真。全局快门传感器通常比卷帘快门传感器尺寸更大、更感光。然而，全局快门传感器更昂贵，且最大帧率可能低于类似的卷帘快门传感器，特别是具有高分辨率的传感器。

卷帘快门的第一行和最后一行像素的捕获之间存在时间差。这意味着在组装整个图像时，场景中快速移动的对象可能会失真或模糊。

成本上，全局快门相机比卷帘相机更贵。
使用上，全局快门适合高速产线，卷帘快门适合缓慢产线。
————————————————
版权声明：本文为CSDN博主「脆皮茄条」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_43917589/article/details/125279598

七十一

在做numpy的矩阵操作时，报错

TypeError: ufunc ‘bitwise_and‘ not supported for the input types, and the inputs could not be safely

if语句中&连接符前后的两个条件需用括号括起来。
threeD_mask = (0.55 > threeD[:,:,1]/1000.0) & (threeD[:,:,1]/1000.0 > -1.0)

你可能感兴趣的:(计算机视觉)

利用CUDA与OpenCV实现高效图像处理：全面指南快撑死的鱼 C++（C语言）算法大揭秘 opencv 图像处理人工智能
利用CUDA与OpenCV实现高效图像处理：全面指南前言在现代计算机视觉领域，图像处理的需求日益增加。无论是自动驾驶、安防监控，还是医疗影像分析，图像处理技术都扮演着至关重要的角色。然而，图像处理的计算量非常大，往往需要强大的计算能力来保证实时性和高效性。幸运的是，CUDA和OpenCV为我们提供了一种高效的图像处理解决方案。本篇文章将详细介绍如何结合CUDA与OpenCV，利用GPU的强大计算能
【无标题】东东就是我 opencv 计算机视觉人工智能
1.计算机视觉与图像处理计算机视觉技术涵盖从图像预处理到目标检测的全流程，是工业视觉系统的核心部分。知识点扩展OpenCV基础cv2.imread()、cv2.imshow()、cv2.imwrite()进行基本图像读取、显示、保存cv2.cvtColor()进行颜色空间转换（RGB↔GRAY，RGB↔HSV）cv2.resize()进行图像缩放cv2.flip()进行图像翻转（水平/垂直）imp
PSPNet在图像超分辨率中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PSPNet在图像超分辨率中的应用1.背景介绍图像超分辨率(ImageSuper-Resolution,ISR)是计算机视觉领域的一个重要研究方向,旨在从低分辨率图像中重建高分辨率图像。传统的ISR方法主要基于插值算法,如双线性插值、双三次插值等,但这些方法往往无法恢复图像的高频细节信息。近年来,随着深度学习的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的
多宠识别：基于计算机视觉的智能宠物管理系统架构解析深圳市快瞳科技有限公司计算机视觉宠物系统架构
一、行业痛点与技术方案演进在多宠家庭场景中，传统方案面临三大技术瓶颈：1.生物特征混淆：同品种/毛色宠物识别准确率低于65%2.动态场景适应：进食/奔跑状态下的误检率达30%+3.数据孤岛问题：离线设备无法实现持续学习优化快瞳科技采用**双模态视觉融合架构**，结合轻量化YOLOv7-Tiny模型与CLIP多模态大模型，实现：-98.7%的跨品种宠物识别准确率（CVPR2024最新测试数据）-单次
Training-free Neural Architecture Searchthrough Variance of Knowledge of Deep Network Weights（预览版本）境心镜免训练深度学习人工智能 NAS
代码位置摘要深度学习彻底改变了计算机视觉，但它使用深度网络架构取得了巨大的成功，而这些架构大多是手工制作的，因此可能不是最理想的。神经架构搜索(NAS)旨在通过遵循明确定义的优化范式来弥补这一差距，该范式系统地寻找最佳架构，给定客观标准，例如最大分类准确度。然而，NAS的主要限制是其天文数字般的计算成本，因为它通常需要从头开始训练每个候选网络架构。在本文中，我们旨在通过基于Fisher信息提出一种
构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类 Jackie_AI transformer 分类深度学习
构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer，简称ViT）网络架构的部分代码。下面我将提供完整的VitNet类以及相关的辅助函数和训练流程示例代码。计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码
【人工智能基础】生成模型：让数据“无中生有”的神奇魔法 roman_日积跬步-终至千里 #人工智能基础知识人工智能
文章目录一、生成模型的发展脉络二、生成模型的基本原理三、主要生成模型及其逻辑1、生成对抗网络（GAN）2、变分自编码器（VAE）3、扩散模型（DPM）4、基于能量的模型（EBM）5、正规化流（NF）四、生成模型对比分析五、生成模型的应用拓展一、生成模型的发展脉络在深度学习尚未兴起的时期，计算机视觉领域的传统图像生成算法主要依赖纹理合成和纹理映射等技术。这些算法基于手工设计的特征进行图像构建，然而，
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
PyTorch：Python深度学习框架使用详解零度° python python 深度学习 pytorch
PyTorch是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理领域。它由Facebook的AI研究团队开发，因其动态计算图、易用性以及与Python的紧密集成而受到开发者的青睐。PyTorch的主要特点动态计算图：PyTorch的计算图在运行时构建，使得模型的修改和调试更加灵活。自动微分：自动计算梯度，简化了机器学习模型的训练过程。丰富的API：提供了丰富的神经网络层、函数和损失函数。跨平
大规模语言模型构建流程人工智能技术笔记语言模型人工智能自然语言处理
大规模语言模型1.大语言模型大规模语言模型（LargeLanguageModels，LLM），也称大语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练。2.预训练语言模型受到计算机视觉领域采用ImageNet对模型进行一次预训练，使得模型可以通过海量图像充分学习如何提取特征，然后再根据任务目标进行模型精调的预训练范式影响，自然语言处理
新一代 AI 软件Manus 将重新将AI市场大洗牌 CircuitWizard 人工智能
Manus是一家专注于手部追踪、虚拟现实（VR）和增强现实（AR）技术的公司，其新一代AI软件结合了先进的机器学习和计算机视觉技术，致力于提升人机交互的自然性和效率。以下是关于Manus新一代AI软件的详细介绍及其核心功能：1.核心技术与创新Manus的AI软件基于以下技术突破：高精度手部追踪：通过深度学习算法和摄像头/传感器数据，实时捕捉手部骨骼、关节和肌肉的细微动作，精度可达亚毫米级，支持复杂
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证 CodeWG fpga开发 matlab 开发语言
基于FPGA的图像中值滤波Verilog实现及MATLAB辅助验证图像处理是计算机视觉和图像识别领域的重要组成部分。其中，中值滤波是一种常用的图像去噪方法，广泛应用于图像增强、边缘检测和特征提取等任务中。本文将介绍基于FPGA的图像中值滤波Verilog实现，并通过MATLAB进行辅助验证。首先，我们需要了解什么是中值滤波。中值滤波是一种非线性滤波器，它的原理是将图像中每个像素的灰度值替换为该像素
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
【Hugging Face】datasets 库：加载、处理和分享大规模数据集彬彬侠大模型 datasets Hugging Face
HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库，用于加载、处理和分享大规模数据集，特别适用于自然语言处理（NLP）、计算机视觉（CV）和语音任务。1.为什么使用Datasets？在深度学习中，处理大规模数据集通常面临以下挑战：数据集太大，无法一次性加载到内存不同任务的数据格式不统一数据预处理和转换较慢需要快速流式加载数据datasets库
【Python运维】实现高效的自动化备份与恢复：Python脚本从入门到实践蒙娜丽宁 Python杂谈运维运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在信息化时代，数据备份和恢复的有效性对企业和个人来说至关重要。本文将带领读者深入了解如何使用Python编写自动化备份与恢复脚本，确保重要数据的安全。本篇文章涵盖了文件系统的备份、MySQL数据库的备份与恢复、定期任务的自动化调度等内容。我们将通过大量的
目标检测YOLO实战应用案例100讲-TDI线阵相机林聪木数码相机计算机视觉人工智能
目录知识储备图像基础知识分辨率单位及换算算法原理一、TDI基本原理二、信噪比提升机制三、时间同步机制四、TDIvs传统线扫描技术五、TDI的技术挑战六、最新的TDI技术发展知识储备图像基础知识首先什么是机器视觉？计算机视觉就是让计算机去理解获取数字图像与视频中的信息。最终实现一个与人类视觉系统实现相同功能的自动化系统。什么是机器视觉中的图像的前置知识——颜色模型？最为常用的颜色模型，分别是RGB颜
人工智能与深度学习的应用案例：从技术原理到实践创新 accurater 人工智能深度学习科技
第一章引言人工智能（AI）作为21世纪最具变革性的技术之一，正通过深度学习（DeepLearning）等核心技术推动各行业的智能化进程。从计算机视觉到自然语言处理，从医疗诊断到工业制造，深度学习通过模拟人脑神经网络的层次化学习机制，实现了对复杂数据的高效分析与决策。本文结合前沿技术框架与行业应用案例，探讨深度学习的核心原理及其在多个领域的实践路径，并附代码实例以增强技术理解。第二章深度学习的技术基
双目立体视觉（6.1）测距 2501_90596733 双目立体视觉计算机视觉人工智能 opencv
在计算机视觉领域，双目相机测距是一项关键技术，它通过模拟人类双眼的视觉机制，利用两个相机从不同角度拍摄同一场景，进而计算出物体的深度信息。一、双目测距的基本原理1.1视差图（DisparityMap）视差图是一种存储了单视图所有像素的视差值的二维图像。视差值是同一物体在左右两幅图像中的列坐标差，即通过比较左右两幅图像的对应像素差异来计算物体的深度信息。视差图是以图像对中任一幅图像为基准生成的，其大
体育数据分析：竞技表现优化与商业价值挖掘的技术范式 Tina0898 数据分析数据挖掘
体育数据分析作为一门交叉学科，正在重塑现代体育产业的发展轨迹。通过多源数据采集、机器学习建模和商业智能分析，体育数据分析已经形成了完整的技术体系和应用生态。本文将深入探讨体育数据分析的技术架构、应用场景和商业价值。一、数据采集与处理技术架构现代体育数据采集系统采用分布式架构，集成了计算机视觉、惯性测量单元(IMU)和生物电传感器等多模态数据源。计算机视觉系统通过高速摄像机和深度学习算法，可实现运动
新型模型架构（参数化状态空间模型、状态空间模型变种）三月七꧁ ꧂ LLM 语言模型 gpt 文心一言 prompt embedding AIGC agi
文章目录参数化状态空间模型状态空间模型变种 Transformer模型自问世以来，在自然语言处理、计算机视觉等多个领域得到了广泛应用，并展现出卓越的数据表示与建模能力。然而，Transformer的自注意力机制在计算每个词元时都需要利用到序列中所有词元的信息，这导致计算和存储复杂度随输入序列长度的平方级别增长。在处理长序列时，这种复杂性会消耗大量的计算资源与存储空间。为了解决这个问题，研究人
【有啥问啥】深入浅出：大模型应用工具 Ollama 技术详解有啥问啥大模型科普人工智能深度学习
深入浅出：大模型应用工具Ollama技术详解引言近年来，大型模型（LargeModels，LLMs）技术突飞猛进，在自然语言处理、计算机视觉、语音识别等领域展现出强大的能力。然而，部署和运行这些庞大的模型往往面临着环境配置复杂、资源需求高昂等挑战。为了解决这些痛点，Ollama应运而生。本文将深入探讨Ollama，一个旨在简化大模型本地运行和管理的开源工具，帮助读者理解其核心概念、优势以及应用场景
基于YOLOv5深度学习的田间杂草检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
引言随着农业科技的进步，智能化农业越来越受到重视，尤其是通过计算机视觉技术对作物进行监测和管理。在农业生产中，杂草的生长对作物的生长产生了负面影响，因此准确地检测和识别田间杂草至关重要。本文将详细介绍如何构建一个基于深度学习的田间杂草检测系统，使用YOLOv5模型进行目标检测，并提供一个用户友好的界面。我们将分步骤进行，包括环境配置、数据集准备、模型训练、实时杂草检测系统的实现等内容。目录引言目录
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
01计算机视觉学习计划依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉系统学习计划（3-6个月）本计划按照数学→编程→图像处理→机器学习→深度学习→3D视觉→项目实战的顺序，确保从基础到高级，结合理论和实践。第一阶段（第1-2个月）：基础夯实✅目标：掌握数学基础、Python/C++编程、基本图像处理1️⃣数学基础（2周）每日2小时线性代数：矩阵运算、特征值分解（推荐《线性代数及其应用》）概率统计：高斯分布、贝叶斯定理微积分：偏导数、梯度下降傅里叶变换：图
特斯拉FSD系统：自动驾驶的未来百态老人人工智能笔记
FSD系统概述FSD（FullSelf-Driving）系统是特斯拉研发的一套高级自动驾驶技术，旨在实现车辆在各种道路和驾驶场景下的完全自动驾驶。FSD系统通过集成先进的计算机视觉、深度学习、传感器融合等技术，利用车辆上安装的多种传感器和先进的计算机视觉技术，实现对周围环境的感知和理解。特斯拉通过不断收集和分析实际道路数据，持续优化其自动驾驶算法，使得FSD技术的安全性和可靠性得到了大幅提升.FS
特斯拉FSD不同版本的进化 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
特斯拉，FSD，自动驾驶，深度学习，计算机视觉，强化学习，神经网络，模型训练1.背景介绍特斯拉自2016年推出Autopilot以来，一直致力于开发全自动驾驶系统，其目标是实现完全无人驾驶，让汽车能够像人类一样感知周围环境，做出安全可靠的驾驶决策。FSD（FullSelf-Driving）是特斯拉自动驾驶系统的最高级别，它旨在实现车辆在任何道路和环境条件下都能安全自主驾驶的能力。FSD的开发是一个
使用 Dlib 库进行人脸检测和人脸识别萧鼎 python基础到进阶教程计算机视觉人工智能 python 人脸识别人脸检测
使用Dlib库进行人脸检测和人脸识别什么是Dlib？Dlib是一个广泛使用的C++库，提供了多种用于机器学习和计算机视觉的工具。它包含了人脸检测、人脸识别、物体检测、图像处理等功能。Dlib具有高效、易用的Python接口，因此它也被广泛应用于Python中进行深度学习和计算机视觉任务。安装Dlib首先，我们需要在Python环境中安装Dlib库。你可以通过pip进行安装：pipinstalldl
大模型不确定性量化与提示词校准 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型不确定性量化与提示词校准关键词大模型不确定性量化提示词校准自然语言处理计算机视觉推荐系统摘要本文旨在探讨大模型不确定性量化与提示词校准这一前沿技术。首先，我们将介绍大模型不确定性的背景及其重要性，然后深入探讨不确定性量化的原理和方法，以及提示词校准在其中的作用。通过具体案例分析，我们将展示这些技术在自然语言处理、计算机视觉和推荐系统等领域的应用。最后，我们将讨论实现大模型不确定性量化与提示词
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p