lucky-xxyyxx

《Pytorch 模型推理及多任务通用范式》第三节作业

1 课程学习

本节课主要对于大白AI课程：https://mp.weixin.qq.com/s/STbdSoI7xLeHrNyLlw9GOg
《Pytorch 模型推理及多任务通用范式》课程中的第三节课进行学习。

2 作业题目

必做题：

（1）把模型改为resnet18，加载相应的模型权重（Lesson2的物料包中有），跑一下0.jpg和1.jpg，看一下输出结果。官方torchvision训练mobilenet和训练resnet的方式是一样的，所以数据预处理和数据后处理部分完全相同。

 ('umbrella', 0.9995712637901306)
 ('peacock', 0.9999839067459106)

（2）自己找2张其他图，用resnet18做下推理。

(‘bee’, 0.5264432430267334)
(‘cab’, 0.991939127445221)

思考题：

（1）以ResNet18为例，用time模块和for循环，对”./images/0.jpg”连续推理100次，统计时间开销，比如：

model_classify=ModelPipline()
 
import time
image=cv2.imread("./images/0.jpg")
t_all=0
for i in range(100):
    t_start=time.time()
    result=model_classify.predict(image)
    t_end=time.time()
    t_all+=t_end-t_start
print(t_all)

有CUDA的同学，改下代码：self.device=torch.device(‘cuda’)。用上述相同方法测试时间开销。

cpu: 2.3720483779907227
gpu: 0.560788631439209

（2）在数据预处理和数据后处理的代码实现中，到处在用numpy, opencv, torch 对数组做相应变换，大家至少要把课程中出现的函数们给理解。

cv2.imread函数有两个参数，第一个参数是图片路径，第二个参数表示读取图片的形式，有三种：
cv2.IMREAD_COLOR：加载彩色图片，这个是默认参数，可以直接写1。
cv2.IMREAD_GRAYSCALE：以灰度模式加载图片，可以直接写0。
cv2.IMREAD_UNCHANGED：包括alpha，可以直接写-1
大多数backbone model 是在公开数据集上训练的，是RGB图像，所以想用这些预训练的权重，输入必须是３通道图像。如果输入是灰度图，则需要以IMREAD_COLOR读入。

numpy的array与torch的tensor的转换


    t = torch.ones(3)
    print("type(t):", type(t))
    print("t:", t)
    # tensor转array
    a = t.numpy()
    print("type(a):", type(a))
    print("a:", a)
    print("-"*10)
    # 此时两个数组（array与tensor）是共用一个储存空间的，也就是说，一个改变，另一个也会改变
    t.add_(1)
    print("t:", t)
    print("a:", a)
    print("-"*10)
    # 将array转换为tensor
    import numpy as np
    tt = torch.from_numpy(a)
    print("type(tt):", type(tt))
    print("tt:", tt)
    print("-"*10)
    # 此时两个数组（array与tensor）是共用一个储存空间的，也就是说，一个改变，另一个也会改变
    np.add(a, 1, out=a)
    print("t:", t)
    print("a:", a)
    print("tt:", tt)
    print("-"*10)
    # 当然还有能在GPU上运算的CUDA tensors
    if torch.cuda.is_available():
        x = torch.randn(1)
        print("type(x):", type(x))
        print("x:", x)
        device = torch.device("cuda")          # a CUDA device object
        y = torch.ones_like(x, device=device)  # directly create a tensor on GPU
        print("type(y):", type(y))
        print("y:", y)
        x = x.to(device)                       # or just use strings ``.to("cuda")``
        print("cuda type(x):", type(x))
        print("cuda x:", x)
        z = x + y
        print(z)
        print("cuda type(z):", type(z))
        print("cuda z:", x)
        print(z.to("cpu", torch.double))       # ``.to`` can also change dtype together!

输出：

参考torch与numpy数组的转换及注意

(3) 有同学在实验cpu和cuda推理时间的时候发现，cuda的推理时间为2.05s，cpu推理时间是2.57s，cuda和cpu的推理时间没有显示出多大优势。

认为cuda第一次推理比较耗时间。以下为证明cuda第一次推理时间的实验。

增加循环次数，看cuda是否能体现出加速的优势。

思考题（２）中推理100次时间：
cpu: 2.3720483779907227
gpu: 0.560788631439209
cpu/gpu = 4.229

推理10000次时间：
cpu: 226.2179036140442
gpu: 46.84391951560974
cpu/gpu = 4.829

推理20000次时间：
cpu: 452.7243661880493
gpu: 90.42487096786499
cpu/gpu = 5.006

结论：推理次数越多，确实越能体现cuda的优势

实验第一次推理对cuda的影响，推理次数100次

if __name__=='__main__':
	model_classify = ModelPipline()
    import time
    image = cv2.imread("./images/0.jpg")
    # 将第１次推理放在循环外面
    result = model_classify.predict(image)
    t_all = 0
    for i in range(100):
        t_start = time.time()
        result = model_classify.predict(image)
        t_end = time.time()
        t_all += t_end - t_start
    print(t_all)

cpu: 2.1793227195739746
第一次推理时间： 0.044313669204711914
第一次加载后，循环100次时间： 2.3044493198394775
第一次推理时间： 0.03883099555969238
第一次加载后，循环100次时间： 2.6771979331970215
第一次推理时间： 0.02727818489074707
第一次加载后，循环100次时间： 2.232801914215088

gpu:
第一次推理时间： 0.05043458938598633
第一次加载后，循环100次时间： 0.7382602691650391
第一次推理时间： 0.04384970664978027
第一次加载后，循环100次时间： 0.4815845489501953
第一次推理时间： 0.04526329040527344
第一次加载后，循环100次时间： 0.47938036918640137

结论：我的实验并没有体现出“第一次推理比较占用时间”的现象，并且多次运行情况下，第一次推理是否放在外面对cuda的推理时间并没有多大影响。

有同学提出GPU预热的概念，参见文章The Correct Way to Measure Inference Time of Deep Neural Networks：认为测量时间需要在gpu预热之后，且在同步状态下来测量时间。

《深度神经网络的测量推理时间的正确方法》

网络延迟是将深度网络部署到生产环境中更重要的方面之一。大多数实际应用需要极快的推理时间，从几毫秒到一秒不等。但是要正确测量神经网络的推理时间或延迟，需要深刻的理解。即使是有经验的程序员也经常犯导致延迟测量不准确的常见错误。这些错误的影响有可能引发错误的决策和不必要的支出。
在这篇文章中，我们回顾了一些应该解决的主要问题，以正确测量推理时间或延迟。我们回顾了使 GPU 执行独一无二的主要过程，包括异步执行和 GPU 预热。然后我们共享代码示例以在 GPU 上正确测量推理时间。最后，我们回顾了人们在量化 GPU 上的推理时间时常犯的一些错误。

异步执行 Asynchronous execution

我们首先讨论 GPU 执行机制。在多线程或多设备编程中，可以并行执行两个独立的代码块；这意味着第二个块可能会在第一个块完成之前执行。这个过程称为异步执行。在深度学习上下文中，我们经常使用这种执行，因为默认情况下 GPU 操作是异步的。更具体地说，当使用 GPU 调用函数时，操作会排入特定设备的队列，但不一定排到其他设备。这允许我们在 CPU 或另一个 GPU 上并行执行计算。
图 1. 异步执行。左图：同步进程，其中进程 A 在继续工作之前等待来自进程 B 的响应。右图：异步进程 A 继续工作，无需等待进程 B 完成。

异步执行的效果对用户是不可见的；但是，当涉及到时间测量时，它可能是许多令人头疼的原因。当您使用 Python 中的“时间”库计算时间时，测量是在 CPU 设备上执行的。由于 GPU 的异步特性，停止计时的代码行将在 GPU 进程完成之前执行。结果，计时将不准确或与实际推理时间无关。请记住，我们想要使用异步，在这篇文章的后面我们将解释如何在异步过程中正确测量时间。

异步执行为深度学习提供了巨大的优势，例如能够大幅减少运行时间。例如，在多个批次的推理中，第二批次可以在 CPU 上进行预处理，而第一批次在 GPU 上通过网络前馈。显然，在推理时尽可能使用异步是有益的。

GPU warm-up

现代 GPU 设备可以处于几种不同的功率状态。当 GPU 未用于任何目的且持久模式（即保持 GPU 开启）未启用时，GPU 会自动将其功率状态降低到非常低的水平，有时甚至会完全关闭。在低功耗状态下，GPU 会关闭不同的硬件，包括内存子系统、内部子系统，甚至计算核心和缓存。

任何试图与 GPU 交互的程序的调用都会导致驱动程序加载和/或初始化 GPU。这种驱动程序加载行为值得注意。由于纠错代码的清理行为，触发 GPU 初始化的应用程序可能会产生长达 3 秒的延迟。例如，如果我们测量一个需要 10 毫秒的网络的时间，运行超过 1000 个示例可能会导致我们的大部分运行时间浪费在初始化 GPU 上。自然，我们不想测量这种副作用，因为时间不准确。它既不反映通常 GPU 已经初始化的生产环境，也不反映GPU工作的持久模式。

所以，我们想尽可能地启用 GPU 省电模式，那让我们看看如何在测量时间的时候克服 GPU 的初始化。

测量推理时间的正确方法

下面的 PyTorch 代码片段展示了如何正确测量时间。这里我们使用 Efficient-net-b0，但您可以使用任何其他网络。在代码中，我们处理了上面描述的两个警告。在我们进行任何时间测量之前，我们通过网络运行一些虚拟示例来进行“GPU 预热”。这将自动初始化 GPU 并防止它在我们测量时间时进入省电模式。接下来，我们使用 tr.cuda.event 来测量 GPU 上的时间。在这里使用 torch.cuda.synchronize() 至关重要。这行代码执行主机和设备（即 GPU 和 CPU）之间的同步，因此只有在 GPU 上运行的进程完成后才会进行时间记录。这克服了不同步执行的问题。

model = EfficientNet.from_pretrained('efficientnet-b0')
device = torch.device("cuda")
model.to(device)
dummy_input = torch.randn(1, 3,224,224, dtype=torch.float).to(device)

# INIT LOGGERS
starter, ender = torch.cuda.Event(enable_timing=True), torch.cuda.Event(enable_timing=True)
repetitions = 300
timings=np.zeros((repetitions,1))
#GPU-WARM-UP
for _ in range(10):
    _ = model(dummy_input)
# MEASURE PERFORMANCE
with torch.no_grad():
    for rep in range(repetitions):
        starter.record()
        _ = model(dummy_input)
        ender.record()
        # WAIT FOR GPU SYNC
        torch.cuda.synchronize()
        curr_time = starter.elapsed_time(ender)
        timings[rep] = curr_time

mean_syn = np.sum(timings) / repetitions
std_syn = np.std(timings)
print(mean_syn)

当我们测量网络的延迟时，我们的目标是只测量网络的前馈，不多也不少。通常，即使是专家也会在他们的测量中犯一些常见的错误。以下是其中一些，以及它们的后果：

主机和设备之间传输数据。这篇文章的观点是只测量神经网络的推理时间。从这个角度来看，最常见的错误之一是在进行时间测量时在 CPU 和 GPU 之间传输数据。这通常是在 CPU 上创建张量然后在 GPU 上执行推理时无意中完成的。这种内存分配需要相当长的时间，从而增加了推理时间。此错误对测量值的均值和方差的影响如下所示：

图 2： CPU 和 GPU 之间传输对测量时间的影响。左：平均值和标准偏差的正确测量方法。右图：每次网络调用时输入张量在 CPU 和 GPU 之间传输时的均值和标准差。 X 轴是计时方法，Y 轴是以毫秒为单位的时间。
不使用 GPU 预热。如上所述，首次在 GPU 上运行会提示其初始化。 GPU 初始化最多可能需要 3 秒，当时间以毫秒为单位时，这会产生巨大的差异。
使用标准CPU时序。最常见的错误是在没有同步的情况下测量推理时间。众所周知，即使是有经验的程序员也会使用以下代码。

 s = time.time()
 _ = model(dummy_input)
curr_time = (time.time()-s )*1000

这当然完全忽略了前面提到的异步执行，因此输出了错误的时间。这个错误对测量的均值和方差的影响如下所示：
图 3：在CPU测量时间的影响。左：平均值和标准偏差的正确测量方法。右图：过程不同步时的均值和标准差。 X 轴是计时方法，Y 轴是以毫秒为单位的时间。

抽取一个样本。与计算机科学中的许多过程一样**，神经网络的前馈具有（小）随机分量**。运行时间的差异可能很大，尤其是在测量低延迟网络时。为此，必须在多个示例上运行网络，然后对结果进行平均（300 个示例可能是一个不错的数字）。一个常见的错误是使用一个样本并将其称为运行时。当然，这并不代表真正的运行时间。

测量吞吐量Measuring Throughput

神经网络的吞吐量定义为网络在单位时间内（例如，一秒）可以处理的最大输入实例数。与涉及单个实例处理的延迟不同，为了实现最大吞吐量，我们希望并行处理尽可能多的实例。有效的并行性显然依赖于数据、模型和设备。因此，为了正确测量吞吐量，我们执行以下两个步骤：（1）我们估计允许最大并行度的最佳批量大小； (2)，给定这个最佳批量大小，我们测量网络在一秒钟内可以处理的实例数。

要找到最佳批量大小，一个好的经验法则是达到 GPU 对给定数据类型的内存限制。这个大小当然取决于硬件类型和网络的大小。找到这个最大批量大小的最快方法是执行二进制搜索。当时间不重要时，简单的顺序搜索就足够了。为此，我们使用 for 循环将批量大小增加 1，直到达到运行时错误为止，这确定了 GPU 可以处理的最大批量大小，用于我们的神经网络模型及其处理的输入数据。

在找到最佳批量大小后，我们计算实际吞吐量。为此，我们希望处理多个批次（100 个批次就足够了），然后使用以下公式：

(number of batches X batch size)/(total time in seconds)

这个公式给出了我们的网络可以在一秒钟内处理的示例数量。下面的代码提供了一种简单的方法来执行上述计算（给定最佳批量大小）：

model = EfficientNet.from_pretrained('efficientnet-b0')
device = torch.device("cuda")
model.to(device)
dummy_input = torch.randn(optimal_batch_size, 3,224,224, dtype=torch.float).to(device)

repetitions=100
total_time = 0
with torch.no_grad():
    for rep in range(repetitions):
        starter, ender = torch.cuda.Event(enable_timing=True),   torch.cuda.Event(enable_timing=True)
        starter.record()
        _ = model(dummy_input)
        ender.record()
        torch.cuda.synchronize()
        curr_time = starter.elapsed_time(ender)/1000
        total_time += curr_time
Throughput =   (repetitions*optimal_batch_size)/total_time
print('Final Throughput:',Throughput)

Conclusion

准确测量神经网络的推理时间并不像听起来那么简单。我们详细介绍了深度学习从业者应该注意的几个问题，例如异步执行和 GPU 省电模式。尽管有上述警告，此处提供的 PyTorch 代码演示了如何正确测量神经网络中的时序。最后，我们提到了一些导致人们错误地测量推理时间的常见错误。在以后的文章中，我们将更深入地探讨这个主题，并解释现有的深度学习分析器，这些分析器使我们能够实现更准确的网络时间测量。如果您对如何在不影响其准确性的情况下减少网络延迟感兴趣，请在 Deci 的白皮书中阅读有关此主题的更多信息。

反查yolov5中 detect.py代码，计算时间代码，确实是同步之后测量的时间：

def time_synchronized():
    # pytorch-accurate time
    if torch.cuda.is_available():
        torch.cuda.synchronize()　　#等待当前设备上所有流中的所有内核完成
    return time.time()
# Inference
        t1 = time_synchronized()
        pred = model(img, augment=opt.augment)[0]

        # Apply NMS
        pred = non_max_suppression(pred, opt.conf_thres, opt.iou_thres, classes=opt.classes, agnostic=opt.agnostic_nms)
        t2 = time_synchronized()

同步时间后，再次测量时间：

if __name__=='__main__':
    model_classify = ModelPipline()
    import time

    image = cv2.imread("./images/0.jpg")

    # 将第１次推理放在循环外面
    torch.cuda.synchronize()
    start1 = time.time()
    result = model_classify.predict(image)
    torch.cuda.synchronize()
    end1 = time.time()
    print("第1次推理时间：",end1-start1)
    t_all = 0
    for i in range(100):
        torch.cuda.synchronize()
        t_start = time.time()
        result = model_classify.predict(image)
        torch.cuda.synchronize()
        t_end = time.time()
        print(f"第{i+2}次推理时间：", t_end-t_start)
        t_all += t_end - t_start
    print("第1次加载后，循环100次时间：",t_all)

cpu结果

第1次推理时间： 0.11548161506652832
第2次推理时间： 0.02736973762512207
第3次推理时间： 0.030270099639892578
第4次推理时间： 0.03058028221130371
第5次推理时间： 0.03058338165283203
第6次推理时间： 0.029311418533325195
第7次推理时间： 0.03302454948425293
第8次推理时间： 0.0275876522064209
第9次推理时间： 0.0302274227142334
第10次推理时间： 0.02839207649230957
第11次推理时间： 0.025115966796875
第12次推理时间： 0.02533435821533203
第13次推理时间： 0.03188490867614746
第14次推理时间： 0.027261734008789062
第15次推理时间： 0.02784442901611328
第16次推理时间： 0.03024148941040039
第17次推理时间： 0.029840946197509766
第18次推理时间： 0.029162168502807617
第19次推理时间： 0.02868819236755371
第20次推理时间： 0.02675318717956543
第21次推理时间： 0.02482295036315918
第22次推理时间： 0.02246713638305664
第23次推理时间： 0.02280449867248535
第24次推理时间： 0.0284578800201416
第25次推理时间： 0.02643299102783203
第26次推理时间： 0.02664923667907715
第27次推理时间： 0.026027679443359375
第28次推理时间： 0.027423620223999023
第29次推理时间： 0.023158550262451172
第30次推理时间： 0.023151636123657227
第31次推理时间： 0.025136709213256836
第32次推理时间： 0.02541637420654297
第33次推理时间： 0.026070356369018555
第34次推理时间： 0.026086807250976562
第35次推理时间： 0.024853229522705078
第36次推理时间： 0.02480769157409668
第37次推理时间： 0.024338960647583008
第38次推理时间： 0.024314403533935547
第39次推理时间： 0.022298812866210938
第40次推理时间： 0.023638248443603516
第41次推理时间： 0.02734208106994629
第42次推理时间： 0.02817678451538086
第43次推理时间： 0.02989983558654785
第44次推理时间： 0.02553105354309082
第45次推理时间： 0.024470090866088867
第46次推理时间： 0.024607181549072266
第47次推理时间： 0.02418041229248047
第48次推理时间： 0.022823333740234375
第49次推理时间： 0.028810501098632812
第50次推理时间： 0.03197979927062988
第51次推理时间： 0.031966447830200195
第52次推理时间： 0.031178712844848633
第53次推理时间： 0.03048110008239746
第54次推理时间： 0.030689001083374023
第55次推理时间： 0.03051590919494629
第56次推理时间： 0.033420562744140625
第57次推理时间： 0.0327756404876709
第58次推理时间： 0.032079219818115234
第59次推理时间： 0.028012990951538086
第60次推理时间： 0.024437427520751953
第61次推理时间： 0.024135828018188477
第62次推理时间： 0.02313995361328125
第63次推理时间： 0.022739648818969727
第64次推理时间： 0.02519989013671875
第65次推理时间： 0.030359983444213867
第66次推理时间： 0.025178194046020508
第67次推理时间： 0.026061058044433594
第68次推理时间： 0.026542186737060547
第69次推理时间： 0.02245020866394043
第70次推理时间： 0.021797657012939453
第71次推理时间： 0.02333807945251465
第72次推理时间： 0.022905349731445312
第73次推理时间： 0.02587580680847168
第74次推理时间： 0.02628040313720703
第75次推理时间： 0.024767637252807617
第76次推理时间： 0.026424884796142578
第77次推理时间： 0.02306365966796875
第78次推理时间： 0.022463083267211914
第79次推理时间： 0.022680997848510742
第80次推理时间： 0.021914005279541016
第81次推理时间： 0.0274198055267334
第82次推理时间： 0.02650165557861328
第83次推理时间： 0.026316404342651367
第84次推理时间： 0.025147438049316406
第85次推理时间： 0.024324893951416016
第86次推理时间： 0.024328947067260742
第87次推理时间： 0.022128582000732422
第88次推理时间： 0.021760225296020508
第89次推理时间： 0.02518916130065918
第90次推理时间： 0.025460243225097656
第91次推理时间： 0.026798725128173828
第92次推理时间： 0.02733588218688965
第93次推理时间： 0.0237729549407959
第94次推理时间： 0.025893449783325195
第95次推理时间： 0.02241969108581543
第96次推理时间： 0.024320125579833984
第97次推理时间： 0.022876977920532227
第98次推理时间： 0.022742509841918945
第99次推理时间： 0.026343107223510742
第100次推理时间： 0.02568531036376953
第101次推理时间： 0.027451038360595703
第1次加载后，循环100次时间： 2.6327455043792725

gpu时间：

第1次推理时间： 0.04638981819152832
第2次推理时间： 0.004971742630004883
第3次推理时间： 0.0056874752044677734
第4次推理时间： 0.00563359260559082
第5次推理时间： 0.005725383758544922
第6次推理时间： 0.0056798458099365234
第7次推理时间： 0.005606651306152344
第8次推理时间： 0.005924701690673828
第9次推理时间： 0.0056591033935546875
第10次推理时间： 0.005642414093017578
第11次推理时间： 0.0056269168853759766
第12次推理时间： 0.005686521530151367
第13次推理时间： 0.00565791130065918
第14次推理时间： 0.005598783493041992
第15次推理时间： 0.005628824234008789
第16次推理时间： 0.005654096603393555
第17次推理时间： 0.005718231201171875
第18次推理时间： 0.005612611770629883
第19次推理时间： 0.0056040287017822266
第20次推理时间： 0.005587100982666016
第21次推理时间： 0.005648612976074219
第22次推理时间： 0.0059850215911865234
第23次推理时间： 0.005833864212036133
第24次推理时间： 0.005799055099487305
第25次推理时间： 0.0049648284912109375
第26次推理时间： 0.005852937698364258
第27次推理时间： 0.005812168121337891
第28次推理时间： 0.00575709342956543
第29次推理时间： 0.005793094635009766
第30次推理时间： 0.005698680877685547
第31次推理时间： 0.004698991775512695
第32次推理时间： 0.004705667495727539
第33次推理时间： 0.0047419071197509766
第34次推理时间： 0.004683971405029297
第35次推理时间： 0.005612850189208984
第36次推理时间： 0.0047719478607177734
第37次推理时间： 0.004853725433349609
第38次推理时间： 0.0047528743743896484
第39次推理时间： 0.004765510559082031
第40次推理时间： 0.006181001663208008
第41次推理时间： 0.005424976348876953
第42次推理时间： 0.006127595901489258
第43次推理时间： 0.004857540130615234
第44次推理时间： 0.005173683166503906
第45次推理时间： 0.005965471267700195
第46次推理时间： 0.00577998161315918
第47次推理时间： 0.005101442337036133
第48次推理时间： 0.005086660385131836
第49次推理时间： 0.00548553466796875
第50次推理时间： 0.0049359798431396484
第51次推理时间： 0.004874706268310547
第52次推理时间： 0.004926443099975586
第53次推理时间： 0.005236625671386719
第54次推理时间： 0.004579067230224609
第55次推理时间： 0.004767417907714844
第56次推理时间： 0.00526738166809082
第57次推理时间： 0.004784107208251953
第58次推理时间： 0.005305290222167969
第59次推理时间： 0.005428791046142578
第60次推理时间： 0.0049669742584228516
第61次推理时间： 0.004622459411621094
第62次推理时间： 0.00463104248046875
第63次推理时间： 0.004907846450805664
第64次推理时间： 0.004637002944946289
第65次推理时间： 0.004505157470703125
第66次推理时间： 0.004500150680541992
第67次推理时间： 0.0044803619384765625
第68次推理时间： 0.004585742950439453
第69次推理时间： 0.0045278072357177734
第70次推理时间： 0.004487514495849609
第71次推理时间： 0.004477024078369141
第72次推理时间： 0.004450559616088867
第73次推理时间： 0.00450587272644043
第74次推理时间： 0.004472017288208008
第75次推理时间： 0.00443267822265625
第76次推理时间： 0.0044403076171875
第77次推理时间： 0.004464626312255859
第78次推理时间： 0.004538059234619141
第79次推理时间： 0.004562854766845703
第80次推理时间： 0.005164623260498047
第81次推理时间： 0.004805088043212891
第82次推理时间： 0.005681037902832031
第83次推理时间： 0.004622220993041992
第84次推理时间： 0.004651069641113281
第85次推理时间： 0.004915952682495117
第86次推理时间： 0.005137205123901367
第87次推理时间： 0.0052051544189453125
第88次推理时间： 0.004871368408203125
第89次推理时间： 0.008282184600830078
第90次推理时间： 0.004983663558959961
第91次推理时间： 0.0047833919525146484
第92次推理时间： 0.005022764205932617
第93次推理时间： 0.005772113800048828
第94次推理时间： 0.004518032073974609
第95次推理时间： 0.0050013065338134766
第96次推理时间： 0.00489497184753418
第97次推理时间： 0.004656314849853516
第98次推理时间： 0.004839181900024414
第99次推理时间： 0.005447864532470703
第100次推理时间： 0.004784345626831055
第101次推理时间： 0.004519224166870117
第1次加载后，循环100次时间： 0.5166835784912109

最终结论：我的实验没有重现gpu推理时间慢，约和cpu推理时间差不多的问题，但是可以看出gpu第一次推理时确实慢。第1次推理时间： 0.0463，约为之后每次推理的10倍。重要的是，cpu第一次推理的时间也长，且比cuda的时间更长。

另外测试了模型的加载时间：gpu和cpu加载时间基本相同。

cpu模型加载时间： 0.2724010944366455
gpu模型加载时间：0.287320613861084

cuda为什么第一次推理慢：

简单的来讲就是 CUDA初始化是懒散的初始化需要调度内存需要一定的开销但是这些开销又不是在模型初始化的时候全部调度完（cpu明明核心比GPU核心强但是模型加载时间基本相同）有部分还会在模型推理的时候进行调度（第一次cpu的推理就很快但是gpu特别慢，我的实验显示没有很快）当第一次模型推理完成后所需要的内存调度都已经到位再进行后续的推理时时间会明显降低。
在GPU计算前是要申请block和线程，这个过程要初始化，申请空间，检查是否成功。等一系列操作的。有想了解的可以看看cuda编程
剩下的瓶颈操作就是IO了，还有就是cpu和gpu之间的操作。很多时候数据拿出来要在cpu中操作，这样的一个过程中也导致了延迟问题
关于GPU推理速度的两个问题

关于gpu和cpu的运算性能，网上有这样的答案

pytorch中GPU与CPU的运算性能比较：
有很多朋友说在使用GPU和CPU进行运算的过程中（比如GAN），发现使用的时间都差不多；是不是GPU并不比CPU快多少呢？
其实不是这样，如果你运行一个很小的数据模型，那么CPU和GPU的运算速度是差不多的，但是如果你运行大型模型，就可以看到加速效果。我们不能单纯说GPU一定比CPU快，决定因素除了除了我们GPU的配置，还有我们的网络，数据的大小以及数据的类型，有时候GPU运算反而不如CPU快速。
举例说明：在使用的情况下，在Titan X GPU中运行VGG16比在Dual Xeon E5-2630 v3 CPU中快66倍

疑问：出现问题的同学使用的显卡是3070, 明明用的是同样的代码，输入的同样的图片，却只有该同学出现了这个问题，别人无法重现。如果是由于cuda第一次推理时间慢，那么每个人都应该能够碰到这个问题。

你可能感兴趣的:(pytorch,深度学习,1024程序员节)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">