gpu超频超额训练导致电源关机

详细原理参见: 离显卡功耗实标还有多远?峰值功耗与电源关系终结篇 – FCPOWERUP极电魔方

和 【硬件科普】如何合理科学的选择电源功率的大小?_哔哩哔哩_bilibili

 本人的1250w电源截图:

gpu超频超额训练导致电源关机_第1张图片

 分析:

 12V输出分了6路,每路限流20A

1、给CPU供电的4pin或者8pin(EPS12V形式),或者8pin中与标准4pin相容的那四个脚,其中的+12V称作+12V2,是给处理器供电的一路。其余全部的插头称作+12V1,有的电源也叫+12VIO,是给显卡以及其它各种设备供电的一路。很显然这里的“路”对应的就是一组插头的概念。在这组插头前面有统一的一个小电阻(几毫欧)来探测流经这些插头的总电流,明显超过20A时就触发过流保护,把整个电源切断。这样只要有一组插头输出功率超过了240VA限制,就有过流保护来切断整个电源。
  2、一个电源CPU插头的限流点设置在15A,其它各个插头总的限流点设置在22A,那么它的+12V2也许标称持续输出到11A,+12V1标称输出到18A。这与它的+12V总输出能力是22A还是25A还是29A是没有关系的。类似地再举一个例子,一个电源+12V能输出25A,CPU插头和其它插头的限流点各为22A,那么这个电源可以标称+12V1 15A/+12V2 10A,或者+12V1 10A/+12V2 15A,或者+12V1和+12V2都是18A,这都没关系,厂商基本上是想怎么叫就怎么叫。

一块单独的1080ti显卡的功率消耗约为250瓦。如果您的电源无法提供足够的功率,或者质量不佳,那么它可能会在运行到一半时关闭电源。因此,这种情况很可能是由于电源过载或故障引起的。

此外,如果您的计算机过热,也可能会导致电源关闭。在训练深度学习模型时,GPU会产生大量热量,如果散热不好或者风扇不足以降温,则可能会导致计算机过热并关闭电源。

因此,为了解决这个问题,您可以尝试以下措施:

  1. 更换更高功率的电源,以确保能够提供足够的功率供应。

  2. 确保您的电脑的散热良好,建议安装额外的风扇或使用水冷系统等。

  3. 减少GPU的负载,您可以调整模型的参数、降低训练数据量或者使用更小的模型等方法。

  4. 检查电源和其他硬件是否损坏,可以寻求专业人士的帮助来诊断和解决问题。

在训练深度学习模型时,GPU会承担大量的计算负载,并会产生大量的热量和功耗。在您执行命令“watch -n 0.5 nvidia-smi”时,GPU可能正处于高负载状态,导致功耗瞬间达到275瓦。

如果您的GPU在长时间高负载状态下一直处于此功率水平,那么您需要确保您的电源能够稳定地提供足够的功率,以避免电源关闭或损坏GPU等问题。

为了降低GPU的功耗,您可以尝试以下方法:

  1. 降低GPU的负载,例如使用更小的批量大小、降低学习率等方法。

  2. 优化深度学习模型的结构和参数,使其更加高效。

  3. 确保您的计算机具有良好的散热系统,以防止GPU过热。

  4. 降低GPU的时钟频率和电压,以降低功耗。您可以使用NVIDIA提供的GPU调整工具,例如nvidia-smi或NVIDIA Control Panel来进行设置。但是,请注意,过度调整时钟频率和电压可能会影响性能和稳定性。

如果您的电源功率为1250W,那么在理论上,这应该足以提供给单个1080Ti显卡的最大功率需求。但是,实际上,由于电源本身的质量、电压稳定性、散热、线路和组件的状况等因素,可能会导致电源的实际输出功率和稳定性不足以满足显卡的需求。

此外,如果您的电源已经使用了一段时间,可能会存在电容老化、散热不良等问题,也会导致电源输出功率的不稳定性和降低电源寿命。

因此,为了排除电源问题,建议您考虑以下几个方面:

  1. 检查您的电源是否处于良好状态,特别是检查电源风扇是否正常运转和散热是否良好。

  2. 检查电源线路和插头是否紧固可靠,确保电源供应的稳定性。

  3. 检查您的显卡是否存在故障或异常,例如过度超频等问题,这可能导致显卡需要更高的功率,进而导致电源关闭。

  4. 考虑更换高品质的电源,并确保其满足您的GPU的最大功率需求。

  5. 如果您已经尝试了上述方法,仍然遇到电源关闭的问题,建议联系专业人士进行诊断和排除故障。

过度超频的1080ti显卡会导致电源自动关机吗

是的,过度超频可能导致GPU的功耗增加,从而超出电源的最大功率输出,导致电源自动关闭以保护计算机免受损害。当GPU的工作负载非常高时,过度超频还可能导致电源关闭。

因此,建议您在超频GPU时要格外小心,特别是在进行大量计算的深度学习训练时。确保您的超频设置是稳定的,并且不会超出GPU和电源的安全限制。

如果您已经超频了GPU并遇到了电源关闭的问题,建议您将GPU超频设置恢复到默认值,并进行稳定性测试。如果问题仍然存在,那么您可能需要进一步检查电源和其他硬件组件是否存在问题,并根据需要进行修复或更换。

你可能感兴趣的:(系统相关,人工智能,深度学习)