我将尝试解释一些技巧和技巧,以了解设备不稳定的原因。通常,我们的设备存在几个问题:
我们将尝试确定我们团队中存在的问题。
Nvidia Memory的高OC:我们将收到一个通知,其中lolMiner以红色表示\”GPU x无法恢复的内存错误\”,GPU x是具有超额OC的内存。例如,现在通常发生在LHR中的Hynix内存中,如果内存超过1750-1800,其中许多内存会崩溃。此外,如果您的偏移核心太高,则可能会产生相同的错误。在图灵和安培GPU上使用固定核心总是更好。
高内存OC AMD:这里的错误通常是\”设备x检测到崩溃\”,此设备X是有问题的设备。我们知道它可以是内存,因为GPU完全崩溃,你无法在HiveOS上看到Watts。这是一个很好的例子,其中可能是内存太高或电压内存太低。
欠压的OC AMD:这很容易找到,这通常是GPU停止挖掘的时候,但你仍然可以在23W下面的照片中看到GPU的瓦特。这意味着您需要增加该GPU的核心电压或降低核心频率。
Riser/PSU/主板的问题是相关的,很难知道问题是什么,我们将尝试展示如何首先识别哪个GPU,然后如何检查它是否是Riserr / PSU /主板。
当您有红色的此信息时,请单击它并查看:
带有 ZZZ 的符号
如果您激活了登录命令,则还可以运行以下命令,该命令将显示哪个GPU已从总线上掉落。这通常对Nvidia GPU很有用。
cat /var/log/syslog |格雷普失败
我们看到的这个07:00是GPU2,只是没有挖掘。
现在我们有不同的方法来知道哪个是有问题的GPU,例如知道它是Riser卡还是PSU或主板。
检查问题所在的良好例程是:
买好币上币库:https://www.kucoin.com/r/1f7w3