蚂蚁矿机运维手册

【这个系列的文章主要用来提高矿工的基本技能,内容都是摘自比特大陆官方网站,仅用于交流学习】

原文连接如下:

https://cnforum.bitmain.com/bbs/topics/node51

目录

一、前言

二、日常定检

三、上下架事项

四、矿机故障排查表

五、日常运维巡检表


一、前言

本手册主要讲述矿场运维中涉及到的相关点,运维人员需熟悉并掌握矿机的基本维护,包括系统升级、重置、复位、TF卡程序恢复,还需掌握简单的故障判断,如高温保护、风扇故障、网络故障等。运维人员还需对矿场的电力、网络、环境等有一定的了解认识并定期做相应的检查工作,发现问题及时改善可降低矿机故障率。

二、日常定检

1、算力检查

1.1 每两小时检查一遍矿机算力情况,现场可用批量管理软件BTC Tools查看或登录对应的矿池网站查看算力情况。BTC Tools可批量设置矿池矿工并实时查看算力温度等。建议安装Google Chrome浏览器并设置为默认,即可直接双击扫描到的矿机进入后台无需填写用户名密码。如矿机后台root密码已改,需要在浏览器填写用户名密码时,可在BTC Tools软件右上角点击“设置”更改为新的密码即可,下载BTC Tools软件点击。

蚂蚁矿机运维手册_第1张图片
图1 BTC Tools工具界面     说明:点击+添加IP网段后点击扫描矿机即可

1.2 定期检查矿机的矿池矿工信息是否有错误或遗漏,除了主矿池其余2个备用矿池都需要填上。建议更改矿机默认root密码,且不要下载非官方固件和超频固件升级,以免被恶意固件非法篡改矿池矿工。可用APMinerTool软件批量修改密码,该软件也可扫描管理矿机,下载APMinerTool软件点击。

蚂蚁矿机运维手册_第2张图片
图2 APMinerTool软件界面   说明:出算力的矿机才可扫描到,0算力矿机会出现扫描不到的情况

1.3 发现算力异常的矿机及时排查解决,现场未能处理的下架维修或返厂处理。

2、电力检查

2.1 每天用万用表检查矿机PDU插座电压是否在正常值220V±10% 范围,电压过高过低会导致运行不稳定或不能工作甚至可能会烧毁电源或矿机,发现电压异常需及时通知电工处理。

2.2 每天查看配电柜三相电流表,如偏差15%以上则通知电工检查三相负载是否均衡,三相不平衡可能会导致某一项电压升高,需要把矿机尽量平均分配到三相回路中,不要集中摆放在某一相回路。

蚂蚁矿机运维手册_第3张图片
图3 配电柜三相电压表、电流表指示

2.3 定期检查矿机是否漏电,部分矿机会因接地未做好造成外壳带电,在矿机运行时操作容易损坏控制板和运算板。

方法一:矿机运行时用万用表测量矿机外壳和货架裸露金属间是否有电压,有电压则接地没有做好(此方法要求矿机外壳未和货架金属接触在一起)

方法二:矿机运行时测量矿机网口金属罩和矿机外壳间是否有电压,有电压则接地没有做好(此方法要求矿机的网口金属罩未和矿机控制板面板接触在一起)。接地没有做好需要电工及时处理。

蚂蚁矿机运维手册_第4张图片
图4 漏电检测图示   说明:测量电压值建议在1V以下,超过则需做好接地

2.4 定期检查厂房货架以及矿机插座是否有接地(要求接地电阻<4Ω),如未接地或接地不牢靠则通知专业电工及时做好接地,运维过程中如发现触摸矿机电源外壳手经常有麻感,需检查是否接地不良或未接地。

图5 货架接地和模数化插座接地   说明:货架接地位置需打磨去除绝缘油漆

2.5 定期检查电线电缆是否有老化情况,用红外温度仪检测配电柜的断路器、线缆、铜排及各接头温度有无异常,如铜排或铜鼻子发热达70°以上,需通知电工及时处理。

2.6 矿场应尽量避免频繁停电需有计划停电,停电时应先由货架上最小空开断电再一级一级往上到总空开的顺序关电。上电时应确保货架接矿机的空开已全部关闭,由总空开一级级往下送电,避免电压浪涌瞬间冲击损坏矿机。

3、网络检查

3.1 定期检查备用的宽带线路是否正常,可从路由器后台或笔记本接备用网线检查。挖矿用网和生活用网需单独分开,避免生活区访问不明网址涉及网络安全,也防止下载观看视频占用网速影响矿机与矿池连接致算力波动,特殊情况需要共用厂房网络时,需网管在路由器或交换机端把生活区的IP做限速且不要访问不明网站。

3.2 定期Ping当前矿机使用的矿池延迟是否稳定,如延迟高达100ms以上则需要排查内外网,局域网由网管自行排查是否网络设备故障,外网则需要宽带运营商排查设备线路等,延迟过高会导致算力波动。Ping功能选项位于Network-Diagnostics。矿机0算力排查网络时Ping不通当前使用的矿池地址则属网络故障。

蚂蚁矿机运维手册_第5张图片
图6 矿机后台网络界面   说明:填入当前矿机使用的矿池网址点击Ping即可查看延迟


3.3 每天检查网络设备的温度,设备外壳达到45度以上的需要换位置或安装风扇等方式散热。网络设备和网线不要放于矿机出风口暖风处,网络设备CPU温度过会高影响稳定性甚至死机。主网线建议使用质量较好的网线,当超过15分钟断网时矿机应关电,矿机功耗和算力是对应关系如算力不足或0算力时耗电量会相应减少。

4、温湿度检查

4.1 每天测量矿机进风口位置温度,尽量控制在10至25度。如矿机进风口附近温度超过30°以上则容易引起高温保护0算力,需及时降低环境温度。可检查矿机位置是否有暖风回流情况,需要注意某些第三方电源的小风扇和矿机风扇风向相反造成温度叠加,这时需要重新摆放电源方向。高温保护0算力的矿机硬件没有损坏,降低环境温度后开机即可恢复算力,矿场需尽快制定方案降低环境温度,如安装水帘、安装负压风机、做冷热隔离(用挡板等材料挡住暖风防止回流到进风口冷风区)。

图7 左:厂房负压风机 右:货架冷热隔离

4.2 每天测量矿机进风口附近湿度,查看货架、矿机、电源线等位置有无结露现象,湿度超过65%则需降低。水帘与货架距离过近也导致湿度增加,一般距离在2-3米左右不要过近也不要过远(距离过远会减弱降温效果)。长期湿度过大且周边有大型化工厂空气质量差会加速运算板腐蚀甚至报废,可按需要减少水帘水量降低进风湿度。建议矿机不要在盐碱地附近或海边附近运行,容易导致矿机氧化腐蚀报废。

蚂蚁矿机运维手册_第6张图片
图8 运算板腐蚀

4.3 每天检查水帘有无异常漏水到厂房内部地面上、水是否均匀流动、是否有白色碱性物残留堵塞,水帘堵塞或水流分布不均会降低效果影响温度应定期清洁水帘。还需定期检查水帘的蓄水池水量是否正常,抽水泵有无异常。

图9 左:厂房水帘 右:如周边灰尘虫子柳絮等较多时,可在水帘位置加一层纱网阻挡

4.4 冬天对厂房特别冷的区域,及时将回暖风机开启。

5、环境检查

5.1 每天检查厂房负压风机运转情况,查看是否有慢转停转的。矿场需清洁到位,做到地面无灰尘纸屑。

5.2 每月定期检查矿机灰尘情况,可拆开矿机前风扇查看,如发现大量灰尘柳絮等堆积在散热片位置堵风道导致高温保护需及时清理。用防静电软毛刷轻轻刷掉灰尘,注意不要用太硬的刷子也不要太用力,否则易导致散热片脱落掉出,毛刷处理完后用风机吹走灰尘。(注意拆风扇时只需拆风扇上的4颗螺丝,不拆机身上带防拆标签的螺丝)

图10 拆前风扇清灰示意 散热片灰尘示意图

5.3 北方矿场普遍风沙尘土大,每星期检查防尘网情况,定期用吸尘器等工具清理防尘网。如厂房灰尘沙土大但未安装防尘网防护的,需及时做好相应防尘措施。

图11 吸尘器清理防尘网、矿机附着沙尘

5.4 下雨天注意预防厂房内飘雨或进水影响到矿机,特别门口位置和一些未封闭的区域。

6、外观检查

6.1 每天检查厂房矿机进风口是否有垃圾纸屑堵住,及时清除避免影响风量致高温保护0算力。

6.2 每天检查矿机的指示灯是否正常,红灯异常需处理。查看矿机两风扇是否在运转,发现风扇扇叶有破损或不转的及时更换,也可从矿机后台Kernel log查看风扇是否故障。更换风扇时注意不要装反否则风排不出矿机外。

6.3 检查网线是否有破损不能使用的,电源线是否异常过热。不推荐使用一分二的电源线容易过载,220V电压下选择电源线时建议采购10A或以上,长度在1.5m以内。

三、上下架事项

1、上架事项

1.1 查看矿机外观有无剧烈磕碰的痕迹,并晃动矿机是否有散热片掉出的情况,查看两风扇外观是否有破损变形。

1.2 上架前查看排线(风扇、电源6pin、运算板)是否插好到位不得松动,运算板电源6Pin线方向不得插反。控制板不能漏插6Pin电源线,会导致运算板烧板报废,控制板电源线插反也会导致控制板烧板。松动和插反可能会导致烧机。电源线和插座间不要太松动易接触不良,采购插座和电源线时需注意。

蚂蚁矿机运维手册_第7张图片
图1 货架空开、模数化插座   注意事项:不要采购配合松动的插座和电源线

1.3 在搬拿矿机时要轻拿轻放,禁止直接手提运算板排线或电源线,禁止从高处随意丢放。请工人搬运矿机时需告知不能乱丢乱放,否则易导致矿机内部运算板上的散热片和芯片掉落,或撞击到外侧的风扇损坏甚至报废。

蚂蚁矿机运维手册_第8张图片
图2 矿机禁止随意乱丢乱放

1.4 新机上架后用批量软件APMinerTool或BTC Tools修改矿池矿工,按需求设置固定IP,确认矿机算力是否正常。单台矿机上架时,设置为原货架位置IP。

1.5 批量上架部署矿机时注意规划好IP以方便后续固定IP地址,DHCP划分和将要固定的静态IP错开。如货架有100台矿机,则网关可设置为172.16.1.254,DHCP可设置为172.16.1.101-240,预留的IP(1-100)用于后续固定IP。一般一个货架采用一个网段管理,批量固定矿机IP地址可用APMinerTool工具“配置IP”选项,教程点击。

蚂蚁矿机运维手册_第9张图片
图3 APMinerTool软件设置固定IP界面

2、下架注意

2.1 下架前再次确认矿机故障能否在现场恢复正常,一般现场可解决如高温保护、风扇故障、网络故障、系统故障(矿场可适当购买一些风扇备用)。尽量减少误判故障而返回售后正常的机器。风扇故障判断可从矿机后台日志Kernel log下拉到最后查看。S9,T9+系列风扇日志里FAN2和FAN5属对应关系。

蚂蚁矿机运维手册_第10张图片
图4 图中风扇故障判断为FAN2风扇未插线或故障

2.2 确认IP与实物是否对应避免拿错。如不能确定矿机IP的可用查找IP软件IP Reporter直接点击Start后再按矿机IP键或点击APMinerTool软件上的“配置IP”选项后按矿机IP按键确认。

蚂蚁矿机运维手册_第11张图片
图5 查找矿机IP操作

2.3 下架上架矿机前需要先断电再操作,轻拿轻放禁止手提运算板排线或电源线,禁止从高处随意丢放。

2.4 如厂房货架做了冷热隔离,搬走矿机留空的位置要堵上避免暖风回流。下架的矿机要做好防尘防潮处理,摆放平稳整齐到指定区域,等待现场维修或返厂售后。

蚂蚁矿机运维手册_第12张图片
图6 堵上矿机空位防暖风回流

四、矿机故障排查表

矿机故障原因多种,先从简单的排查网络、升级固件、复位重置、检查排线、更换电源、清理灰尘、降低环境温度等进行,如未解决还需从电力、环境等方面排查。现场确实无法解决的返售后处理,大致思路可按如下表格:

蚂蚁矿机运维手册_第13张图片

五、日常运维巡检表

矿场日常运维中需要检查的项目做好记录并去做相应改善降低故障率。

蚂蚁矿机运维手册_第14张图片

你可能感兴趣的:(蚂蚁矿机运维手册)