一只苹果风matx工作站的诞生记(一 · 装机篇)

一只苹果风matx工作站的诞生记(一 · 装机篇)

〇、短的介绍

由于显卡价格居高不下过于持久,正巧偶然发现tesla卡也能进行图形渲染,只不过要借助其他带有视频输出功能的外设来输出,于是tesla m40加上现有的亮机卡GTX 650组合的方案便名正言顺的产生了。不过现在手中的这张华硕tuf b450m主板pcie位置过于奇葩导致槽位和挡板位置无法顺利兼容,便顺带着一并买回了evga的x299 matx版本,以及一颗换了液金的i9-7900x,一步跃升为理想的matx工作站(暖手炉)。

一、硬件选择

既然目的是组装一台PC,那么首先要考虑的是完整覆盖需求,其次再对筛选后的方案进行取舍。
首先,当前的ryzen平台的弱点——虚拟化支持欠佳,还有前不久在一次固态硬盘更换之后,那张b250m莫名其妙的变成了砖…综上原因,这套平台的稳定性总给我一种岌岌可危的印象(
再者,由于深度学习的模型训练需求,在矿潮肆虐的这段时间,只好买了一块Tesla M40作为过渡,但是神奇的事情又来了,tuf b450m的PCIe*16插槽对应的是机箱的第二个槽位,而开口的槽位只有四个,于是这样亮机卡占掉2、3后就不用想再插进去新卡了
于是,干脆全换一波,搞一手筹划已久的matx工作站计划!
话不多说,上全套配置:

CPU: Core i9-7900x 10c20t
GPU: Tesla M40, Geforce GTX 650
Mem: 芝奇三叉戟3000c15 8Gx2
主板: EVGA x299 Micro2
电源: 长城Fire750w
机箱: 乔斯伯UMX3
散热: 利民PA120, BeQuiet PureWings 12cm *1 \ 14cm *1
硬盘: 西数黑盘SN750 250G(windows), 铠侠TC10 240G(Ubuntu), NAS 4T(数据)

这样一套配置,看起来多少有点儿另类,不过,它既能搞定视频渲染,也能闲暇时间炼炼丹,或许还可以用M40打个游戏(第一生产力),还能挂在校内网作服务器用,干个jupyter之类写个课程作业的轻活不在话下。如此以来,似乎只剩下这两只电老虎的功耗问题了——实验室不差这点电,但宿舍是妥妥的能跳闸了。与之俱来的散热问题,再加上这只“闷罐儿”机箱,不见得非常乐观。不过盖上盖儿之前也不能乱下结论,拭目以待。

二、装机历程

要换作normal的普通家用主机平台,三下五除二也就半小时搞定的东西了,但这一套硬是花了整整两天的11个小时才完全搞定亮机。一切还要从这张tesla m40说起…
首先是原来的tuf b450m的pcie位置问题,拆机箱整个挪出来鼓捣,但还是发生了意料之外并没有的事情,两只显卡都是满满当当的2槽位+厚度,特别是gtx650这只,散热器外壳竟然要比风扇后出去了小半公分——拆散热。好在虽然风扇是固定在显卡外壳上的,但是三颗螺丝正好能够在里面散热鳍片的空隙中攻进去,于是就诞生了这么一张十分朋克的亮机卡(说好的苹果风呐)
一只苹果风matx工作站的诞生记(一 · 装机篇)_第1张图片

解决了硬兼容的问题,下面才真正是复杂的开始。在b250m上,两张卡一起插的时候上电是完全不亮机的,就和之前这块主板坏掉的时候表现如出一辙,一瞬间简直是要对某硕无可奈何了…而且拔下m40只用亮机卡照样点不亮。万幸,这次扣掉电池清bios是有效的,它又活了。但是由于两张卡一起上的时候总没反应,我们决定让b250m和小锐龙提前退休,上新平台。
新主板上了U之后,散热、供电一切顺利(但还是吐槽一波LGA2066插槽压得是真的紧),但是在内存这儿出了状况,开机不论是进系统还是进bios都只能检测到一根8G,另一根完全没了踪影,只有cpuz的内存插槽有一点对不上号的显示。原计划打算在新平台到位的时候顺便再收两条8G,跑满hedt独有的(尊贵的!)四通道,岂不美哉。奈何基金飞来横刀(233),预算吃紧,权且作罢。可这不出来了不插满的后果,位置不对,兼容不好,只得翻找主板手册,找到了一点提示,最后在2,3号槽成功识别。它的四条插槽在CPU两侧,编号和普通的双通道四槽位还有所区别,这一点不注意很容易敲错门。但最令人激动的是这张主板,evga的顶级matx型号——也是目前性能最强的matx板,毫无疑问对得起1500多的亚马逊售价,虽然加税到家就要1700多,但还是非常值得的,对于没用过好板子的我简直不要太兴奋,不光有板载reset和power键(这一点在后面立刻显示出了必要性),还有梦寐以求的两位debug显示灯(更重要了,装到最后总共见识了不下5种歇逼码),以及方便的一键清bios,还有超级详细的使用手册。
书接上回,在换上新平台之后,总算可以把两张卡都插上走一波了——但是竟然不亮机,蜂鸣器提示有错,一看错误码,D4,赶进查一波表,如下解释:

PCI resource allocation error. Out of Resources

网上搜索一番,恍然大悟,原来是那个多GPU的必备开关“Above 4G Decoding”没有打开。也难怪之前b450m也点不亮了。但是问题接踵而至,bios里面横竖没有找到这个选项,真是挺奇怪的,如此定位的主板,还带SLI支持,不可能没有这么一个朴实无华的选项。不过想到可以去官网确定一波BIOS版本,于是就抱着一线希望查了查,毕竟evga的中国服务器上的支持少之又少,之前的手册还是下载的英文版。好在BIOS还算顺利,并不麻烦的找到了历史BIOS列表。一看才发现,当前版本虽不是最老,但也已经有n多更新可以安装了。于是逐个查看新版本日志,果不其然,在后面不远的几个版本中,“Above 4G Decoding”赫然其中。那么终于可以长舒一口气,选择比较稳妥的U盘烧录,刷了一小会儿就好了。
本以为终于万事大吉了,但还没完,这才是第一天晚上。开机进系统,在nvidia-smi中使用

nvidia-smi -dm 0

开启WDDM模式,重启,就可以在任务管理器里面找到M40了,在理论上!
但并没有,现在的情况是设备管理器里面除了一个未识别的pcie设备之外,新卡的影子都找不到。这就非常迷惑了,按说即使没有开WDDM之前也是应该显示出设备安装。倒是第二天,感觉是显卡驱动的问题,直接装了一版tesla驱动,竟然好了。但是问题又出现在了gtx650这一边,由于只能同时存在一个nVidia显示驱动,此时gtx650反倒成了带感叹号的那一个驱动错误的硬件,图像输出会变成“微软基本显示适配器”,高达1Hz的刷新率。最后,经过各种尝试,发现仅在使用game ready驱动程序的时候,才能让两张卡都正确识别:

至此,这套系统算是完成了,但美中不足的是没有办法直接拿M40打游戏干活,在开搞之前了解过可以用Tesla卡渲染然后走核显输出,就像笔记本那样;按现在的情况来看,双独显输出应该是比较难办了。但是还剩下一条路——串流,正准备尝试用kvm虚拟一台Windows,再把M40硬件直通进去,或许可以达到目的。

最后挖坑,后面有时间陆续上传硬件选择和设计思路、食用方法和超频等等,预告一波,现在它已经承担了我所有课程使用需求,如期开了jupyter lab,分出来几个kvm做操作系统实验,跑了好几个深度学习训练,还可以各种帮同学解决实验工具问题,不亦乐乎,就差我的游戏串流了

哦对,各位程序猿攻城狮开发者们1024快乐
/youl

你可能感兴趣的:(1024程序员节)