【学习记录】Windows10蓝屏问题排查

一、背景

    家里的windows10不知道从什么时候起,各种蓝屏。原本以为是电脑用久了,散热不行,导致CPU过热保护,但慢慢的就觉得不对劲。一开始是打游戏就蓝屏,然后是看个视频就蓝屏,最后甚至是开机即蓝屏。在无能狂怒的情况下,把所有问题都推给了Win10系统(因为之前Win10确实有很多奇奇怪怪的Bug),学会了ubuntu+win10双系统安装,于是就有了《win10 + ubuntu 22.04双系统安装》。切到ubuntu后确实没有死机的问题了,但有些软件还是windows系统用着舒服,于是萌生出彻底解决这问题的想法。

二、蓝屏的机理

    蓝屏对于用户来讲是死机,但其实这是操作系统自身的一个功能,就是当出现一些不可恢复的错误时,系统会进入错误界面并将故障信息抛出。只是因为windows的错误界面大都是蓝色的,所以被称为蓝屏(听说win11改成黑色了)。既然有故障信息,那就可以根据故障信息顺藤摸瓜揪出幕后黑手。
    因为只是蓝屏,没到完全开不了机,所以故障大概率还是停留在软件层面上,当然也不排除一部分故障是由硬件引起的。那具体哪些是软件引起,哪些是硬件引起?如何排查?下面由我娓娓道来。

三、排查及解决

    先软后硬,软件好排查(不像嵌入式,更多是先硬后软),硬件更换成本高,可以往后放。

3.1 软件

    软件分三方面:驱动、软件兼容性、系统自身问题

  • 驱动

    第一要素就先查驱动,驱动导致的蓝屏比较明显,比如最近装了个什么驱动,或更新了个什么驱动之后,就频繁出现蓝屏问题,那第一反应就应该锁定到更新的这个驱动上。如有备份,先尝试还原回旧的驱动。

  • 软件兼容性

    看蓝屏信息中报错的文件,如果每次蓝屏都是因为运行了某个文件就报错,那基本就可以确定是这个软件出的问题,可以先卸载该软件,看下还有没有存在蓝屏的现象。如果卸载后问题解决了,那再看下该软件是否有一些相关兼容性的说明,下载对应系统的软件版本。如果每个版本都兼容不了,那就考虑寻找替代品或重装兼容的系统。

  • 系统自身问题

    这个就比较难受了,通常情况下,在蓝屏信息中报错的是系统文件,那就可能是系统本身的问题了,此时就需要备份好数据,重装系统,推荐安装网上推荐的稳定版本,而且一定一定要去官方网站下载,因为你永远不知道其他网站会在你系统里塞什么东西。

3.2 硬件

    硬件就找这四部分:CPU、硬盘、内存、主板

  • 硬盘

    硬盘本身是有寿命限制的,就跟单片机的Flash一样,是有擦写次数限制的,用的时间长了,慢慢地就会出现坏块,用一些内存检测的工具可以检查出坏块并标红,当坏块很多的时候,检测出现就是一片红,这就是传说中的"红盘"。但硬盘损坏跟蓝屏关系不大。

  • CPU

    一般CPU故障就直接开不了机了,但有一种情况例外,就是CPU过热。可以先进BIOS查看CPU过温保护点是多少,如果CPU达到这个温度点,一般情况下电脑是强制切断电源的,也不会有蓝屏的报错界面,但如果这个值设置得过高,有可能实际CPU已经跑出问题而BIOS还没保护上,这时候就可能会触发蓝屏的现象。
    解决过热问题就只能从散热角度去思考。首先可以尝试修改BIOS里的散热风机参数,比如把一二三级散热的开启温度值调低,让风机在温度较低的时候就开始工作,尽早散热,还有就是调高每一级的风机转速(风机噪声不大的时候可以这么调,个人是把一二三级的转速都调到最高,功耗会大一丢丢)。如果风机满转了都没办法把CPU温度降下来,那就得看下是不是应该清下灰,加点硅脂加强散热,或者更换更大功率的风机,甚至上水冷。

  • 主板

    因为主板本身就是作为一个载体,没什么核心器件(除了bios芯片),所以主板的故障一般就是接口故障。好在一般主板每种接口都会有至少两个以上的相同接口,比如硬盘接口,可能有4~5个,内存条接口2~4个。蓝屏的话一般跟内存关系比较大,如果有空的内存接口,可以把原本的内存条换到另一个接口上,如果问题解决,则说明原本的接口可能有问题(本人的电脑蓝屏问题就这么解决的)。

  • 内存

    当蓝屏信息每次报错的位置都不一样,基本找不到固定位置时,这时候就要考虑一下是否是内存出现异常。内存异常有几种表现形式,一种是当内存坏得比较彻底时,直接开不了机。因为操作系统执行的缓存数据都需要使用到内存,如果内存彻底损坏,则连开机这种基本操作都做不到。另一种是部分内存损坏无法访问,这种造成的现象就是可能大部分时候都可以正常运行,但跑着跑着就蓝屏,蓝屏的时基很随机,这跟内存的访问机制有关系。
    如果是第二种问题,可以使用memorytest工具对内存进行全面扫描,如果真是某个内存损坏,那每次扫描到那个位置应该都会有问题。
    上面是针对单内存条的处理,如果是双内存条,那先检查一下两个内存条参数是否一致,如果不一致出问题的概率很高。另外还有一种情况,就是两条内存参数虽然一致,但是出自同一个厂家的两个批次,或者两条内存条的损耗程度不一致,那内部也可能存在一些差异。验证这个问题也很简单,拔掉其中任意一条内存条,看问题是否都消失,如果是,则可以一次性再买两条一样的内存条进行更换。

你可能感兴趣的:(学习笔记,学习,win10)