Appunti sulla risoluzione di un blue screen

A volte le workstation ci sorprendono nel peggiore dei modi: la mia Windows 10 Pro x64 ha cominciato a bloccarsi in modo completamente inaspettato. Quello che è seguita è stata un’analisi sistematica che ha portato, alla fine, a una causa hardware precisa. Queste sono le note di quel troubleshooting.

Il problema

Il blocco si manifestava in modi diversi che sono andati peggiorando nel tempo. In alcuni casi: congelamento completo dell’interfaccia, senza alcuna attività apparente — unica soluzione, spegnere e riaccendere. In altri casi, sempre più frequenti: Blue Screen of Death (BSOD) con codici di errore non costanti:

  • IRQ NOT LESS OR EQUAL
  • PAGE FAULT IN NONPAGED AREA

Chi è avvezzo al troubleshooting Windows sa che questi due messaggi sono tipici di due macro-tipologie di problemi: driver difettosi o problemi di memoria (RAM). Da qui è partita l’indagine.

Check 1 — Aggiornamenti recenti?

Windows 10 fa aggiornamenti in autonomia, pertanto la risposta non è immediata. Un passaggio su Gestione aggiornamenti ha confermato che non vi erano stati aggiornamenti particolari oltre alle ultime definizioni di Windows Defender.

Check 2 — Errori nei log di sistema?

Secondo passaggio: verifica in Event Viewer. Nulla di rilevante se non errori ricorrenti dovuti a qualche disinstallazione non andata a buon fine. Suggerimento: ignorare gli errori precedenti al problema o lasciarli in secondo piano — passare ore a risolvere messaggi di errore non correlati è frustrante e fuorviante.

Check 3 — Anomalie periferiche o driver?

Un giro in Gestione dispositivi risolve rapidamente questo dubbio. Se nessuna periferica riporta anomalie, è comunque consigliabile verificare la presenza di driver aggiornati che coprano eventuali bug. Soprattutto se di recente avete aggiunto qualche periferica.

Check 4 — Integrità del sistema operativo

Microsoft fornisce due strumenti: DISM.exe (Deployment Image Servicing and Management) e sfc.exe (System File Checker). Da un prompt con privilegi elevati:

DISM.exe /Online /Cleanup-image /Checkhealth
DISM.exe /Online /Cleanup-image /Restorehealth
sfc /scannow

Riferimenti: KB947821 — DISM · KB929833 — SFC

Check 5 — Integrità dei dischi

Un problema sul disco che ospita il file di paging potrebbe tradursi negli errori sopra indicati. Ipotesi remota, ma vale la pena escluderla. Via strumenti grafici o tramite il sempre affidabile chkdsk:

chkdsk [volume] /scan

Check 6 — Diagnostica memoria RAM

Se tutti i check precedenti non portano a nulla, potrebbe trattarsi di un problema hardware di RAM. Microsoft fornisce lo Strumento Diagnostica Memoria Windows (MdSched.exe), che schedula un test al riavvio successivo (modalità Standard è sufficiente nella maggior parte dei casi).

Se il test individua un problema, l’unica soluzione è rimuovere i moduli di memoria uno alla volta (o a canali) rilanciando il test fino a identificare il modulo guasto.

Nel mio caso, alla fine dell’analisi, ho salutato con tutti gli onori un glorioso ma ormai vetusto e difettoso modulo RAM Samsung da 1GB. Ma tutto è tornato a funzionare come prima. 😊

Riferimento: TechNet — Windows Memory Diagnostic