# kernel panic "hardware error machine check exception"

## sbranz

salve ho messo vanilla-source 2.6.24-rc5 ieri, dopo circa 24 ore di uptime il pc è morto restituendo kernel panic in questo modo:

Hardware error

CPU 1: machine check exception

etc.. alcuni numeri e codici che nn ho scritto per la lunghezza...

mi suggerisce alla fine di provare con mcelog --ascii

Ho fatto un emerge mcelog..come devo procedere ora per capire il motivo del crash?

grazie a tutti  :Razz: 

----------

## randomaze

 *sbranz wrote:*   

> Ho fatto un emerge mcelog..come devo procedere ora per capire il motivo del crash?

 

Hai fatto emerge quindi é ripartito?

Se si prova a ritornare al kernel di prima e controlla se il problema si ripresenta...

----------

## .:deadhead:.

forse il tool aiuta quando hai loggate da qualche parte i log di queste MachineCheckException .

Il dubbio che mi sorge è: non potrebbe essere che si stà friggendo il proc ?

----------

## sbranz

si il pc riparte tranquillo...ora sto facendo un pacco di test al pc per escludere l'hardware...in pratica ho notato che sul kernel ci sono alcune voci relative al mce features di athlon....etc.etc..dopo i test ricompilo senza quelle voci selezionate...

cmq ho scoperto un altra cosa, quel kernel panic era praticamente un anomalia che il processore ha riscontrato in TSC che penso sia il timercounter qualcosa simile...insomma in poche parole mce abilitato nel kernel fa in modo che il processore comunichi al kernel ogni minimo problema riscontrato con l'hardware e il kernel comunica l'errore e al peggio va in panic quando il problema che gli presenta la cpu non è risolvibile...

cmq che rottura del CAZZO...

ah dimenticavo ho una Asrock AliveNF6-dvi un athlon64 4200+ e il controller della scheda madre è nforce430

io spero che sia riconducibile solamente al fatto che 2.6.24-rc5 ha qualche giorno di vita...perchè senno' la vedo brutta..scheda madre nuova :/

----------

## !equilibrium

 *sbranz wrote:*   

> si il pc riparte tranquillo...ora sto facendo un pacco di test al pc per escludere l'hardware...in pratica ho notato che sul kernel ci sono alcune voci relative al mce features di athlon....etc.etc..dopo i test ricompilo senza quelle voci selezionate...

 

è meglio se le tieni abilitate, servono appunto a "proteggerti" in caso di problemi gravi di tipo hardware e dove possibile (RAM) a correggere l'errore evitando conseguenze nefaste per tutto il tuo sistema.

 *sbranz wrote:*   

> cmq ho scoperto un altra cosa, quel kernel panic era praticamente un anomalia che il processore ha riscontrato in TSC che penso sia il timercounter qualcosa simile..

 

il TSC è un timer ad alta risoluzione, ed essendo una funzione built-in della CPU non può avere "anomalie con la CPU"; è più probabile che il kernel linux per qualche motivo non sia più stato in grado di determinare la sincronizzazione temporale in modo esatto e se hai abilitato il dynticks (NO_HZ) il kernel va in panne (come è giusto che sia visto che non sa più dove pescare un tick, quindi per lui il tempo si è fermato); ciò mi fa dedurre che hai un problema sul system bus della tua MOBO che impedisce il regolare scambio di informazioni tra CPU e il resto delle periferiche.

 *sbranz wrote:*   

> insomma in poche parole mce abilitato nel kernel fa in modo che il processore comunichi al kernel ogni minimo problema riscontrato con l'hardware e il kernel comunica l'errore e al peggio va in panic quando il problema che gli presenta la cpu non è risolvibile...

 

tutti gli errori rilevati dalla MCE sono fatali (fatta eccezione per quelli rilevati nella lettura/scrittura di dati corrotti in RAM dove, se possibile, vengono risolti dal kernel) e possono essere risolti soltanto con un soft-reboot; le cpu AMD hanno un sistema di MCE più evoluto rispetto a quello Intel e in alcuni casi specifici (problemi sugli interrupts e la loro latenza) è in grado di risolvere il problema senza freezare il sistema.

 *sbranz wrote:*   

> cmq che rottura del CA**O...

 

modera il tuo linguaggio per favore.

 *sbranz wrote:*   

> io spero che sia riconducibile solamente al fatto che 2.6.24-rc5 ha qualche giorno di vita...perchè senno' la vedo brutta..scheda madre nuova :/

 

di recente lo stesso Linus ha detto che lo sviluppo del ramo .24 va a rilento perchè non tutti i regression test sul kernel sono stati conclusi, va da se che usare il ramo .24 comporta *sicuramente* problemi di stabilità.

----------

## djinnZ

se nel bios hai un parametro per contenere le interferenze (spread spectrum o qualcosa del genere) attivalo e verifica il valore di clock dell'hpet, nel caso abbassalo.

Verifica inoltre l'alimentazione (compatibilità UPS/alimentatore, condizioni dell'alimentatore etc.) e tieni conto che le luminarie natalizie possono comportare gravi abbassamenti di tensione ed interferenze.

Vedi anche che tra i friver per RTC a parte il pc cmos base non è che uno vale l'altro, verifica che siano quelli corretti e vedi bene quali driver hai attivato per l'EDAC e se hai una cpu amd vedi che X86_MCE_P4TERMAL deve essere impostato a N.

----------

## sbranz

grazie ad equilibrium per la spiegazione esaustiva  :Razz: 

in effetti anche io ho pensato al bus..essendo poi una asrock, avevo pensato di aggirare il problema cambiando scheda madre. Il problema è che anche sulle asus c'è nforce e siccome il controller MCP61 è supportato e corretto con NCQ dal ramo .24 non risolverei in ogni caso il mio problema. Dovrei forse sperare che esca il .24 stabile.

Per quando riguarda djinnZ ho quella roba dello spread spectrum era gia attivata, anche il resto nel kernel penso sia tutto ok. Non vorrei arrendermi all'idea di buttare la scheda madre ma credo che alla fin fine faro' così...  :Sad: 

 *Quote:*   

> è più probabile che il kernel linux per qualche motivo non sia più stato in grado di determinare la sincronizzazione temporale in modo esatto e se hai abilitato il dynticks (NO_HZ) il kernel va in panne

 

questo NON era attivo sai? ora provo ad attivarlo..anche perche non riesco piu a farlo andare in panico come la prima volta..ora si freeza senza motivo lampeggiano solo le lucette della tastiera, se riuscissi a farlo crashare nuovamente con quell'errore mce magari potrei loggare e cercare meglio la soluzione..

grazie a tutti per l'aiuto  :Wink:  vi terrò informati  :Razz: 

----------

## bandreabis

Bugiardo.

Mica ci hai tenuti informati?

----------

