# [HW]Emask 0x1 (device error) - Sta per morire l'hd?[RISOLTO]

## Cazzantonio

HELP!

All'avvio i log mi riportano i seguenti errori:

```
EXT3 FS on sda2, internal journal

EXT3-fs: mounted filesystem with ordered data mode.

ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0

ata1.00: cmd b0/da:00:00:4f:c2/00:00:00:00:00/00 tag 0 cdb 0x0 data 0 

         res 51/04:00:00:4f:c2/00:00:00:00:00/00 Emask 0x1 (device error)

ata1.00: configured for UDMA/100

ata1: EH complete

sd 0:0:0:0: [sda] 234441648 512-byte hardware sectors (120034 MB)

sd 0:0:0:0: [sda] Write Protect is off

sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00

sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0

ata1.00: cmd b0/da:00:00:4f:c2/00:00:00:00:00/00 tag 0 cdb 0x0 data 0 

         res 51/04:00:00:4f:c2/00:00:00:00:00/00 Emask 0x1 (device error)

ata1.00: configured for UDMA/100

ata1: EH complete

sd 0:0:0:0: [sda] 234441648 512-byte hardware sectors (120034 MB)

ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0

ata1.00: cmd b0/d0:01:00:4f:c2/00:00:00:00:00/00 tag 0 cdb 0x0 data 512 in

         res 51/04:01:00:4f:c2/00:00:00:00:00/00 Emask 0x1 (device error)

ata1.00: configured for UDMA/100

ata1: EH complete

sd 0:0:0:0: [sda] Write Protect is off

sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00

sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

sd 0:0:0:0: [sda] 234441648 512-byte hardware sectors (120034 MB)

sd 0:0:0:0: [sda] Write Protect is off

sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00

sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0

ata1.00: cmd b0/d1:01:01:4f:c2/00:00:00:00:00/00 tag 0 cdb 0x0 data 512 in

         res 51/04:01:01:4f:c2/00:00:00:00:00/00 Emask 0x1 (device error)

ata1.00: configured for UDMA/100

ata1: EH complete

sd 0:0:0:0: [sda] 234441648 512-byte hardware sectors (120034 MB)

sd 0:0:0:0: [sda] Write Protect is off

sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00

sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

[drm] Setting GART location based on new memory map

[drm] Loading R300 Microcode

[drm] writeback test succeeded in 1 usecs
```

E' l'hd che sta morendo?

L'hd di questa macchina ha dati troppo importanti perché possa morire. Sto già facendo un backup. Ditemi qualcosa di carino e positivo vi prego

----------

## Scen

 *Cazzantonio wrote:*   

> E' l'hd che sta morendo?
> 
> L'hd di questa macchina ha dati troppo importanti perché possa morire. Sto già facendo un backup. Ditemi qualcosa di carino e positivo vi prego

 

R.I.P. (Restore In Pain)  :Twisted Evil: 

Tornando seri...

```

[I] sys-apps/smartmontools

     Available versions:  5.36-r1 5.37 {static}

     Installed versions:  5.37(11:58:05 15/10/2007)(-static)

     Homepage:            http://smartmontools.sourceforge.net/

     Description:         control and monitor storage systems using the Self-Monitoring, Analysis and Reporting Technology System (S.M.A.R.T.)

```

----------

## Cazzantonio

```
heavensdoor ~ # smartctl -l error /dev/sda

smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===

SMART Error Log Version: 1

ATA Error Count: 11 (device log contains only the most recent five errors)

        CR = Command Register [HEX]

        FR = Features Register [HEX]

        SC = Sector Count Register [HEX]

        SN = Sector Number Register [HEX]

        CL = Cylinder Low Register [HEX]

        CH = Cylinder High Register [HEX]

        DH = Device/Head Register [HEX]

        DC = Device Command Register [HEX]

        ER = Error register [HEX]

        ST = Status register [HEX]

Powered_Up_Time is measured from power on, and printed as

DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,

SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 11 occurred at disk power-on lifetime: 24 hours (1 days + 0 hours)

  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 03 f0 97 fd 12 e0 00      00:20:30.214  READ DMA EXT

  25 03 10 87 fd 12 e0 00      00:20:30.205  READ DMA EXT

  25 03 f0 97 fc 12 e0 00      00:20:30.186  READ DMA EXT

  25 03 10 87 fc 12 e0 00      00:20:30.174  READ DMA EXT

  25 03 f0 97 fb 12 e0 00      00:20:30.153  READ DMA EXT

Error 10 occurred at disk power-on lifetime: 21 hours (0 days + 21 hours)

  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 03 80 bf 07 3f e0 00      00:56:10.682  READ DMA EXT

  25 03 80 3f 07 3f e0 00      00:56:10.679  READ DMA EXT

  25 03 80 bf 06 3f e0 00      00:56:10.676  READ DMA EXT

  25 03 80 3f 06 3f e0 00      00:56:10.674  READ DMA EXT

  25 03 80 bf 05 3f e0 00      00:56:10.671  READ DMA EXT

Error 9 occurred at disk power-on lifetime: 21 hours (0 days + 21 hours)

  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 03 80 3f 7e 5e e0 00      00:44:48.323  READ DMA EXT

  25 03 80 bf 7d 5e e0 00      00:44:48.361  READ DMA EXT

  25 03 80 3f 7d 5e e0 00      00:44:48.359  READ DMA EXT

  25 03 80 bf 7c 5e e0 00      00:44:48.356  READ DMA EXT

  25 03 80 3f 7c 5e e0 00      00:44:48.353  READ DMA EXT

Error 8 occurred at disk power-on lifetime: 19 hours (0 days + 19 hours)

  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 03 80 9f b2 99 e0 00      01:25:23.393  READ DMA EXT

  25 03 80 1f b2 99 e0 00      01:25:23.390  READ DMA EXT

  25 03 80 9f b1 99 e0 00      01:25:23.387  READ DMA EXT

  25 03 80 1f b1 99 e0 00      01:25:23.383  READ DMA EXT

  25 03 80 9f b0 99 e0 00      01:25:23.380  READ DMA EXT

Error 7 occurred at disk power-on lifetime: 19 hours (0 days + 19 hours)

  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 03 80 af 4b 6a e0 00      01:24:06.276  READ DMA EXT

  25 03 80 2f 4b 6a e0 00      01:24:06.273  READ DMA EXT

  25 03 80 af 4a 6a e0 00      01:24:06.270  READ DMA EXT

  25 03 80 2f 4a 6a e0 00      01:24:06.267  READ DMA EXT

  25 03 80 af 49 6a e0 00      01:24:06.263  READ DMA EXT
```

----------

## djinnZ

qualcosa di carino e positivo  :Twisted Evil: 

sempre che non hai appena aggiornato al nuovo kernel, soliti problemi con i device ata convertiti ai nuovi etc.

Verifica immediatamente connettori ed alimentazione, soprattutto se è uno di quei primi sata con l'alimentazione AT, come temo.

Potrebbe essere banalmente uno dei due poli di massa allentati, in tal caso, comunque, l'HD non è più affidabile.

Se senti rumore di ferraglia/vibrazioni/stridii al seek od all'avvio ovviamente è morto ma ancora non lo sa (e temo che sia questo il caso).

Per me puoi solo montarlo RO e fare una copia visto che immagino abbia sopra almeno un anno di lavoro.

----------

## Cazzantonio

```
smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===

SMART Self-test log structure revision number 1

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error

# 1  Conveyance offline  Completed without error       00%      2128         -

# 2  Extended offline    Completed without error       00%      2127         -

# 3  Short offline       Completed without error       00%      2126         -
```

I selftest smart non riportano errori... Potrebbe esser un errore del controller?

Comunque non è un SATA, è un ATA. Lo vede come sda perché i nuovi driver del kernel lo mappano come tale. Non sta facendo rumori e ancora non ho perso dati... ancora... solo quel messaggio terrificante da dmesg durante l'avvio. Durante il funzionamento non si lamenta... solo all'avvio stampa quegli orribili messaggi.

Lo smonto e controllo ma dubito sia un problema di montaggio. Di solito i contatti o funzionano o non funzionano.

----------

## Cazzantonio

Tiro un sospiro di sollievo!

Pare che gli errori siano generati da smartctl che viene lanciato all'avvio (come controllo dello stato dell'hd, lo faccio a tutti gli avvii)

```
heavensdoor ~ # smartctl -H /dev/sda

smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

Please note the following marginal Attributes:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

255 Unknown_Attribute       0x373f   200   016   063    Pre-fail  Always   In_the_past 69269232549888

 32 Unknown_Attribute       0x2020   032   032   032    Old_age   Offline  FAILING_NOW 95984788262944

 57 Unknown_Attribute       0x0059   000   000   089    Pre-fail  Offline  FAILING_NOW 59593442985024

 65 Unknown_Attribute       0x2031   032   032   049    Pre-fail  Offline  FAILING_NOW 35322350018592

 32 Unknown_Attribute       0x2020   032   032   032    Old_age   Offline  FAILING_NOW 35322350018592

 32 Unknown_Attribute       0x2020   032   032   032    Old_age   Offline  FAILING_NOW 550026354720

249 Unknown_Attribute       0x000d   000   007   013    Pre-fail  Offline  FAILING_NOW 131943408599808

240 Head_Flying_Hours       0x7800   000   000   000    Old_age   Offline  FAILING_NOW 0

104 Unknown_Attribute       0x0934   060   003   052    Old_age   Offline  In_the_past 2113376

128 Unknown_Attribute       0xfe80   255   077   128    Old_age   Offline  In_the_past 16646240
```

Ora quello che un po' mi preoccupa è quello FAILING_NOW e In_the_past rispetto a questi attributi sconosciuti.

C'è da fidarsi? Sono falsi positivi generati da smartctl? Perché li definisce "marginal" ?

----------

## Cazzantonio

Pare che l'errore si risolva lanciando 

```
smartctl -s on /dev/sda
```

 all'avvio. Strano perché smart risultata abilitato anche senza farlo esplicitamente, tuttavia in questo modo l'errore non si presenta.

Spero che questo significhi che l'hd è in buona salute!   :Smile: 

----------

## Scen

 *Cazzantonio wrote:*   

> Pare che l'errore si risolva lanciando 
> 
> ```
> smartctl -s on /dev/sda
> ```
> ...

 

Potresti utilizzare gli strumenti di diagnostica forniti dal produttore del tuo HD, se provi con Ultimate Boot CD dovresti trovarli più o meno tutti.

----------

## flocchini

 *Scen wrote:*   

> 
> 
> Potresti utilizzare gli strumenti di diagnostica forniti dal produttore del tuo HD, se provi con Ultimate Boot CD dovresti trovarli più o meno tutti.

 

straquoto, visto che devi eliminare tutti i dubbi per capire se e' o no l'hdd, bootare direttamente da un sistema minimale e' l'idea migliore

----------

## djinnZ

 *Cazzantonio wrote:*   

> Potrebbe esser un errore del controller?
> 
> Comunque non è un SATA, è un ATA.

 

per questo ti avevo detto di verificare se non era una novità dovuta al passaggio dai vecchi ai nuovi driver.

 *Cazzantonio wrote:*   

> Lo smonto e controllo ma dubito sia un problema di montaggio. Di solito i contatti o funzionano o non funzionano.

 

La mia esperienza mi ha insegnato il contrario.

Non so a me riporta un errore di dma e device disconnetted sugli HD del secondo controller ata (a parte i salaci commenti sulla stabilità e le performance del chipset ITE) solo all'avvio ma non al reboot, quindi ho risolto con un maggiore delay al boot.

Però se lo controlli è meglio.

----------

