# Problem mit Festplatte

## Necoro

Ich habe mir vor einigen Wochen eine neue Festplatte gekauft (600 GB) - Dateisystem ist XFS. Heute hab ich auf einmal Probleme, als ich einen Film umkodieren will: Es ist arg langsam, bringt andere Prozesse, die auch auf die gleiche Festplatte zugreifen, dazu zu hängen ... und vor allem: Zeigt in meinem grafischen Applet 100% CPU-Auslastung, während top gar keine Auslastung anzeigt (also nur ~3% oder so). Ich habs aber einfach laufen lassen ...

Irgendwann stand denn auf einmal folgendes in dmesg:

```
ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen

ata6.00: cmd c8/00:28:8f:d3:14/00:00:00:00:00/e5 tag 0 dma 20480 in

         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)

ata6.00: status: { DRDY }

ata6: hard resetting link

ata6: link is slow to respond, please be patient (ready=0)

ata6: SRST failed (errno=-16)

ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)

ata6.00: qc timeout (cmd 0xec)

ata6.00: failed to IDENTIFY (I/O error, err_mask=0x4)

ata6.00: revalidation failed (errno=-5)

ata6: hard resetting link

ata6: link is slow to respond, please be patient (ready=0)

ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)

ata6.00: configured for UDMA/133

ata6: EH complete

ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen

ata6.00: cmd c8/00:10:27:6d:e8/00:00:00:00:00/e4 tag 0 dma 8192 in

         res 40/00:00:09:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)

ata6.00: status: { DRDY }

ata6: hard resetting link

ata6: link is slow to respond, please be patient (ready=0)

ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)

ata6.00: configured for UDMA/133

ata6: EH complete

ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen

ata6.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0

         res 40/00:00:09:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)

ata6.00: status: { DRDY }

ata6: hard resetting link

ata6: link is slow to respond, please be patient (ready=0)

ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)

ata6.00: configured for UDMA/133

ata6: EH complete

end_request: I/O error, dev sdb, sector 625386994

I/O error in filesystem ("sdb1") meta-data dev sdb1 block 0x2546a5b3       ("xlog_iodone") error 5 buf count 7168

xfs_force_shutdown(sdb1,0x2) called from line 1043 of file fs/xfs/xfs_log.c.  Return address = 0xc0252ac8

Filesystem "sdb1": Log I/O Error Detected.  Shutting down filesystem: sdb1

Please umount the filesystem, and rectify the problem(s)
```

Ist das ein Problem: 

- mit dem Dateisystem

- mit der HDD

- mit dem Controller?

Jemand ne Idee? Wäre dumm, wenn die Disk ausfällt ... hab nirgendwo Platz um die Daten hinzuschaufeln, die da drauf sind.

/edit: Habe anschließend xfs_check laufen lassen ... Keine Probleme gemeldet

----------

## Necoro

Und noch ne Ausgabe vom smartctl -a

```
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===

Device Model:     SAMSUNG HD642JJ

Serial Number:    S1AFJ90S604302

Firmware Version: 1AA01118

User Capacity:    640.135.028.736 bytes

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   8

ATA Standard is:  ATA-8-ACS revision 3b

Local Time is:    Sat Oct 10 23:30:42 2009 CEST

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.

SMART support is: Available - device has SMART capability.

SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

General SMART Values:

Offline data collection status:  (0x00)   Offline data collection activity

               was never started.

               Auto Offline Data Collection: Disabled.

Self-test execution status:      (   0)   The previous self-test routine completed

               without error or no self-test has ever 

               been run.

Total time to complete Offline 

data collection:        (7625) seconds.

Offline data collection

capabilities:           (0x7b) SMART execute Offline immediate.

               Auto Offline data collection on/off support.

               Suspend Offline collection upon new

               command.

               Offline surface scan supported.

               Self-test supported.

               Conveyance Self-test supported.

               Selective Self-test supported.

SMART capabilities:            (0x0003)   Saves SMART data before entering

               power-saving mode.

               Supports SMART auto save timer.

Error logging capability:        (0x01)   Error logging supported.

               General Purpose Logging supported.

Short self-test routine 

recommended polling time:     (   2) minutes.

Extended self-test routine

recommended polling time:     ( 128) minutes.

Conveyance self-test routine

recommended polling time:     (  14) minutes.

SCT capabilities:           (0x003f)   SCT Status supported.

               SCT Feature Control supported.

               SCT Data Table supported.

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0

  3 Spin_Up_Time            0x0007   085   085   011    Pre-fail  Always       -       5500

  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       46

  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0

  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0

  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       9979

  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       466

 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0

 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46

 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0

183 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0

184 Unknown_Attribute       0x0033   100   100   000    Pre-fail  Always       -       0

187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0

188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0

190 Airflow_Temperature_Cel 0x0022   069   062   000    Old_age   Always       -       31 (Lifetime Min/Max 15/31)

194 Temperature_Celsius     0x0022   068   059   000    Old_age   Always       -       32 (Lifetime Min/Max 15/33)

195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       318099

196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0

197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0

198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0

200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       1

201 Soft_Read_Error_Rate    0x000a   253   253   000    Old_age   Always       -       0

SMART Error Log Version: 1

No Errors Logged

SMART Self-test log structure revision number 1

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error

# 1  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS

    1        0        0  Not_testing

    2        0        0  Not_testing

    3        0        0  Not_testing

    4        0        0  Not_testing

    5        0        0  Not_testing

Selective self-test flags (0x0):

  After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.
```

----------

## Necoro

Ok - jetzt wirds komisch ... nachdem das FS neugemountet wurde, klappt alles wunderbar Oo ...

Ich lasse aber trotzdem noch nen SMART-Test laufen

----------

## Necoro

Also ... SMART-Test brachte keine Fehler. Aber das obige Problem ist gestern reproduzierbar immer wieder aufgetreten (einfach größere Datei auf die betroffene Festplatte kopieren -- und PENG).

Hab daher heute die Platte mit einem neuen Kabel an einen anderen Controller angeschlossen -- bin gespannt, wann/ob das Problem wieder auftritt.

Gibt es eine Möglichkeit (außer mit SMART) die HDD auf Fehler zu untersuchen?

----------

## ScytheMan

ja es gibt tools vom hersteller, werden öfters auch nur auf anfrage rausgegeben. aber ob die auf was anderes als smart daten zurückgreifen weiß ich nicht.

----------

## Klaus Meier

Hatte mit xfs auch schon seltsame Erlebnisse. Hab es ganz schnell wieder eingestampft. War stellenweise eine unglaublich hohe CPU Auslastung aber dann lief es auch ewig ohne Festplattenzugriff, dann gab es wieder Hänger. Die Vorteile, die xfs gegenüber ext3 hat, sind im ext4 auch implementiert. Teste es doch mal mit ext4, wenn die ext3 zu normal ist, grins....

----------

## Necoro

FS wechseln ist gerade nicht drin  :Smile:  ... wüsste nicht, wo ich in der Zwischenzeit die Daten unterbringen sollte  :Smile: 

----------

## Necoro

```
Error 1 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)

  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  84 53 55 92 45 6a e5  Error: ICRC, ABRT at LBA = 0x056a4592 = 90850706

  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  ca 00 63 84 45 6a e5 00      00:26:46.690  WRITE DMA

  ca 00 61 0e 45 6a e5 00      00:26:46.540  WRITE DMA

  ca 00 61 97 44 6a e5 00      00:26:46.420  WRITE DMA

  ca 00 63 1c 44 6a e5 00      00:26:46.300  WRITE DMA

  ca 00 57 41 38 6a e5 00      00:26:45.200  WRITE DMA
```

Gerade gesehen ... sieht nicht gut aus, oder? ... Ich glaube ich sollte die Platte erstmal umtauschen - schon der Vorsicht wegen.

----------

## Klaus Meier

 *Necoro wrote:*   

> Gerade gesehen ... sieht nicht gut aus, oder? ... Ich glaube ich sollte die Platte erstmal umtauschen - schon der Vorsicht wegen.

 Also wenn die Daten wichtig sind, kauf dir sofort eine andere und kopiere rüber. Was ist das denn für ein Herstelle, sag jetzt nicht Samsung, die werden überall gehypt und dann gibt es viele mit Ärger.

Nur so ein Tip, beim Umtauschen werden die Scheiben getauscht, nicht die Daten, die wären dann auch weg, nur mal so am Rande   :Rolling Eyes:   :Rolling Eyes:   :Rolling Eyes: 

----------

## Necoro

Doch - ist ne Samsung  :Smile: . Was aber einfach daran liegt, dass die zweite Platte auch ne Samsung ist und ich mit der nie Probleme hatte  :Smile:  (im Gegensatz zu der einen Maxtor davor).

Hab leider keinen Platz zum Datensichern (hab die Platte ja gekauft, weil die andere voll ist) ... werde mal die Woche mit Amazon reden, ob mir die erst Ersatz schicken können, bevor ich die alte zurücksende.

/edit: Wichtig sind die Daten nicht. Wäre zwar nicht so sonderlich cool, wenn sie wegkommen, aber auch kein Beinbruch.

----------

## Klaus Meier

Also jetzt mal ganz im Ernst. Das, was du am Anfang geschrieben hast hatte ich mit XFS auch. Na und dann hatte ich auch mal eine Samsung, die sich aufgelöst hat. Hab jetzt wieder eine, die läuft problemlos, macht nur unter Vista und NTFS Probleme, aber das ist dann wohl nicht die Hardwre. Und jetzt liegt hier eine Maxtor für den nächsten Rechner....

Also wenn du sie zurückschicken mußt  bevor die Neue da ist kannst noch ein anderes FS testen. Und naja, der Rest klingt nach Samsung.

----------

