# Hdd умирает?

## Dayman

Как роутер/сервер используется старый комп. Недавно стали появляться непонятные ошибки.

Симптом один: все нахрен отваливается, в логах - ничего.

Но однажды, подключив моник и клаву и просидев пары часов, удалось-таки посмотреть в чем дело.

Все FS перемонтируются в r/o. Посмотрел что на tty12, а там все как тут: https://bbs.archlinux.org/viewtopic.php?id=149571

Прогнал e2fsck -cfv. Ничего. Делал short/offline smart-тест. Ничего.

Сам смарт выдает:

```

=== START OF INFORMATION SECTION ===

Model Family:     IBM/Hitachi Deskstar 120GXP

Device Model:     IC35L040AVVN07-0

Serial Number:    VNP200B2GNTVRB

Firmware Version: VA2OAF0C

User Capacity:    41 173 057 024 bytes [41,1 GB]

Sector Size:      512 bytes logical/physical

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   5

ATA Standard is:  ATA/ATAPI-5 T13 1321D revision 1

Local Time is:    Sat Jan  5 18:15:16 2013 MSK

SMART support is: Available - device has SMART capability.

SMART support is: Enabled

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE

  1 Raw_Read_Error_Rate     PO-R--   093   093   060    -    327712

  2 Throughput_Performance  P-S---   145   145   050    -    279

  3 Spin_Up_Time            POS---   164   164   024    -    95 (Average 106)

  4 Start_Stop_Count        -O--C-   099   099   000    -    4574

  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    1

  7 Seek_Error_Rate         PO-R--   100   100   067    -    0

  8 Seek_Time_Performance   P-S---   142   142   020    -    28

  9 Power_On_Hours          -O--C-   097   097   000    -    24493

 10 Spin_Retry_Count        PO--C-   100   100   060    -    0

 12 Power_Cycle_Count       -O--CK   099   099   000    -    4482

192 Power-Off_Retract_Count -O--CK   096   096   050    -    5513

193 Load_Cycle_Count        -O--C-   096   096   050    -    5513

194 Temperature_Celsius     -O----   125   125   000    -    44 (Min/Max 11/71)

196 Reallocated_Event_Count -O--CK   100   100   000    -    1

197 Current_Pending_Sector  -O---K   100   100   000    -    0

198 Offline_Uncorrectable   ---R--   100   100   000    -    0

199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    36

                            ||||||_ K auto-keep

                            |||||__ C event count

                            ||||___ R error rate

                            |||____ S speed/performance

                            ||_____ O updated online

                            |______ P prefailure warning

```

Как бонус, набранные крупицы дополнительных логов:

```

Jan  5 17:53:58 grouter kernel: [ 1156.106606] ata2: lost interrupt (Status 0x50)

Jan  5 17:53:58 grouter kernel: [ 1156.106645] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen

Jan  5 17:53:58 grouter kernel: [ 1156.106651] ata2.00: failed command: FLUSH CACHE

Jan  5 17:53:58 grouter kernel: [ 1156.106663] ata2.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0

Jan  5 17:53:58 grouter kernel: [ 1156.106663]          res 40/00:01:00:00:00/00:00:00:00:00/a0 Emask 0x4 (timeout)

Jan  5 17:53:58 grouter kernel: [ 1156.106668] ata2.00: status: { DRDY }

Jan  5 17:53:58 grouter kernel: [ 1156.106704] ata2: soft resetting link

Jan  5 17:53:58 grouter kernel: [ 1156.310560] ata2.00: configured for UDMA/100

Jan  5 17:53:58 grouter kernel: [ 1156.310571] ata2.00: retrying FLUSH 0xe7 Emask 0x4

Jan  5 17:53:58 grouter kernel: [ 1156.310875] ata2.00: device reported invalid CHS sector 0

Jan  5 17:53:58 grouter kernel: [ 1156.310921] ata2: EH complete

```

```

Jan  5 16:25:02 grouter kernel: [ 3480.053042] ata2: lost interrupt (Status 0x50)

Jan  5 16:25:02 grouter kernel: [ 3480.053082] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen

Jan  5 16:25:02 grouter kernel: [ 3480.053089] ata2.00: failed command: WRITE DMA

Jan  5 16:25:02 grouter kernel: [ 3480.053099] ata2.00: cmd ca/00:08:80:24:12/00:00:00:00:00/e0 tag 0 dma 4096 out

Jan  5 16:25:02 grouter kernel: [ 3480.053099]          res 40/00:01:00:00:00/00:00:00:00:00/a0 Emask 0x4 (timeout)

Jan  5 16:25:02 grouter kernel: [ 3480.053104] ata2.00: status: { DRDY }

Jan  5 16:25:02 grouter kernel: [ 3480.053139] ata2: soft resetting link

Jan  5 16:25:02 grouter kernel: [ 3480.257022] ata2.00: configured for UDMA/100

Jan  5 16:25:02 grouter kernel: [ 3480.257036] ata2.00: device reported invalid CHS sector 0

Jan  5 16:25:02 grouter kernel: [ 3480.257063] sd 1:0:0:0: [sda]  

Jan  5 16:25:02 grouter kernel: [ 3480.257066] Result: hostbyte=0x00 driverbyte=0x08

Jan  5 16:25:02 grouter kernel: [ 3480.257070] sd 1:0:0:0: [sda]  

Jan  5 16:25:02 grouter kernel: [ 3480.257073] Sense Key : 0xb [current] [descriptor]

Jan  5 16:25:02 grouter kernel: [ 3480.257077] Descriptor sense data with sense descriptors (in hex):

Jan  5 16:25:02 grouter kernel: [ 3480.257080]         72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00 

Jan  5 16:25:02 grouter kernel: [ 3480.257091]         00 00 00 00 

Jan  5 16:25:02 grouter kernel: [ 3480.257097] sd 1:0:0:0: [sda]  

Jan  5 16:25:02 grouter kernel: [ 3480.257099] ASC=0x0 ASCQ=0x0

Jan  5 16:25:02 grouter kernel: [ 3480.257103] sd 1:0:0:0: [sda] CDB: 

Jan  5 16:25:02 grouter kernel: [ 3480.257105] cdb[0]=0x2a: 2a 00 00 12 24 80 00 00 08 00

Jan  5 16:25:02 grouter kernel: [ 3480.257116] end_request: I/O error, dev sda, sector 1188992

Jan  5 16:25:02 grouter kernel: [ 3480.257122] Buffer I/O error on device sda2, logical block 132559

Jan  5 16:25:02 grouter kernel: [ 3480.257125] lost page write due to I/O error on sda2

Jan  5 16:25:02 grouter kernel: [ 3480.257154] ata2: EH complete

Jan  5 16:25:02 grouter kernel: [ 3480.258215] JBD2: Detected IO errors while flushing file data on sda2-8

...

Jan  5 16:38:44 grouter kernel: [ 4302.430438] JBD2: Detected IO errors while flushing file data on sda2-8

```

Что делать и кто виноват?

Edit:

Сделал два прохода мемтестом - ничего.

Из последних изменений как-либо касающихся железа:

чистил все от пыли

заменил кулер на проце и поставил один системный кулер

менял термопасту на северном мосту

выяснилось, что проц был андерклокнутый по шине (100 против 133), выставил стоковые значения

P.S. Если имеет какое-то значение, ведро 3.7 hardened + IMQ patch. NX в процессоре нету.

----------

## burik666

Может когда чистили повредили шлейф винта, попробуйте заменить, подергать его (может отошел)

----------

## Dayman

Заменил. Посмотрим как будет.

Проблема возникает совершенно рандомно кстати: может неделю работать нормально, а может каждые 5 минут отваливаться.

----------

