# hd fail

## Treborius

hi, ich habe hier ein problem

alle 3-100 tage steigt bei einem meiner computer die festplatte aus,

und nur ein reboot bringt noch was

kann ich irgendwie 

#dmesg

aufn dem bildschirm verfolgen?

weil in den logs steht nichts 

(festplatte ist ja auch ausgestiegen, wie soll er da was in die logs schreiben)

gibt es eine datei in proc welche dmesg enthält, so das ich zb

#tail -f /proc/dmesg

machen könnte?

habt ihr andere tips?

----------

## Christian99

wie macht sich dass denn bemerkbar? freeze? oder kein zugriff mehr möglich oder was passiert?

bei problemen mit festplatten ist eigentlich immer ein scan mit smartmontools angebracht, schadet bestimmt nicht. vielleicht wird ja was gefunden.

----------

## bell

Spontan würde ich zusätzlich ein USB-Stick nach /var/log mounten.

oder 

```
watch 'dmesg | tail -n 50'
```

Aber ich denke auch dass die smartmontools dir mehr verraten als das dmesg-log.

----------

## Treborius

 *Christian99 wrote:*   

> wie macht sich dass denn bemerkbar? freeze? oder kein zugriff mehr möglich oder was passiert?
> 
> bei problemen mit festplatten ist eigentlich immer ein scan mit smartmontools angebracht, schadet bestimmt nicht. vielleicht wird ja was gefunden.

 

auf die platte kann einfach nicht mehr zugriffen werden, das system läuft ganz normal weiter

----------

## Klaus Meier

Ich tippe da mal auf einen Defekt der Hardware. Da wird dir auch dmesg nicht viel helfen. Eventuell ein thermisches Problem, versuche es dcoh mal mit Kühlung. Also nicht, dass die Platte glüht, aber dadurch, dass sich etwas durch die Wärme ausdehnt, ist es außerhalb der Toleranz. Ansonsten auch mal einen anderen Controller oder Kabel versuchen. Es gibt auf den meisten Boards ja den Controller vom Bridgechip und noch einen Zusatzchip. Den nehmen, nicht einfach eine andere Buchse. Probleme, die sporadisch auftreten sind die übelsten. Geht oder geht nicht ist viel einfacher.

----------

## SkaaliaN

Hast du denn mal  *Quote:*   

> smartctl -t long

  laufen lassen?

----------

## Randy Andy

Hi Treborius,

zum Fehler loggen gab's ja schon genug Tipps.

Daher möchte ich noch etwas zur möglichen Ursache eines sich anbahnenden Festplattendefektes sagen.

Ist natürlich nur eine von vielen möglichen Ursachen-Bauteilen die z.B. Temperaturabhängige Probleme verursachen können.

Jedenfalls hatte ich schon mal Zwei verschieden gelagerte Fälle, die sich beide durch aktivieren der Smart-Unterstützung im BIOS des PC's beheben ließen.

Im ersten Fall war einfach die Performance der Platte so mies, dass mein VDR stets ruckelte bei Aufnahme/Wiedergabe. 

Die Datenrate war denn auch deutlich geringer als je zuvor, obwohl sie bislang mit den gleichen BIOS Settings prima lief.

Die beiden anderen angeschlossenen Platten (eine am gleichen Controller Port) liefen dagegen einwandfrei.

AFAIR kann man auch mit deaktiviertem BIOS-Smart, die smart Tests  auf der Platte, mit den besagten smartmontools, durchführen.

Jedenfalls sahen die Werte der Platte so schlecht aus, was den Verbrauch/remapping der Reserve-Sektoren anging, dass ich dachte die macht's nicht mehr lang.

Da es eh schon eine Garantie-Austauschplatte von Seagate war und als Vorbedingungen zu einer Einsendung stets deren Testtool drüber laufen muss, um an einen RMA-Code zu gelangen hab ich das dann gemacht, doch leider hat deren Tool das Teil als I.O. diagnostiziert.

Dann kam ich auf die Idee mal die SMART Einstellungen im BIOS zu aktivieren und seither läuft die Platte wieder ohne Probleme und mit alter Performance und länger als ich erwartet hätte, also bis Heute ca. 1,5 weitere Jahre.

In einem weiteren Fall ließ sich der Rechner eines Kollegen gar nicht mehr von der Festplatte booten. 

Er führte einige Tests durch bis er mich ansprach und um Rat fragte, ich kann aber Heute seine Ergebnisse nicht mehr wiedergeben. 

Jedenfalls erst nach dem Aktivieren der Smart-Unterstützung bootete der PC tatsächlich wieder. Er zog es dann vor die Daten zu sichern und die Platte zu tauschen.

Nun solle es ja BIOS-Varianten geben die keine Aktivierung von Smart erlauben, trotzdem soll es unter Linux Möglichkeiten geben Smart-Unterstützung zu aktivieren.

Diesen Fall hatte ich aber noch nicht, weshalb ich dazu nichts genaueres sagen kann.

Jedenfalls gewann ich die Erkenntnis dass SMART-Unterstützung aktiv sein muss, damit, nachdem erkannte und behobene Fehler durch remapping gefixed wurden, die Platte noch korrekt/performant angesprochen werden kann.

Insofern ist es bei Dir eine Versuch wert, für den Fall dass es noch inaktiv ist.

Gruß, Andy.

----------

