# Brauche Hilfe bei der Diagnose von Systemabstürzen

## BlackEye

Hallo,

ich habe hier ein extrem großes Sorgenkind als einen Server beim Kunden stehen. Ich stehe da vor einem großen Rätsel und weiss z.Zt. nicht wie ich anfangen kann das Problem einzugrenzen.

Folgender IST-Zustand:

Das Teil ist ein Fujitsu Siemens PRIMERGY TX300 S4 mit XEON QuadCore und aktivem Raid-Controller (RAID1)

Als Basis läuft da ein Gentoo Linux 2.6.27-xen-r2 mit einem XEN Hypervisor. Als Gäste kommen zwei Windows 2003 Server, ein Linux Mailserver und eine Windows XP Professional Arbeitsstaion. Festplattenmanagement wird über lvm gelöst.

Jetzt das Problem:

Sporadisch (ein mal im Monat oder auch öfter) schmiert die Kiste ab - und zwar komplett! Der Bildschirm ist schwarz. er reagiert auf null und mir bleibt nichts weiter übrig als die Kiste neu zu starten. Extrem ärgerlich, da in der Zwischenzeit die komplette EDV tot ist.

Meine Frage ist nun wie ich den Fehler in so einem Fall finden kann. Ich bekomme ja kein Kernel-Panic oder irgendwas anderes in die Hand womit ich was anfangen könnt. Das Ding  ist irgendwann einfach dunkel und das wars.

Ich bin hier echt für JEDE Hilfe oder Gedankenanstoß dankbar. Ich vermute ja eher einen Hardwaredefekt - aber wissen tu ich es nicht

Gruß,

Martin

----------

## Max Steel

Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?

Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<

In der Zwischenzeit solltest du für ein ServiceModell sorgen.

Jedenfalls hätte ich als Vorschlag erstmal memtest sowie cpuburn um evtl. Hardwaredefekte auszuräumen, bzw. die Möglichkeit kleiner zu halten.

Dann durchforste mal alle logfiles, vorallem /var/log/messages um zu sehen was als letztes kommt, evtl sieht man da doch noch etwas.

Und ob es damit irgendwie reproduzierbar wird.

----------

## BlackEye

 *Max Steel wrote:*   

> Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
> 
> Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<
> 
> In der Zwischenzeit solltest du für ein ServiceModell sorgen.

 

Nein, leider nicht. Der Server ist der Kern der ganzen EDV-Anlage dort. Okay, das Einzige was ich machen könnte wäre den Server am Freitag Abend mit nach Hause nehmen und ihn am Montag früh wieder hin zu stellen. Das ginge schon. Alles andere wäre nicht drin. Ohne das Ding geht da quasi gar nichts  :Smile: 

 *Quote:*   

> Jedenfalls hätte ich als Vorschlag erstmal memtest sowie cpuburn um evtl. Hardwaredefekte auszuräumen, bzw. die Möglichkeit kleiner zu halten.

 

Okay, das wäre zumindest mal ein Test für die CPU und den Speicher. Wie bekomme ich andere Komponenten des Systems getestet? Vor allem den Festplattencontroller?

 *Quote:*   

> Dann durchforste mal alle logfiles, vorallem /var/log/messages um zu sehen was als letztes kommt, evtl sieht man da doch noch etwas.
> 
> Und ob es damit irgendwie reproduzierbar wird.

 

Das ist genau das Problem - /var/log/messages schweigt über das Problem ganz solide hinweg:

 *Quote:*   

> Feb 27 11:00:01 server cron[29536]: (root) CMD (rm -f /var/spool/cron/lastrun/cron.hourly)
> 
> Feb 27 11:17:45 server syslog-ng[4125]: syslog-ng starting up; version='2.0.9'

 

um 11:00:01 macht er noch die cron.hourly und anschließend ist er weggeklatscht. Der nächste Eintrag ist schon der Anfang vom Reboot. Und /etc/cron.hourly ist leer.

Kann man in den Kernel noch irgendwelche Optionen hinzu "buchen", die einen Loggen von sich ankündigenden Fehlern wahrscheinlicher macht?

----------

## flammenflitzer

Ich hatte ein ähnliches Problem mit meinem Rechner. Wurde mitunter zu warm. Habe den Gehäusedeckel entfernt, dann lief die Kiste.

----------

## BlackEye

versuche mich gerade an den hwmon-Sache aus dem Kernel. Der Server hier sollte eigentlich kein thermisches Problem haben. Bei all den Lüftern die der da hat...

----------

## Hollowman

Hi

Wenn der nen thermisches Problem hätte, würde er ganz aus gehen und nicht weiterlaufen.

Ist das immer die selbe Zeit an der die Kiste ab schmiert? Schmiert er auch wenn keine Gäste laufen?

Kommst du beim Absturz auf kein System mehr oder sind nur die Gäste tot?

 *Quote:*   

> Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
> 
> Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<

 

Das muss ich aber nicht verstehen? Was für Arbeiten kann er denn in der Firma nicht machen?

Ich würde erst ma ein bisschen mit den Gästen spielen. Also am besten alle ma einzeln testen. Jeweils mit dem Gast richtig Last produzieren.

 *Quote:*   

> Vor allem den Festplattencontroller? 

 

Kopier ma von einem Gast zu nem anderen viele kleine Dateien. Irgendwelche Home Dirs oder sowas.

Guck dir ma die anderen Logfiles an, die noch in /var/log/ liegen

Sebastian

----------

## BlackEye

Die Zeit der Abstürze ist leider komplett unterschiedlich. Mal nachts, mal tagsüber, mal früh morgens und mal am nachmittag.

Ich kann allerdings nicht sagen ob er auch abschmieren würde wenn keine Gäste laufen. Dieses Problem tauchte jedenfalls das erste mal im Echtbetrieb auf und seit jeher müssen da auch die Gäste laufen. Kann den Server also nicht mal ne Woche oder nen Monat ohne Gast laufen lassen. Die Abstände zwischen den Abstürzen sind ja leider auch relativ lang (zwischen einer guten Woche und einem Monat)

Wenn das Teil abschmiert ist jedenfalls der ganze Server unansprechbar. weder dom0 noch die domUs sind ansprechbar. Ping geht nicht mehr und lokal an der Konsole anmelden geht ebenfalls nicht (schwarzer Bildschirm. Lässt sich mit keinerlei Tastendruck reaktivieren - also auch kein Bildschirmschoner). Der ganze Server kommt mir dann so vor, als würde er zwar angeschaltet sein, aber auf absolut null Input reagieren. 

Das mit der Last von Gast zu Gast kann ich ja mal versuchen. Genauso wie ich das mit dem cpuburn und memtest mal ausprobieren werde

----------

## BlackEye

 *Hollowman wrote:*   

> Guck dir ma die anderen Logfiles an, die noch in /var/log/ liegen

 

Da liegen sonst keine brauchbaren Logs mehr herum. /var/log/messages ist eh das Sammalfass für alles was dem syslog über den Weg läuft.

----------

## Anarcho

Du könntest dir dieses hier mal ansehen:

http://lkcd.sourceforge.net/

Ich selber habe auch so ein Teil. Läuft seit 3 Jahren und schmiert alle 2 - 3 Monate mal ab. Damit ich damit nicht soviel Ärger habe, habe ich folgendes gemacht:

In die Datei /etc/sysctl.conf:

```
kernel.panic = 2
```

Dadurch startet der Rechner nach einem Kernel-Panic nach 2 Sekunden neu. Du musst den Rechner einmal neubooten damit das aktiv ist oder per sysctl manuell setzen.

Wie gesagt, ist keine Lösung, mildert das Problem aber eventuell etwas ab. Ich lasse mir bei jedem Booten ne Email schicken damit ich den Restart mitbekomme.... Bin einfach zu faul dort nach ner Lösung zu suchen da ich den Server eigentlich schon vor 2 Jahren austauschen wollte.

----------

## BlackEye

Das mit dem lkcd klingt interessant. Ich denke das werde ich mal aktivieren. Wenn es ein vom Kernel oder System verursachter Absturz sein sollte, dann hoffe ich damit die Sache etwas zu lichten. Ist es ein HW Problem wird es mir vermutlich gar nichts bringen. Aber dann wird die Sache vielleicht klarer und weist eher auf ein HW-Defekt hin. Mal sehen.

Danke erstmal für die Tipps!

----------

## Mr. Anderson

Ist denn jedes Mal das Letzte, was noch zu sehen ist

```
Feb 27 11:00:01 server cron[29536]: (root) CMD (rm -f /var/spool/cron/lastrun/cron.hourly)
```

oder ist das unterschiedlich?

Bin kein Kernel-Hacker, mir sind vorhin aber in der Config ein paar Dinge aufgefallen, die vllt. nützlich sind, zumindest sofern es ein Kernel-Problem ist. Schlägt wohl in dieselbe Kerbe wie LKCD:

CONFIG_MAGIC_SYSRQ

CONFIG_DEBUG_KERNEL

->CONFIG_DETECT_SOFTLOCKUP

->CONFIG_BOOTPARAM_SOFTLOCKUP_PANIC

CONFIG_WATCHDOG

----------

## Hollowman

Hi

Was mir spontan noch einfällt. Du könntest mit cron alle paar Minuten ps in ne Datei schreiben lassen. Dann erkennst du ob vielleicht ein Prozess auf 100% läuft und du die Kiste deswegen nicht mehr ansprechen kannst.

Ich hab das Problem auf meinem Desktop Rechner. Immer wenn ich den Acrobat Reader auf hatte, muss ich ein killall ld-linux.so machen. Sonst hab ich irgendwann 100% CPU Last und die Kiste reagiert auf nichts mehr. Weder ssh noch ping.

Vielleicht erfährst du daraus was. Wenns ne Kernel Panik wäre müsstets du das ja in der Konsole an dem Server sehen.

Sebastian

----------

