# Abstürze - Ursachenforschung

## schachti

Wir haben einen Router, der leider immer wieder abstürzt, ohne daß die Ursache erkennbar ist. Er läuft immer 3-10 Tage ohne Probleme durch, und stürzt dann scheinbar ohne Grund total ab (per ping nicht mehr erreichbar, Tastatur bewirkt nichts mehr, selbst drücken von CAPS LOCK führt nicht dazu, daß die entsprechende LED auf der Tastatur angeht, Magic SysRq bleibt ohne Effekt, Monitor zeigt nur ein schwarzes Bild). In den Logfiles findet sich nach den Abstürzen auch nichts, wahrscheinlich weil sie nicht mehr geschrieben werden können.

Da auch CTRL-ALT-ENTF nichts mehr bewirkt und selbst ALT-SYSRQ-B ohne Wirkung ist, bleibt nur ein Hardware-Reset. Manchmal bleibt der Rechner dann im BIOS hängen (so ungefähr an der Stelle, an der der Speicher hochgezählt oder die IDE-Geräte erkannt werden).

Das Problem besteht mit allen Kerneln mindestens seit 2.6.6, seitdem habe ich alle gentoo-sources und auch die aktuellen vanilla-sources ausprobiert. Ansonsten läuft auf der Kiste nicht viel, eigentlich nur noch ein Squid und ein Apache (der aber erst seit kurzem, die Abstürze gab es schon früher) sowie ein paar cron jobs. In dem Raum, in dem der Rechner steht, ist es wegen bisher fehlender Lüftung leider zu warm, im Moment immer so 30-35 Grad (immerhin noch in dem Rahmen, was ein Rechner laut ATX-Spezifikation abkönnen muß).

Da die Kiste als Router für ca. 300 Leute dient, kann ich sie nicht mal eben vom Netz nehmen und 24 Stunden memtest86 laufen lassen.  :Crying or Very sad: 

Hat jemand eine Idee, wo der Fehler sein könnte oder auch wie man ihn näher einkreisen könnte? Ich befürchte inzwischen einen Hardware-Defekt und bin schon kurz davor, auf gut Glück Board, CPU und RAM komplett zu tauschen.

----------

## Hilefoks

Ich würde auf RAM-Fehler tippen. Wenn du noch andere Rechner besitzt die diesen RAM-Typ haben würde ich den RAM einfach mal tauschen und dann Memtest laufen lassen (auf den anderen Rechner in dem der RAM vom Router dann steckt). 

Dann bist du zumindest mal sicher das es der RAM ist / nicht ist. Einen CPU-Fehler würde ich übrigens ausschließen - dafür läuft die Maschine eigentlich zu lange.

Mfg Hilefoks

----------

## schachti

Das wäre ein Ansatz, bin ich noch nicht drauf gekommen, müßte klappen.

Gibt es ein Tool ähnlich memtest86, das man im laufenden Betrieb nutzen kann? Das wäre evtl. eine Alternative...

----------

## Hilefoks

ich kenne so keines - müsste man mal im Portage-Baum suchen. Da aber der Kernel den Speicher verwaltet hat man auf keinen Fall vollen Zugriff auf den Speicher und somit auch keine 100% Kontrolle (höchstens als Kernel-Modul).

Aber egal - es würde deinen Router auf jeden Fall sehr schwer belasten und ev. sogar so schwer das nicht einmal ein routing vernünftig möglich ist (ganz zu schweigen von Squid).

Also auf jeden Fall ist es besser den RAM auszubauen und in einem anderen System mit memtest zu testen.

Mfg Hilefoks

----------

## z4Rilla

es gibt da 

```
sys-apps/memtester
```

Aber wie hilfefoks schon sagte: 100% des Speichers können nicht überprüft werden. Zuverlässiger wäre es memtest86 mal eine ganze Nacht durchlaufen zu lassen.

----------

## schachti

 *z4Rilla wrote:*   

> 
> 
> es gibt da 
> 
> ```
> ...

 

Ich werde einfach mal einen Blick drauf werfen und es auf einem anderen Rechner testen.

 *z4Rilla wrote:*   

> 
> 
> Zuverlässiger wäre es memtest86 mal eine ganze Nacht durchlaufen zu lassen.
> 
> 

 

Jo, ist mir schon klar - aber wenn ich das mache, steht der Mob vor meiner Tür, um mich zu lynchen.  :Wink: 

----------

## z4Rilla

aso jetz hab ich das mit den 300 leuten erst gesehen...   :Twisted Evil: 

Aber andererseits wenn der router alle 3-10 tage ausfällt, werden die ja auch nicht gerade begeistert sein.

Vielleicht kannst du ihnen ja Verständnis für "Wartungsarbeiten" abringen. :Laughing:   :Laughing: 

ok oder du stellst erst mal eine ersatzmaschine hin um den router in aller Ruhe auf Herz und Nieren zu prüfen.

Alternativ kannst du natürlich auch immer verschiedene RAM-Module rausnehmen/kombinieren bis du den übeltäter gefunden hast (wenn es denn am RAM liegt)

----------

## dakjo

Tausch den Speicher gegen Markenware von Kingston oder Infineon. Fertig.

Ich hab letzten genau das selbe gehab. Server alle 3-10 Tage ohne erkennbaren grund freeze.

Hab den dann gegen einen behelfsserver getauscht und memtest laufen lasse.

Ich habs das ganze Wochenende laufen lassen ohne Fehler, Sonntag abend hab ich vergessen es abzubrechen.

Als ich Montag auf dem Rechner geschaut hab, hat er gerade den ersten Fehler im Ram gefunden.

Sehr böse.

----------

## schachti

Tja, der Speicher ist schon Markenware, was anderes kommt mir nicht in meine Rechner.

----------

## z4Rilla

und hast du vielleicht mehrere Riegel von verschiedenen Marken oso?

----------

## dakjo

Austauschen ist erst mal billiger als laengere Zeit daran zu verschwenden.

Erst wenn das problem mit neuem Speicher weiterhin auftritt wuerde ich weiter suchen.

----------

## schachti

 *z4Rilla wrote:*   

> 
> 
> und hast du vielleicht mehrere Riegel von verschiedenen Marken oso?
> 
> 

 

Nee, sind zwei identische Riegel (gleicher Hersteller, gleiche Spezifikation) - war so ein 2-in-1 Paket mit zueinander passenden Modulen.

----------

## Hilefoks

Moin,

ich würde wirklich den Speicher erst mal gegen einen anderen ersetzen und den alten Speicher in einer anderen Maschine testen. Und das mit Memtest86. 

Memtest braucht zwar sehr lange - aber dafür findet er die Fehler auch zuverlässig! 

Und der Router kann ja inzwischen weiter seinen Dienst verrichten - nur der Testrechner hat 2 Tage was zu tun - wenn stört es?

Mfg Hilefoks

----------

## Arudil

Da es zwei RAM Riegel sind, kannst du ja einen rausnehmen und testen während der Router (evtl swappend) seinen Dienst verrichtet, oder?

----------

## schachti

Das auf jeden Fall.

Inzwischen glaube ich kaum noch an einen Speicherfehler, denn zum einen habe ich mit memtester ca. 12 Stunden lang 768 MB der 1024 GB getestet, ohne daß es Probleme aufgetaucht sind (was natürlich nicht heißt, daß der RAM in Ordnung ist). Außerdem habe ich inzwischen gelesen, daß das verbaute Mainboard wohl Schrott ist: http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1061488627. Der heißeste Kandidat ist somit das Mainboard, auch wenn ich das mit Speicher noch probieren werde.

Macht es evtl. Sinn, das BIOS zu updaten? Ich dachte bisher immer, Linux benutzt das BIOS nicht und spricht die Hardware direkt an...

----------

## 76062563

Sind die Elkos auf dem Mainboard alle in Ordnung?

Ich hatte so was ähnliches, wenn die Elkos sich aufblähen oder sogar teilweise auslaufen können die komischsten Effekte auftreten...

----------

## schachti

Klar, die erste Maßnahme war eine Sichtkontrolle aller Elkos. Sind aber weder aufgeplatzt noch gewölbt, sehen alle noch fabrikneu aus.

Stutzig macht uns halt vor allem, daß der Rechner nach einem Reboot oft im BIOS hängen bleibt, anschließend aber durchaus auch 10 Tage problemlos durchläuft.

----------

## Lenz

Und in den Logs steht wirklich nichts? Welchen Logger verwendest du denn? Wenn Metalog, ist's klar, dass der nicht mehr zum Schreiben kommt.

Wenn er gelegentlich schon beim BIOS hängen bleibt, deutet das meiner Erfahrung nach auf ein Arbeitsspeicher- oder Mainboardproblem hin.

----------

## ZX-81

 *schachti wrote:*   

> Hat jemand eine Idee, wo der Fehler sein könnte oder auch wie man ihn näher einkreisen könnte? Ich befürchte inzwischen einen Hardware-Defekt und bin schon kurz davor, auf gut Glück Board, CPU und RAM komplett zu tauschen.

 

Genau das würde ich machen, wobei dann immer noch die Fehlerquelle Netzteil (das Startproblem deutet etwas daraufhin) übrigbleiben würde. Was in Deinem Fall besonders  unangenehm ist, ist die lange Zeit bis zum Auftreten des Fehlers. Bei einem Try und Error Verfahren mit einzelnen Komponenten wirst Du wohl Monate brauchen bis das mit ausreichender Wahrscheinlichkeit gelöst ist. Deshalb mein Rat: Soviel wie möglich von dieser Hardware auf einmal in die Tonne kicken!  :Smile: 

----------

## schachti

 *Lenz wrote:*   

> 
> 
> Und in den Logs steht wirklich nichts?
> 
> 

 

Nee, gar nichts. Der Rechner friert von einer Sekunde auf die nächste ohne Vorwarnung komplett ein.

 *Lenz wrote:*   

> 
> 
> Welchen Logger verwendest du denn? Wenn Metalog, ist's klar, dass der nicht mehr zum Schreiben kommt.
> 
> 

 

Auf dem Rechner läuft metalog. Welchen anderen Logger hältst Du unter diesen Umständen für sinnvoll?

----------

## Haldir

Hängt irgendwelche Peripherie dran?

Insb. USB Keyboard oder so?

Könnte  kaputter USB Port sein o.ä., ich hatte sowas mal mit nem kaputten USB port

----------

## schachti

Da es ein Router ist hängt gar nichts dran, in der Regel noch nicht einmal Tastatur und Monitor. Alle nicht benötigten Sachen (USB, Serieller Port, Parallelport, Game Port, ...) sind im BIOS auch deaktiviert, im Kernel sowieso.

Es handelt sich um folgende Konfiguration: Epox EP-8RDA3+, Athlon XP 3200+, 1 GB RAM (2 x Corsair Twinx 512 MB), 3 x Intel Ethernet Pro 100, GeForce4 MX 440 (eigentlich totaler Overkill für die Textkonsole  :Wink: ), Seagate ST3120026A 120 GB.

----------

