# mysteriöse Systemabstürze (gelöst)

## Kev111

Hallo liebe Gemeinde,

ich habe einen kleinen Server im Heimnetz, der hauptsächlich als ftp/smb Share und DNS genutzt wird und bald auch IMAP bereitstellen soll.

Nun habe ich beschlossen den mysteriösen Systemabstürzen einmal auf den Grund zu gehen, da ich schon ein halbes Jahr hoffe "mit dem nächsten Kernel wirds bestimmt besser", aber dies nie der Fall ist.

Ursprünglich habe ich von Vanilla auf die Hardened sources gewechselt, mit der Hoffnung, diese wären stabiler, jetzt war vorhin das Update von den 2.6.18er Hardened sources auf die 2.6.20er, aber soeben war wieder der nächste Absturz und meine Hoffnung wieder zunichte.

Das Problem tritt im Prinzip immer auf, wenn eine größere Menge an Daten (>500MB) über das Netzwerkinterface laufen. Danach ist der Rechner komplett weg, weder anpingpar noch lokal bedienbar, er reagiert auf überhaupt nichts mehr und ist einfach nur weg. Nach einem Reset läufts dann wieder.

Beim 2.6.18er hab ich ein watch "dmesg|tail -n 20" laufen gehabt und da waren die neuen Einträge beim Absturz:

```
uhci_hcd 0000:00:1f.2: host controller process error, something bad happened!

uhci_hcd 0000:00:1f.2: host controller halted, very bad!

uhci_hcd 0000:00:1f.2: HC died; cleaning up

usb 1-2: USB disconnect, address 2

usb 1-2.2: USB disconnect, address 3

usb 1-2.3: USB disconnect, address 4
```

Mit dem 2.6.20er hatte ich sogar ein watch -n 1 (statt 2 Sekunden Standardeinstellung) laufen, aber es war diesmal garkeine Meldung beim Absturz ersichtlich.

Kurze Eckdaten zum Rechner:

Sockel 370 Board mit Via c3 700 mhz, 3XX MB Sd-Ram, zwei 160er Platten im Software Raid 1, RTL-8139 100Mbit/s Netzwerkkarte.

Log Dateien schreibt er auch keine mehr, deswegen weiß ich nicht, wie ich weiter vorgehen kann, um die Abstürze zu beheben und hoffe auf eure Hilfe.

Vielen Dank im Voraus,

KevinLast edited by Kev111 on Tue Jun 05, 2007 10:55 am; edited 1 time in total

----------

## think4urs11

ACPI/APM aktiv? Wenn ja schalt es mal ab.

Läuft die Maschine dauerhaft durch? Ein ge-cron-ter Reboot ab und zu hilft (auch wenn mich einige hier dafür wohl steinigen werden)  :Wink: 

----------

## bbgermany

Hi,

alternativ kannst du ja (vorausgesetzt das ist machbar) die USB-Controller abschalten. Vielleicht kommt es daher, vielleicht aber auch nicht.

Hast du auch schonmal die Temp des Chipsatzes überwacht?

MfG. Stefan

----------

## tgurr

 *Think4UrS11 wrote:*   

> (auch wenn mich einige hier dafür wohl steinigen werden) 

 

Hat da etwa wer "Jehova" gesagt?  :Wink: 

 *Kev111 wrote:*   

> Das Problem tritt im Prinzip immer auf, wenn eine größere Menge an Daten (>500MB) über das Netzwerkinterface laufen.

 

Dann würde ich spontan mal eine andere Netzwerkkarte einbauen (am besten eine von einem anderen Hersteller oder mit einem anderen Chip) und testen ob das Problem dann nicht schon behoben ist.

----------

## mv

 *Kev111 wrote:*   

> 
> 
> ```
> uhci_hcd 0000:00:1f.2: host controller process error, something bad happened!
> ```
> ...

 

Laut Kernel Sourcecode kommt diese Meldung, wenn USB sich böse aufgehängt hat:

 *Quote:*   

> USBSTS_HCPE: Host Controller Process Error:  the schedule is buggy

 

Vermutlich blockiert sich zu diesem Zeitpunkt schon die Hardware gegenseitig. Ich würde mal darauf tippen, dass Du irgendwelche IRQ-Konflikte hast. Möglicherweise kann es helfen, ACPI statt APM (oder umgekehrt) zu nehmen, weil die IRQs irgendwie anders zuweisen...

----------

## Kev111

Vielen Dank für die vielen Anregunden, also...

 *Think4UrS11 wrote:*   

> ACPI/APM aktiv? Wenn ja schalt es mal ab.
> 
> Läuft die Maschine dauerhaft durch? Ein ge-cron-ter Reboot ab und zu hilft ...

 

ACPI und APM ist aktiv, 

```
APM:

Make CPU Idle calls when idle

ACPI:

AC Adapter

Battery

Button

Video

Fan

Processor

 Thermal Zone 
```

Wobei da nicht wirklich alles sinvoll ist, aber die CPU idle calls hätte ich halt schon gerne  :Smile: 

Die Reboots würden nichts bringen, da das Problem auch bei einem frisch gebooteten System auftritt, sobald ich eine größere Datenmenge kopiere.

Dass USB die Ursache ist, kann ich mittlerweile ausschließen, denn nach meinem letzten Reboot kam zwischenzeitlich wieder diese Meldung, dass sich der Host-Controller aufgehängt hat, allerdings läuft das System immer noch, wie es soll... Von daher war das letzte Mal die Meldung wohl auch schon länger da, bevor sich das System aufgehängt hat.

Mit Temperaturüberwachung tu ich mich etwas schwer, weil das Board noch keine Sensoren hat, geht also nur manuell. Aber selbst wenn ich das System Tage zu 100% auslaste, läuft es immer noch, nur wenn der Netzwerktraffic ins Spiel kommt, ist aus.

Mir ist noch eingefallen, dass ich am Anfang des Servers eine Netzwerkbridge aktiv hatte, da trat das Problem dann schon wesentlich früher (bei Datenmengen >100 MB am Stück) auf. Nachdem ich dies deaktiviert hatte, dachte ich zuerst, das Problem sei behoben, bis ich mal größere Datenmengen kopiert habe.

Das mit der anderen Netzwerkkarte werde ich jetzt als Nächstes teste.

----------

## think4urs11

Manche der Realtekchips haben so ihre Problemchen mit ACPI.

----------

## Kev111

Also ich habe jetzt mal etwas mit den verschiedenen Kernel herumexperimentiert und dabei festgestellt, dass der Vanilla immer zwischen 30 und 100 MB abschmiert, der Gentoo 50-150 MB schafft und der Hardened 800-1500MB, das finde ich schon recht interessant. Sie haben wohl alle das gleiche Problem, nur irgendwie schafft es wohl der Hardened-Kernel länger auszuhalten..sehr eigenartig.

Jetzt habe ich mal die Netzwerkkarte gewechselt (Das mit dem nicht Realtek Chipsatz mag ja schön und gut sein, aber irgendwie gibt es ja fast nix anderes mehr, ich habe hier 6 verschiedene Netzwerkkarten von unterschiedlichen herstellern herumliegen und alle haben nen RTL 8139B,C oder D Chipsatz..). Nun aber zum eigentlichen Problem, sobald ich die Netzwerkkarte wechsel (es ist nur EINE eingebaut), gibt es kein eth0 mehr, sondern die Andere ist dann einfach eth1, daraufhin gibt es natürlich viele Fehler beim Booten. Das ist doch echt verrückt..

----------

## schachti

 *Kev111 wrote:*   

> Nun aber zum eigentlichen Problem, sobald ich die Netzwerkkarte wechsel (es ist nur EINE eingebaut), gibt es kein eth0 mehr, sondern die Andere ist dann einfach eth1, daraufhin gibt es natürlich viele Fehler beim Booten. Das ist doch echt verrückt..

 

Liegt an udev, dazu gibt es schon Threads hier im Forum.

----------

## Kev111

Danke, Antwort wegen der Netzwerkgeräte ID steht hier: https://forums.gentoo.org/viewtopic-t-562337.html

Also, ich habe jetzt im Kernel den kompletten Power Management Zweig deaktivert, allerdings tritt der Fehler immer noch auf, komischerweise mit dem Gentoo Kernel jetzt erst bei 400 MB... Woran könnte es noch liegen?

----------

## Kev111

also das Problem ist wirklich die Netzwerkkarte, bzw. der Chipsatz RTL 8139. Nachdem ich eine Gigabit Karte von Netgear mit einem anderen Realtek Chipsatz eingebaut habe, funktioniert das Ganze tadellos. 

Ob APM/ACPI aktiviert ist oder nicht spielt allerdings keine Rolle.

Vielen Dank an Alle, die so fleißig geantwortet haben!

Gruß,

Kevin

----------

