# unerklärliche abstürze?

## new_nOOb

Hallo, hab seit einiger zeit das recht unangenehme phänomen das mein rechner keine längere uptime mehr durchhält

nach ca 1 woche also 7-8 tage stürtz er immer ab bzw besser gesagt er bleibt hängen und nur ein resert hilft.

da der rechner per kvm switch angeschlossen ist sieht man leider auch kein bild mehr. in den logs taucht leider auch kein eintrag auf.

die wöchentlichen cron´s sind es auch nicht (laufen einzeln getestet alle einwandfrei und sind meist auch nicht zu dem zeitpunkt)

leider habe ich keine ahnung wo ich ansetzten könnte. speichertest sagt auch nix. evtl irgendeine log oder buffer der nach der zeit voll läuft?

ist ein amd 64 system mit 2.6.12-r2 gentoo kernel. hatte dieses problem aber auch schon bei anderen kernelversionen auch beim mm.

----------

## ph03n1x

Evtl. ein Temperaturproblem? Tönt irgendwie nach Hardware, aber bei amd64 k.A.

----------

## shaped.ch

ich hatte/(habe) das selbe problem (auch amd64) .. jedoch kam dies seit ca. 6 monaten nicht mehr vor. bei mir hat auch die uptime keine rolle gespielt. keine ahnung ob das problem überhaupt noch existiert auf meinem rechner.

kann dir also leider keine lösung bieten.

----------

## new_nOOb

cpu hat ne durschnittstemp von 42C dürfte ja kein prob sein

----------

## NightDragon

Vorgehnsweise

a) Logs checken

b) regelmäßigkeiten finden / Gleichheiten (Programmaufrufe, HW-Aktionen, siehe /var/log/messages)

c) Grafikkartentreiber?

d) Temperatur?

e) RAM-Problem? (siehe memtest)

f) CPU-Problem?

g) HD-Problem? (siehe smartctrl)

h) IRQ-Probs?

i) ACPI-probs?

Temperaturprobleme lassen sich schnell ausschließen in dem du ihm nach einen frischen boot mal mit irgendwas vollgas arbeiten lässt, wenn er das nach 15 min immer noch macht, dann ist es wohl eher kein Temperaturproblem.

RAM, Festplatte, CPU, Board... alle komponenten gehn nach 15 min meist recht nahe an die temperatur die der kühler dann konstand halten kann. Sprich, wenn er nach 1 Woche abstürzt, aber 15 min im Dauerstress standhaltet, wirds wohl eher kein Temp-Problem sein.

Ebenso kann dann ein RAM + CPU-Problem eher ausgeschlossen werden: Wieso sollte er aućh bei 10 min schwerstarbeit stabil bleiben, wenn Rechenfehler und Datenverlust die probs sind? 

Ganz ganz ganz beliebt sind gleichheiten und perodische abläufe die fehler machen. Sprich, schau im Log nach was so die letzten 20 Zeilen sind, bevor er neugestartet hat (suche einfach nach syslog in der /var/log/messages, da ist meist das ende oder der start des logs - syslog ist der erste eintrag in einer session)

Ganz unheimlich gern sind auch Dinge wie IRQ-Konflikte und Fehler schuld.

ein cat /proc/interrupts gibt Infos darüber, muss aber nicht unbedingt der Auslöser sein.

Eine neue Kernel + kernelconfig beseitigt weiters Probleme.

Auch das ACPI ist oft ein problemmacher.

HTH,

Nighty

----------

## new_nOOb

das temp prob ist es wie gesagt nicht hab da 42C und das ist schon unter last (foldinghome) auch gibst sonst keine probs wenn ich z.b. ein komplettbackup mit dar mache was ja auch schön leistung zieht oder ein emerge system.

hd machen laut smart auch keine probs.

irq/acpi probs. tjoar keine ahnung. sollte denk ich nicht? acpi dürfte ja mit nem aktuellem kernel/board doch keine probs mehr machen? und irq doch auch net. zumindest nicht erst nach 6-7 tagen? im rechner ist eh außer der netzwerkkarte nix weiter drin

----------

## NightDragon

```
q/acpi probs. tjoar keine ahnung. sollte denk ich nicht? acpi dürfte ja mit nem aktuellem kernel/board doch keine probs mehr machen? und irq doch auch net. zumindest nicht erst nach 6-7 tagen? im rechner ist eh außer der netzwerkkarte nix weiter drin
```

wenn man fehler sucht, dann muss man vom abnoramlen ausgehn, denn sind wir uns doch ehrlich: der pc dürfte doch gar nicht abstürtzen, aber wenn er nicht darf, warum tut ers?... verstehst du?

Probleme und Fehler folgen selten einer Logik, die für den absoluten endanwender nachvollziehbar sind. Sie existieren und müssen eben beseitigt werden.

----------

## new_nOOb

ok wie finde ich dann heraus ob acpi oder die irqs probs machen. karte umstecken hat jedenfalls nix gebracht und acpi ausschalten geht bei nem 64bit sys glaub ich garnicht mehr

----------

## _ping

was sagt denn

```
dmesg
```

----------

## new_nOOb

wie sollte mir dmesg nach nem absturz was sagen? bzw was anderes haben als in den logs steht?

----------

## sevo

 *new_nOOb wrote:*   

> das temp prob ist es wie gesagt nicht hab da 42C und das ist schon unter last 

 

Das klingt allerdings schon wieder etwas verdächtig. Ganz so kühl sind unter Last die wenigsten Rechner - das spricht eher für einen dekalibrierten Sensor, der dann auch eine falsche Regelung nach sich ziehen kann, oder, bei Messung am Kühlkörper, einen losen selbigen. Was sagen denn die Temperaturanzeigen im BIOS?

Gruß Sevo

----------

## new_nOOb

der rechner ist offen und läuft nur mit 1.15V wenn man den kühlkörper berührt ist da auch kaum was zu merken

p.s. die temp wird ja in der cpu selbst gemessen

----------

## NightDragon

 *Quote:*   

> p.s. die temp wird ja in der cpu selbst gemessen

 

Abhängig von der CPU Und von der Software, je nachdem welchen Sensor die ausliest.

Es kann ja durchaus sein das die den Sensor am Board am sockel und nicht in der CPU ausliest.

----------

## new_nOOb

also bei nem amd64 sys ist mir das noch nicht untergekommen. und bei diesem ist es auch definitiv nicht der fall. was selbst wenn auch nicht erklären würde warum es ihm erst nach 6-7 tagen zu warm wird  :Wink: 

----------

## tuxthekiller

Wie lange besteht das Problem denn schon?

----------

## new_nOOb

keine ahnung schon ein paar monate würd ich sagen. dadurch das der absturz ja erst nach einiger zeit passiert und ich auch hier mal da neustarte ist das schwer zu sagen

----------

## sevo

Wie gesagt: Erst einmal BIOS-Temperaturen nach Betrieb unter Last prüfen! 

Weitere Checkpunkte: 

1. Ist der Rechner noch Remote ansprechbar (d.h. ist vielleicht nur die Grafik abgestürzt)?

2. Gibt es verdächtige Log-Einträge (IRQ-Warnungen, sich selbst reinitialisierende Hardware, abstürzende Module)?

3. Netzteil ok (ggf. mit cron und lm_sensors ein Protokoll erstellen, oder für einige Zeit ein Multimeter mit Minimal-Maximal-Logging an jeder Spannung anschließen)? Und schau mal, ob der Rechner durch Stromschwankungen (Staubsauger und andere Großverbraucher) abzuschießen ist.

4. Da du den Rechner untertaktest: Hast du es vielleicht übertrieben? Vielleicht mal eine Spur schneller laufen lassen... 

Wenn garnichts hilft, bleibt nur, eine Konsole direkt anzuschließen und das Logging hochzudrehen oder einen Debug-Kernel zu installieren, um aussagekräftige letzte Meldungen zu erhalten!

Gruß Sevo

----------

## manuels

Moin,

stützt denn auch windows oder knoppix nach einer weile auf dem rechner ab?

Tschö mit ö

Manuel

----------

## new_nOOb

rechner ist remote nicht erreichbar. logs enthalten keine verdächtigen einträge, das es keine temp,cpu probs sein können nehme ich daher an das ein ausführliches emerge system keine probleme macht. und windows extra raufhauen und 8 tage däumchen drehn zu lassen find ich quatsch. naja seh schon gibt keine lösung  :Wink:  ;(

----------

## new_nOOb

ah diesmal war der rechner so nett und hat mit ne meldung gegeben:

kernel panic not syncing : Aiee killing interrupt handler

und in der log taucht davor sehr häufig das auf was scheinbar am ende auf den prozess mlnet hindeutet?

Dec 26 03:19:44 snake <ffffffff801579a1>{cache_alloc_refill+577} <ffffffff80157372>{__kmalloc+98}

Dec 26 03:19:44 snake <ffffffff80222671>{kmem_alloc+97} <ffffffff802051b1>{xfs_iread_extents+161}

Dec 26 03:19:44 snake <ffffffff801e33f8>{xfs_bmapi+888} <ffffffff80145d40>{autoremove_wake_function+0}

Dec 26 03:19:44 snake <ffffffff80302458>{get_active_stripe+840} <ffffffff80303c2b>{handle_stripe+3627}

Dec 26 03:19:44 snake <ffffffff803041e5>{make_request+1029} <ffffffff80145d40>{autoremove_wake_function+0}

Dec 26 03:19:44 snake <ffffffff80145d40>{autoremove_wake_function+0} <ffffffff802a618b>{generic_make_request+539}

Dec 26 03:19:44 snake <ffffffff80145d40>{autoremove_wake_function+0} <ffffffff80145d40>{autoremove_wake_function+0}

Dec 26 03:19:44 snake <ffffffff801732fe>{bio_alloc_bioset+382} <ffffffff80209006>{xfs_iomap+470}

Dec 26 03:19:44 snake <ffffffff80223a48>{__linvfs_get_block+136} <ffffffff80223bbb>{linvfs_get_block+27}

Dec 26 03:19:44 snake <ffffffff8018ffa3>{do_mpage_readpage+211} <ffffffff80223ba0>{linvfs_get_block+0}

Dec 26 03:19:44 snake <ffffffff8011cc7c>{dma_map_sg+636} <ffffffff802dbecc>{ata_std_dev_select+44}

Dec 26 03:19:44 snake <ffffffff80238133>{radix_tree_node_alloc+19} <ffffffff80238333>{radix_tree_insert+307}

Dec 26 03:19:44 snake <ffffffff80190332>{mpage_readpages+162} <ffffffff80223ba0>{linvfs_get_block+0}

Dec 26 03:19:44 snake <ffffffff80154733>{__alloc_pages+243} <ffffffff80156a63>{__do_page_cache_readahead+291}

Dec 26 03:19:44 snake <ffffffff8014fe50>{sync_page+0} <ffffffff801e7f19>{xfs_bmbt_get_state+9}

Dec 26 03:19:44 snake <ffffffff801e1ccf>{xfs_bmap_do_search_extents+591} <ffffffff80156d1d>{blockable_page_cache_readahead+109}

Dec 26 03:19:44 snake <ffffffff80156fc0>{page_cache_readahead+384} <ffffffff801509ad>{do_generic_mapping_read+381}

Dec 26 03:19:44 snake <ffffffff80150db0>{file_read_actor+0} <ffffffff80152d18>{__generic_file_aio_read+424}

Dec 26 03:19:44 snake <ffffffff8022984c>{xfs_read+540} <ffffffff80226214>{linvfs_aio_read+100}

Dec 26 03:19:44 snake <ffffffff8016e903>{do_sync_read+211} <ffffffff8017d1a9>{may_open+105}

Dec 26 03:19:44 snake <ffffffff8017d62e>{open_namei+734} <ffffffff8016de74>{__dentry_open+244}

Dec 26 03:19:44 snake <ffffffff80145d40>{autoremove_wake_function+0   <ffffffff80302458>{get_active_stripe+840} <ffffffff80303c2b>{handle_stripe+3627}

Dec 26 03:19:44 snake <ffffffff803041e5>{make_request+1029} <ffffffff80145d40>{autoremove_wake_function+0}

Dec 26 03:19:44 snake <ffffffff80145d40>{autoremove_wake_function+0} <ffffffff802a618b>{generic_make_request+539}

Dec 26 03:19:44 snake <ffffffff80145d40>{autoremove_wake_function+0} <ffffffff80145d40>{autoremove_wake_function+0}

Dec 26 03:19:44 snake <ffffffff801732fe>{bio_alloc_bioset+382} <ffffffff80209006>{xfs_iomap+470}

Dec 26 03:19:44 snake <ffffffff80223a48>{__linvfs_get_block+136} <ffffffff80223bbb>{linvfs_get_block+27}

Dec 26 03:19:44 snake <ffffffff8018ffa3>{do_mpage_readpage+211} <ffffffff80223ba0>{linvfs_get_block+0}

Dec 26 03:19:44 snake <ffffffff8011cc7c>{dma_map_sg+636} <ffffffff802dbecc>{ata_std_dev_select+44}

Dec 26 03:19:44 snake <ffffffff80238133>{radix_tree_node_alloc+19} <ffffffff80238333>{radix_tree_insert+307}

Dec 26 03:19:44 snake <ffffffff80190332>{mpage_readpages+162} <ffffffff80223ba0>{linvfs_get_block+0}

Dec 26 03:19:44 snake <ffffffff80154733>{__alloc_pages+243} <ffffffff80156a63>{__do_page_cache_readahead+291}

Dec 26 03:19:44 snake <ffffffff8014fe50>{sync_page+0} <ffffffff801e7f19>{xfs_bmbt_get_state+9}

Dec 26 03:19:44 snake <ffffffff801e1ccf>{xfs_bmap_do_search_extents+591} <ffffffff80156d1d>{blockable_page_cache_readahead+109}

Dec 26 03:19:44 snake <ffffffff80156fc0>{page_cache_readahead+384} <ffffffff801509ad>{do_generic_mapping_read+381}

Dec 26 03:19:44 snake <ffffffff80150db0>{file_read_actor+0} <ffffffff80152d18>{__generic_file_aio_read+424}

Dec 26 03:19:44 snake <ffffffff8022984c>{xfs_read+540} <ffffffff80226214>{linvfs_aio_read+100}

Dec 26 03:19:44 snake <ffffffff8016e903>{do_sync_read+211} <ffffffff8017d1a9>{may_open+105}

Dec 26 03:19:44 snake <ffffffff8017d62e>{open_namei+734} <ffffffff8016de74>{__dentry_open+244}

Dec 26 03:19:44 snake <ffffffff80145d40>{autoremove_wake_function+0} <ffffffff8016ea01>{vfs_read+193}

Dec 26 03:19:44 snake <ffffffff8016ed13>{sys_read+83} <ffffffff8010e8a6>{system_call+126}

Dec 26 03:19:44 snake

Dec 26 03:19:44 snake scheduling while atomic: mlnet/0xffff8100/15036

----------

## UTgamer

Solche Fehlermeldungen bringt auch meine alte Athlon-XP Hardware hervor. Bei mir (ähnliche Fehler) wird der fehlerhafte Mainboardchipsatz (alter VIA, einmal und nie wieder) nur mangelhaft unterstützt.

Du kannst bei (fast) allen Athlon64 Boards die Übertaktung im BIOS regeln. Bei meinem BIOS war die Übertaktung auch standardmäßig ab Werk eingeschaltet, dies hat wohl mit dem Athlon-FX 57/59 zu tuen, bei welchem ja übertakten erwünscht ist.

Schalte mal alles auf "conservative" anstatt auf "governor" oder wie die es bei dir nennen  :Wink: 

War mal so ein Tip von einem MSI - nVidia AMD64 Hauptplatinenbesitzers.

Weil der Kernel muß auf die Taktrate reagieren, die das BIOS ihm vorgibt und standartmäßig ist der Kernel auf die lahmen Pentium4 64bit Optionen voreingestellt.

Vor Kernel 2.6.14.xx hatte mein Athlon64 auch Probleme mit dem wechselnden CPU Takt.  :Wink: 

Mal sehen ob es hilft, ansonsten hast du dich mal nach einem BIOS-Update umgesehen?

 *NightDragon wrote:*   

> Vorgehnsweise
> 
> ...
> 
> g) HD-Problem? (siehe smartctrl)
> ...

 Die smartmontools habe ich jetzt auch mal installiert und direkt wieder deinstalliert, weil sie mit SATA garnicht erst starten, aber trotzdem danke für den Tip, werde es mal auf dem 32Bit Rechner mit IDE probieren  :Wink: 

----------

## new_nOOb

hätte ich wenigstens via.. hab nen ali/uli chipsatz und da kann ich gut und gerne glauben das der nicht so gut unterstützt wird. die dynamische taktung(und unter/übertaktung) ist bei mir eh aus

zum thema smart und sata... mit den mm-sources geht auch smart mit sata laufwerken (mehr oder weniger  :Wink: 

----------

## Robmaster

welche Serverdienste laufen auf deinem Rechner

Probier dochmal alternatieven also z.B. anstelle von Proftpd mal vsftpd oder anstelle des apaches mal einen anderen httpd falls jetzt alles gehen sollte,  liegt es wohl an einer config.

----------

## UTgamer

Ich würde mal Ali/Uli/(jetzt Asus?) kontaktieren (Asus unterstützt offiziell kein Linux) oder nach einem BIOS-Update nachschauen. Weil du im Kernel anders als bei ULI nicht gleichzeitig AGP und PCIe aktivieren kannst. Vielleicht hat der Chipsatz auch einen Bug der erst gefunden werden muß, oder du optimierst deinen Kernel auf die allernötigsten Treiberunterstützungen, und schaltest zum testen nach und nach einen Treiber hinzu. Ich würde jetzt erstmal sogar auf X, USB, ... verzichten sogar bis alle Module bis auf genau deine Netzwerkkarte und deinem Festplattenkontroller alles abschalten, dann den Kernel gut beschäftigen mit z.B. riesen emerge aufgaben. So ist der Fehler schneller einzugrenzen.

Evtl. ist auch das Netzteil nicht ganz unschuldig.

Es muß für die neuen Athlon64 extra optimiert sein.

----------

## new_nOOb

also ali/uli oder wer auch immer wurde von nvidia aufgekauft nicht asus  :Wink:  (muste mal kurz klugscheißern;)

so ne luxussachen wie usb und x sind eh nicht an pci e hat das board nichtmal.

es handelt sich um das board

http://www.asrock.com/product/939A8X-M.htm

wie ich so beim rumsuchen herausgefunden habe bin ich nicht ganz der einzige mit diesem problem

(nicht sehr hilfreich : http://archives.free.net.ph/message/20051018.163136.bbc844da.en.html#ubuntu-kernel-team ) nur hätte ich ne lösung wäre ich der einzige.

nt ist auch ein recht neues seasonic was ja auch recht gut ist. optimierter kernel ist insoweit auch schon da das halt nur die ide/sata schnittstellen und netzwerk drin ist und ein rechner ohne platte bzw netzwerkanschluß bringt dann auch wenig  :Wink:  also wird schon ein bug im chipsatz bzw in treiber sein... also hoffen das er irgendwann irgendwie gelöst wird  :Wink: 

----------

## new_nOOb

so... ein neuer Kernel hat anscheint Abhilfe geschafft hab jetzt einen 2.6.15mm Kernel drauf der seit 7 tagen durchläuft und das auch hoffentlich noch weiter macht. seit dem ist mir aufgefallen das ab und zu in der log ein "Machine check events logged" auftaucht.

netter weise gibt auch ein Programm das diese Sachen anzeigt mcelog . nur was es anzeigt beunruhigt auch wieder ein wenig.

die Ausgabe ist folgendes:

MCE 0

CPU 0 2 bus unit TSC 27d2a27d35fe

ADDR 14341680

  L2 cache ECC error

  Bus or cache array error

       bit46 = corrected ecc error

  memory/cache error 'generic read mem transaction, generic transaction, level 2     

was ja erstmal heißt das er es korrigiert hat aber da der Eintrag oft vorkommt frage ich mich auch ob dieser Fehler überhaupt normal ist 

und ob das der Fehler für die abstürze sein könnte

----------

