# [gelöst] Neues System instabil sobald KDE/Plasma gestartet

## trbl

Hallo,

ich habe mir (schon im Januar) ein neues System gegönnt:

Board: MSI Gaming Pro Carbon

CPU: Ryzen 7 1800X

RAM: 2x Crucial DIMM 16 GB DDR4-2400

GraKa: SAPPHIRE Radeon RX 550 PULSE 4GD5

HD1: Samsung 960 Pro M.2 (1TB)

HD2: samsung 960 Evo M.2 (500GB)

Am Anfang war das System instabil wegen des SegFault-Bug. AMD hat die CPU ohne Probleme getauscht. Seither läuft das System auf der Konsole stabil.

Starte ich nun KDE/Plasma, stürzt das System nach einer zufälligen Zeit ab, egal ob ich etwas dran mache oder nur der Sperrbildschirm angezeigt wird.

Nachdem ich nun eine Zeitlang im Nebel gestochert habe, bin ich drauf gekommen, dass die Graka sich mit der PCI-ID 67FF beim System meldet.

lspci -nv (Ausschnitt)

```
24:00.0 0300: 1002:67ff (rev ff) (prog-if 00 [VGA controller])

        Subsystem: 1da2:e367

```

Damit wird sie als RX 560 erkannt.

lspci -v (Ausschnitt)

```
24:00.0 VGA compatible controller: Advanced Micro Devices, Inc. [AMD/ATI] Baffin [Radeon RX 560] (rev ff) (prog-if 00 [VGA controller])

        Subsystem: Sapphire Technology Limited Baffin [Radeon RX 560]

```

Der Kernel scheint die gleiche Erkennung zu haben, denn der besteht darauf die Polaris11-Treiber zu laden.

Xorg erkennt die graka korrekt.

Auszug aus Xorg.0.log:

```
[176281.170] (--) AMDGPU(0): Chipset: "Radeon RX 550 Series" (ChipID = 0x67ff)

[176281.170] (II) Loading sub module "fb"

```

Nach dem Start von KDE/Plasma arbeitet Mesa mit dem Durcheinander.

Auszug aus glxinfo:

```
Extended renderer info (GLX_MESA_query_renderer):

    Vendor: X.Org (0x1002)

    Device: Radeon RX 550 Series (AMD POLARIS11 / DRM 3.23.0 / 4.15.7-gentoo-r1, LLVM 5.0.1) (0x67ff)

    Version: 17.2.8

    Accelerated: yes

    Video memory: 4063MB

```

Meiner Ansicht nach könnte das durchaus zu einer Instabilität führen, wie seht ihr das?

Würde ich jetzt eine RX560 kaufen, müsste sie theoretisch ohne Änderung des Setups funktionieren.

Derzeit liebäugle ich mit dieser Graka:

SAPPHIRE Radeon RX 560 PULSE (11267-18-20G)

Das ist die 'Sparvariante' mit nur 896 Streamprozessoren, was bei mir locker reichen sollte, da ich keine aufwändigen 3D-Spiele spiele.

Hat schon jemand Erfahrungen mit die Graka (Chip) und möchte diese mit mir teilen?

Vielen Dank für eure Unterstützung.

Gruß trblLast edited by trbl on Mon Mar 19, 2018 9:15 pm; edited 1 time in total

----------

## schmidicom

Hast du eventuell den x11-base/xorg-server in Version 1.19.99.901 am laufen?

Bei mir sorgte das von ihm selbst bereitgestellte modesetting-Modul nämlich dafür das die Plasmashell spätestens nach 5 Minuten ohne jede Fehlermeldung im Log einfach einfrierte. Und wegen dem was diese Version mit XFCE anstellt wurde sie erst gestern hard maskiert.

https://bugs.gentoo.org/650228

----------

## trbl

Danke für den Tip, aber das ist es leider nicht.

In beiden Testumgebungen(Gentoo/Kubuntu-17.10 Live) läuft xorg-server 1.19.5. 

Bei beiden habe ich das Problem das Plasma nach unbestimmter Zeit crashed.

Bei Kubuntu wird das gleiche Durcheinander erkannt, nur die einzelenen Komponenten sind etwas älter.

Auszug aus Kubuntu glxinfo:

```

Extended renderer info (GLX_MESA_query_renderer):

    Vendor: X.Org (0x1002)

    Device: Radeon RX 550 Series (AMD POLARIS11 / DRM 3.18.0 / 4.13.0-21-generic, LLVM 5.0.0) (0x67ff)

```

Bei Kubuntu funktioniert der Timeout für den Lock-Screen, bei Gentoo noch nicht. Aber dieses Problem gehe ich an, wenn die Kiste stabil läuft.

Gruß

trbl

----------

## firefly

Die erkennung ist nicht kaputt.

Unter der PCIID 1002:67ff wird eine RX550 und eine RX560 gelistet.

https://pci-ids.ucw.cz/read/PC/1002/67ff

https://github.com/dylanaraps/neofetch/issues/915

Das ist nur ein Darstellungsproblem von lspci

AMDGPU (kernel/xf86-video) erkennen das richtig.

In der lscpi ausgabe von dir steht (rev ff) und die rev 0xff ist eine RX550.

Mit der gleichen PCIID 1002:67ff gibt es auch eine RX560 (halt aber rev 0xcf)

----------

## Josef.95

 *trbl wrote:*   

> Starte ich nun KDE/Plasma, stürzt das System nach einer zufälligen Zeit ab, egal ob ich etwas dran mache oder nur der Sperrbildschirm angezeigt wird.

 

Hm, nur eine vage Vermutung - eventuell ist es auch der "idle soft lockup Bug"

Falls noch nicht getestet - schau doch mal ob C-state disablen (oder reduzieren) hilft.

----------

## trbl

Hallo,

@firefly:

Wenn der Erkennung im Kernel funktioniert, warum lädt er dann die Polaris11-Firmware-Blobs bei einer Polaris12-Karte?

@Josef.95:

Im Bios habe ich jetzt mal zum Testen 'Core C6 State'=Disabled, Cool'n'Quiet ist weiterhin Enabled.

Vielen Dank für die Tips!

Gruß

trbl

----------

## michael_w

Hallo,

ich verweise einfach mal auf diesen Thread: https://forums.gentoo.org/viewtopic-t-1064482-highlight-.html

----------

## firefly

 *trbl wrote:*   

> 
> 
> @firefly:
> 
> Wenn der Erkennung im Kernel funktioniert, warum lädt er dann die Polaris11-Firmware-Blobs bei einer Polaris12-Karte?

 

Weil deine Karte eine Polaris11 Karte ist?

----------

## trbl

@firefly: Wenn ich mich nicht täusche ist meine SAPPHIRE PULSE Radeon RX 550 4GD5 (11268-15-20G) eine Polaris 12.

Mit dem instabilen verhalten scheint die Fehlerkennung aber nichts zu tun zu haben.

@Josef.95, michael_w: Mit deaktiviertem C6 State ist das Kubuntu den ganzen Tag gelaufen und war auch heute Abend noch ansprechbar.

Jetzt habe ich C6 State wieder aktiviert, im Gentoo-Kernel RCU_NOCB aktiviert und den Kernelparameter 'rcu_nocbs=0-15' beim booten mitgegeben. Das Gentoo ist jetzt bis ins Plasma hochgefahren und der Lockscreen ist aktiviert. (Für Ubuntu gibt es eine bebilderte Anleitung wie man RCU_NOCB im Kernel aktiviert.)

Jetzt warte ich mal ab.

Die Kommentare des Bugs 'Random Soft Lockup' auf kernel.org lesen sich furchtbar. Noch bin ich nicht hinten angekommen, mal sehen was da noch so kommt.  :Rolling Eyes: 

Vielen Dank

Gruß

Andy

----------

## trbl

@firefly: Es gibt hinweise dass du Recht hast und meine Karte tatsächlich eine Polaris 21 (11) ist: hardware inside, linustechtips und TechPowerUp

Bei SAPPHIRE habe ich noch nichts gefunden.

Danke fürs misstrauisch machen.

Gruß

trbl

----------

## trbl

Das System läuft jetzt seit 6 Tagen stabil.

Geholfen hat das Aktivieren von RCU_NOCB und der Kernelparameter 'rcu_nocbs=0-15'. In 'Random Soft Lockup' wird die Vorgehensweise nicht als Lösung gehandelt, aber für mich ist das Problem (erstmal?)  gelöst.

Vielen Dank für die Hinweise und Tips.

Gruß

trbl

----------

