# Странности работы сервера после свежей установки

## tequila

Добрый день. 

Собственно собрана система для использования в кач-ве рутера для офиса из 4-х человек.

amethyst ~ # uname -a

Linux amethyst 2.6.23-gentoo-r3 #3 SMP Sat Jan 12 15:19:54 MSK 2008 i686 Intel(R) Celeron(R) CPU 1.70GHz GenuineIntel GNU/Linux

Диск разбит на три раздела - бутовый ext2, рутовый ext3, и swap. 

amethyst ~ # df

Filesystem           1K-blocks      Used Available Use% Mounted on

/dev/hda3            113900264   1992876 106121580   2% /

udev                    516576      2624    513952   1% /dev

shm                     516576         0    516576   0% /dev/shm

Сразу после установки сделано

emerge --sync

emerge portage

При работе в локальной сетке и доступе к машине по ssh сразу после перезагрузки все замечательно.

Нормально отрабатывают ps, tcpdump, top, vi и тп.

После суток работы начинаются интересные вещи. 

df, ps отрабатывают и выводят на терминал информацию

top, tcpdump, vi виснут либо просто (по ctrl+c можно прервать) либо абсолютно, консоль виснет, хотя на энтер реагирует.

зайти по sftp на эту машину не удается.

emerge не работает.

соответственно в процессах появляются записи типа 

 8268 ?        D      0:00 sh -c (cd /usr/share/man && (echo ".pl 1100i"; /bin/bzip2 -c -d '/usr/share/man/man1/ps.1.bz2'; echo ".\\\""; echo ".pl \n(nlu+10")

 8269 ?        D      0:00 sh -c (cd /usr/share/man && (echo ".pl 1100i"; /bin/bzip2 -c -d '/usr/share/man/man1/ps.1.bz2'; echo ".\\\""; echo ".pl \n(nlu+10")

 8271 ?        D      0:00 -bash

 8273 ?        D      0:00 /sbin/reboot

 8289 ?        D      0:00 vi /etc/passwd

 8310 ?        D      0:00 vi /var/log/faillog

 8320 ?        D      0:00 cat /var/log/faillog

 8336 ?        D      0:00 -bash

 8356 ?        D      0:00 -bash

 8365 ?        D+    0:00 vi /etc/ssh/sshd_config

в netstat висят подключения в состояниях FIN_WAIT и FIN_WAIT2

кроме того системный таймер не работает, вот уже пол-суток на нем время 11:38, хотя команда date отрабатывает нормально без тормозов

место на диске есть, память 1 гб.

перегрузить машину не получается, реакции на команды reboot, init 6 нет, хотя в лог попала одна строка типа "Switching to runlevel 6" и все

машина удаленная, поэтому пока только наблюдаю со стороны.

При этом по ssh пускает, правила фильтрации и маршрутизации, нат  - все работает.

Была мысль что глючил диск или память, они соответственно заменены с полной переустановкой системы. 

У кого какие мысли? В какую сторону копать?

Железо - глючит мать, перегрев и тп? Мать достаточно древняя, года 2004, к сожалению настроек биоса в плане питания не могу сказать точно. Почему то есть подозрение что она как бы засыпает.

Софт - ядро собралось без нареканий, проблем с загрузкой нет, это проверено много раз при начальной настройке.

Сейчас запущено следующее

amethyst ~ # ps ax

  PID TTY      STAT   TIME COMMAND

    1 ?        Ss     0:01 init [6]

    2 ?        S<     0:00 [kthreadd]

    3 ?        S<     0:00 [migration/0]

    4 ?        S<     0:00 [ksoftirqd/0]

    5 ?        S<     0:00 [watchdog/0]

    6 ?        S<     0:00 [events/0]

    7 ?        S<     0:00 [khelper]

   83 ?        S<     0:00 [kblockd/0]

   86 ?        S<     0:00 [kacpid]

   87 ?        S<     0:00 [kacpi_notify]

  175 ?        S<     0:00 [ata/0]

  176 ?        S<     0:00 [ata_aux]

  177 ?        S<     0:00 [ksuspend_usbd]

  182 ?        S<     0:00 [khubd]

  185 ?        S<     0:00 [kseriod]

  217 ?        S      0:00 [pdflush]

  218 ?        S      0:00 [pdflush]

  219 ?        S<     0:00 [kswapd0]

  270 ?        S<     0:00 [aio/0]

  969 ?        S<     0:00 [khpsbpkt]

 1016 ?        S<     0:00 [kpsmoused]

 1021 ?        S<     0:00 [kondemand/0]

 1029 ?        S<     0:00 [rpciod/0]

 1033 ?        S<     0:00 [kjournald]

 1127 ?        S<s    0:00 /sbin/udevd --daemon

 4662 ?        Ss     0:00 /usr/sbin/syslog-ng

 5610 ?        Ss     0:00 /usr/sbin/sshd

 5669 ?        Ss     0:00 /usr/sbin/cron

 8268 ?        D      0:00 sh -c (cd /usr/share/man && (echo ".pl 1100i"; /bin/bzip2 -c -d '/usr/share/man/man1/ps.1.bz2'; echo ".\\\""; echo ".pl \n(nlu+10")

 8269 ?        D      0:00 sh -c (cd /usr/share/man && (echo ".pl 1100i"; /bin/bzip2 -c -d '/usr/share/man/man1/ps.1.bz2'; echo ".\\\""; echo ".pl \n(nlu+10")

 8271 ?        D      0:00 -bash

 8273 ?        D      0:00 /sbin/reboot

 8289 ?        D      0:00 vi /etc/passwd

 8310 ?        D      0:00 vi /var/log/faillog

 8320 ?        D      0:00 cat /var/log/faillog

 8336 ?        D      0:00 -bash

 8356 ?        D      0:00 -bash

 8365 ?        D      0:00 vi /etc/ssh/sshd_config

 8367 ?        Ss     0:00 sshd: root@pts/8

 8370 pts/8    Ss     0:00 -bash

 8401 ?        Ss     0:00 /bin/bash /sbin/rc reboot

 8665 ?        S      0:00 /bin/bash /sbin/runscript.sh /etc/init.d/local stop

 8690 ?        D      0:00 /bin/bash /sbin/runscript.sh /etc/init.d/local stop

 8717 ?        Ds     0:00 bash -c /usr/lib/misc/sftp-server

 8730 pts/8    D+     0:00 -bash

 8731 ?        Ss     0:00 sshd: root@pts/9

 8734 pts/9    Ss     0:00 -bash

 8750 pts/9    D+     0:00 tcpdump -i eth3

 8751 ?        Rs     0:00 sshd: root@pts/10

 8754 pts/10   Rs     0:00 -bash

 8763 pts/10   R+     0:00 ps ax

----------

## ba

smartctl -a /dev/hda

----------

## user11

Думаю так:

1. По причинам: почитать логи за эти сутки (/var/log/messages?), попытаться найти момент, когда это началось. Особенно интереснен dmesg.

2. По симптомам: посмотреть 'ps afx', а не 'ps ax', в котором (мне) ничего не понятно. Меня, например, удивил процесс 'cat /var/log/faillog' - неужели cat тоже виснет? Также интересно посмотреть через strace, на каком системном вызове происходт зависание (конечно, если strace есть...). Ещё неплохо бы попробовать w и uptime (они хотя бы покажут load averages).

3. По исправлению: если система справляется со своими основными обязанностями, то подождать очной встречи с ней. Если не справляется - покопать в сторону man reboot / reboot -f / reboot -fn.

На будущее стоит иметь наготове strace, и, может, даже вписать в крон какое-нибудь задание типа ps afx >/root/ps-`date +%Y-%m-%d`, скажем, раз в два часа - будет хотя бы видно, когда оно в первый раз не сработало. имхо.

----------

## tequila

 *ba wrote:*   

> smartctl -a /dev/hda

 

это можно будет узнать только завтра, когда доберусь до машины и перегружу.

пакет не установлен, emerge не работает

----------

## tequila

 *user11 wrote:*   

> Думаю так:
> 
> 1. По причинам: почитать логи за эти сутки (/var/log/messages?), попытаться найти момент, когда это началось. Особенно интереснен dmesg.
> 
> 2. По симптомам: посмотреть 'ps afx', а не 'ps ax', в котором (мне) ничего не понятно. Меня, например, удивил процесс 'cat /var/log/faillog' - неужели cat тоже виснет? Также интересно посмотреть через strace, на каком системном вызове происходт зависание (конечно, если strace есть...). Ещё неплохо бы попробовать w и uptime (они хотя бы покажут load averages).
> ...

 

amethyst ~ # ps afx

  PID TTY      STAT   TIME COMMAND

    2 ?        S<     0:00 [kthreadd]

    3 ?        S<     0:00  \_ [migration/0]

    4 ?        S<     0:00  \_ [ksoftirqd/0]

    5 ?        S<     0:00  \_ [watchdog/0]

    6 ?        S<     0:00  \_ [events/0]

    7 ?        S<     0:00  \_ [khelper]

   83 ?        S<     0:00  \_ [kblockd/0]

   86 ?        S<     0:00  \_ [kacpid]

   87 ?        S<     0:00  \_ [kacpi_notify]

  175 ?        S<     0:00  \_ [ata/0]

  176 ?        S<     0:00  \_ [ata_aux]

  177 ?        S<     0:00  \_ [ksuspend_usbd]

  182 ?        S<     0:00  \_ [khubd]

  185 ?        S<     0:00  \_ [kseriod]

  217 ?        S      0:00  \_ [pdflush]

  218 ?        S      0:00  \_ [pdflush]

  219 ?        S<     0:00  \_ [kswapd0]

  270 ?        S<     0:00  \_ [aio/0]

  969 ?        S<     0:00  \_ [khpsbpkt]

 1016 ?        S<     0:00  \_ [kpsmoused]

 1021 ?        S<     0:00  \_ [kondemand/0]

 1029 ?        S<     0:00  \_ [rpciod/0]

 1033 ?        S<     0:00  \_ [kjournald]

    1 ?        Ss     0:01 init [6]

 1127 ?        S<s    0:00 /sbin/udevd --daemon

 4662 ?        Ss     0:00 /usr/sbin/syslog-ng

 5610 ?        Ss     0:00 /usr/sbin/sshd

 8751 ?        Ss     0:00  \_ sshd: root@pts/10

 8754 pts/10   Ds+    0:00  |   \_ -bash

 8731 ?        Ss     0:00  \_ sshd: root@pts/9

 8734 pts/9    Ss     0:00  |   \_ -bash

 8750 pts/9    D+     0:00  |       \_ tcpdump -i eth3

 8367 ?        Ss     0:00  \_ sshd: root@pts/8

 8370 pts/8    Ss     0:00  |   \_ -bash

 8730 pts/8    D+     0:00  |       \_ -bash

 8772 ?        Ss     0:00  \_ sshd: root [priv]

 8774 ?        D      0:00  |   \_ sshd: root [pam]

 8773 ?        S      0:00  |   \_ sshd: root [net]

 8775 ?        Ss     0:00  \_ sshd: root@pts/11

 8778 pts/11   Ss+    0:00  |   \_ -bash

 8783 ?        Ss     0:00  \_ sshd: root@pts/12

 8786 pts/12   Ss     0:00      \_ -bash

 8792 pts/12   R+     0:00          \_ ps afx

 5669 ?        Ss     0:00 /usr/sbin/cron

 8336 ?        D      0:00 -bash

 8717 ?        Ds     0:00 bash -c /usr/lib/misc/sftp-server

 8268 ?        D      0:00 sh -c (cd /usr/share/man && (echo ".pl 1100i"; /bin/bzip2 -c -d '/usr/share/man/man1/ps.1.bz2'; echo ".\\\""; echo ".pl \n(nlu+10")

 8269 ?        D      0:00 sh -c (cd /usr/share/man && (echo ".pl 1100i"; /bin/bzip2 -c -d '/usr/share/man/man1/ps.1.bz2'; echo ".\\\""; echo ".pl \n(nlu+10")

 8271 ?        D      0:00 -bash

 8289 ?        D      0:00 vi /etc/passwd

 8273 ?        D      0:00 /sbin/reboot

 8365 ?        D      0:00 vi /etc/ssh/sshd_config

 8356 ?        D      0:00 -bash

 8320 ?        D      0:00 cat /var/log/faillog

 8310 ?        D      0:00 vi /var/log/faillog

 8401 ?        Ss     0:00 /bin/bash /sbin/rc reboot

 8665 ?        S      0:00  \_ /bin/bash /sbin/runscript.sh /etc/init.d/local stop

 8690 ?        D      0:00      \_ /bin/bash /sbin/runscript.sh /etc/init.d/local stop

по логам следующее - за сутки с момента запуска в логах только отработка крона и незначительные записи от Iptables (именно незначительные)

при этом время в логе идет нормально до момента логина в систему сегодня днем. Псле этого съезжает время, идет строка ---MARK--- (в это время была проверена дата и внесено изменение в нее date  --set="01/13/2008 11:3 :Cool: 

и никаких записей более-менее интересных нет

dmesg

Linux version 2.6.23-gentoo-r3 (root@amethyst) (gcc version 4.1.1 (Gentoo 4.1.1-r3)) #3 SMP Sat Jan 12 15:19:54 MSK 2008

BIOS-provided physical RAM map:

BIOS-e820: 0000000000000000 - 000000000009fc00 (usable)

BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)

BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)

BIOS-e820: 0000000000100000 - 000000003fff0000 (usable)

BIOS-e820: 000000003fff0000 - 000000003fff3000 (ACPI NVS)

BIOS-e820: 000000003fff3000 - 0000000040000000 (ACPI data)

BIOS-e820: 00000000fec00000 - 0000000100000000 (reserved)

127MB HIGHMEM available.

896MB LOWMEM available.

found SMP MP-table at 000f4b20

Entering add_active_range(0, 0, 262128) 0 entries of 256 used

Zone PFN ranges:

DMA             0 ->     4096

Normal       4096 ->   229376

HighMem    229376 ->   262128

Movable zone start PFN for each node

early_node_map[1] active PFN ranges

0:        0 ->   262128

On node 0 totalpages: 262128

DMA zone: 32 pages used for memmap

DMA zone: 0 pages reserved

DMA zone: 4064 pages, LIFO batch:0

Normal zone: 1760 pages used for memmap

Normal zone: 223520 pages, LIFO batch:31

HighMem zone: 255 pages used for memmap

HighMem zone: 32497 pages, LIFO batch:7

Movable zone: 0 pages used for memmap

Using APIC driver default

ACPI: RSDP 000F6610, 0014 (r0 GBT   )

ACPI: RSDT 3FFF3000, 002C (r1 GBT    AWRDACPI 42302E31 AWRD  1010101)

ACPI: FACP 3FFF3040, 0074 (r1 GBT    AWRDACPI 42302E31 AWRD  1010101)

ACPI: DSDT 3FFF30C0, 3644 (r1 GBT    AWRDACPI     1000 MSFT  100000C)

ACPI: FACS 3FFF0000, 0040

ACPI: APIC 3FFF6740, 0068 (r1 GBT    AWRDACPI 42302E31 AWRD  1010101)

ACPI: PM-Timer IO Port: 0x4008

ACPI: Local APIC address 0xfee00000

ACPI: LAPIC (acpi_id[0x00] lapic_id[0x00] enabled)

Processor #0 15:1 APIC version 20

ACPI: LAPIC (acpi_id[0x01] lapic_id[0x01] disabled)

ACPI: LAPIC_NMI (acpi_id[0x00] dfl dfl lint[0x1])

ACPI: LAPIC_NMI (acpi_id[0x01] dfl dfl lint[0x1])

ACPI: IOAPIC (id[0x02] address[0xfec00000] gsi_base[0])

IOAPIC[0]: apic_id 2, version 32, address 0xfec00000, GSI 0-23

ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)

ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)

ACPI: IRQ0 used by override.

ACPI: IRQ2 used by override.

ACPI: IRQ9 used by override.

Enabling APIC mode:  Flat.  Using 1 I/O APICs

Using ACPI (MADT) for SMP configuration information

Allocating PCI resources starting at 50000000 (gap: 40000000:bec00000)

Built 1 zonelists in Zone order.  Total pages: 260081

Kernel command line: root=/dev/hda3

mapped APIC to ffffb000 (fee00000)

mapped IOAPIC to ffffa000 (fec00000)

Enabling fast FPU save and restore... done.

Enabling unmasked SIMD FPU exception support... done.

Initializing CPU#0

PID hash table entries: 4096 (order: 12, 16384 bytes)

Detected 1734.343 MHz processor.

Console: colour VGA+ 80x25

console [tty0] enabled

Dentry cache hash table entries: 131072 (order: 7, 524288 bytes)

Inode-cache hash table entries: 65536 (order: 6, 262144 bytes)

Memory: 1032656k/1048512k available (3348k kernel code, 15252k reserved, 1789k data, 264k init, 131008k highmem)

virtual kernel memory layout:

fixmap  : 0xffe14000 - 0xfffff000   (1964 kB)

pkmap   : 0xff800000 - 0xffc00000   (4096 kB)

vmalloc : 0xf8800000 - 0xff7fe000   ( 111 MB)

lowmem  : 0xc0000000 - 0xf8000000   ( 896 MB)

.init : 0xc060d000 - 0xc064f000   ( 264 kB)

.data : 0xc044513b - 0xc060488c   (1789 kB)

.text : 0xc0100000 - 0xc044513b   (3348 kB)

Checking if this processor honours the WP bit even in supervisor mode... Ok.

SLUB: Genslabs=22, HWalign=64, Order=0-1, MinObjects=4, CPUs=1, Nodes=1

Calibrating delay using timer specific routine.. 3472.11 BogoMIPS (lpj=6944224)

Mount-cache hash table entries: 512

CPU: After generic identify, caps: 3febfbff 00000000 00000000 00000000 00000000 00000000 00000000 00000000

CPU: Trace cache: 12K uops, L1 D cache: 8K

CPU: L2 cache: 128K

CPU: Hyper-Threading is disabled

CPU: After all inits, caps: 3febfbff 00000000 00000000 0000b080 00000000 00000000 00000000 00000000

Intel machine check architecture supported.

Intel machine check reporting enabled on CPU#0.

CPU0: Intel P4/Xeon Extended MCE MSRs (12) available

CPU0: Thermal monitoring enabled

Compat vDSO mapped to ffffe000.

Checking 'hlt' instruction... OK.

SMP alternatives: switching to UP code

Freeing SMP alternatives: 19k freed

ACPI: Core revision 20070126

Parsing all Control Methods:

Table [DSDT](id 0001) - 441 Objects with 43 Devices 137 Methods 25 Regions

 tbxface-0598 [00] tb_load_namespace     : ACPI Tables successfully acquired

evxfevnt-0091 [00] enable                : Transition to ACPI mode successful

CPU0: Intel(R) Celeron(R) CPU 1.70GHz stepping 03

Total of 1 processors activated (3472.10 BogoMIPS).

ENABLING IO-APIC IRQs

..TIMER: vector=0x31 apic1=0 pin1=2 apic2=-1 pin2=-1

Brought up 1 CPUs

NET: Registered protocol family 16

ACPI: bus type pci registered

PCI: PCI BIOS revision 2.10 entry at 0xfa160, last bus=2

PCI: Using configuration type 1

Setting up standard PCI resources

evgpeblk-0956 [00] ev_create_gpe_block   : GPE 00 to 1F [_GPE] 4 regs on int 0x9

evgpeblk-1052 [00] ev_initialize_gpe_bloc: Found 6 Wake, Enabled 0 Runtime GPEs in this block

ACPI: EC: Look up EC in DSDT

Completing Region/Field/Buffer/Package initialization:...............................................

Initialized 20/25 Regions 1/1 Fields 18/18 Buffers 8/9 Packages (450 nodes)

Initializing Device/Processor/Thermal objects by executing _INI methods:.

Executed 1 _INI methods requiring 1 _STA executions (examined 47 objects)

ACPI: Interpreter enabled

ACPI: (supports S0 S1 S5)

ACPI: Using IOAPIC for interrupt routing

ACPI: PCI Root Bridge [PCI0] (0000:00)

* The chipset may have PM-Timer Bug. Due to workarounds for a bug,

* this clock source is slow. If you are sure your timer does not have

* this bug, please use "acpi_pm_good" to disable the workaround

PCI quirk: region 4000-407f claimed by ICH4 ACPI/GPIO/TCO

PCI quirk: region 4080-40bf claimed by ICH4 GPIO

PCI: Transparent bridge - 0000:00:1e.0

ACPI: PCI Interrupt Routing Table [\_SB_.PCI0._PRT]

ACPI: PCI Interrupt Routing Table [\_SB_.PCI0.HUB0._PRT]

ACPI: PCI Interrupt Link [LNKA] (IRQs 3 4 5 6 7 *9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKB] (IRQs 3 4 5 *6 7 9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKC] (IRQs 3 4 *5 6 7 9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKD] (IRQs 3 4 *5 6 7 9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKE] (IRQs 3 4 5 6 7 9 10 11 12 14 15) *0, disabled.

ACPI: PCI Interrupt Link [LNKF] (IRQs 3 4 5 6 7 9 10 11 12 14 15) *0, disabled.

ACPI: PCI Interrupt Link [LNK0] (IRQs 3 4 5 6 7 9 10 *11 12 14 15)

ACPI: PCI Interrupt Link [LNK1] (IRQs 3 4 5 6 7 9 10 *11 12 14 15)

Linux Plug and Play Support v0.97 (c) Adam Belay

pnp: PnP ACPI init

ACPI: bus type pnp registered

pnp: PnP ACPI: found 14 devices

ACPI: ACPI bus type pnp unregistered

SCSI subsystem initialized

libata version 2.21 loaded.

usbcore: registered new interface driver usbfs

usbcore: registered new interface driver hub

usbcore: registered new device driver usb

PCI: Using ACPI for IRQ routing

PCI: If a device doesn't work, try "pci=routeirq".  If it helps, post a report

Time: tsc clocksource has been installed.

PCI: Bridge: 0000:00:01.0

  IO window: disabled.

  MEM window: e0000000-e1ffffff

  PREFETCH window: d8000000-dfffffff

PCI: Bridge: 0000:00:1e.0

  IO window: c000-cfff

  MEM window: e2000000-e3ffffff

  PREFETCH window: 50000000-500fffff

PCI: Setting latency timer of device 0000:00:1e.0 to 64

NET: Registered protocol family 2

IP route cache hash table entries: 32768 (order: 5, 131072 bytes)

TCP established hash table entries: 131072 (order: 8, 1572864 bytes)

TCP bind hash table entries: 65536 (order: 7, 524288 bytes)

TCP: Hash tables configured (established 131072 bind 65536)

TCP reno registered

Machine check exception polling timer started.

IA-32 Microcode Update Driver: v1.14a <tigran@aivazian.fsnet.co.uk>

highmem bounce pool size: 64 pages

Total HugeTLB memory allocated, 0

VFS: Disk quotas dquot_6.5.1

Dquot-cache hash table entries: 1024 (order 0, 4096 bytes)

Installing knfsd (copyright (C) 1996 okir@monad.swb.de).

io scheduler noop registered

io scheduler anticipatory registered (default)

io scheduler deadline registered

io scheduler cfq registered

Boot video device is 0000:01:00.0

Real Time Clock Driver v1.12ac

intel_rng: FWH not detected

Linux agpgart interface v0.102

agpgart: Detected an Intel 830M Chipset.

agpgart: AGP aperture is 128M @ 0xd0000000

input: Power Button (FF) as /class/input/input0

ACPI: Power Button (FF) [PWRF]

input: Power Button (CM) as /class/input/input1

ACPI: Power Button (CM) [PWRB]

input: Sleep Button (CM) as /class/input/input2

ACPI: Sleep Button (CM) [SLPB]

ACPI Exception (processor_core-0818): AE_NOT_FOUND, Processor Device is not present [20070126]

Serial: 8250/16550 driver $Revision: 1.90 $ 4 ports, IRQ sharing disabled

serial8250: ttyS0 at I/O 0x3f8 (irq = 4) is a 16550A

serial8250: ttyS1 at I/O 0x2f8 (irq = 3) is a 16550A

00:07: ttyS0 at I/O 0x3f8 (irq = 4) is a 16550A

00:08: ttyS1 at I/O 0x2f8 (irq = 3) is a 16550A

Switched to high resolution mode on CPU 0

floppy0: no floppy controllers found

RAMDISK driver initialized: 16 RAM disks of 4096K size 1024 blocksize

loop: module loaded

Intel(R) PRO/1000 Network Driver - version 7.3.20-k2

Copyright (c) 1999-2006 Intel Corporation.

ACPI: PCI Interrupt 0000:02:04.0[A] -> GSI 18 (level, low) -> IRQ 16

3c59x: Donald Becker and others.

0000:02:04.0: 3Com PCI 3c905C Tornado at f8812000.

e100: Intel(R) PRO/100 Network Driver, 3.5.23-k4-NAPI

e100: Copyright(c) 1999-2006 Intel Corporation

forcedeth.c: Reverse Engineered nForce ethernet driver. Version 0.60.

8139cp: 10/100 PCI Ethernet driver v1.3 (Mar 22, 2004)

8139cp 0000:02:02.0: This (id 10ec:8139 rev 10) is not an 8139C+ compatible chip

8139cp 0000:02:02.0: Try the "8139too" driver instead.

8139too Fast Ethernet driver 0.9.28

ACPI: PCI Interrupt 0000:02:02.0[A] -> GSI 22 (level, low) -> IRQ 17

eth1: RealTek RTL8139 at 0xf8814000, 00:80:48:3a:9e:fe, IRQ 17

eth1:  Identified 8139 chip type 'RTL-8100B/8139D'

netconsole: not configured, aborting

Uniform Multi-Platform E-IDE driver Revision: 7.00alpha2

ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx

ICH4: IDE controller at PCI slot 0000:00:1f.1

ACPI: PCI Interrupt 0000:00:1f.1[A] -> GSI 18 (level, low) -> IRQ 16

ICH4: chipset revision 2

ICH4: not 100% native mode: will probe irqs later

    ide0: BM-DMA at 0xf000-0xf007, BIOS settings: hda:DMA, hdb:pio

    ide1: BM-DMA at 0xf008-0xf00f, BIOS settings: hdc:pio, hdd:pio

Probing IDE interface ide0...

hda: ST3120022A, ATA DISK drive

hda: selected mode 0x45

ide0 at 0x1f0-0x1f7,0x3f6 on irq 14

Probing IDE interface ide1...

Probing IDE interface ide1...

hda: max request size: 512KiB

hda: 234441648 sectors (120034 MB) w/2048KiB Cache, CHS=16383/255/63, UDMA(100)

hda: cache flushes supported

 hda: hda1 hda2 hda3

3ware Storage Controller device driver for Linux v1.26.02.002.

Fusion MPT base driver 3.04.05

Copyright (c) 1999-2007 LSI Logic Corporation

Fusion MPT SPI Host driver 3.04.05

ieee1394: raw1394: /dev/raw1394 device initialized

usbmon: debugfs is not available

ACPI: PCI Interrupt 0000:00:1d.7[D] -> GSI 23 (level, low) -> IRQ 18

PCI: Setting latency timer of device 0000:00:1d.7 to 64

ehci_hcd 0000:00:1d.7: EHCI Host Controller

ehci_hcd 0000:00:1d.7: new USB bus registered, assigned bus number 1

PCI: cache line size of 128 is not supported by device 0000:00:1d.7

ehci_hcd 0000:00:1d.7: irq 18, io mem 0xe4000000

ehci_hcd 0000:00:1d.7: USB 2.0 started, EHCI 1.00, driver 10 Dec 2004

usb usb1: configuration #1 chosen from 1 choice

hub 1-0:1.0: USB hub found

hub 1-0:1.0: 6 ports detected

ohci_hcd: 2006 August 04 USB 1.1 'Open' Host Controller (OHCI) Driver

USB Universal Host Controller Interface driver v3.0

ACPI: PCI Interrupt 0000:00:1d.0[A] -> GSI 16 (level, low) -> IRQ 19

PCI: Setting latency timer of device 0000:00:1d.0 to 64

uhci_hcd 0000:00:1d.0: UHCI Host Controller

uhci_hcd 0000:00:1d.0: new USB bus registered, assigned bus number 2

uhci_hcd 0000:00:1d.0: irq 19, io base 0x0000d800

usb usb2: configuration #1 chosen from 1 choice

hub 2-0:1.0: USB hub found

hub 2-0:1.0: 2 ports detected

ACPI: PCI Interrupt 0000:00:1d.1[B] -> GSI 19 (level, low) -> IRQ 20

PCI: Setting latency timer of device 0000:00:1d.1 to 64

uhci_hcd 0000:00:1d.1: UHCI Host Controller

uhci_hcd 0000:00:1d.1: new USB bus registered, assigned bus number 3

uhci_hcd 0000:00:1d.1: irq 20, io base 0x0000d000

usb usb3: configuration #1 chosen from 1 choice

hub 3-0:1.0: USB hub found

hub 3-0:1.0: 2 ports detected

ACPI: PCI Interrupt 0000:00:1d.2[C] -> GSI 18 (level, low) -> IRQ 16

PCI: Setting latency timer of device 0000:00:1d.2 to 64

uhci_hcd 0000:00:1d.2: UHCI Host Controller

uhci_hcd 0000:00:1d.2: new USB bus registered, assigned bus number 4

uhci_hcd 0000:00:1d.2: irq 16, io base 0x0000d400

usb usb4: configuration #1 chosen from 1 choice

hub 4-0:1.0: USB hub found

hub 4-0:1.0: 2 ports detected

usbcore: registered new interface driver usblp

Initializing USB Mass Storage driver...

usbcore: registered new interface driver usb-storage

USB Mass Storage support registered.

PNP: PS/2 Controller [PNP0303:PS2K,PNP0f13:PS2M] at 0x60,0x64 irq 1,12

serio: i8042 KBD port at 0x60,0x64 irq 1

serio: i8042 AUX port at 0x60,0x64 irq 12

mice: PS/2 mouse device common for all mice

input: AT Translated Set 2 keyboard as /class/input/input3

device-mapper: ioctl: 4.11.0-ioctl (2006-10-12) initialised: dm-devel@redhat.com

usbcore: registered new interface driver usbhid

drivers/hid/usbhid/hid-core.c: v2.6:USB HID core driver

oprofile: using NMI interrupt.

TCP cubic registered

NET: Registered protocol family 1

NET: Registered protocol family 10

IPv6 over IPv4 tunneling driver

NET: Registered protocol family 17

Using IPI No-Shortcut mode

input: ImExPS/2 Generic Explorer Mouse as /class/input/input4

kjournald starting.  Commit interval 5 seconds

EXT3-fs: mounted filesystem with ordered data mode.

VFS: Mounted root (ext3 filesystem) readonly.

Freeing unused kernel memory: 264k freed

net eth2: device_rename: sysfs_create_symlink failed (-17)

net eth3: device_rename: sysfs_create_symlink failed (-17)

EXT3 FS on hda3, internal journal

Adding 1004052k swap on /dev/hda2.  Priority:-1 extents:1 across:1004052k

eth2: link up, 100Mbps, full-duplex, lpa 0x45E1

eth3:  setting full-duplex.

ip_tables: (C) 2000-2006 Netfilter Core Team

Netfilter messages via NETLINK v0.30.

nf_conntrack version 0.5.0 (16384 buckets, 65536 max)

eth2: no IPv6 routers present

eth3: no IPv6 routers present

process `sysctl' is using deprecated sysctl (syscall) net.ipv6.neigh.default.retrans_time; Use net.ipv6.neigh.default.retrans_time_ms instead.

----------

## tequila

amethyst ~ # uptime

 11:38:01 up 19:12,  1 users,  load average: 0.00, 0.00, 0.00

----------

## ba

еще одну интересную вещь заметил - в ps-е нет ни одного *getty процесса, они нарошно отключены? если нет, то покажи конфиг ядра, включены ли там вирт консоли.

----------

## user11

Коли подозревается железо, думаю, интересно будет сравнить два `cat /proc/interrupts` с интервалом в несколько секунд. И сейчас, когда "всё висит", и потом, сразу после перезагрузки, когда всё работает. (Мое ламерское подозрение состоит в том, что, возможно, как-то почему-то прекращают приходить прерывания от таймера). Кстати, strace дополнил бы картину.

Однако, интересно также - *это* случается через фиксированный интервал времени после загрузки или строго когда попало? Исправляется ли дело перезагрузкой системы, или нужно непременно выключать/включать питание? Наблюдается ли такая проблема в других ОС (if any)? Пробовали ли заменять ядро, изменять настройки RTC?

----------

## calculator

Прибавлю свое ламерское подозрение на счет времени. Понаблюдать можно: 

```
# watch -n1 cat /proc/interrupts
```

 + Смущает эта строка: 

```
process `sysctl' is using deprecated sysctl (syscall) net.ipv6.neigh.default.retrans_time; Use net.ipv6.neigh.default.retrans_time_ms instead.
```

Для наглядности dmesg можно включить CONFIG_PRINTK_TIME=y

+ Как то много процессов с "D    Uninterruptible sleep (usually IO)" Посмотри 

```
# smartctl -a /dev/hda
```

 Может температура растет? Там тоже писать должен.

----------

## tequila

Заранее извиняюсь за громоздкий пост, но я постаралась собрать максимум инфы, и ответить на заданные вопросы.

И спасибо всем кто откликнулся. С линуксовыми системами работаю в принципе давно, но вот такого еще не видела.

Итак

после перезагрузки (тупо ресетом, ибо больше ничего не спасло):

```
amethyst ~ # ps afx

  PID TTY      STAT   TIME COMMAND

    2 ?        S<     0:00 [kthreadd]

    3 ?        S<     0:00  \_ [migration/0]

    4 ?        S<     0:00  \_ [ksoftirqd/0]

    5 ?        S<     0:00  \_ [watchdog/0]

    6 ?        S<     0:00  \_ [events/0]

    7 ?        S<     0:00  \_ [khelper]

   83 ?        S<     0:00  \_ [kblockd/0]

   86 ?        S<     0:00  \_ [kacpid]

   87 ?        S<     0:00  \_ [kacpi_notify]

  175 ?        S<     0:00  \_ [ata/0]

  176 ?        S<     0:00  \_ [ata_aux]

  177 ?        S<     0:00  \_ [ksuspend_usbd]

  182 ?        S<     0:00  \_ [khubd]

  185 ?        S<     0:00  \_ [kseriod]

  217 ?        S      0:00  \_ [pdflush]

  218 ?        S      0:00  \_ [pdflush]

  219 ?        S<     0:00  \_ [kswapd0]

  270 ?        S<     0:00  \_ [aio/0]

  969 ?        S<     0:00  \_ [khpsbpkt]

 1016 ?        S<     0:00  \_ [kpsmoused]

 1021 ?        S<     0:00  \_ [kondemand/0]

 1029 ?        S<     0:00  \_ [rpciod/0]

 1033 ?        S<     0:00  \_ [kjournald]

    1 ?        Ss     0:00 init [3]

 1128 ?        S<s    0:00 /sbin/udevd --daemon

 4732 ?        Ss     0:00 /usr/sbin/syslog-ng

 5676 ?        Ss     0:00 /usr/sbin/sshd

 6294 ?        Ss     0:01  \_ sshd: root@pts/0

 6297 pts/0    Ss     0:00      \_ -bash

14707 pts/0    R+     0:00          \_ ps afx

 5734 ?        Ss     0:00 /usr/sbin/cron

 5898 tty1     Ss+    0:00 /sbin/agetty 38400 tty1 linux

 5899 tty2     Ss+    0:00 /sbin/agetty 38400 tty2 linux

 5900 tty3     Ss+    0:00 /sbin/agetty 38400 tty3 linux

 5901 tty4     Ss+    0:00 /sbin/agetty 38400 tty4 linux

 5902 tty5     Ss+    0:00 /sbin/agetty 38400 tty5 linux

 5903 tty6     Ss+    0:00 /sbin/agetty 38400 tty6 linux

```

emerge работает, tcpdump работает, да блин ВСЕ работает.

Только логов за вчерашний день нет. Как будто система их не писала.

Все таки смущает в логах загрузки вот это

Jan 14 10:01:00 amethyst * The chipset may have PM-Timer Bug. Due to workarounds for a bug,

Jan 14 10:01:00 amethyst * this clock source is slow. If you are sure your timer does not have

Jan 14 10:01:00 amethyst * this bug, please use "acpi_pm_good" to disable the workaround

По поводу систематики происходящего - первый раз система проработала сутки и случился коллапс, вернее после ее установки на месте использования удаленный заход на нее был на следующее утро. Из-за праздников попасть туда было проблематично, система проработала в таком режиме 3 суток. На выходных я туда наконец попала, для интереса поменяла память и хард, все установила на новом харде по-новой, ядро пересобиралось для включения доп. возможностей iptables, тут у меня проблем не возникло. После установки в стойку на нее логинились из внутренней подсетки, все было нормально. Ну и соответственно весь оствшийся вечер ( с 16 до полночи) я на нее периодически заходила. Никаких проблем не возникало. Все непонятные симптомы были замечены утром, около 11 часов, т.е. примерно через 12 часов после последнего захода по ssh. Точнее пока сказать не могу.

Доп. инфа

```
amethyst ~ # cat /proc/interrupts; sleep 5; cat /proc/interrupts

           CPU0

  0:        245   IO-APIC-edge      timer

  1:          8   IO-APIC-edge      i8042

  8:          2   IO-APIC-edge      rtc

  9:          1   IO-APIC-fasteoi   acpi

 12:        111   IO-APIC-edge      i8042

 14:      40797   IO-APIC-edge      ide0

 16:      64204   IO-APIC-fasteoi   uhci_hcd:usb4, eth3

 17:      69003   IO-APIC-fasteoi   eth2

 18:          0   IO-APIC-fasteoi   ehci_hcd:usb1

 19:          0   IO-APIC-fasteoi   uhci_hcd:usb2

 20:          0   IO-APIC-fasteoi   uhci_hcd:usb3

NMI:          0

LOC:      70903

ERR:          0

MIS:          0

           CPU0

  0:        245   IO-APIC-edge      timer

  1:          8   IO-APIC-edge      i8042

  8:          2   IO-APIC-edge      rtc

  9:          1   IO-APIC-fasteoi   acpi

 12:        111   IO-APIC-edge      i8042

 14:      40797   IO-APIC-edge      ide0

 16:      64228   IO-APIC-fasteoi   uhci_hcd:usb4, eth3

 17:      69030   IO-APIC-fasteoi   eth2

 18:          0   IO-APIC-fasteoi   ehci_hcd:usb1

 19:          0   IO-APIC-fasteoi   uhci_hcd:usb2

 20:          0   IO-APIC-fasteoi   uhci_hcd:usb3

NMI:          0

LOC:      70928

ERR:          0

MIS:          0

```

Жесткий диск

```

amethyst ~ # smartctl -a /dev/hda

smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===

Model Family:     Seagate Barracuda 7200.7 and 7200.7 Plus family

Device Model:     ST3120022A

Serial Number:    3JS4BPQ9

Firmware Version: 8.54

User Capacity:    120,034,123,776 bytes

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   6

ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 2

Local Time is:    Mon Jan 14 11:06:15 2008 MSK

SMART support is: Available - device has SMART capability.

SMART support is: Disabled

SMART Disabled. Use option -s with argument 'on' to enable it.

```

Загрузка системы

```

amethyst ~ # w

 11:07:58 up  1:07,  1 user,  load average: 0.11, 0.15, 0.08

USER     TTY        LOGIN@   IDLE   JCPU   PCPU WHAT

root     pts/0     10:47    0.00s  0.02s  0.00s w

amethyst ~ # uptime

 11:08:11 up  1:07,  1 user,  load average: 0.09, 0.15, 0.08

```

Не работал emerge, вис мертво. Сейчас картина совсем иная

```
amethyst ~ # strace -c emerge mysql -pv

These are the packages that would be merged, in order:

Calculating dependencies... done!

[ebuild  N    ] perl-core/Storable-2.16  170 kB

[ebuild  N    ] perl-core/Sys-Syslog-0.18  51 kB

[ebuild  N    ] sys-apps/ed-0.8  67 kB

[ebuild  N    ] dev-db/mysql-init-scripts-1.2  0 kB

[ebuild  N    ] dev-perl/Net-Daemon-0.43  28 kB

[ebuild  N    ] virtual/perl-Storable-2.16  0 kB

[ebuild  N    ] virtual/perl-Sys-Syslog-0.18  0 kB

[ebuild  N    ] dev-perl/PlRPC-0.2020-r1  18 kB

[ebuild  N    ] dev-perl/DBI-1.601  484 kB

[ebuild  N    ] dev-db/mysql-5.0.44-r2  USE="berkdb perl ssl -big-tables -cluster -debug -embedded -extraengine -latin1 -max-idx-128 -minimal (-selinux) -static" 23,872 kB

[ebuild  N    ] virtual/mysql-5.0  0 kB

[ebuild  N    ] dev-perl/DBD-mysql-4.00.5  120 kB

Total: 12 packages (12 new), Size of downloads: 24,808 kB

% time     seconds  usecs/call     calls    errors syscall

------ ----------- ----------- --------- --------- ----------------

 21.65    0.000936           0      2724      2029 open

 16.40    0.000709           0      6988           futex

 14.57    0.000630           4       141           write

 12.21    0.000528           0      2033       782 stat64

 11.43    0.000494           0      1518           read

  6.96    0.000301         151         2           rename

  4.70    0.000203           1       344        42 access

  3.24    0.000140           0      1477           fstat64

  2.87    0.000124           0       701           close

  2.50    0.000108           0       584           mmap2

  1.73    0.000075           0       474           munmap

  0.99    0.000043           0       277           gettimeofday

  0.74    0.000032          32         1           waitpid

  0.00    0.000000           0         3         2 unlink

  0.00    0.000000           0         1           execve

  0.00    0.000000           0         2           time

  0.00    0.000000           0         7         7 mkdir

  0.00    0.000000           0         1           pipe

  0.00    0.000000           0        20           brk

  0.00    0.000000           0         7         1 ioctl

  0.00    0.000000           0         3           umask

  0.00    0.000000           0         4         1 readlink

  0.00    0.000000           0         2           getpriority

  0.00    0.000000           0         1           setpriority

  0.00    0.000000           0         1           clone

  0.00    0.000000           0         4           uname

  0.00    0.000000           0         3           mprotect

  0.00    0.000000           0        83         1 _llseek

  0.00    0.000000           0        74           rt_sigaction

  0.00    0.000000           0         1           rt_sigprocmask

  0.00    0.000000           0         1           getcwd

  0.00    0.000000           0         2           getrlimit

  0.00    0.000000           0        29           lstat64

  0.00    0.000000           0         2           getuid32

  0.00    0.000000           0         3           chown32

  0.00    0.000000           0       138           getdents64

  0.00    0.000000           0        86           fcntl64

  0.00    0.000000           0         1           set_thread_area

  0.00    0.000000           0         1           set_tid_address

  0.00    0.000000           0         1           set_robust_list

  0.00    0.000000           0         4           socket

  0.00    0.000000           0         4         4 connect

------ ----------- ----------- --------- --------- ----------------

100.00    0.004323                 17753      2869 total

```

Тут смущает цифра ошибок на вызове open.

Машина перезагружена сегодня утром, по логике событий где-то в районе 24:00 она должна войти в ступор, буду смотреть.

dmesg

```

Linux version 2.6.23-gentoo-r3 (root@amethyst) (gcc version 4.1.1 (Gentoo 4.1.1-r3)) #3 SMP Sat Jan 12 15:19:54 MSK 2008

BIOS-provided physical RAM map:

 BIOS-e820: 0000000000000000 - 000000000009fc00 (usable)

 BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)

 BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)

 BIOS-e820: 0000000000100000 - 000000003fff0000 (usable)

 BIOS-e820: 000000003fff0000 - 000000003fff3000 (ACPI NVS)

 BIOS-e820: 000000003fff3000 - 0000000040000000 (ACPI data)

 BIOS-e820: 00000000fec00000 - 0000000100000000 (reserved)

127MB HIGHMEM available.

896MB LOWMEM available.

found SMP MP-table at 000f4b20

Entering add_active_range(0, 0, 262128) 0 entries of 256 used

Zone PFN ranges:

  DMA             0 ->     4096

  Normal       4096 ->   229376

  HighMem    229376 ->   262128

Movable zone start PFN for each node

early_node_map[1] active PFN ranges

    0:        0 ->   262128

On node 0 totalpages: 262128

  DMA zone: 32 pages used for memmap

  DMA zone: 0 pages reserved

  DMA zone: 4064 pages, LIFO batch:0

  Normal zone: 1760 pages used for memmap

  Normal zone: 223520 pages, LIFO batch:31

  HighMem zone: 255 pages used for memmap

  HighMem zone: 32497 pages, LIFO batch:7

  Movable zone: 0 pages used for memmap

DMI 2.3 present.

Using APIC driver default

ACPI: RSDP 000F6610, 0014 (r0 GBT   )

ACPI: RSDT 3FFF3000, 002C (r1 GBT    AWRDACPI 42302E31 AWRD  1010101)

ACPI: FACP 3FFF3040, 0074 (r1 GBT    AWRDACPI 42302E31 AWRD  1010101)

ACPI: DSDT 3FFF30C0, 3644 (r1 GBT    AWRDACPI     1000 MSFT  100000C)

ACPI: FACS 3FFF0000, 0040

ACPI: APIC 3FFF6740, 0068 (r1 GBT    AWRDACPI 42302E31 AWRD  1010101)

ACPI: PM-Timer IO Port: 0x4008

ACPI: Local APIC address 0xfee00000

ACPI: LAPIC (acpi_id[0x00] lapic_id[0x00] enabled)

ACPI: LAPIC (acpi_id[0x01] lapic_id[0x01] disabled)

ACPI: LAPIC_NMI (acpi_id[0x00] dfl dfl lint[0x1])

ACPI: LAPIC_NMI (acpi_id[0x01] dfl dfl lint[0x1])

ACPI: IOAPIC (id[0x02] address[0xfec00000] gsi_base[0])

IOAPIC[0]: apic_id 2, version 32, address 0xfec00000, GSI 0-23

ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)

ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)

ACPI: IRQ0 used by override.

ACPI: IRQ2 used by override.

ACPI: IRQ9 used by override.

Enabling APIC mode:  Flat.  Using 1 I/O APICs

Using ACPI (MADT) for SMP configuration information

Allocating PCI resources starting at 50000000 (gap: 40000000:bec00000)

Built 1 zonelists in Zone order.  Total pages: 260081

Kernel command line: root=/dev/hda3

mapped APIC to ffffb000 (fee00000)

mapped IOAPIC to ffffa000 (fec00000)

Enabling fast FPU save and restore... done.

Enabling unmasked SIMD FPU exception support... done.

Initializing CPU#0

PID hash table entries: 4096 (order: 12, 16384 bytes)

Detected 1734.372 MHz processor.

Console: colour VGA+ 80x25

console [tty0] enabled

Dentry cache hash table entries: 131072 (order: 7, 524288 bytes)

Inode-cache hash table entries: 65536 (order: 6, 262144 bytes)

Memory: 1032656k/1048512k available (3348k kernel code, 15252k reserved, 1789k data, 264k init, 131008k highmem)

virtual kernel memory layout:

    fixmap  : 0xffe14000 - 0xfffff000   (1964 kB)

    pkmap   : 0xff800000 - 0xffc00000   (4096 kB)

    vmalloc : 0xf8800000 - 0xff7fe000   ( 111 MB)

    lowmem  : 0xc0000000 - 0xf8000000   ( 896 MB)

      .init : 0xc060d000 - 0xc064f000   ( 264 kB)

      .data : 0xc044513b - 0xc060488c   (1789 kB)

      .text : 0xc0100000 - 0xc044513b   (3348 kB)

Checking if this processor honours the WP bit even in supervisor mode... Ok.

SLUB: Genslabs=22, HWalign=64, Order=0-1, MinObjects=4, CPUs=1, Nodes=1

Calibrating delay using timer specific routine.. 3472.11 BogoMIPS (lpj=6944230)

Mount-cache hash table entries: 512

CPU: After generic identify, caps: 3febfbff 00000000 00000000 00000000 00000000 00000000 00000000 00000000

CPU: Trace cache: 12K uops, L1 D cache: 8K

CPU: L2 cache: 128K

CPU: Hyper-Threading is disabled

CPU: After all inits, caps: 3febfbff 00000000 00000000 0000b080 00000000 00000000 00000000 00000000

Intel machine check architecture supported.

Intel machine check reporting enabled on CPU#0.

CPU0: Intel P4/Xeon Extended MCE MSRs (12) available

CPU0: Thermal monitoring enabled

Compat vDSO mapped to ffffe000.

Checking 'hlt' instruction... OK.

SMP alternatives: switching to UP code

Freeing SMP alternatives: 19k freed

ACPI: Core revision 20070126

Parsing all Control Methods:

Table [DSDT](id 0001) - 441 Objects with 43 Devices 137 Methods 25 Regions

 tbxface-0598 [00] tb_load_namespace     : ACPI Tables successfully acquired

evxfevnt-0091 [00] enable                : Transition to ACPI mode successful

CPU0: Intel(R) Celeron(R) CPU 1.70GHz stepping 03

Total of 1 processors activated (3472.11 BogoMIPS).

ENABLING IO-APIC IRQs

..TIMER: vector=0x31 apic1=0 pin1=2 apic2=-1 pin2=-1

Brought up 1 CPUs

NET: Registered protocol family 16

ACPI: bus type pci registered

PCI: PCI BIOS revision 2.10 entry at 0xfa160, last bus=2

PCI: Using configuration type 1

Setting up standard PCI resources

evgpeblk-0956 [00] ev_create_gpe_block   : GPE 00 to 1F [_GPE] 4 regs on int 0x9

evgpeblk-1052 [00] ev_initialize_gpe_bloc: Found 6 Wake, Enabled 0 Runtime GPEs in this block

ACPI: EC: Look up EC in DSDT

Completing Region/Field/Buffer/Package initialization:...............................................

Initialized 20/25 Regions 1/1 Fields 18/18 Buffers 8/9 Packages (450 nodes)

Initializing Device/Processor/Thermal objects by executing _INI methods:.

Executed 1 _INI methods requiring 1 _STA executions (examined 47 objects)

ACPI: Interpreter enabled

ACPI: (supports S0 S1 S5)

ACPI: Using IOAPIC for interrupt routing

ACPI: PCI Root Bridge [PCI0] (0000:00)

* The chipset may have PM-Timer Bug. Due to workarounds for a bug,

* this clock source is slow. If you are sure your timer does not have

* this bug, please use "acpi_pm_good" to disable the workaround

PCI quirk: region 4000-407f claimed by ICH4 ACPI/GPIO/TCO

PCI quirk: region 4080-40bf claimed by ICH4 GPIO

PCI: Transparent bridge - 0000:00:1e.0

ACPI: PCI Interrupt Routing Table [\_SB_.PCI0._PRT]

ACPI: PCI Interrupt Routing Table [\_SB_.PCI0.HUB0._PRT]

ACPI: PCI Interrupt Link [LNKA] (IRQs 3 4 5 6 7 *9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKB] (IRQs 3 4 5 *6 7 9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKC] (IRQs 3 4 *5 6 7 9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKD] (IRQs 3 4 *5 6 7 9 10 11 12 14 15)

ACPI: PCI Interrupt Link [LNKE] (IRQs 3 4 5 6 7 9 10 11 12 14 15) *0, disabled.

ACPI: PCI Interrupt Link [LNKF] (IRQs 3 4 5 6 7 9 10 11 12 14 15) *0, disabled.

ACPI: PCI Interrupt Link [LNK0] (IRQs 3 4 5 6 7 9 10 *11 12 14 15)

ACPI: PCI Interrupt Link [LNK1] (IRQs 3 4 5 6 7 9 10 *11 12 14 15)

Linux Plug and Play Support v0.97 (c) Adam Belay

pnp: PnP ACPI init

ACPI: bus type pnp registered

pnp: PnP ACPI: found 14 devices

ACPI: ACPI bus type pnp unregistered

SCSI subsystem initialized

libata version 2.21 loaded.

usbcore: registered new interface driver usbfs

usbcore: registered new interface driver hub

usbcore: registered new device driver usb

PCI: Using ACPI for IRQ routing

PCI: If a device doesn't work, try "pci=routeirq".  If it helps, post a report

Time: tsc clocksource has been installed.

PCI: Bridge: 0000:00:01.0

  IO window: disabled.

  MEM window: e0000000-e1ffffff

  PREFETCH window: d8000000-dfffffff

PCI: Bridge: 0000:00:1e.0

  IO window: c000-cfff

  MEM window: e2000000-e3ffffff

  PREFETCH window: 50000000-500fffff

PCI: Setting latency timer of device 0000:00:1e.0 to 64

NET: Registered protocol family 2

IP route cache hash table entries: 32768 (order: 5, 131072 bytes)

TCP established hash table entries: 131072 (order: 8, 1572864 bytes)

TCP bind hash table entries: 65536 (order: 7, 524288 bytes)

TCP: Hash tables configured (established 131072 bind 65536)

TCP reno registered

Machine check exception polling timer started.

IA-32 Microcode Update Driver: v1.14a <tigran@aivazian.fsnet.co.uk>

highmem bounce pool size: 64 pages

Total HugeTLB memory allocated, 0

VFS: Disk quotas dquot_6.5.1

Dquot-cache hash table entries: 1024 (order 0, 4096 bytes)

Installing knfsd (copyright (C) 1996 okir@monad.swb.de).

io scheduler noop registered

io scheduler anticipatory registered (default)

io scheduler deadline registered

io scheduler cfq registered

Boot video device is 0000:01:00.0

Real Time Clock Driver v1.12ac

intel_rng: FWH not detected

Linux agpgart interface v0.102

agpgart: Detected an Intel 830M Chipset.

agpgart: AGP aperture is 128M @ 0xd0000000

input: Power Button (FF) as /class/input/input0

ACPI: Power Button (FF) [PWRF]

input: Power Button (CM) as /class/input/input1

ACPI: Power Button (CM) [PWRB]

input: Sleep Button (CM) as /class/input/input2

ACPI: Sleep Button (CM) [SLPB]

ACPI Exception (processor_core-0818): AE_NOT_FOUND, Processor Device is not present [20070126]

Serial: 8250/16550 driver $Revision: 1.90 $ 4 ports, IRQ sharing disabled

serial8250: ttyS0 at I/O 0x3f8 (irq = 4) is a 16550A

serial8250: ttyS1 at I/O 0x2f8 (irq = 3) is a 16550A

00:07: ttyS0 at I/O 0x3f8 (irq = 4) is a 16550A

00:08: ttyS1 at I/O 0x2f8 (irq = 3) is a 16550A

Switched to high resolution mode on CPU 0

floppy0: no floppy controllers found

RAMDISK driver initialized: 16 RAM disks of 4096K size 1024 blocksize

loop: module loaded

Intel(R) PRO/1000 Network Driver - version 7.3.20-k2

Copyright (c) 1999-2006 Intel Corporation.

ACPI: PCI Interrupt 0000:02:04.0[A] -> GSI 18 (level, low) -> IRQ 16

3c59x: Donald Becker and others.

0000:02:04.0: 3Com PCI 3c905C Tornado at f8812000.

e100: Intel(R) PRO/100 Network Driver, 3.5.23-k4-NAPI

e100: Copyright(c) 1999-2006 Intel Corporation

forcedeth.c: Reverse Engineered nForce ethernet driver. Version 0.60.

8139cp: 10/100 PCI Ethernet driver v1.3 (Mar 22, 2004)

8139cp 0000:02:02.0: This (id 10ec:8139 rev 10) is not an 8139C+ compatible chip

8139cp 0000:02:02.0: Try the "8139too" driver instead.

8139too Fast Ethernet driver 0.9.28

ACPI: PCI Interrupt 0000:02:02.0[A] -> GSI 22 (level, low) -> IRQ 17

eth1: RealTek RTL8139 at 0xf8814000, 00:80:48:3a:9e:fe, IRQ 17

eth1:  Identified 8139 chip type 'RTL-8100B/8139D'

netconsole: not configured, aborting

Uniform Multi-Platform E-IDE driver Revision: 7.00alpha2

ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx

ICH4: IDE controller at PCI slot 0000:00:1f.1

ACPI: PCI Interrupt 0000:00:1f.1[A] -> GSI 18 (level, low) -> IRQ 16

ICH4: chipset revision 2

ICH4: not 100% native mode: will probe irqs later

    ide0: BM-DMA at 0xf000-0xf007, BIOS settings: hda:DMA, hdb:pio

    ide1: BM-DMA at 0xf008-0xf00f, BIOS settings: hdc:pio, hdd:pio

Probing IDE interface ide0...

hda: ST3120022A, ATA DISK drive

hda: selected mode 0x45

ide0 at 0x1f0-0x1f7,0x3f6 on irq 14

Probing IDE interface ide1...

Probing IDE interface ide1...

hda: max request size: 512KiB

hda: 234441648 sectors (120034 MB) w/2048KiB Cache, CHS=16383/255/63, UDMA(100)

hda: cache flushes supported

 hda: hda1 hda2 hda3

3ware Storage Controller device driver for Linux v1.26.02.002.

Fusion MPT base driver 3.04.05

Copyright (c) 1999-2007 LSI Logic Corporation

Fusion MPT SPI Host driver 3.04.05

ieee1394: raw1394: /dev/raw1394 device initialized

usbmon: debugfs is not available

ACPI: PCI Interrupt 0000:00:1d.7[D] -> GSI 23 (level, low) -> IRQ 18

PCI: Setting latency timer of device 0000:00:1d.7 to 64

ehci_hcd 0000:00:1d.7: EHCI Host Controller

ehci_hcd 0000:00:1d.7: new USB bus registered, assigned bus number 1

PCI: cache line size of 128 is not supported by device 0000:00:1d.7

ehci_hcd 0000:00:1d.7: irq 18, io mem 0xe4000000

ehci_hcd 0000:00:1d.7: USB 2.0 started, EHCI 1.00, driver 10 Dec 2004

usb usb1: configuration #1 chosen from 1 choice

hub 1-0:1.0: USB hub found

hub 1-0:1.0: 6 ports detected

ohci_hcd: 2006 August 04 USB 1.1 'Open' Host Controller (OHCI) Driver

USB Universal Host Controller Interface driver v3.0

ACPI: PCI Interrupt 0000:00:1d.0[A] -> GSI 16 (level, low) -> IRQ 19

PCI: Setting latency timer of device 0000:00:1d.0 to 64

uhci_hcd 0000:00:1d.0: UHCI Host Controller

uhci_hcd 0000:00:1d.0: new USB bus registered, assigned bus number 2

uhci_hcd 0000:00:1d.0: irq 19, io base 0x0000d800

usb usb2: configuration #1 chosen from 1 choice

hub 2-0:1.0: USB hub found

hub 2-0:1.0: 2 ports detected

ACPI: PCI Interrupt 0000:00:1d.1[B] -> GSI 19 (level, low) -> IRQ 20

PCI: Setting latency timer of device 0000:00:1d.1 to 64

uhci_hcd 0000:00:1d.1: UHCI Host Controller

uhci_hcd 0000:00:1d.1: new USB bus registered, assigned bus number 3

uhci_hcd 0000:00:1d.1: irq 20, io base 0x0000d000

usb usb3: configuration #1 chosen from 1 choice

hub 3-0:1.0: USB hub found

hub 3-0:1.0: 2 ports detected

ACPI: PCI Interrupt 0000:00:1d.2[C] -> GSI 18 (level, low) -> IRQ 16

PCI: Setting latency timer of device 0000:00:1d.2 to 64

uhci_hcd 0000:00:1d.2: UHCI Host Controller

uhci_hcd 0000:00:1d.2: new USB bus registered, assigned bus number 4

uhci_hcd 0000:00:1d.2: irq 16, io base 0x0000d400

usb usb4: configuration #1 chosen from 1 choice

hub 4-0:1.0: USB hub found

hub 4-0:1.0: 2 ports detected

usbcore: registered new interface driver usblp

Initializing USB Mass Storage driver...

usbcore: registered new interface driver usb-storage

USB Mass Storage support registered.

PNP: PS/2 Controller [PNP0303:PS2K,PNP0f13:PS2M] at 0x60,0x64 irq 1,12

serio: i8042 KBD port at 0x60,0x64 irq 1

serio: i8042 AUX port at 0x60,0x64 irq 12

mice: PS/2 mouse device common for all mice

input: AT Translated Set 2 keyboard as /class/input/input3

device-mapper: ioctl: 4.11.0-ioctl (2006-10-12) initialised: dm-devel@redhat.com

usbcore: registered new interface driver usbhid

drivers/hid/usbhid/hid-core.c: v2.6:USB HID core driver

oprofile: using NMI interrupt.

TCP cubic registered

NET: Registered protocol family 1

NET: Registered protocol family 10

IPv6 over IPv4 tunneling driver

NET: Registered protocol family 17

Using IPI No-Shortcut mode

input: ImExPS/2 Generic Explorer Mouse as /class/input/input4

EXT3-fs: INFO: recovery required on readonly filesystem.

EXT3-fs: write access will be enabled during recovery.

kjournald starting.  Commit interval 5 seconds

EXT3-fs: recovery complete.

EXT3-fs: mounted filesystem with ordered data mode.

VFS: Mounted root (ext3 filesystem) readonly.

Freeing unused kernel memory: 264k freed

net eth3: device_rename: sysfs_create_symlink failed (-17)

net eth2: device_rename: sysfs_create_symlink failed (-17)

EXT3 FS on hda3, internal journal

Adding 1004052k swap on /dev/hda2.  Priority:-1 extents:1 across:1004052k

eth2: link up, 100Mbps, full-duplex, lpa 0x45E1

eth3:  setting full-duplex.

ip_tables: (C) 2000-2006 Netfilter Core Team

Netfilter messages via NETLINK v0.30.

nf_conntrack version 0.5.0 (16384 buckets, 65536 max)

eth2: no IPv6 routers present

eth3: no IPv6 routers present

hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }

hda: drive_cmd: error=0x04 { DriveStatusError }

ide: failed opcode was: 0xb0

```

опять таки смущают три последние строчки.

Ламерское предположение. Как может влиять на работу системы в целом сдохшая батарейка на матери? Не в момент загрузки, там все понятно, дефолтовые настройки и тп., а вот при работающей матери? Может она вносить какие-то дополнительные проблемы типа таймера?

----------

## smk

 *Quote:*   

> 
> 
> ```
> hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
> 
> ...

 

Не стоит на них обращать внимания, скорее всего это развлекаются smarttools, или иже с ним, может быть просто из-за неправильной настройки. Настолько я понял это из гугла и собственного смарттулза, который извещает меня о битых блоках на втором винте каждые 5 минут...

 *Quote:*   

> Ламерское предположение. Как может влиять на работу системы в целом сдохшая батарейка на матери? Не в момент загрузки, там все понятно, дефолтовые настройки и тп., а вот при работающей матери? Может она вносить какие-то дополнительные проблемы типа таймера?

 

Никак. Был у меня комп, у которого не было этой батарейки. Хоть бы хны, лишь после скачков напряжения или выключения из розетки сбрасывался БИОС, что не приятно, но больше ничего.

Было замечено что во время глюков системы в процессах нет *getty. Думаю стоит покопать в эту сторону. К тому же как вы сказали, последняя запись перед проблемой была о заходе в виртуальную консоль.

----------

## tequila

[quote="smk"] *Quote:*   

> 
> 
> Было замечено что во время глюков системы в процессах нет *getty. Думаю стоит покопать в эту сторону. К тому же как вы сказали, последняя запись перед проблемой была о заходе в виртуальную консоль.

 

Они там были. Но то, что видно в ps выше, сделано уже после команд reboot и init 6. Вот после этого они действительно пропали в ps. Система даже во время этого коллапса пускала на консоль, и не только по ssh. Это я уже проверила до замены диска. Правда на обычной консоли были точно такие-же глюки что и по ssh.

----------

## smk

Можно увидеть содержание make.conf? Что то похожее, в том числе с завершением процессов было при сборке с неверными параметрами было...

----------

## calculator

 *Quote:*   

> 
> 
> ```
> # cat /proc/interrupts; sleep 5; cat /proc/interrupts
> 
> ...

 

Таймер похоже не тикает, ИМХО нужно гуглить по этим строчкам:

 *Quote:*   

> Jan 14 10:01:00 amethyst * The chipset may have PM-Timer Bug. Due to workarounds for a bug,
> 
> Jan 14 10:01:00 amethyst * this clock source is slow. If you are sure your timer does not have
> 
> Jan 14 10:01:00 amethyst * this bug, please use "acpi_pm_good" to disable the workaround

 

Ну а S.M.A.R.T. на винте включить тоже можно:

```
# smartctl -s on /dev/hda
```

----------

## tequila

 *smk wrote:*   

> Можно увидеть содержание make.conf? Что то похожее, в том числе с завершением процессов было при сборке с неверными параметрами было...

 

```

amethyst ~ # cat /etc/make.conf

CFLAGS="-O2 -march=i686 -pipe"

CHOST="i686-pc-linux-gnu"

CXXFLAGS="${CFLAGS}"

MAKEOPTS="-j2"

GENTOO_MIRRORS="http://www.gtlib.gatech.edu/pub/gentoo http://ftp.linux.ee/pub/gentoo/distfiles/ "

```

----------

## sa10

 *smk wrote:*   

>  *Quote:*   
> 
> ```
> hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
> 
> ...

 

После игнорирования таких сообщений у меня хард сдох через пару месяцев. Едва только часть файлов удалось спасти.

----------

## tequila

 *sa10 wrote:*   

>  *smk wrote:*    *Quote:*   
> 
> ```
> hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
> 
> ...

 

После включения SMART на /dev/hda таких строчек больше в логах нет, даже после smarttools -a /dev/hda

Все больше склоняюсь к мысли что проблема в матери. Хотя есть еще одна машина на которой тоже не пашет таймер, но она работает нормально (вроде). По крайней мере там таких проблем не наблюдается. На остальных машинах цифра в строке таймера при последовательном вызове cat /proc/interrupts меняется.

А в гугле по странным строкам логов об ошибке чипсета я искала. Все советы сводились к передаче ядру при загрузке параметра acpi_pm_good. Конфиг загрузчика поправила, вечером перегружу и посмотрю повторится ли это сообщение в логах. 

На данный момент: с утра сижу в консоли по ssh, работает ВСЕ. Вечером уйду и не буду заходить всю ночь, посмотрю что будет утром. Пока больше никаких мыслей нет.

----------

## calculator

 *sa10 wrote:*   

> После игнорирования таких сообщений у меня хард сдох через пару месяцев. Едва только часть файлов удалось спасти.

 

Кстати +1. Буквально на той неделе винт похоронил. Ругался такими словами. smart был включен, и в общем то ошибок на нем не много было. Хотя может и не связано...

----------

## user11

btw, лично у меня в /proc/interrupts тикает некий LOC, а 0-е прерывание стоит на 253. Думаю, это просто разные аппаратные таймеры используются, согласно конфигу ядра. В любом случае, если не тикает 0-е прерывание, это ещё ничего не значит. Наконец, достоверно можно сказать, что что-то перестало тикать, только проверив, что оно тикало, и что потом перестало.

----------

## Laitr Keiows

Хорошо бы вот это увидеть:

```
smartctl -A /dev/sda
```

----------

## tequila

amethyst ~ # smartctl -a /dev/hda

smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===

Model Family:     Seagate Barracuda 7200.7 and 7200.7 Plus family

Device Model:     ST3120022A

Serial Number:    3JS4BPQ9

Firmware Version: 8.54

User Capacity:    120,034,123,776 bytes

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   6

ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 2

Local Time is:    Tue Jan 15 02:00:05 2008 MSK

SMART support is: Available - device has SMART capability.

SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

General SMART Values:

Offline data collection status:  (0x82) Offline data collection activity

                                        was completed without error.

                                        Auto Offline Data Collection: Enabled.

Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever

                                        been run.

Total time to complete Offline

data collection:                 ( 430) seconds.

Offline data collection

capabilities:                    (0x5b) SMART execute Offline immediate.

                                        Auto Offline data collection on/off support.

                                        Suspend Offline collection upon new

                                        command.

                                        Offline surface scan supported.

                                        Self-test supported.

                                        No Conveyance Self-test supported.

                                        Selective Self-test supported.

SMART capabilities:            (0x0003) Saves SMART data before entering

                                        power-saving mode.

                                        Supports SMART auto save timer.

Error logging capability:        (0x01) Error logging supported.

                                        General Purpose Logging supported.

Short self-test routine

recommended polling time:        (   1) minutes.

Extended self-test routine

recommended polling time:        (  85) minutes.

SMART Attributes Data Structure revision number: 10

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   064   060   006    Pre-fail  Always       -       168147885

  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       1

  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0

  7 Seek_Error_Rate         0x000f   068   060   030    Pre-fail  Always       -       6638707

  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       120

 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       93

194 Temperature_Celsius     0x0022   046   049   000    Old_age   Always       -       46

195 Hardware_ECC_Recovered  0x001a   064   059   000    Old_age   Always       -       168147885

197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0

198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0

202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1

No Errors Logged

SMART Self-test log structure revision number 1

No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS

    1        0        0  Not_testing

    2        0        0  Not_testing

    3        0        0  Not_testing

    4        0        0  Not_testing

    5        0        0  Not_testing

Selective self-test flags (0x0):

  After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.

Ну и собственно все повторилось, только теперь в 2:00. После этого strace emerge mysql -pv заткнулось на вызове gettimeofday.

Ядро было собрано с поддержкой ACPI и APM, такое впечатление что ночью мать засыпает, а вот нормально проснуться у нее не получается, либо она в таком состоянии ядру неправильные параметры передает, в общем буду пробовать ту же систему но на другой матери.

----------

## alien

 *Quote:*   

> Ядро было собрано с поддержкой ACPI и APM, такое впечатление что ночью мать засыпает, 
> 
> а вот нормально проснуться у нее не получается, либо она в таком состоянии ядру неправильные 
> 
> параметры передает, в общем буду пробовать ту же систему но на другой матери.

 

По моему скромному мнению их мешать вредено.

----------

