# [CHIUSO] dmesg: BUG: Bad page state in process kswapd0

## funkoolow

Salve a tutti,

sto notando ora di avere in dmesg un buon numero di messaggi del genere:

```
[nov20 20:33] BUG: Bad page state in process kswapd0  pfn:4bcb1

[  +0,000007] page:f7577620 count:0 mapcount:0 mapping:c3865370 index:0x2eb4

[  +0,000003] page flags: 0x80020000(mappedtodisk)

[  +0,000005] page dumped because: non-NULL mapping

[  +0,000002] Modules linked in: fuse iptable_mangle iptable_nat nf_nat_ipv4 nf_nat ipt_REJECT xt_tcpudp nf_conntrack_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack iptable_filter ip_tables x_tables nouveau snd_mpu401 snd_mpu401_uart snd_rawmidi snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm microcode snd_timer snd_seq_device wmi ttm video fbcon bitblit softcursor font snd ohci_pci ohci_hcd soundcore drm_kms_helper ehci_pci ehci_hcd i2c_sis96x sis_agp

[  +0,000057] CPU: 0 PID: 18 Comm: kswapd0 Tainted: G    B         3.16.5-gentoo #1

[  +0,000002] Hardware name: Olidata S.p.A. MS-6567/MS-6567, BIOS Version 07.00T 04/06/02

[  +0,000003]  00000000 f7577620 f6563cc0 c13f9ded f6563ce0 c105fb0a c14d115a f650a9e4

[  +0,000008]  0004bcb1 f7577620 f7577620 00000000 f6563cfc c105fbab 00000001 00000000

[  +0,000007]  f7577620 f6bfe000 80020000 f6563d18 c1060a17 00000000 00000000 f6563d34

[  +0,000008] Call Trace:

[  +0,000015]  [<c13f9ded>] dump_stack+0x16/0x18

[  +0,000007]  [<c105fb0a>] bad_page+0xb0/0xd1

[  +0,000005]  [<c105fbab>] free_pages_prepare+0x80/0xeb

[  +0,000004]  [<c1060a17>] free_hot_cold_page+0x1d/0xc4

[  +0,000004]  [<c1060d3c>] free_hot_cold_page_list+0x25/0x34

[  +0,000005]  [<c1062f4a>] release_pages+0xf5/0x132

[  +0,000005]  [<c10634de>] __pagevec_release+0x1e/0x27

[  +0,000004]  [<c1064057>] invalidate_mapping_pages+0x106/0x11f

[  +0,000007]  [<c108fd1b>] inode_lru_isolate+0x77/0xf2

[  +0,000004]  [<c108fca4>] ? iput+0xca/0xca

[  +0,000007]  [<c106c4b2>] list_lru_walk_node+0x48/0xca

[  +0,000005]  [<c1090072>] prune_icache_sb+0x2a/0x3c

[  +0,000006]  [<c1081772>] super_cache_scan+0xc9/0x110

[  +0,000005]  [<c1064257>] shrink_slab_node+0xf8/0x13b

[  +0,000004]  [<c10645fb>] shrink_slab+0x5a/0xb7

[  +0,000005]  [<c1066464>] kswapd+0x4bd/0x619

[  +0,000005]  [<c1065fa7>] ? try_to_free_pages+0x3dc/0x3dc

[  +0,000007]  [<c10324e1>] kthread+0x9e/0xa3

[  +0,000006]  [<c13fc5c0>] ret_from_kernel_thread+0x20/0x30

[  +0,000004]  [<c1032443>] ? kthread_worker_fn+0xbd/0xbd

[nov20 20:34] BUG: Bad page state in process kswapd0  pfn:4bcb1

[  +0,000008] page:f7577620 count:0 mapcount:0 mapping:c3865370 index:0x2eb4

[  +0,000003] page flags: 0x80020000(mappedtodisk)

[  +0,000005] page dumped because: non-NULL mapping

[  +0,000002] Modules linked in: fuse iptable_mangle iptable_nat nf_nat_ipv4 nf_nat ipt_REJECT xt_tcpudp nf_conntrack_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack iptable_filter ip_tables x_tables nouveau snd_mpu401 snd_mpu401_uart snd_rawmidi snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm microcode snd_timer snd_seq_device wmi ttm video fbcon bitblit softcursor font snd ohci_pci ohci_hcd soundcore drm_kms_helper ehci_pci ehci_hcd i2c_sis96x sis_agp

[  +0,000054] CPU: 0 PID: 18 Comm: kswapd0 Tainted: G    B         3.16.5-gentoo #1

[  +0,000003] Hardware name: Olidata S.p.A. MS-6567/MS-6567, BIOS Version 07.00T 04/06/02

[  +0,000003]  00000000 f7577620 f6563cc0 c13f9ded f6563ce0 c105fb0a c14d115a f650a9e4

[  +0,000008]  0004bcb1 f7577620 f7577620 00000000 f6563cfc c105fbab 00000001 00000000

[  +0,000007]  f7577620 f6bfe000 80020000 f6563d18 c1060a17 00000000 00000000 f6563d34

[  +0,000008] Call Trace:

[  +0,000015]  [<c13f9ded>] dump_stack+0x16/0x18

[  +0,000007]  [<c105fb0a>] bad_page+0xb0/0xd1

[  +0,000005]  [<c105fbab>] free_pages_prepare+0x80/0xeb

[  +0,000004]  [<c1060a17>] free_hot_cold_page+0x1d/0xc4

[  +0,000004]  [<c1060d3c>] free_hot_cold_page_list+0x25/0x34

[  +0,000005]  [<c1062f4a>] release_pages+0xf5/0x132

[  +0,000005]  [<c10634de>] __pagevec_release+0x1e/0x27

[  +0,000004]  [<c1064057>] invalidate_mapping_pages+0x106/0x11f

[  +0,000008]  [<c1224364>] ? radix_tree_lookup+0xc/0xe

[  +0,000006]  [<c10029f1>] ? do_IRQ+0x76/0x89

[  +0,000005]  [<c108fca4>] ? iput+0xca/0xca

[  +0,000006]  [<c13fccac>] ? common_interrupt+0x2c/0x34

[  +0,000004]  [<c108fca4>] ? iput+0xca/0xca

[  +0,000004]  [<c108fd1b>] inode_lru_isolate+0x77/0xf2

[  +0,000003]  [<c108fca4>] ? iput+0xca/0xca

[  +0,000007]  [<c106c4b2>] list_lru_walk_node+0x48/0xca

[  +0,000004]  [<c1090072>] prune_icache_sb+0x2a/0x3c

[  +0,000007]  [<c1081772>] super_cache_scan+0xc9/0x110

[  +0,000005]  [<c1064257>] shrink_slab_node+0xf8/0x13b

[  +0,000004]  [<c10645fb>] shrink_slab+0x5a/0xb7

[  +0,000005]  [<c1066464>] kswapd+0x4bd/0x619

[  +0,000005]  [<c1065fa7>] ? try_to_free_pages+0x3dc/0x3dc

[  +0,000007]  [<c10324e1>] kthread+0x9e/0xa3

[  +0,000005]  [<c13fc5c0>] ret_from_kernel_thread+0x20/0x30

[  +0,000004]  [<c1032443>] ? kthread_worker_fn+0xbd/0xbd

[nov20 20:35] BUG: Bad page state in process kswapd0  pfn:4bcb1

[  +0,000008] page:f7577620 count:0 mapcount:0 mapping:c3865370 index:0x2eb4

[  +0,000002] page flags: 0x80020000(mappedtodisk)

[  +0,000006] page dumped because: non-NULL mapping

[  +0,000001] Modules linked in: fuse iptable_mangle iptable_nat nf_nat_ipv4 nf_nat ipt_REJECT xt_tcpudp nf_conntrack_ipv4 nf_defrag_ipv4 xt_conntrack nf_conntrack iptable_filter ip_tables x_tables nouveau snd_mpu401 snd_mpu401_uart snd_rawmidi snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm microcode snd_timer snd_seq_device wmi ttm video fbcon bitblit softcursor font snd ohci_pci ohci_hcd soundcore drm_kms_helper ehci_pci ehci_hcd i2c_sis96x sis_agp

[  +0,000057] CPU: 0 PID: 18 Comm: kswapd0 Tainted: G    B         3.16.5-gentoo #1

[  +0,000002] Hardware name: Olidata S.p.A. MS-6567/MS-6567, BIOS Version 07.00T 04/06/02

[  +0,000003]  00000000 f7577620 f6563cc0 c13f9ded f6563ce0 c105fb0a c14d115a f650a9e4

[  +0,000048]  0004bcb1 f7577620 f7577620 00000000 f6563cfc c105fbab 00000001 00000000

[  +0,000007]  f7577620 f6bfe000 80020000 f6563d18 c1060a17 00000000 00000000 f6563d34

[  +0,000008] Call Trace:

[  +0,000015]  [<c13f9ded>] dump_stack+0x16/0x18

[  +0,000007]  [<c105fb0a>] bad_page+0xb0/0xd1

[  +0,000004]  [<c105fbab>] free_pages_prepare+0x80/0xeb

[  +0,000004]  [<c1060a17>] free_hot_cold_page+0x1d/0xc4

[  +0,000005]  [<c1060d3c>] free_hot_cold_page_list+0x25/0x34

[  +0,000004]  [<c1062f4a>] release_pages+0xf5/0x132

[  +0,000005]  [<c10634de>] __pagevec_release+0x1e/0x27

[  +0,000005]  [<c1064057>] invalidate_mapping_pages+0x106/0x11f

[  +0,000007]  [<c108fbce>] ? inode_add_lru+0x2d/0x39

[  +0,000004]  [<c108fc46>] ? iput+0x6c/0xca

[  +0,000004]  [<c108fd1b>] inode_lru_isolate+0x77/0xf2

[  +0,000003]  [<c108fca4>] ? iput+0xca/0xca

[  +0,000006]  [<c106c4b2>] list_lru_walk_node+0x48/0xca

[  +0,000004]  [<c1090072>] prune_icache_sb+0x2a/0x3c

[  +0,000007]  [<c1081772>] super_cache_scan+0xc9/0x110

[  +0,000005]  [<c1064257>] shrink_slab_node+0xf8/0x13b

[  +0,000004]  [<c10645fb>] shrink_slab+0x5a/0xb7

[  +0,000004]  [<c1066464>] kswapd+0x4bd/0x619

[  +0,000006]  [<c1065fa7>] ? try_to_free_pages+0x3dc/0x3dc

[  +0,000006]  [<c10324e1>] kthread+0x9e/0xa3

[  +0,000006]  [<c13fc5c0>] ret_from_kernel_thread+0x20/0x30

[  +0,000005]  [<c1032443>] ? kthread_worker_fn+0xbd/0xbd

```

possono indicare problemi di disco (visto che mi pare tiri in ballo lo swap?)

grazie a tutti

----------

## GuN_jAcK

Detta così non saprei cosa consigliarti ma io proverei a procedere nella seguente maniera:

- Proverei a controllare nel kernel se è compilato tutto correttamente, eventualmente proverei ad aggiornare la versione;

- Controllo delle partizioni. Hai la swap attiva?;

- Se pensi che sia il disco prova a fare che con gli SMART tools: #smartctl -l selftest /dev/sda

altro per ora non mi viene in mente...

Fammi sapere  :Smile: 

----------

## djinnZ

Quanto sopra più ramtest e controllo dei connettori poi prova comunque a scambiare i moduli della RAM e non attivare la swap.

Se il problema si presenta più spesso o meno vuol dire che hanno qualcosa che non va.

Potrebbe benissimo essere l'inverso, il disco funziona ma la copia su ram dal disco fallisce. Di norma se il disco non risponde al momento dello swap il messaggio è un altro (ora non posso controllare ma era la mia croce tanto tempo fa) che al momento non ricordo.

Sembra assurdo ma controlla la batteria tampone (qualla al litio a moneta per l'orologio e la conf del bios).  :Wink: 

----------

## funkoolow

ieri mi si era ribloccato con un errore diverso, sembra che l'autonomia sia qualche giorno poi si blocca. Stamattina non mi faceva più loggare, nè in locale terminale o grafica  (accettava input ma poi restava freezato) che via ssh (nessun input possibile), ho "risolto" riavviando

riguardo ai suggerimenti, vado con ordine:

 *Quote:*   

> Proverei a controllare nel kernel se è compilato tutto correttamente, eventualmente proverei ad aggiornare la versione; 

 

Ho la ultima disponibile, compilata partendo dal vecchio make oldconfig e settando le opzioni come raccomandato.

```
# uname -a

Linux funkserver 3.16.5-gentoo #1 Sun Nov 16 23:41:10 CET 2014 i686 Intel(R) Pentium(R) 4 CPU 2.20GHz GenuineIntel GNU/Linux
```

come posso controllare se è tutto compilato correttamente in maniera "misurabile"?

 *Quote:*   

> Controllo delle partizioni. Hai la swap attiva?; 

 

si, ma ora l'ho commentata in /etc/fstab e proverò il riavvio

 *Quote:*   

> Se pensi che sia il disco prova a fare che con gli SMART tools: #smartctl -l selftest /dev/sda 

 

questo il selftest:

```
# smartctl -l selftest /dev/hda

smartctl 6.3 2014-07-26 r3976 [i686-linux-3.16.5-gentoo] (local build)

Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===

SMART Self-test log structure revision number 1

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error

# 1  Extended offline    Completed without error       00%     37553         -

# 2  Short offline       Completed without error       00%     37523         -

# 3  Short offline       Completed without error       00%     37499         -

# 4  Short offline       Completed without error       00%     37475         -

# 5  Short offline       Completed without error       00%     37451         -

# 6  Short offline       Completed without error       00%     37427         -

# 7  Short offline       Completed without error       00%     37405         -

# 8  Short offline       Completed without error       00%     37379         -

# 9  Short offline       Completed without error       00%     37332         -

#10  Short offline       Completed without error       00%     37308         -

#11  Short offline       Completed without error       00%     37284         -

#12  Short offline       Completed without error       00%     37260         -

#13  Short offline       Completed without error       00%     37236         -

#14  Short offline       Completed without error       00%     37212         -

#15  Short offline       Completed without error       00%     37188         -

#16  Short offline       Completed without error       00%     37164         -

#17  Short offline       Completed without error       00%     37140         -

#18  Short offline       Completed without error       00%     37116         -

#19  Short offline       Completed without error       00%     37084         -

#20  Short offline       Completed without error       00%     37059         -

#21  Short offline       Completed without error       00%     37035         -

```

e questo il più esteso output di smartctl -a

```
# smartctl -a /dev/hda

smartctl 6.3 2014-07-26 r3976 [i686-linux-3.16.5-gentoo] (local build)

Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===

Model Family:     Western Digital Caviar Blue EIDE

Device Model:     WDC WD3200AAJB-00J3A0

Serial Number:    WD-WCAV20337314

LU WWN Device Id: 5 0014ee 156db0822

Firmware Version: 01.03E01

User Capacity:    320,072,933,376 bytes [320 GB]

Sector Size:      512 bytes logical/physical

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   ATA8-ACS (minor revision not indicated)

Local Time is:    Tue Nov 25 12:52:46 2014 CET

SMART support is: Available - device has SMART capability.

SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

General SMART Values:

Offline data collection status:  (0x85) Offline data collection activity

                                        was aborted by an interrupting command from host.

                                        Auto Offline Data Collection: Enabled.

Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever 

                                        been run.

Total time to complete Offline 

data collection:                ( 6180) seconds.

Offline data collection

capabilities:                    (0x7b) SMART execute Offline immediate.

                                        Auto Offline data collection on/off support.

                                        Suspend Offline collection upon new

                                        command.

                                        Offline surface scan supported.

                                        Self-test supported.

                                        Conveyance Self-test supported.

                                        Selective Self-test supported.

SMART capabilities:            (0x0003) Saves SMART data before entering

                                        power-saving mode.

                                        Supports SMART auto save timer.

Error logging capability:        (0x01) Error logging supported.

                                        General Purpose Logging supported.

Short self-test routine 

recommended polling time:        (   2) minutes.

Extended self-test routine

recommended polling time:        (  75) minutes.

Conveyance self-test routine

recommended polling time:        (   5) minutes.

SCT capabilities:              (0x303f) SCT Status supported.

                                        SCT Error Recovery Control supported.

                                        SCT Feature Control supported.

                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       4765

  3 Spin_Up_Time            0x0027   135   127   021    Pre-fail  Always       -       4241

  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       626

  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0

  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0

  9 Power_On_Hours          0x0032   049   049   000    Old_age   Always       -       37555

 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0

 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       624

192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       165

193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       626

194 Temperature_Celsius     0x0022   108   091   000    Old_age   Always       -       35

196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1

200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1

No Errors Logged

SMART Self-test log structure revision number 1

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error

# 1  Extended offline    Completed without error       00%     37553         -

# 2  Short offline       Completed without error       00%     37523         -

# 3  Short offline       Completed without error       00%     37499         -

# 4  Short offline       Completed without error       00%     37475         -

# 5  Short offline       Completed without error       00%     37451         -

# 6  Short offline       Completed without error       00%     37427         -

# 7  Short offline       Completed without error       00%     37405         -

# 8  Short offline       Completed without error       00%     37379         -

# 9  Short offline       Completed without error       00%     37332         -

#10  Short offline       Completed without error       00%     37308         -

#11  Short offline       Completed without error       00%     37284         -

#12  Short offline       Completed without error       00%     37260         -

#13  Short offline       Completed without error       00%     37236         -

#14  Short offline       Completed without error       00%     37212         -

#15  Short offline       Completed without error       00%     37188         -

#16  Short offline       Completed without error       00%     37164         -

#17  Short offline       Completed without error       00%     37140         -

#18  Short offline       Completed without error       00%     37116         -

#19  Short offline       Completed without error       00%     37084         -

#20  Short offline       Completed without error       00%     37059         -

#21  Short offline       Completed without error       00%     37035         -

SMART Selective self-test log data structure revision number 1

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS

    1        0        0  Not_testing

    2        0        0  Not_testing

    3        0        0  Not_testing

    4        0        0  Not_testing

    5        0        0  Not_testing

Selective self-test flags (0x0):

  After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.

```

non so interpretare molto bene le varie voci ma mi sembra ci sia niente di grave... o no?

 *Quote:*   

> Quanto sopra più ramtest e controllo dei connettori poi prova comunque a scambiare i moduli della RAM e non attivare la swap.

 

esito di un intero passaggio di ramtest negativo. La disattivazione dello swap procedo al prossimo riavvio

 *Quote:*   

> Sembra assurdo ma controlla la batteria tampone (qualla al litio a moneta per l'orologio e la conf del bios)

 

questa anche la tengo in sospeso in caso di ulteriore blocco, approfittando per scambiare le posizioni delle ram per scrupolo

per ora grazie a entrambi per i suggerimenti

----------

## djinnZ

Punto primo il problema è proprio il make oldconfig, possibile che sfugga qualcosa.

kenrnel ultimo stabile ovviamente.

Un banale trucco potrebbe essere aprire due terminali, nel primo avvii make menuconfig e te lo tieni per vedere cosa hai attivato e cosa no, nel secondo dopo lanci make mrproper ; make menuconfig ( o genekrnel --menuconfig --no-oldconfig --mrproper --clean ).

Prima di compilare l'immagine fai una bella pulizia in /lib/moduels e se hai moduli esterni ricompilali.

Possibile che l'errore sia generato da un modulo o da una opzione "nuova" nella gestione della memoria che l'oldconfig non consente di gestire correttamente.

Rivedi con estrema attenzione le opzioni per memoria, debug e sicurezza. Non limitarti al default.

Possibile che le ram siano vicine alla cottura e quindi dopo un poco in funzione iniziano ad accumulare errori. O che la batteria al litio andata gli crea problemi.

ma altrettanto possibile che un modulo sballato o delle impostazioni in conflitto generino l'errore.

Prova anche un emerge -1B su gcc e libc.

----------

## funkoolow

ti ringrazio, intanto posso escludere che il problema sia legato in qualche modo allo swap perchè stamattina l'ho ritrovato inchiodato dopo aver riavviato con la relativa voce in fstab commentata.

prima di ricompilare tutto, voglio vedere che succede ad avviare un kernel precedente, ora sono up con il 3.12.21-r1 anzichè il 3.16.5 (cmq stabile in portage), se dovesse reinchiodarsi procederò come mi suggerivi e ci si risente per il mese prossimo, giusto il tempo di ricompilare tutto  :Very Happy: 

nell'attesa grazie come sempre dei preziosi suggerimenti

----------

## xdarma

 *funkoolow wrote:*   

> 
> 
> ```
> 
>   3 Spin_Up_Time            0x0027   135   127   021    Pre-fail  Always       -       4241
> ...

 

Il primo valore mi sembra troppo alto rispetto alla soglia per NON pensare che il motore abbia qualche problema.

Il secondo valore mi sembra troppo alto per NON pensare che potrebbe essere ora di cambiarlo.

Ha accumulato oltre 4 anni di lavoro continuativo. Per un disco consumer mi sembra troppo al di sopra dei due anni di garanzia obbligatoria ;-)

IMO, fai un bel backup prima di stressare ultriormente la meccanica.

----------

## djinnZ

 *xdarma wrote:*   

> Il secondo valore mi sembra troppo alto per NON pensare che potrebbe essere ora di cambiarlo.

 Dissento aspramente da tale affermazione.

L'MTBF medio dei dischi "moderni è tra le 100'000 e le 200'000 ore per la roba da megastore (che in genere è più problematica delle serie "consumer" o destinate a fasce più professionali)

Non fare l'errore di confondere la garanzia in sostituzione con l'MTBF.

La garanzia è l'impegno contrattuale alla riparazione od alla sostituzione con identico dispositivo (quindi non può andare oltre un paio d'anni con il ritmo attuale). Di norma è posto ad almeno un quarto della durata prevista.

E la mortalità infantile, nella mia esperienza, non va oltre le 3000 ore di funzionamento.

Il primo sarebbe molto indicativo laddove l'errore capitasse alla riattivazione da swap, in avvio o quando il disco va in pausa... ma l'errore dovrebbe essere un kernel panic per memory fault (non riesco a ricordare il messaggio esatto) e dovresti avere errori di I/O che invece pare non ci siano. Per questo mantengo un moderato scetticismo.

Sempre solo per discutere e confrontare e esperienze e competenza, non per polemizzare o dare lezioni.

----------

## xdarma

 *djinnZ wrote:*   

> 
> 
> Non fare l'errore di confondere la garanzia in sostituzione con l'MTBF.
> 
> La garanzia è l'impegno contrattuale alla riparazione od alla sostituzione con identico dispositivo (quindi non può andare oltre un paio d'anni con il ritmo attuale). Di norma è posto ad almeno un quarto della durata prevista.
> ...

 

Quale errore? Hanno preso i soldi e la garanzia è scaduta: secondo me è un miracolo che funzioni ancora ;-)

Probabilmente si è impallato il timer dell'autodistruzione :-D

[OT]

Ma quello "attempato" e "disilluso" non eri tu?

:-P

[/OT]

 *Quote:*   

> 
> 
> Il primo sarebbe molto indicativo laddove l'errore capitasse alla riattivazione da swap, in avvio o quando il disco va in pausa... ma l'errore dovrebbe essere un kernel panic per memory fault (non riesco a ricordare il messaggio esatto) e dovresti avere errori di I/O che invece pare non ci siano. Per questo mantengo un moderato scetticismo.
> 
> Sempre solo per discutere e confrontare e esperienze e competenza, non per polemizzare o dare lezioni.

 

Non mi passa neanche per l'anticamera del cervello di dare lezioni a nessuno e su nessun argomento.

Personalmente non mi fido al 100% dei report smart. Soprattutto perché non tutte le rotture vengo preannunciate da smart.

A mio modo di vedere, il valore di gran lunga più preoccupante è l'età.

Sicuramente può durare ancora, ma non ci metterei la mano sul fuoco e comincerei a ragionare su come sopravvivere alla rottura.

Sapere che hai perso dati per il motore o per settori danneggiati non cambia molto: dovevi pensarci prima.

E una copia di backup in più non ha mai ammazzato nessuno ;-)

----------

## djinnZ

La faccenda è divertente. Dato che la garanzia obbliga alla sostituzione è stato scelto un valore per cui è "matematicamente" certo che nessun HD si pianterà prima della scadenza o, se lo fa, se si scassa, lo dovrà fare prima che i magazzini siano vuoti.

Poniamo il caso che compri un HD pata con garanzia 5 anni ma nel frattempo smettono di produrli ed in due anni finiscono le scorte. Lasciamo perdere che dovresti far causa e che ti costa di bolli più di un nuovo pc. Teoricamente se non sono in grado di fornirti la sostituzione devono comprarti il pc nuovo che possa utilizzare gli hd sata.

Quindi per evitare rogne si sono organizzati.

Secondo te è un caso od un mero abuso che la garanzia per gli acquirenti con partita iva sia ad un anno invece che due? Tutto calcolato.

In attesa che un imbecille avanzo di sagrestia metta in finanziaria una norma contorta che li liberi da quest'obbligo o che lo imponga il WTO a seguito di una farraginosa istruttoria segreta.

Allora attaccheranno a fare HD che durino giusto 2 anni invece dei dieci/quindici attuali.

E comunque, come dimostrato dai report di google a suo tempo il timer di funzionamento non è un valore indicativo, sarebbe più utile sapere anche  quante volte è stato riavviato, dal confronto di questi due valori si potrebbe avere una indicazione più affidabile.

Per questo sono scettico quanto è più di te sulla capacità di predire i guasti da parte del sistema smart.

Ritornando sul problema specifico non mi sembrano indicazioni correlate anche se il valore del motore, ora che mi ci hai fatto riflettere, potrebbe indicare anche una instabilità di voltaggio sulla 12V indizio che l'alimentatore (nella mia esperienza sono quelli il vero punto debole, con tempo degradano, non so perchè e sarebbe bello saperlo) potrebbe essere compromesso.

Stando agli errori mi pare un problema di corruzione sulla ram.

E gongolo troppo sul fatto che stavolta non sono io a fare il menagramo...  :Twisted Evil:   :Twisted Evil:   :Twisted Evil: 

----------

## funkoolow

Signori, dopo l'ennesimo blocco e conseguente riavvio, mercoledì l'intera macchina ha definitivamente stramazzato senza più volerne sapere di riaccendersi. Avendo urgenza di ritirare su il sistema, ho installato dischi e ram su una macchina alternativa con mobo e alimentatore di recupero: dopo diversi giorni senza alcuna delle precedenti segnalazioni, mi azzardo a credere che ad essere cotta fosse proprio la coppia scheda madre e/o procesore (che erano cmq avanzi di iniziative trashware promosse dal lug locale nel 2011) o al massimo l'alimentatore (idem).

Per ulteriore scrupolo, non appena rimessa in sesto la macchina, ho sia ricontrollato la ram con memtest per una notte (8 passaggi con zero errori segnalati) che predisposto un backup su disco nuovo di fabbrica.

Grazie cmq a tutti per i suggerimenti e l'interessamento, per ora taggherei risolto confidando nell'affidabilità del nuovo hardware  :Smile: 

Saluti a tutti

----------

## djinnZ

@xdarma:   :Mr. Green:  visto? ... ma   :Evil or Very Mad:  mi sa che mi hai fregato... e sono finito io ancora una volta a fare il menagramo...  :Evil or Very Mad: 

@funkoolow: prima cosa [risolto] un beneamato ... [chiuso] e correggi.  Visto che la diagnosi non è definitiva e non chiarisce nulla e non hai risolto. Hai messo su una nuova macchina.

Visto lo stato delle cose, dopo un 2/3000 ore di funzionamento del nuovo, continuerei ad usare il vecchio HD per il solo sistema fino a distruzione, lasciando l'altro disco staccato. Quando passa a miglior vita rimpiazzi.

Un disco nuovo non aumenta l'affidabilità, un disco seminuovo, testato, si.

----------

## funkoolow

ho messo [risolto] avendo identificato come causa dei blocchi un difetto hardware sulla scheda madre (una volta sostituita i problemi sono spariti, il resto è rimasto invariato). 

Purtroppo non posso fare ulteriori test perchè la mobo non dà più segni di vita, ma visto che per casi del genere mi pare di capire sia meglio taggare [chiuso], modifico come richiesto.

grazie cmq a tutti per i consigli, un saluto  :Smile: 

----------

## bandreabis

Anche @djinnZ

Piccolo OT a proposito di HD ed età.

Ho un notebook di 7 anni. Un giorno di 3 o 4 anni fa ho deciso di cambiare HD per avere più spazio.

Ho acquistato un bellissimo 160GB IDE, ci ho copiato la vecchia installazione di Gentoo (c'è ancora il thread con le mie perplessità sul metodo di questa operazione) e mi sono goduto il mio nuovo disco... per meno di un anno!!! Nessun errore preventivo, solo un TAC e un sistema in panico.

Ho rimesso il vecchio disco di 4 anni e sono giunto al settimo.

Mi sto portando sfiga? Mi sa. OK, stasera backup!

----------

## djinnZ

Premesso che avevo il tuo medesimo laptop, distrutto da un "tecnico" imbecille in mia assenza, e so che quell'HD PATA a 7000 rpm era decisamente costoso e di difficile reperibilità, decisamente pregiato per un laptop a basso costo (e non direi visto che tanto male non era, ma i bimbiminkia dei "giornalisti" si soffermano su dettagli essenziali quali la cover in lega piuttosto che plastica e l'eleganza del logo sulla stessa).

Ho due HD SCSI da 400Mb che contano la bellezza di 34 anni di età ed ho (da qualche parte) un HD PATA che è durato la bellezza di una ventina di ore.

Dato che nella mia città non è possibile reperire venditori seri sono anni che mi rivolgo direttamente ad un grossista e, all'indomani dell'ennesima verifica per sostituzione, facendo quattro chiacchiere, mi ha fatto notare che mai gli è stato riportato un HD oltre due mesi dall'acquisto.

In realtà, per fare un esempio, supponendo di avere tre dischi di cui due in raid ed uno di sistema, converrebbe avere il più nuovo come unità di sistema (quindi facilmente rimpiazzabile) e metterlo al posto del disco più vecchio del raid solo superate le 3/4000 ore di funzionamento. Considerando che sono dell'idea che avere due dischi in raid della stessa età e lotto di produzione non è bene, tenderanno a degradare negli stessi tempi.

----------

