Qualité et fiabilité du matériel professionnel

Je m’occupe des serveurs au niveau matériel : Mettre à jour le BIOS/UEFI, les firmwares des disques, ajouter/tester les RAMs, remplacer une alimentation, racker le serveur… Je voulais partager avec vous 3 problèmes récents afin que vous gardiez à l’esprit que même avec du matériel professionnel au prix élevé : Vous devez rester vigilant.

Certains SSD HP cessent de fonctionner après 32768 heures d’utilisation

Cette information a fait beaucoup de bruit et a pas mal circulé, je voulais cependant m’assurer que vous étiez au courant.

Cela fait un peu plus de 3 ans et 270 jours, la sentence est dure : « the bug makes both the drive and the data on it unrecoverable ». Il faudra surtout compter sur les sauvegardes et mettre à jour les firmwares.

Intel SSD D3-S4510 and Intel SSD D3-S4610 series 1.92 TB and 3.84 TB drives unresponsive after 1,700 cumulative idle power-on hours

L’information précédente m’a fait sourire par rapport à ce que j’ai vécu ces derniers mois. Ce lien Microsoft Support nous a été fourni par notre fournisseur mais je précise que nous n’utilisons que des serveurs sous Linux.

On parle ici de SSD de gamme Datacenter, 1700 heures correspondant à presque 71 jours. Là aussi il s’agit d’un bug firmware : « There is no counter or other attribute that reports drive idle power-on hours. Intel recommends that you use SMART 09h (drive power-on hours) as an approximation of the idle power-on hours. Therefore, Intel strongly recommends that you update the firmware as soon as possible to avoid the risk of unrecoverable data loss ».

Concrètement je mettais un SSD neuf en prod, tout allait bien et au bout de quelques mois le SSD cesse totalement de fonctionner, il est reconnu défaillant par le RAID, sur des RAID 1 par exemple on se retrouve donc naturellement sur un seul disque (ce qui est un peu chaud chaud). Intervention immédiate nécessaire.

Pour l’avoir vécu on a surtout eu la chance d’avoir un bon fournisseur :

  • Un disque Intel en panne vous devez le renvoyer à votre fournisseur qui le retourne au constructeur. Intel en renvoie un neuf et analyse le disque défaillant, juge si c’est de sa responsabilité ou de la vôtre (le client), dans ce cas le constructeur facture le disque neuf envoyé en remplacement. Les informations importantes à retenir : 1/ Vous n’avez plus de disque donc il vous en faut un autre 2/ Ça prend en général 2-3 jours (dans le meilleur des cas) avant d’avoir un disque de remplacement
  • Un disque tombant en panne, ça arrive régulièrement, on tape dans le stock (spare), on fait jouer la garantie ou on en rachète un. J’ai changé 11 disques touchés par ce bug en 9 mois. Si vous épuisez vos disques de spare, soit vous en rachetez un mais il vous restera sur les bras soit vous attendez le retour de garantie… Heureusement notre fournisseur a fait tampon, il nous a fourni des disques neufs de son stock et LUI a attendu le retour de garantie de tous les disques renvoyés
  • J’ai eu 5 pannes en 6 mois, j’ai questionné notre fournisseur demandant des informations sur la fiabilité des nouveaux SSD chez Intel. Un autre de ses clients rencontrait des difficultés mais sur une autre série, pas d’alerte provenant d’Intel. Il faut bien comprendre « comment ça marche », le constructeur n’avouera jamais sa faute tant qu’il n’aura pas mis exactement le doigt sur le problème, avant il constatera un nombre anormal de retours pour autant il n’a pas de « certitude » que le problème vient de lui et fera tout pour éviter d’avouer sa faute et la mauvaise publicité. On m’a demandé si c’était une carte mère précise, de mettre à jour tout ce qui était possible de mettre à jour (firmware, BIOS/UEFI…), de faire des tests… Évidemment constructeur et fournisseur cherchent d’où le problème vient mais c’est au client qu’on demande de trouver/bosser en étant pas loin de lui dire que c’est de sa faute
  • J’ai ensuite eu 6 pannes en 3 mois, j’ai commencé à être très insistant pour ne pas dire pénible, ça fait partie de mon job aussi de mettre la pression aux fournisseurs pour trouver des solutions. Au téléphone j’ai appris que notre fournisseur n’arrivait plus à avoir d’échanges d’Intel, en effet devant le nombre conséquent de retour Intel s’est retrouvé à devoir gérer une surcharge énorme de disques à contrôler/vérifier. Ils ont donc exigé en premier lieu plus d’informations sur les disques et ensuite ils ont coupé les vannes, plus de renvoi de disques

Le genre d’histoire qu’on ne vous racontera pas à l’école, la fin ? Le « nouveau » firmware est sorti et j’ai flashé tous les disques concernés, je n’ai plus eu aucun problème ces deux derniers mois. Je précise qu’on était au point de rupture, notre fournisseur n’arrivant plus à avoir assez de stock pour fournir ses clients…

Lire entre les lignes

Sur cette carte mère Supermicro vous verrez :

Memory Type			2933/2666/2400/2133MHz ECC DDR4 RDIMM, LRDIMM
Error Detection		Corrects single-bit errors

RDIMM veut dire Registered DIMM, de la RAM Buffered dit autrement. Je vous renvoie vers Wikipédia pour en savoir davantage sur registered/buffered memory en soulignant : « Bien que la plupart des modules de mémoire vive à registres comportent un système de correction d’erreurs (Error-Correcting Code Memory ou ECC Memory), ce n’est pas toujours le cas. De la même façon, les modules avec correction d’erreurs intégrée ne sont pas toujours pourvus de registres ».

Le jour où j’ai lancé un dmidecode avec comme retour Error Correction Type: Single-bit ECC, je ne savais pas si dmidecode me donnait la bonne information, la RAM n’était en fait pas ECC Buffered ou la carte mère posait problème. Après un mail au support Supermicro : « According to spec the motherboard only supports single bit errors »… ah oui d’accord.

Cette spécification de carte mère dit qu’il faut de la ECC DDR4 RDIMM mais « Corrects single-bit errors » n’étant pas « Multi-bit ECC » ne tient donc pas compte de la capacité ECC de la RAM. On vous fait acheter de la RAM plus chère dont le caractère ECC n’est pas pris en charge par la carte mère.

Lire entre les lignes : Lire en devinant même ce qui n’est pas écrit explicitement.

Déjà un avis pertinent dans Qualité et fiabilité du matériel professionnel :

  • Côté ssd c’est le genre d’info qu’on voyait au début de ce genre de techno sur les disques bas de gamme de l’époque. …et qui sont aujourd’hui dans la gamme pro parce qu’il fallait faire baisser les prix. OK on faisait peut-être de la surqualite mais c’est ce qui me fait tiquer pour les ssd partout. Sur ma pauvre utilisation perso, par contre, ha ha.
    La vraie question c’est l’affichage du MTBF et ce que ça représente sur un serveur selon le type d’utilisation.

Les commentaires sont fermés.