ConnectX4 LX: Molan, hasta que se atascan

nVidia (nacida Mellanox) dice en sus notas de actualización de firmware que es un «rare case». Pero a todos nos mira un tuerto de vez en cuando, y ese día no fue de extrañar que un Dell r630 dejara de ver sus dos puertos SFP28 (en la tarjeta rNDC, pero esto es irrelevante; es PCIe, al fin y al cabo).

En lugar de los SFP28, nos gratificó con un arranque bastante lento y un críptico error en syslog:

mlx5_core 0000:01:00.0: mlx5_function_setup:995:(pid 252450): Firmware over 120000 MS in pre-initializing state, aborting
mlx5_core 0000:01:00.0: probe_one:1484:(pid 252450): mlx5_init_one failed with error code -16

Los dispositivos, en consecuencia, no aparecieron en el sistema operativo, convirtiendo este servidor en un nada práctico pisapapeles.

¿Y qué es lo que pasaba? Una bonita tarde de domingo escarbando (con el dueño del servidor cerca de un desfibrilador), reveló esta perla en las notas de versión del firmware:

- Fixed a rare case where the the device hanged while running the sw reset flow under heavy stress and with many open resources.

Bueno, no era mucho, pero tras haber rearrancado mil veces el servidor y hasta haberlo apagado y encendido, no quedaba mucho más que pudiera ser. Bien fuera este caso o un primo hermano, suele merecer la pena actualizar el firmware de los diferentes subsistemas: El mantenimiento de firmware suele consistir casi siempre en correcciones de errores, siendo la introducción de errores nuevos relativamente infrecuente.

Con Dell hemos topado

En general, Dell hace las cosas bastante bien y el Open Manage Enterprise, que permite actualizar firmwares sin dolor y masivamente, por sus muchos defectos, es una herramienta de lo más útil. Si el servidor en cuestión está integrado, claro. Lo cual no era este caso porque es un servidor de un cliente; y, para añadir insulto a la ofensa, ni la iDRAC, ni el lifecycle controller local veían posible actualizar el firmware. Decían que ese dispositivo no está en el sistema. Lo sabrán ellos.

Total.

  • Descargar las herramientas de gestión de firmware de nVidia;
  • Descargar el firmware de Dell para la tarjeta en cuestión;
  • Desempaquetar el firmware del putrefacto .EXE que suministra Dell (unzip es suficiente).
  • Averiguar gracias a lspci -vv cuál de los tres firmwares sin más explicación es el correcto para la tarjeta rNDC (lspci da el nombre de la pieza, que forma parte del nombre del archivo de uno de los tres .bin que el paquete de Dell incluye en payload/). Como para unas prisas:
# lspci -vv | grep PN
        [PN] Part number: 0R887V
        [PN] Part number: 0R887V
# ls networkfirmware900n0/payload/ | grep 0R887V
fw-ConnectX4Lx-rel-14_31_1014-0R887V-UEFI-14.24.13-FlexBoot-3.6.403.bin
  • Quemar
# flint -d 01:00.0 -i networkfirmware900n0/payload/fw-ConnectX4Lx-rel-14_31_1014-0R887V-UEFI-14.24.13-FlexBoot-3.6.403.bin b
  • Rearrancar el firmware
# mlxfwreset -d 01:00.0 reset

Y listo, a funcionar. Rearrancamos y actualizamos todo, ya que estamos, hacemos un bonito artículo por si alguien se ve en las mismas, y nos acabamos el café.

Dejar un comentario?

0 Comentarios.

Deje un comentario


NOTA - Puede usar estosHTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.