Se le consulta a copilot un resumen de lo sucedido en el día de hoy y las causas y efectos del inconveniente.
- ¿Es posible que un problema de alimentación haya provocado el estado “stalled” de pve7?
Sí.
El patrón observado es típico de un fallo físico intermitente, incluyendo:
microcorte eléctrico,
caída momentánea de PSU,
fallo de PDU/UPS,
glitch de energía en el nodo.
Por qué encaja perfecto:
No hay logs de kernel indicando un crash.
No hay oom, panic, errores de disco, ni “link down”.
pve7 no se apagó bruscamente: quedó vivo pero “aislado del clúster” durante ~3h → esto pasa cuando el host pierde estabilidad eléctrica, congela parte del hardware, o entra en un estado inestable donde la VM sigue funcionando pero el nodo deja de responder al cluster/HA.
✔️ 2) ¿Por qué no hay actividad en el log de Proxmox?
Porque pve7 no llegó a apagarse completamente ni a reiniciarse en ese momento ―solo quedó stalled (bloqueado a nivel HA/cluster), sin caer el kernel.
En ese estado:
El kernel sigue vivo.
Las VMs pueden seguir corriendo.
Pero el nodo NO responde a HA, ni corosync, ni a varias capas del cluster.
Y no escribe nuevos logs, porque los servicios están “congelados”.
✔️ 3) ¿Por qué la VM dejó de ejecutar cron pero “revivió” al moverse por HA?
Porque en ese estado:
➤ El hipervisor (pve7) se quedó aislado.
➤ La VM siguió corriendo, pero no recibía CPU estable / IO / reloj correctamente.
¿Qué se observa en tu VM?
Postgres siguió arriba, porque el proceso estaba en memoria y no necesitaba recursos de cluster.
Pero cron dejó de ejecutar jobs porque la VM estaba funcionando en modo “zombie lento”:
reloj del sistema afectado,
CPU scheduling degradado,
IO bloqueado o con latencias extremas.
👉 Cron depende de reloj + scheduler.
👉 Postgres puede sobrevivir incluso si el host está inestable, mientras tenga memoria y no necesite hacer syscalls costosas.
✔️ 4) ¿Por qué el HA “revive” la VM al moverla a pve6?
Porque cuando pve7 finalmente cae/reinicia a 08:49:30, HA ve:
“nodo no estable → reubicar recursos”.
Entonces:
pve6 arranca la VM 106 a las 08:49:03, exactamente como muestran tus logs.
La VM vuelve a tener CPU/IO/tiempo normal.
Cron vuelve a funcionar (por eso a las 10:13+ comienzan a aparecer ejecuciones).
✔️ 5) ¿Por qué Postgres siguió vivo?
Respuesta corta: Porque PostgreSQL es extremadamente resiliente a pausas largas siempre que:
el proceso no sea matado,
la memoria siga consistente,
no necesite escribir intensivamente en disco,
el reloj del sistema no retroceda (solo se “congela”).
Esto encaja perfecto con un “host parcialmente colgado” (stall).
✔️ Resumen final en una sola frase
Lo que pasó es un fallo físico o eléctrico en pve7 que lo dejó vivo pero aislado, congelando servicios del cluster, dejando la VM en modo “semi congelado” (sin cron), hasta que finalmente cayó y HA la revivió limpiamente en pve6.