Una falla de RAID es una emergencia técnica donde cada acción cuenta. El problema es que las reacciones instintivas más comunes —intentar reconstruir, reemplazar discos, reiniciar el servidor— son exactamente las que más daño pueden causar. Esta página cubre los errores más frecuentes y por qué son peligrosos.
Error 1: iniciar la reconstrucción automática sin diagnóstico
Es el error más frecuente y el más costoso. Cuando un RAID reporta un disco fallido, los sistemas NAS, servidores y controladoras RAID suelen ofrecer la opción de reconstruir automáticamente al conectar un disco nuevo. El problema:
- Si hay un segundo disco con sectores defectuosos no detectados, la reconstrucción puede fallar a mitad de proceso, dejando el array en un estado peor que antes.
- La reconstrucción escribe intensivamente sobre todos los discos del array, lo que puede provocar fallas adicionales en discos que estaban al límite.
- Si los parámetros del array no están correctamente configurados, la reconstrucción puede completarse exitosamente pero producir datos corruptos.
Lo correcto: clonar cada disco individualmente antes de cualquier reconstrucción. Trabajar sobre copias, nunca sobre los originales.
Error 2: apagar y encender el servidor repetidamente
Cada ciclo de encendido intenta montar el array, lo que implica lecturas y escrituras en los discos. Si hay discos con daño físico incipiente, este proceso puede acelerar su falla definitiva.
Error 3: reemplazar el disco incorrecto
En arrays con múltiples discos es posible confundir qué disco falló, especialmente si los indicadores visuales del servidor no son claros. Reemplazar un disco sano y eliminar el único disco con los datos de paridad puede destruir el array.
Error 4: dejar el array en estado degradado durante días
Un RAID 5 con un disco fallido está operando sin tolerancia a fallos. Si un segundo disco falla en ese período, el array colapsa. Operar en estado degradado durante más de lo estrictamente necesario aumenta el riesgo de colapso total.
Error 5: intentar montar el array con herramientas genéricas
Herramientas de recuperación genéricas pueden intentar montar el array con parámetros incorrectos, lo que puede generar escrituras sobre los discos que sobreescriben datos recuperables.
Qué hacer en cambio
- Apagar el sistema cuando se detecta la falla
- Documentar el estado de cada disco (qué slots, qué indicadores)
- No reconectar ni encender hasta tener un plan claro
- Contactar un laboratorio especializado antes de cualquier acción sobre el array
El RAID no es un backup. Una falla de RAID es una emergencia que requiere tratamiento especializado.
El controlador RAID también puede ser parte del problema
Un controlador RAID dañado —por sobretensión, falla de firmware o corrupción de su configuración— puede reportar discos como fallidos cuando en realidad están sanos, o puede haber corrompido los metadatos del array. En esos casos, intentar usar otro controlador del mismo modelo puede parecer lógico pero puede generar una reconstrucción con parámetros incorrectos.
