Lo que la interrupción de Rogers puede enseñarnos sobre el failover

por Jim Donnelly | 18/7/2022

Es posible que haya oído hablar de la reciente interrupción de la red de la empresa de telecomunicaciones canadiense Rogers Communications a causa de una actualización de mantenimiento errónea. Fue una el grande.

De hecho, gracias a las arcaicas leyes de telecomunicaciones de Canadá -que desalentar activamente de la cadena alimentaria: el apagón dejó fuera de juego a una impresionante 25 por ciento del tráfico de Internet de todo el país.

Está claro que el país de Canadá no pensó en disponer de un sistema de conmutación por error en caso de que una de sus dos principales redes de telecomunicaciones se cayera, a pesar de que un corte de luz similar había ocurrido apenas un año antes. (Si percibes algún disgusto, es porque estamos basados en Canadá y cansados de nuestro caro ecosistema de telecomunicaciones).

La interrupción ha provocado que muchos informáticos maravilla por qué Rogers tampoco tenía una conmutación por error eficaz. Pero, ¿qué es exactamente una conmutación por error, y cómo ayudan a mantener las aplicaciones y las redes en funcionamiento?

Averigüémoslo.

Transferencia de archivos fiable y resistente

Transferencia de archivos de gran tamaño con conmutación por error incorporada y reintentos implacables.

¿Qué es un Failover?

A conmutación por error es un modo operativo de reserva - a menudo una base de datos, un servidor o una red - en sistemas de misión crítica utilizados cuando el componente principal del sistema queda inutilizado. Esto puede deberse a cualquier número de razones, como el tiempo de inactividad por mantenimiento, errores o hacks. Los "failovers" son esencialmente un componente secundario capaz de asumir sin problemas las funciones de un sistema en cualquier momento - esencialmente, para imitar las funciones del sistema primario.

¿Qué es una conmutación automática?

Para las aplicaciones y servicios web que requieren alta disponibilidad, por ejemplo, un clúster de conmutación por error es un grupo de servidores que trabajan en segundo plano para garantizar que los servicios sigan funcionando incluso si falla un servidor.

Los fallos de los sistemas informáticos pueden configurarse para que funcionen de forma automática o manual, y suelen girar en torno a tres elementos principales: la energía, la conectividad de la red y la capacidad del servidor.

Las conmutaciones por error automatizadas a nivel de servidor suelen funcionar utilizando un latido del corazón que continuamente hace ping a dos servidores conectados para garantizar que la copia de seguridad no se ponga en línea a menos que se rompa la conexión.

Tipos de conmutación por error:

Se pueden implementar varios tipos de fallos en la arquitectura de red, dependiendo del nivel de disponibilidad requerido:

  • Recambio en frío: Los "cold spares" son fallos manuales que requieren la intervención humana.
  • Recambio caliente/alta disponibilidad: Fallos automatizados con un ligero retraso, por lo que cualquier fallo suele ser percibido por los usuarios.
  • Redundancia total: Fallos automatizados que cambian inmediatamente al modo de fallo.

Sin embargo, las conmutaciones manuales suelen ser criticado por consumir demasiado tiempo y, como muchos procesos manuales, ser propensos al error humano.

Por eso nunca se utilizan las conmutaciones por error manuales para los sistemas que requieren alta disponibilidad. Los procesos automatizados de conmutación por error se ejecutan en segundo plano y sincronizan automáticamente los datos entre los componentes primarios y los de reserva, lo que les permite intervenir y mantener los sistemas en línea en un momento dado.

¿Por qué son importantes los fallos?

Las conmutaciones automáticas no sólo son importantes para los sistemas de misión crítica, sino que son absolutamente esenciales. Sin una conmutación por error adecuada, los sistemas no tienen la redundancia o la tolerancia a fallos necesaria para seguir funcionando tras un error grave.

Las conmutaciones automáticas son importantes para un variedad de aplicacionesLa solución de problemas de seguridad de la base de datos se basa en el uso de la tecnología de la información, que permite mantener las bases de datos en línea durante las interrupciones del sistema o el mantenimiento sin intervención manual, o ejecutar trabajos de mantenimiento sin necesidad de supervisión humana. Estas conmutaciones por error también pueden aplicarse a cualquier número de escenarios, incluyendo:

  • Dispositivos: Algunos dispositivos contienen activadores de hardware o software que despliegan fallos automáticos si un componente falla
  • Redes: Una conmutación por error de la red puede incluir cualquier componente individual, como las rutas de conexión o los dispositivos de almacenamiento.
  • Base de datos o aplicación web alojada: La conmutación por error permite que varios servidores (locales o en la nube) mantengan su conexión

Recuperación automática de la transferencia de archivos

Otro escenario en el que una conmutación por error automatizada es de gran beneficio es cuando envío de archivos. En este caso, contar con una disposición para continuar una transferencia basada en IP en caso de caída de la red es clave para mantener el flujo de datos.

Más Internet con Multiconnect

Por ejemplo, MASV cuenta con un sistema automatizado de conmutación por error con Multiconnect unión de canales. Multiconnect agrega dos o más fuentes de ancho de banda en una sola red potente para acelerar las velocidades de transferencia de archivos de carga y descarga (por ejemplo, Wi-Fi doméstico y un teléfono anclado con punto de acceso de datos). Cada fuente de ancho de banda se considera como una conmutación por error; si un enlace se cae, MASV optimizará automáticamente las conexiones restantes.

Reintentos automáticos

MASV también cuenta con medidas de resistencia en forma de reintentos automáticos. Si se produce una interrupción en la red, MASV reintentará automáticamente la transferencia en el punto en el que la dejó, sin descanso, hasta que se complete. Esto significa que los usuarios no tienen que vigilar sus transferencias, o peor aún, suponer que la transferencia se ha realizado con éxito, sólo para volver horas más tarde con un mensaje de error.

La recuperación de fallos: Lecciones aprendidas

Una conmutación por error es una copia de seguridad de las operaciones de infraestructura de TI en caso de que el sistema principal esté fuera de servicio, debido a un mantenimiento rutinario, un error o un ataque de seguridad. Es un componente primordial en las operaciones de dispositivos, redes y servidores. Las conmutaciones por error pueden realizarse de forma manual o automática, y una conmutación por error automatizada cambia a su copia de seguridad en el momento en que detecta cualquier problema.

El gran apagón canadiense de Internet ha abierto los ojos a muchos sobre el concepto (y las ventajas) de la conmutación por error. El presidente y director general de Rogers, Tony Staffieri, se ha comprometido a aumentar los despidos en su red y sistemas como parte de su plan de acción de tres pasos después de la interrupción. Todavía no se sabe qué tipo de recuperación de fallos tiene Rogers para empezar.

Si quieres aumentar la fiabilidad y la resistencia de tu red de TI, es recomendable que diversifiques tu cartera de telecomunicaciones, utilizando diferentes proveedores para tu teléfono e Internet. Aunque los planes de teléfono, internet y cable "todo en uno" son los más rentables, también te limitan a un solo proveedor (con todos sus altibajos).

Para aumentar la fiabilidad de sus transferencias de archivos, el sistema de conmutación por error Multiconnect de MASV garantiza que sus archivos sigan avanzando si se cae la red, y nuestro implacable protocolo de reintento sigue enviando su solicitud de archivos en caso de interrupción de la red. Por lo tanto, aunque probablemente no podamos ayudar si una cuarta parte de la conectividad a Internet del país se vuelve a caer, podemos garantizar absolutamente que su transferencia de archivos de gran tamaño tenga la mejor oportunidad de llegar a tiempo. Inscríbase hoy mismo y obtén 100 GB gratis.

Transferencia de archivos MASV

Obtén 100 GB para usar con el servicio de transferencia de archivos grandes más rápido disponible hoy en día, MASV.