¿Qué fue lo que provocó la caída de WhatsApp, Facebook e Instagram?
El pasado lunes 4 de octubre, el internet sufrió una de las peores crisis del año en materia de redes sociales: durante seis horas, Facebook, Instagram y WhatsApp estuvieron completamente inaccesibles en todo el mundo.
Además, otras plataformas como Twitter y Telegram presentaron fallas debido a la enorme cantidad de usuarios que ingresaron a ellas buscando comunicarse, informarse y entretenerse.
Finalmente, después de 24 horas desde el fallo, Facebook -la propietaria de Instagram y WhatsApp -informó cuál fue el motivo que provocó el fallo en su red.
Según Facebook, la caída en sus servicios se produjo durante una sesión de mantenimiento de rutina en la “columna vertebral” de su red. Explicó que los técnicos ingresaron un comando de configuración aparentemente inofensivo y, de pronto, cortaron todas las conexiones en la red troncal, que a su vez desconectó los centros de datos que la compañía tiene repartidos por distintas partes del mundo. Sin embargo, este no fue el único inconveniente.
Facebook tiene un sistema para verificar que este tipo de configuraciones no provoquen fallos, pero según detallaron, este no funcionó correctamente.
“Nuestros sistemas están diseñados para auditar comandos como estos para evitar errores como este, pero un error en la herramienta de auditoría no detuvo correctamente el comando”, mencionaron.
Una vez que la columna vertebral quedó desconectada, el siguiente en caer fue el protocolo de puerta de enlace de frontera (BGP).
El BGP es un protocolo que anuncia a internet la existencia de una red. Si el BGP no funciona, internet no puede encontrarte. Esta es la razón por la que, durante varias horas, no hubo rastro de Facebook. Los ingenieros de la compañía señalan que, cuando el protocolo no logra establecer conexión con los centros de datos, los servidores DNS desactivan las tareas de anuncio del BGP.
Una vez que el BGP no puede cumplir sus funciones, el DNS sigue el mismo destino. Este último es un sistema que te permite acceder a una web desde su nombre de dominio -facebook.com, por ejemplo -en lugar de ingresar su dirección IP.
“El resultado final fue que nuestros servidores DNS se volvieron inalcanzables a pesar de que todavía estaban operativos. Esto hizo imposible que el resto de internet encontrara nuestros servidores”, añadieron.
Por otra parte, Facebook confirmó que fue necesario enviar ingenieros para solucionar el problema con intervención manual, ya que, al estar caída toda su red, no era posible acceder a la configuración de manera remota.
Facebook concluyó en su reporte que dicha experiencia es una “mina de oro” de aprendizaje que les permitirá evitar errores similares en el futuro.
“Cada fracaso como este es una oportunidad para aprender y mejorar, y hay mucho que aprender de este. Después de cada problema, pequeño o grande, realizamos un extenso proceso de revisión para comprender cómo podemos hacer que nuestros sistemas sean más resistentes. Ese proceso ya está en marcha”, concluyeron.
Vía Hipertextual