Terremoto 2010: ¿Internet resistió bien la prueba?




José M. Piquer


Cuando ocurre una catástrofe nacional como este terremoto, se sabe y se espera que las líneas telefónicas colapsen y sea imposible hablar por teléfono (sea fijo o móvil) con el lugar del desastre. Esto se debe al diseño mismo del sistema telefónico, que transa la disponibilidad del servicio por la calidad garantizada de cada llamada. Ese mismo modelo fue el causante de la lenta muerte de la telefonía y del auge de Internet como su reemplazo como medio de comunicación predominante: la gran gracia de Internet es no garantizar calidad de servicio y, debido a eso mismo, permitir no denegar nunca el servicio, por mucha congestión que haya.

El sismo de febrero permitió poner a prueba esa hipótesis: la teoría indicaba que Internet debía ser el primer medio de comunicación en funcionar y permitir encontrarse entre los familiares para saber unos de otros, e informarse de lo que estaba ocurriendo, mucho antes que la telefonía. Y casi fue así: durante los primeros 10 minutos y casi una media hora después del terremoto, Internet, incluida la banda ancha móvil, funcionaba muy bien, mientras el sistema telefónico era totalmente inútil. Pero algo falló: pasado un tiempo bastante breve, Internet completo empezó a fallar: la banda ancha móvil no llegaba a ninguna parte, los accesos a Internet fijos dejaron de operar e incluso la conectividad internacional de Chile falló. En nuestros registros en NIC Chile, donde los servidores operaron en forma continua y con conexión permanente a nuestros proveedores, queda claro que hubo muy bajo tráfico entre las 4:00 hasta las 9:00 e incluso bastante bajo hasta el mediodía, siendo anormal por unas 24 horas más. Más relevante aun es que nuestros servidores de DNS secundarios de .CL en Estados Unidos, Brasil y Europa aumentaron enormemente su tráfico, reemplazando a los servidores en Chile que estaban, al parecer, inalcanzables tanto dentro de Chile como fuera. No hemos recibido una respuesta oficial de ninguno de nuestros proveedores aceptando que tuvieron fallas inexcusables y la posición oficial del país parece ser que Internet se comportó bien.

En mi opinión, reprobamos el test. No hay ninguna razón valedera para que los enlaces internacionales no hayan operado bien, ni para que la conectividad nacional fallara y demorara más de 24 horas en normalizarse. Por el patrón de fallas, parece deberse a las muertes paulatinas de las UPS a medida que pasaba el tiempo y la energía eléctrica no se restablecía. La primera falla mayor ocurre justo media hora después del sismo, lo que hace muy improbable que haya sido un corte de fibra, que debió ocurrir a la misma hora del terremoto. La primera recuperación ocurre tipo mediodía, que calza justo cuando la luz vuelve al centro de Santiago. La mayoría de las historias que he escuchado son coherentes con estas fallas: incluso la ONEMI explica que no recibió la alerta de tsunami desde Estados Unidos porque su acceso a Internet murió como a los 15 minutos del terremoto. En casos puntuales, la conectividad funcionó bien y algunos sitios tuvieron acceso a Internet casi permanente. Pareciera que la caída generalizada de varios equipos generó una inestabilidad mayor en las rutas dejando a la mayoría del Internet nacional fuera de operación, pero manteniendo algunas islas conectadas en forma estable.

No existe ninguna razón estructural o de fondo para que Internet falle globalmente en el país por falta de energía: todos los datacenters donde operan los proveedores de Internet poseen sistemas de generación propia que debieran ser capaces de operar en forma autónoma por muchas horas (el ideal es que fueran varios días). La mayoría de estos datacenters funcionaron bien y resistieron el evento, de hecho, muy pocos servidores importantes se vieron afectados.

Finalmente, la primera noticia de mi familia y la primera forma de comunicación que me funcionó fue con mensajes de texto entre celulares, ¡una vergüenza para Internet!

No sé qué fue lo que realmente ocurrió. No hemos obtenido información oficial y nadie quiere aceptar lo que resulta obvio: Internet no respondió como esperábamos y la gran mayoría de los proveedores de Internet fallaron en proveernos un servicio confiable. La mayoría de los servidores estaban funcionando, la mayoría de los enlaces desde esos servidores a sus proveedores estaban activos y operando, pero hubo prácticamente cero tráfico durante casi 6 horas. Los amigos extranjeros no pudieron accesar ningún sitio en Chile. La mayoría de los chilenos no teníamos acceso a nada. Esto no tiene ninguna excusa: la telefonía es esperable que no funcione, pero Internet debió haber respondido primero.

Y esto es grave: si Internet hubiese estado operativo durante ese tiempo, hubiésemos sabido de nuestros familiares antes, los medios de comunicación hubiesen tenido información que difundir en vez de tener que inventar casi un día entero de rumores, la ONEMI hubiese visto la alerta de tsunami de Estados Unidos y la presidenta hubiese sabido a tiempo que ese mismo tsunami había destruido la base naval de Talcahuano. Mucha gente habría podido tomar decisiones importantes mejor informada, y eso puede salvar vidas. La operación continua de Internet hoy es mucho más importante que la de la telefonía y, además, es mucho más factible de garantizar. En nuestro mundo moderno, Internet es una pieza clave en la infraestructura crítica de un país pero la comunidad tiende a olvidar ese hecho.

Es hora que nos sentemos entre los ingenieros de Internet, intercambiemos abiertamente los datos y analicemos cómo evitar que este desastre vuelva a ocurrir. Negar lo acontecido y simular que lo hicimos bien es la mejor receta para repetir este escándalo para el próximo desastre.





Jose M. Piquer 2010-03-10