Retour sur l’incident du 16/02/2016

Le 16 février 2016 nous avons eu un incident qui à touché une partie du trafic.
Les perturbations ont commencées vers 14:30 pour se finir à 18:30.
Elles ont entraînées un retard de livraison sur environ 30 000 mails (soit 3% du trafic de la journée). A l’issue de ce problème tous les messages ont été délivrés.

Les causes

Comme bien souvent dans ce genre de cas la cause principale est une erreur humaine. En intervenant sur un serveur il y à plusieurs mois, un service à été relancé en mode non supervisé. Cela signifie que si se service venait à se terminer il ne serait pas automatiquement relancé par son “superviseur”.
C’est ce qui s’est passé hier, le service a crashé, il n’a pas été automatiquement relancé et donc il est devenu indisponible pour le serveur qui l’utilisait.

Délais de prise en charge

Le délais de prise en charge de cet incident à été anormalement long pour deux raisons:

  • Nos sondes n’ont pas détectées le problèmes car quand elles testent un serveur SMTP, elles se contentent d’initialiser la transaction (connexion + commande SMTP HELO/EHLO + analyse de la réponse), or ce probleme entraînait des conséquences plus en aval, durant la commande RCPT TO.
  • Notre propre domaine à été impacté et nous n’avons pas reçu les mails à destination du support durant cette période.

Communication

Certains d’entre vous se sont plaints (à juste titre) d’un manque d’information pendant cet incident. En dehors du fait que nous avons également été victimes et que donc nous ne pouvions pas répondre à des mails que nous n’avions pas – encore – reçu, il faut bien comprendre que notre priorité en cas de probleme est de le résoudre. Autrement dit, on focalise nos ressources sur la résolution du problème plutôt que de répondre sans délais aux mails que l’on reçoit.

Actions à prendre

Aussi problématique que ça peut l’être, chaque incident nous permet de trouver les “zones faibles” de notre infra et donc ne mettre en oeuvre des solutions pour l’améliorer et la rendre encore plus fiable.

  • Nous allons améliorer nos sondes pour qu’elles fassent une transaction SMTP complète.
  • Nous allons réfléchir à des solutions pour que notre support soit plus indépendant de notre plateforme, de sorte qu’en cas de probleme nous puissions toujours recevoir vos messages.
  • On va davantage utiliser twitter pour communiquer pendant les incidents, ça ne nécessite pas beaucoup de temps et ça permet de vous tenir informé. N’hésitez pas à nous suivre: https://twitter.com/protecmail

Il va sans dire que nous vous présentons toutes nos excuses pour la gêne occasionnée et sachez que si le risque zéro n’existe pas, nous mettons tout en oeuvre pour nous en approcher.

 

Partagez cet article

Leave a Reply

Your email address will not be published. Required fields are marked *