Incident du 2 Août 2016

Le mardi 2 Aout 2016 à partir de 17:30 notre infrastructure d’hébergement “PCC” à été déconnectée du réseau suite à un problème chez OVH.

Vous trouvez les détails de cet incident sur le site OVH à cette adresse:
http://travaux.ovh.net/?do=details&id=19508

Notre PCC à fait parti des derniers ayant des hosts posant problème.

Quand nous avons repris la main sur l’infra vers 21:00, il a fallut relancer de nombreuses VM, le système HA VMWare n’arrivant pas à le faire seul, un admin devant prendre des décisions que le système ne voulait (à juste titre) pas prendre lui même.

A 21:30 l’intégralité des services mails étaient rétablie. Aucune perte d’emails n’est à prévoir, “juste” du retard.
A 22:00 les dernier service web, en particulier l’API était elle aussi rétablie.

Le 3 Aout au matin on a constaté, des problèmes de synchronisation entre nos différents serveurs de base de données. Une intervention à été programmée durant la période de midi, pour impacter au minimum les utilisateurs.

A 14 heures tous les serveurs de bases de données étaient synchronisés. Il y a pu y avoir quelques conséquences sur le service pendant la matinée en particulier une non prise en charge temporaire de modifications de configuration faites .

Désolé pour pour cet incident 🙁

 

 

Plugin Protecmail pour Outlook 2013 et 2016

Outlook ne proposant pas de solution simple pour accéder à la sources des mails, il vous est difficile de nous remonter les spams que vous recevez. Pour pallier à ce problème, nous avons décider de développer un  plugin pour Outlook qui vous permet de nous faire vos reports en un simple clic.

Installation

Ce plugin fonctionne uniquement avec les versions 2013 et 2016 de Outlook.

Usage

Après l’installation du plugin vous allez trouver un nouveau bouton dans votre menu “compléments”. Pour nous reporter un spam, sélectionnez le dans la liste de vos mails et cliquez sur ce bouton.

Vous trouverez ci dessous une petite vidéo qui vous explique les étapes d’installation et comment vous servir du plugin pour nous reporter des spams.

Retour sur l’incident du 16/02/2016

Le 16 février 2016 nous avons eu un incident qui à touché une partie du trafic.
Les perturbations ont commencées vers 14:30 pour se finir à 18:30.
Elles ont entraînées un retard de livraison sur environ 30 000 mails (soit 3% du trafic de la journée). A l’issue de ce problème tous les messages ont été délivrés.

Les causes

Comme bien souvent dans ce genre de cas la cause principale est une erreur humaine. En intervenant sur un serveur il y à plusieurs mois, un service à été relancé en mode non supervisé. Cela signifie que si se service venait à se terminer il ne serait pas automatiquement relancé par son “superviseur”.
C’est ce qui s’est passé hier, le service a crashé, il n’a pas été automatiquement relancé et donc il est devenu indisponible pour le serveur qui l’utilisait.

Délais de prise en charge

Le délais de prise en charge de cet incident à été anormalement long pour deux raisons:

  • Nos sondes n’ont pas détectées le problèmes car quand elles testent un serveur SMTP, elles se contentent d’initialiser la transaction (connexion + commande SMTP HELO/EHLO + analyse de la réponse), or ce probleme entraînait des conséquences plus en aval, durant la commande RCPT TO.
  • Notre propre domaine à été impacté et nous n’avons pas reçu les mails à destination du support durant cette période.

Communication

Certains d’entre vous se sont plaints (à juste titre) d’un manque d’information pendant cet incident. En dehors du fait que nous avons également été victimes et que donc nous ne pouvions pas répondre à des mails que nous n’avions pas – encore – reçu, il faut bien comprendre que notre priorité en cas de probleme est de le résoudre. Autrement dit, on focalise nos ressources sur la résolution du problème plutôt que de répondre sans délais aux mails que l’on reçoit.

Actions à prendre

Aussi problématique que ça peut l’être, chaque incident nous permet de trouver les “zones faibles” de notre infra et donc ne mettre en oeuvre des solutions pour l’améliorer et la rendre encore plus fiable.

  • Nous allons améliorer nos sondes pour qu’elles fassent une transaction SMTP complète.
  • Nous allons réfléchir à des solutions pour que notre support soit plus indépendant de notre plateforme, de sorte qu’en cas de probleme nous puissions toujours recevoir vos messages.
  • On va davantage utiliser twitter pour communiquer pendant les incidents, ça ne nécessite pas beaucoup de temps et ça permet de vous tenir informé. N’hésitez pas à nous suivre: https://twitter.com/protecmail

Il va sans dire que nous vous présentons toutes nos excuses pour la gêne occasionnée et sachez que si le risque zéro n’existe pas, nous mettons tout en oeuvre pour nous en approcher.

 

[CLOS] Incident sur la quarantaine

Nous avons eu des problèmes hier (17/04/2014) a partir de 18 heures sur la quarantaine. Malheureusement les sondes ne nous ont pas alertées et nous avons vu ce problème que ce matin. Il a été corrigé vers 8:00.

Durant cet intervalle la mise en quarantaine de la majorité des mails a échouée sans générer d’erreur SMTP et ils ne sont donc pas récupérables.

Nous faisons le nécessaire pour améliorer les sondes et faire en sorte que ça ne se reproduise pas.