Benjamin Gakic

benjamin-gakic-rond

Benjamin Gakic

Expert Sûreté de fonctionnement, Facilitateur ExOp chez Voyages-sncf.com

Paris, France

Présentation

Ancien développeur et architecte technique depuis plus de 10 ans, j’anime la communauté résilience et tests techniques de Voyages-Sncf. Cette dernière a en particulier adapté le chaos monkey de Netflix.

Au sein de l’entité Excellence Opérationnelle, je promeus une approche DevOps axée sur la sûreté de fonctionnement.

Résumé du talk

Ce talk sera réalisé en duo avec Christophe Rochefolle.

Days of Chaos : le développement de la culture devops chez Voyages-sncf.com à l’aide de la gamification.

Voyages-sncf.com a abordé les sujets d’agilité depuis plusieurs années et a ainsi pu en 2016 effectuer 233 mise en production sur son site web et ses applications mobiles grâce à une démarche basée sur 3 piliers :

  • Agilité
  • Usine Logicielle DevOps
  • Feature Team

Cependant, avec la démultiplication des équipes applicatives autonomes et responsables, l’accélération des mises en productions, nous avons dû faire évoluer nos démarches pour maintenir la stabilité du système.

Pour cela, nous nous sommes fixés comme objectifs de passer de l’exploitabilité (conformité aux Normes d’Exploitation) assurant la Qualité de Service (capacité d’un réseau à fournir un service : performance et disponibilité) à de la sûreté de fonctionnement en garantissant un niveau de confiance justifiée dans les évolutions que nous apportons pour nous permettre d’améliorer le degré de plaisir de nos utilisateurs dans l’usage de nos applications ou services (Qualité d’Expérience – QoE).
Pour que les équipes comprennent les enjeux d’une telle démarche, Netflix a créé un Chaos Monkey : il s’agit d’une application, en production, qui débranche des flux réseau ou des machines aléatoirement, sans que personne ne puisse le contrôler. Avec un tel programme en environnement de production, les équipes sont obligées d’imaginer tous les scénarios et les démarches à appliquer en cas de problème. La sûreté de fonctionnement devient un vrai enjeu.

Nous venons de déployer un tel programme en production.

Nous nous sommes également inspirée des GameDays d’AWS pour tester la résilience de ses applications. Le vendredi 13 janvier, les équipes applicatives volontaires ont participé à un Day of Chaos. Toutes les 30 minutes, des exploitants simulaient des pannes en pré-production. Les équipes obtenaient des points en fonction des détections, des diagnostics et des résolutions. Ce type d’événement gamifié a permis d’initier les équipes de développement à ces concepts.

L’objectif du REX est donc de vous partager ce que nous avons appris du début de l’initiative à sa réalisation, et les enseignements que nous en avons tirer.

Un message de la part de nos sponsors :
back to top