Postmortem gitlab 2017/01/31

6 views
Skip to first unread message

Daniel Aguado

unread,
Feb 16, 2017, 3:28:31 AM2/16/17
to agile-cr
Hola,

ayer estuvimos hablando algunos sobre el problema que tuvo gitlab hace unas semanas, y como algunos no se habían enterado os enlazo a su postmortem: https://about.gitlab.com/2017/02/10/postmortem-of-database-outage-of-january-31/

Es un documento bastante interesante porque ves cómo tenían procesos automatizados para hacer las cosas bien, ves que se necesitan monitorizar por si fallan (y siempre fallan alguna vez) y ves que una acción manual es MUY propensa a fallos. Al final fue "una serie de catastróficas desdichas" que unidas todas provocaron perder 6 horas de datos y una caída del servicio de 18 horas.

Si os parece muy largo para leer tenéis un resúmen en el apartado llamado 'Root Cause Analysis'.

¡Un saludo!
Reply all
Reply to author
Forward
0 new messages