Was da technisch schief gegangen ist, finde ich ziemlich lehrreich. Erst das Zusammentreffen zweier Sachverhalte hat den gravierenden Fehler verursacht.
Im Video (Dauer 16 Minuten) wird der Artikel Knightmare: A DevOps Cautionary Tale – Doug Seven unterhaltsam (aber sehr laut!) vorgetragen.
Kurzfassung: Sie haben einen alten Schalter benutzt, um neuen Code zu aktivieren. Leider hatten sie den neuen Code nicht auf allen Servern eingespielt. Das allein wäre nicht so verheerend gewesen, aber in der Zwischenzeit hatte sich auch der alte Code verändert…
„Any time your deployment process relies on humans reading and following instructions you are exposing yourself to risk. Humans make mistakes. The mistakes could be in the instructions, in the interpretation of the instructions, or in the execution of the instructions. … Deployments need to be automated and repeatable and as free from potential human error as possible.“
Last modified: