siren för larm

Viktigt meddelande till allmänheten: Var beredda på fler fel

Jonas Söderström

Dålig systemdesign och oöverskådlig komplexitet är bättre förklaringar till systemhaverier än hackare och klåpare.

Hesa Fredrik – också känt som ”flyglarm” eller Viktigt Meddelande till Allmänheten (VMA) – skrämde slag på många stockholmare kvällen den 9 juli 2017.

Twitter kokade. Kommer ryssen? Eller har de hackat systemet, som i WannaCry- och Petya-attackerna?

”Vad som ligger bakom felet är ännu oklart”, rapporterade DN snabbt: 

”SOS Alarm utesluter varken mänskliga faktorn eller en möjlig hackerattack.

– I nuläget vill jag inte spekulera i orsaken utan vi behöver utreda vad som har hänt, säger Linda Bengtsson.”

Medier (och många andra aktörer) griper reflexmässigt efter två standardförklaringar: Antingen ondskefulla hackare, eller inkompetenta klåpare.

Systemdesign ingår inte i förklaringsalternativen.

Ganska snart kunde också ryska eller nordkoreanska hackare avskrivas:

Hos Räddningscentralen i Stockholms län säger den operative chefen Lars-Åke Stevelind till TT:

– Det var inte riktigt meningen. I samband med en uppgradering gjordes det ett test av systemet och vi råkade skicka iväg en signal, förklarar han.

Enligt krisberedskapssamordnare vid SOS Alarm, Claes Pekkala, testas systemet med Hesa Fredrik någon gång varje vecka.

– Men vi gör det ”tyst”. Nu var det något som gick fel och signalerna gick ut, säger han.
(Hesa Fredrik skrämde Stockholmare, DN 9 juli 2017)

Men redan under måndagen meddelade SOS Alarm via sin presschef Linda Bengtsson att felet ”handlade om mänskliga faktorn”:

– Vi har haft fokus på den här frågan sen igår och kan konstatera att det är ett handhavandefel. 

(SOS Alarm: Mänskliga faktorn bakom falsklarm, DN 10 juli 2017)

Att skylla katastrofer på människans handhavande är populärt.

I maj 2017 slogs plötsligt hela British Airways systemflora ut. Ingenting fungerade: Biljettförsäljning, bokningssystem, incheckning, webbplats, appar. Uppemot ettusen flighter stoppades, minst 75 000 (!) passagerare drabbades. De totala kostnaderna överstiger en miljard kronor, enligt uppskattningarna.  

Även British Airways säger nu att det berodde på ”den mänskliga faktorn”. I samband med en systemuppdatering på ett datorcenter vid Heathrow kopplade en tekniker bort strömmen; när den slogs på igen kraschade systemen. Backup-systemen fungerade inte som avsett. (British Airways points to human error for May flight outage, Denver Post, 6 juni 2017)

Men vad är egentligen ”den mänskliga faktorn” här?

Jag vill hävda att det mänskliga felet i sådana här fall i själva verket är att designa och bygga system där konsekvenserna av en enda knapptryckning kan bli att all verksamhet i en organisation slås ut.

Det fält vi på inUse arbetar i – oavsett om man kallar det människa-maskininteraktion, human factors, användbarhet, interaktionsdesign, eller user experience – har sedan tidigt 1900-tal vetat att människor kan göra fel – och kommer att göra det. Det finns därför tre principer vi brukar hålla fram. Vi måste bygga system som

  1. minskar eller eliminerar möjligheterna att göra fel,
  2. tydligt visar om något gått fel, och
  3. snabbt gör det möjligt att rätta felet.

I VMA-fallet tycks alla tre punkterna gått snett:

  1. Larmet gick ut felaktigt.
  2. SOS Alarm var först inte medvetna om att Hesa Fredrik börjat tjuta.
  3. Faran över-larmet blev av någon ytterligare anledning ”ljudlöst”.

Vad som idag gör det mycket svårare än någonsin tidigare att skapa tillförlitliga system idag är främst tre saker i kombination.

Till skillnad från traditionella mekaniska maskiner är digitala system väldigt abstrakta. Som användare märker du aldrig att något börjar gnissla, som till exempel en osmord cykelkedja. Du får därmed sällan eller aldrig någon förvarning innan något plötsligt går riktigt fel. (Inom parentes är detta inget nytt. När man började införa täckta cockpits klagade flygplanspiloter på att man inte längre kände lukten av bränd motorolja eller vinddraget i sidenhalsduken. Återkopplingen hade reducerats till visare på instrumentpanelen.)

Ovanpå det blir dagens system mer och mer komplexa och sammanlänkade. Det är extremt svårt eller rent av omöjligt att överblicka vad som påverkas av ett visst system. Och även om systemen inte är rent logiskt sammankopplade, kan de falla som dominobrickor: När VMA-signalen tjöt brakade också webbplatserna för MSB, polisen och SOS Alarm ihop, och därefter deras telefonväxlar, på grund av anstormningen av oroliga stockholmare.

Slutligen förändras och uppdateras system nu mycket oftare än tidigare. Det beror i sin tur också i hög grad på komplexiteten: Om ett system uppdateras måste även många angränsande system ändras. Uppgraderingar är uppenbarligen ett större hot än Ivan och Kim tillsammans, vilket en lång rad av nersläckningar av viktiga tjänster visat de sista tio åren.

Why is the airline industry so bad at IT?, frågar International Business Times (2 juni 2017) och tar upp exempel på många fler fall senaste åren där hela flygbolag tvingats på knä av krånglande system.

Sanningen är nog att de inte är så mycket sämre än andra. Systemfel drabbar oss hela tiden – vare sig det är vattenverket och parkeringssystemet som här i Visby (min semesterort), eller otaliga andra. Med de typiska responserna: Vi vet inte vad som hänt. Det här ska inte kunna hända. 

Eller, allvarligare – systemfelen i prestigesatsningar som Nya Karolinska. "Något jag lärt mig av det här är att vi måste ha mer tid för tester innan vi går live, och tester i större skala. Vi hade inte testat tillräckligt och upptäckte inte bristerna, så är det bara", konstaterar Anders Jönebratt, it-direktör för Karolinska Universitetsjukhuset.

Med mer (och snabbare) digitalisering, och med fler och fler integrationer, ökar komplexiteten exponentiellt. Ökande kostnader för tester, backuper, övningar och säkerhetsrutiner kommer att påverka nettot för vilka vinster eller besparingar nya system kan ge – vilket gör det ännu viktigare att värdera de förväntade effekterna på ett systematiskt sätt.

Men tyvärr kommer vi med all sannolikhet att få se allt fler ”systematiska” fel som det här i framtiden.

Nils-Erik Gustafsson bidrog till denna bloggpost.

Lämna en kommentar