— 2 min read

De okänsliga utropen, eller: Tjechov som maskininstruktör

Read 866 times

”När alla utrop låter likadana är det hopplöst att förstå dem.” Jonas Söderström har åkt tåg och delar här med sig om varför det är så svårt att ta in all informationen som trycks ut genom olika högtalarsystem.

Ta en titt på inUse kursverksamhet Academy!

Pling-plong: Tåget. 503! Till. Malmö! Har en ny avgångstid. 15.37! Pling-plong: Tåget. 442! Till. Göteborg! Är idag inställt. Pling-plong: Tåget. 334! Till. Helsingborg! Kommer strax in på spår 3. Observera spårändringen! Pling-plong!

När det kör ihop sig på riktigt – med "omfattande signalfel" som skapar förseningar under många timmar – går de syntetiska utropen i ett, i ett. Men alla låter exakt likadant ("The Univoice" som Adam Rakunas kallar det i sin utmärkta och ovanliga framtidsvision Windswept).

Problemet blir att det blir påtagligt arbetssamt att faktiskt registrera och tolka vad de egentligen sa. "Det var något om mitt tåg – men vad var det de sa nu?!?"

När webben slog igenom – för nu 21 år sedan – kom det med en viktig ny egenskap. I stället för att  bestämma att ett ord skulle vara i fetstil eller kursivt – som man gjort i tryckta medier – gav man en semantisk beskrivning av ordets viktighet: man märkte orden med <strong> eller med <emphasis> (för emfas, alltså eftertryck).

I praktiken visades förstås detta just som fet eller kursiv stil i det flesta webbläsare. Men den principiella skillnaden var att till exempel ett syntetiskt röstsystem skulle kunna uttala just dessa ord med lite mer eftertryck än vanliga ord, när det processade en text.

Det var nog tillräckligt då, när man utgick ifrån att det som skulle läsas upp oftast just var text från början.

Men nu har vi nått en ny nivå.

De drabbade tågturernas öden är ju så olika. En del har helt ryckts bort från oss. För andra verkar läget vara synnerligen kritiskt, men! Plötsligt så är de på väg in på stationen! Några blir bara mer och mer försenade: tio minuter, sedan tio minuter till, sedan en kvart till, så tio minuter till...

Fallen har ju så olika kontext och emotionell laddning; och den laddningen är en viktig information för att vi ska kunna tolka och förstå vad budskapet faktiskt är!

När alla utrop låter likadana måste vi förlita oss enbart på den intellektuella analysen av orden. I en störig miljö med mycket ljud kan de vara svåra att uppfatta. Men tonfallet går oftast fram ändå!

Vad vi skulle behöva är helt nya instruktioner till maskinrösterna. När förseningarna blir större och större skulle meddelandet märkas <djup medkänsla> eller kanske <skamfyllt ursäktande>. När det ser ut som problemen håller på att lösas och förseningarna krymper borde rösten uttrycka <viss optimism>. När ett tåg oväntat kommer in på stationen, trots befarade förseningar, behöver vi taggen <triumferande efter stora motgångar>. Men i andra lägen återstår kanske inget annat än  <återhållen förtvivlan>. Och så vidare.

Vi kommer kanske inte att manuellt märka upp dessa förprogrammerade fraser. Kanske kommer en artificiell intelligens att själv försöka tolka kontexten och anpassa tonfall, satsmelodi, talhastighet och dynamik (det som kallas prosodi).

Men, till dess: de gamla <strong>  och <emphasis> är redan otillräckliga; rester efter de begränsade möjligheter man hade med visuell alfabetisk representation av tal. Vad det nya mediet kräver är något som mer liknar anvisningarna för replikerna på teatern:

IRINA. [kyligt] Sluta nu.

KULYGIN. [sårad] Kära Masja, varför det?

MASJA. Ska jag säga sen. [förargat]

 

Och en dag kan vi kanske få höra maskinerna uttrycka de komplexa känslor som Tjechov anvisar i pjäsen Tre systrar, nämligen

[Skrattande genom tårar]:

"Tåget till Moskva kommer äntligen att avgå från spår 3 ..."


Mer på inUsebloggen om hur maskinerna uttrycker sig när de talar till oss:

Vitvaror som tar sig ton (11 maj 2016)

Jag, robot eller: Antropomorfismen är den nya skeumorfismen (29 juni 2015)


Ta en titt på inUse kursverksamhet Academy!