Op Computer Creatief plaatsen we regelmatig interviews met onze auteurs. De uitwerking van een interview is altijd bewerkelijk. Ik neem een interview altijd op en schrijf het daarna eerst zo’n beetje letterlijk uit. Ondertussen probeer ik er al wel lopende zinnen van te maken. Als dat gedaan is ‘componeer’ ik het interview, maak ik er een leesbaar verhaal van. Dat betekent herschrijven van de uitgeschreven opname en er een goede volgorde van maken. Kortom, veel werk. In het boek The Art of AI van Laurens Vreekamp (interview met hem HIER) had ik gelezen dat er een AI-service is – Amberscript.com – die je opgenomen gesproken tekst voor je uitschrijft. Dat leek me handig. Ik probeerde Amber met de laatste twee interviews op dit blog. Een interview uitwerken met Amberscript lijkt handig, maar valt in de praktijk tegen.
Het uitschrijven van een opname vind ik het vervelendste onderdeel van het maken van een interview. Het is saai, inspannend en pas het halve werk. Voor de laatste twee interviews – met Laurens Vreekamp en Stijn de Wilde – die ik voor dit blog maakte, heb ik het uitschrijven van de opgenomen gesprekken daarom uitbesteed aan Amberscript. Als slimme software dat vervelende werk van je kan overnemen, is dat superhandig. Was het ook handig? Ja en nee.
Hoe werkt Amberscript?
Amberscript.com werkt in de browser. Je upload de opname – audio- of videobestanden – naar Amberscript en dan bepaal je wat er mee moet gebeuren. Je kunt een interview laten uitschrijven, je kunt er bijvoorbeeld ondertitels mee maken. De mogelijkheden zijn uitgebreid. Je betaalt per uur of je neemt een abonnement. Een uur audio kost €15,-. Daarnaast kun je kiezen voor of automatisch vertaling of handmatige vertaling. Voor mijn interviews was het belangrijk dat er Nederlands werd ‘verstaan’: Amberscript begrijpt 39 talen, waaronder Nederlands.

Aan het werk met Amberscript

Als je genoeg credits hebt voor het interview dat je door Amberscript wilt laten uitwerken, gaat Amber aan het werk. Je geeft aan wat je wilt: een Nederlandse tekst, 2 sprekers en een transcription. Een interview van een half uur (uitschrijven daarvan kost dus € 7,50) is in een minuut of tien gepiept. Is de transcriptie klaar dan kun je hem openen in een ander venster. Bovenin de balk zie je een knop voor het exporteren van de tekst, knoppen waarmee je de opname heen en weer kunt spoelen en afspelen. Daaronder de sound wave van de opname. Je kunt door de tekst heen scrollen en met de Alt-toets klikken naar het deel van de opname dat daar staat uitgeschreven. Je kunt het interview afspelen en tegelijkertijd de tekst aanpassen.

Is Amberscript handig?
Dat klinkt mooi en het werkt qua interface ook mooi. Maar is het ook handig? Het verschilt per spreker en per interview Je hebt mensen die in prachtige volzinnen praten. Andere mensen praten in halve zinnen, binnensmonds. De kwaliteit van de opname is ook belangrijk. Stijn de Wilde sprak ik via Zoom en er waren alleen maar twee stemmen. Laurens Vreekamp sprak ik in restaurant de Plantage met zachte muziek op de achtergrond en het geluid van het espressoapparaat.
Amberscript probeert alles letterlijk uit te schrijven. Belangrijk (voor mij) is dat het begrijpelijke zinnen worden. Maar daar gaat het Amber eigenlijk niet om. Ze schrijft alles letterlijk op. Woorden die ze niet goed verstaat of begrijpt zet ze ook in de uitgeschreven tekst. En wat Amber er van maakt, slaat vaak helemaal nergens op. Een paar voorbeelden. Kortgeleden interviewde ik Bob Timroff over zijn boek over Capture One. Hij zei: Als ze zouden vragen welk programma moet ik gebruiken? Zou ik toch Capture One zeggen. Amber herkent het begrip Capture One helemaal niet. De tekst die ik krijg is: n ze het zouden vragen dat programma ik moet gebruiken, zou ik toch, ik heb zoon zeggen. Capture One wordt hier Ik heb zoon. Bij Stijn de Wilde ging het veel over hackers of hacks. Hacks werd natuurlijk heks. Amber begrijpt dus helemaal niet waar een gesprek over gaat.
Tekst makkelijk aan te passen
Je kunt in de interface van Amberscript die teksten makkelijk aanpassen, maar vaak staat er zoveel onzin dat je eigenlijk niet weet waar je moet beginnen. Mijn voorlopige conclusie is dat ik het beter zelf kan uitschrijven. Ik begrijp waar het gesprek over gaat en ik kan van een aantal rommelige zinnen een lopende zin met betekenis maken. Amberscript is nog niet intelligent genoeg om dat te kunnen. Voor mijn Nederlandse interviews werkt het eigenlijk niet. De sprekers worden door elkaar gehaald, de helft wordt niet goed verstaan. 7,50 voor een half uur is niet veel, maar ook wel weer weggegooid geld. Nog een voorbeeld uit het interview met Bob Timroff.
De uitgeschreven tekst van Amberscript:
Bob Timroff en ik door elkaar: Dat is dus verzoenen met beperkte oma en heb je dat ook weer verstand.
Ik: Ja, met rope stand is het gewoon heel erg moeilijk, volgens mij om het daar, want eigenlijk moet je dat dus in de database data bezig. Van wat heb je van of relateren wegblijven.
Bob Timroff: Ja, en dat werk?
Ik : En ja, zeker niet, zeker niet. En vinden die dat? Die kan zo’n dat een beetje rood aan.
Dit is wat ik er in eerste instantie van zou maken:
Bob en ik: (Niet te verstaan). weer verstand = Raw-bestand.
Ik: Ja, met een Raw-bestand is het gewoon erg moeilijk, volgens mij moet je dat dus eigenlijk in de database van Capture One of Lightroom wegschrijven en dat werkt gewoon niet. Zeker niet met Affinity. Dat kan zo’n database nooit aan.
Hier worden in ieder geval de twee sprekers door elkaar gehaald. Daarbij staat er natuurlijk volkomen onzin. Jammer, een goed uitgewerkt interview zou heel handig zijn, maar Amberscript moet nog veel leren. Het volgende interview schrijf ik zelf wel weer uit.
Hans Frederiks is journalist en fotograaf en hoofdredacteur van blog.computercreatief.nl. Hij schrijft over ontwikkelingen op het gebied van computers, van vormgeving op het web en print, en fotografeert al zijn hele leven lang. Zijn specialisaties zijn panorama’s, landschappen en podiumfotografie. Zijn blog vind je HIER, zijn boeken vind je HIER.
Hi Hans,
Peter-Paul hier, oprichter van Amberscript. Dank voor het gebruik van onze software! Wat heel erg helpt is het gebruik van een microfoon ipv een telefoon. Daarnaast kan je ‘eigen’ woorden toevoegen met de nieuwe Glossary feature, zodat woorden beter worden omgezet.
Hiermee wordt de accuratesse een stuk hoger, dat zal helpen en maakt dat het uitwerken stukken sneller gaat dan met de hand. Dit neemt niet weg dat spreektaal een stuk uitgebreider is dan schrijftaal.
Tot slot: wij hebben een handmatige uitwerkservice, zodat je er helemaal geen werk meer aan hebt.
Groet Peter-Paul
Dag Peter-Paul, Ik neem de interviews niet op met mijn telefoon maar met een digitaal recordertje van Olympus. Anyway, ik hoopte dat Amberscript de zinnen wat intelligenter interpreteerde. Bijvoorbeeld dat dubbele woorden er automatisch uit worden gehaald. In gesprekken zeggen mensen vaak, nadenkend, een woord meerdere keren achterelkaar. Als ik dat zelf uitschrijf, haal ik dat er natuurlijk meteen zelf uit. Wat ik me nog afvroeg: als ik de tekst in de interface van Amberscript bewerk, leert Amberscript dan van de aanpassingen? In die zin dat de Artificial Intelligence steeds intelligenter wordt?
Ik snap het! De tekst wordt niet geredigeerd, omdat soms mensen weer wel op zoek zijn naar een echt letterlijk transcript (bijvoorbeeld in de juridische hoek). De AI leert van de tekst inderdaad en je kan inmiddels ook specifieke woorden toevoegen die de spraakherkenning mee kan nemen.