KI im Museumsarchiv

Geschrieben am 8 Juni, 2023

Die Open-Source-Spracherkennung Whisper von OpenAI (dem Schöpfer von ChatGPT) transkribiert Audiodateien in erstaunlich guter Qualität. Die Sprach-KI arbeitet sich durch minuten- bis stundenlange Aufzeichnungen und liefert dazu auch Zeitmarken. Noch kann Whisper bei Aufnahmen mit mehreren Sprechern allerdings nicht zwischen den einzelnen Personen unterscheiden.

Da ich mich gerade mit einem Konvolut an Interviews beschäftige, habe ich Whisper versuchsweise auf eine der digitalisierten Interview-Sprachdateien losgelassen. Da die geinterviewte Person starken fränkischen Dialekt gesprochen hat, hätte ich eigentlich nicht erwartet, dass dabei etwas Brauchbares herauskommt. Doch das Ergbnis ist interessant. Hier ein kleiner Auszug aus der von Whisper produzierten Interview-Transkription:

Und wie ist das denn mit dem Fleisch?
Wie haben Sie den Fleisch haltbar gemacht?
Ja, da, wenn in Winter geschlachtet worden ist,
da hat man früher halt alles eingeweckt,
was so Bratenfleisch war und so was, hat man viel eingeweckt.
In Gläser.
Das hat man früher gehabt.
Also das Einwecken hat man ganz früher schon gekannt.
Solange ich war, hat man das schon gemacht.
Und außerdem hat man es eben auch eingesalzen,
dann in so einen Tonständer.
Da hat man das Fleisch eingesalzen.
Und das Rauchfleisch, das ist alles,
also die Schinken, das ist geräuchert worden.
Das hat man geräuchert.
Und das ist dann …
Das ist am Boden.
In einer Extrakammer ist das aufbewahrt worden.
In einer Extrakammer?
Also da war nur das geräucherte Fleisch drin?
Ja, so eine Backkammer, wo eben luftig war,
wo das Luft gehabt hat.
Und das eingesalzene Fleisch, da ist nur Salz reingekommen?
Ja.