Simultane Übersetzung von Vorlesungen

Die simultane Übersetzung von Vorlesungen, keine Zukunftsmusik mehr?

Die Universität Karlsruhe, die sich seit einiger Zeit lieber KIT (Karlsruher Institut für Technologie oder auf Englisch Karlsruhe Institute of Technology) nennt, hat laut ihrer Pressemeldung eine automatische Übersetzung von Vorlesungen entwickelt.

Dieser „Vorlesungsübersetzer“ soll die Stimme des Dozenten erkennen und in Text umsetzen. Danach wird der erkannte Text ins Englische übersetzt, laut Uni Karlsruhe in Echtzeit, und auf den Laptops bzw. Mobiltelefonen der Studenten angezeigt. Zwar soll das Ergebnis „nicht immer perfekt“ sein, doch soll der automatische Übersetzungsdienst das „erfolgreiche Studium über Sprachbarrieren hinweg ermöglichen“. Nach Professor Hippler, Präsident der Uni, sollen damit talentierte Nachwuchsstudenten aus dem Ausland angezogen werden. Der Vorlesungsübersetzer wird laut Pressestelle der Uni derzeit in vier verschiedenen Vorlesungen in den Fachbereichen Maschinenbau und Informatik getestet.

Als „menschlicher“ Übersetzer mit Bezug zur Spracherkennung bin ich natürlich skeptisch, ob das funktionieren kann.

Zuerst aber zur Aufnahme der Sprache: Bei der Spracherkennung, wie wir sie z.B. von Dragon NaturallySpeaking kennen, wird gewöhnlich mit einer Fehlerrate von 1 bis 5 Prozent gerechnet, wobei stets vorausgesetzt wird, daß das Mikrofon stimmt, der Sprecher ein wenig mit der Spracherkennungssoftware trainiert hat, der Sprecher deutlich spricht (möglichst Hochdeutsch) und auch die Akustik stimmt. Der Diktand muß dabei zudem Satzzeichen mitsprechen, kann also nicht einfach so lossprechen, wie er will, sondern muß sich an Diktieranforderungen halten. Bei einer Vorlesung ist es jedoch unmöglich, Punkte und Kommas mitzusprechen. Die schwierige Akustik eines Vorlesungssaales wird die Erkennungsleistung zusätzlich trüben, und ob der Computer den Prof ersteht, wenn er mal lauter oder undeutlicher spricht, ist unwahrscheinlich. Wer bei der Arbeit Spracherkennung verwendet, weiß wie das ist. Dragon versteht beim Diktat fast alles perfekt, so lange man diktiert. Spricht man aber mit dem Kollegen oder ins Telefon und vergißt dabei, das Mikrofon auszuschalten, dann erkennt die Software plötzlich nur noch wenig, vielleicht noch 50 Prozent. Ich gehe also für den Bereich der Spracherkennung dieses simultanen Übersetzungsdienstes von einer Fehlerrate von mindestens 10 Prozent aus.

Bei der maschinellen Übersetzung ist es ähnlich. Vor zwei Jahren haben wir eine führende Übersetzungssoftware getestet. Die Übersetzungsleistung war in unseren kritischen Augen schlecht. Der Zeitaufwand, die damit estellte Übersetzung zu verbessern, war höher als die für die „manuelle“ Übersetzung benötigte Zeit. Die automatische Übersetzung – gerade bei Vorlesungen ins Englische – erfordert immer Satzzeichen für die Erkennung des Kontextes. Wie sonst könnte eine Übersetzungssoftware erkennen, wo ein Satz beginnt und wo er endet? Wie oben erwähnt, fehlen die Satzzeichen bei der gesprochenen Vorlesung. Wie kann dann die Übersetzungssoftware ausreichend Sätze erkennen? Auch bei der automatischen Übersetzung würde ich daher eine Fehlerrate von mindestens 10 Prozent ansetzen.

Die beiden angenommenen Fehlerraten kombiniert ergeben eine Genauigkeit von 81 Prozent (0,9×0,9). Genügt es für nichtdeutsche Studenten, eine Vorlesung zu 80 Prozent zu verstehen, zumal die Mehrheit dieser ausländischen Studenten nicht englische Muttersprachler sind? Und wie können diese Studenten beurteilen, welche Teile der Vorlesung richtig und welche falsch übersetzt worden sind? Dies war schon immer einer der Knackpunkte der maschinellen Übersetzung: Nur wer beide Sprachen beherrscht, kann abschätzen, was in der Übersetzung richtig und was falsch ist.

Um ein abschließendes Urteil zu bilden, werde ich mir das System ansehen und weiter darüber berichten.

Nachtrag: Die Präsentation kann in Youtube angesehen werden:

Archive

Meta