Abstract
ChatGPT wird zunehmend auch für das Übersetzen eingesetzt. Während für Sprachen mit vielen Ressourcen grundsätzlich gute Ergebnisse erzielt werden, ist die Übersetzungsqualität in Sprachen mit weniger Ressourcen noch relativ gering. Nach unserem Wissen gibt es noch keine veröffentlichten Untersuchungen darüber, wie gut sich ChatGPT für das Übersetzen in Minderheiten-Varietäten von Sprachen mit vielen Ressourcen eignet.
Wir untersuchen am Beispiel der Südtiroler Sprachvarietät des Deutschen wie ChatGPT Rechts- und Verwaltungstexte in eine Minderheiten-Varietät übersetzt. Das Übersetzen – insbesondere im Bereich Recht – spielt eine wichtige Rolle zur Sicherung grundlegender Sprachenrechte von Minderheiten. Anders als z. B. in der Schweiz oder auf EU-Ebene übernehmen diese Aufgabe in der Südtiroler Landesverwaltung sehr oft nichtprofessionelle Übersetzerinnen und Übersetzer, die entsprechend häufig auf digitale Hilfsmittel zurückgreifen.
Ausgehend von einer Auswahl an Südtiroler Rechts- und Verwaltungstexten, die wir von ChatGPT vom Italienischen in die Südtiroler Varietät des Deutschen übersetzen lassen, analysieren wir die Stärken und Schwächen dieser Software, auch im Vergleich mit existierenden humanübersetzten Referenztexten. Dabei berücksichtigen wir insbesondere die spezifische Südtiroler Rechtsterminologie. Diese umfasst unter anderem 7.400 Entsprechungen, die von einer Terminologiekommission genormt wurden und deren Verwendung in sämtlichen Texten der öffentlichen Verwaltung verpflichtend ist.
Es ist anzunehmen, dass Large Language Models wie ChatGPT eher mit bundesdeutschen Texten und EU-Texten trainiert werden als mit Texten der Südtiroler Sprachvarietät. Es handelt sich aber nicht nur um verschiedene Sprachvarietäten, sondern auch um verschiedene Rechtssysteme mit unterschiedlicher, streng systemgebundener Terminologie.
ChatGPT ist es durchaus bewusst, dass es eine deutsche Sprachvarietät für Südtirol gibt. Teilweise wird diese allerdings mit Dialekt bzw. Umgangssprache gleichgesetzt. Wie auch bei neuronalen maschinellen Übersetzungssystemen (NMT) können wir beobachten, dass die Südtiroler Terminologie nicht (immer) berücksichtigt wird (z. B. wird „contratto collettivo“ meist mit dem bundesdeutschen „Tarifvertrag“ anstelle des in Südtirol gebräuchlichen „Kollektivvertrag“ übersetzt). Im Gegensatz zu NMTs bietet ChatGPT jedoch den Vorteil, dass explizit Hinweise oder Verbesserungsvorschläge gegeben werden können. Allerdings werden diese nicht immer in zukünftigen Übersetzungen berücksichtigt, wodurch sich gleiche Fehler wiederholen.
Minderheitensprachen scheinen also auch bei diesem technologischen Hilfsmittel benachteiligt zu sein, aufgrund der geringeren Datenmengen im Trainingsmaterial. Allerdings stellt sich die Frage, ob Minderheiten-Varietäten einer Sprache mit vielen Ressourcen durch das Sich-Aufdrängen anderer Sprachvarietäten sogar noch mehr bzw. anders benachteiligt sind als absolute Minderheitensprachen wie Baskisch oder Ladinisch, die ChatGPT nur sehr begrenzt abdeckt.