Entre ámbito y variedad: peculiaridades de un corpus de decretos traducidos automáticamente

Flavia De Camillis; Elena Chiocchetti

En Tirol del Sur alemán e italiano son idiomas cooficiales. El alemán oficial surtirolés es una variedad estándar (Hochdeutsch) y se diferencia de las otras variedades de alemán estándar (germánica, austríaca, suiza, etc.) especialmente por la terminología y la fraseología jurídico-administrativas (Ammon et al. 2016). Pese a emplearse sobre todo en la comunicación de las instituciones públicas de la provincia de Bolzano, que traducen diariamente entre alemán e italiano, aún no se ha desarrollado un sistema de traducción automática (TA) específico para esta combinación lingüística. La TA neuronal ofrece una calidad sin precedentes (Kenny 2022), sin embargo la oferta para las variedades de idiomas pluricéntricos, como el caso del alemán surtirolés, es todavía muy limitada (en DeepL se encuentran las variedades de tan solo dos idiomas: inglés y portugués), tanto como lo son los resultados de la TA para el lenguaje jurídico en general (Wiesmann 2019; Killman 2014). Puesto que el principal rasgo identificativo del alemán surtirolés es la terminología jurídico-administrativa, anteriormente se llevaron a cabo experimentaciones de TA enfocadas en el ámbito jurídico-administrativo surtirolés. En concreto, se entrenó un sistema neuronal basado en textos jurídicos y los resultados demostraron como principal fallo precisamente la traducción de los términos jurídico-administrativos (Contarino 2021, Autor 1 2021). La domain-adaptation llevada a cabo no solventó del todo el problema terminológico, de por sí ya notorio (Heiss y Soffritti 2018). Partiendo de los estudios previos, nuestro objetivo consiste en identificar los errores del sistema neuronal entrenado siguiendo una línea de investigación ya consolidada (Popović 2018; Castilho et al. 2021). Se trata de una tarea esencial en la medida en que la coexistencia de términos homónimos, concurrentes y sinónimos en el lenguaje jurídico –a los que se añaden en Tirol del Sur términos oficiales (normados), no oficiales y obsoletos– representa una de las principales dificultades para la desambiguación semántica. En esta comunicación, presentamos las principales categorías de errores detectadas en un corpus bilingüe (DE-IT), que consta de 52 decretos provinciales (ca. 60.000 palabras). El sistema usado para la traducción (ModernMT) se entrenó con un corpus de 200.000 segmentos bilingües, alcanzando 71,22 (DE>IT) y 74,74 (IT>DE) puntos BLEU contra los 26,65 y 27,59 respectivamente en su versión base. La anotación de los errores se ejecutó mediante una taxonomía repartida en errores de precisión (accuracy) y de fluidez (fluency) y adaptada de Tezcan et al. (2017). Los errores detectados pertenecen sobre todo al área léxica y destacan por frecuencia los errores de precisión de tipo bilingual terminology, word sense disambiguation y semantically unrelated. Estas tres categorías han creado mucho desacuerdo entre las cuatro anotadoras. En esencia, no ha sido siempre posible separar netamente los términos inadecuados para su uso en Tirol del Sur de los términos simplemente inapropiados por su significado, como en el caso de Pflicht/Obligation/Verpflichtung (obligación), de Ziffer/Punkt/Nummer (punto, como elemento inferior al coma) o de Zuschuss/Beitrag (contribución). Los resultados de nuestro análisis permiten intuir que otro entrenamiento basado en listas terminológicas del sistema TA previamente entrenado no sería probablemente suficiente para solventar los problemas terminológicos detectados en el corpus, ya que la ambigüedad está directamente ligada no solo al ámbito y a la variedad lingüística, sino también al cotexto. Concluimos considerando necesario desarrollar técnicas para integrar en los sistemas de TA información detallada sobre el cotexto (a nivel de frase, párrafo y documento) junto con la información terminológica.

Entre ámbito y variedad: peculiaridades de un corpus de decretos traducidos automáticamente

Abstract

Files and links (1)

Details

Metrics