Applicazione delle risorse disponibili per l’italiano all’annotazione automatica delle relazioni discorsive in testi scolastici: alcune implicazioni teoriche

Arianna Bienati; Jennifer-Carmen Frey; A Palmero Aprosio; N Facchinelli

L’annotazione delle relazioni discorsive gioca un ruolo fondamentale nell’analisi della struttura testuale, nonché nell’allenamento dei discourse parser che consentono di automatizzare queste analisi. Molti sono gli schemi di annotazione del discorso creati per l’inglese (cfr. Penn Discourse Treebank, Prasad et al. 2008; Rethorical Structure Theory Discourse Treebank, Carlson & Marcu 2001; Segmented Discourse Representation Theory, Asher & Lascarides 2003), i quali sono stati successivamente utilizzati e adattati anche per altre lingue. Per l’italiano si ricordano gli studi di Pareti & Prodanoff (2010) e di Feltracco et al. (2017), i quali si concentrano su specifiche categorie di relazioni discorsive, rispettivamente quelle di attribuzione e quelle contrastive. Una risorsa che comprende tutte le categorie del PDTB è il Lexicon of Italian Connectives (LICO; Feltracco et al. 2016), un lessico di connettivi italiani e i relativi sensi, allineato con la PDTB 3.0 (Webber et al. 2019) e dialogante con altri lessici simili disponibili per molte altre lingue (cfr. Connective-Lex; Stede et al. 2019). Il LICO si basa su una definizione di connettivo molto stretta, tratta dalle riflessioni teoriche di Ferrari (2010; 2014; 2021), che limita la categoria a quelle “forme linguistiche morfologicamente invariabili che offrono istruzioni su come legare gli eventi evocati dal testo o gli atti linguistici di composizione testuale attraverso relazioni logico-argomentative” (Ferrari 2021: 145). Tuttavia, i connettivi così intesi spesso non esauriscono tutti gli elementi formali che possono realizzare in superficie una relazione discorsiva. Per una risorsa come il LICO, il cui obiettivo è coadiuvare l’annotazione di relazioni discorsive, siano esse implicite o esplicite, è stato dunque importante trovare un compromesso: da una parte si cerca di essere fedeli alla definizione, escludendo forme linguistiche che esprimono la medesima relazione semantica ma appartengono a classi morfologicamente variabili (es. in conclusione, ma non concludendo o per concludere); dall’altra, si accettano espressioni multi-parola morfologicamente variabili (es. per [tutti] questo/i motivo/i) che però indubbiamente aumentano il potere descrittivo della risorsa. Con il nostro contributo ci proponiamo di discutere alcune implicazioni teoriche della definizione di connettivo adottata in questa risorsa, portando a supporto delle nostre osservazioni i risultati di uno studio sulla coesione in testi di studenti delle scuole secondarie di primo e secondo grado. Utilizzando il LICO come base per l’identificazione delle relazioni discorsive, risponderemo alle seguenti domande di ricerca: * in che modo le scelte in merito alla segmentazione in unità discorsive e la definizione di connettivo influenzano la ricostruzione e l’analisi della struttura logico-argomentativa di testi argomentativi scritti da studenti della secondaria di primo e secondo grado? * in che misura queste scelte influenzano le prestazioni di un approccio automatico di identificazione dei connettivi basato sul semplice match di stringhe contenute nel LICO? Per rispondere a queste domande, 30 testi (~10.000 token), di cui 18 tratti dalla componente italiana del corpus LEONIDE (Glaznieks et al. 2020) e 12 dal pre-test del progetto ITACA – Coerenza nell’Italiano Accademico, sono stati annotati manualmente da due annotatrici sulla base dello schema di annotazione della PDTB 3.0 (Webber et al. 2019). Il processo di annotazione si compone di due task: in primo luogo, si decide se l’elemento formale presente nel testo sia o meno un connettivo; in secondo luogo, si decide quale relazione discorsiva assegnare. Alla fine di questa procedura, i casi di mancato accordo sono stati discussi in una sessione di riconciliazione ed è stato concordato un gold standard. L’annotazione manuale è stata poi comparata all’annotazione automatica, la quale consiste nel match delle stringhe contenute nel LICO con quelle contenute nei testi. Nel il riconoscimento dei connettivi, l’approccio automatico presenta una bassa precision (0.72): alcune stringhe (es. ‘e’, ‘come’, ‘o’, ‘prima’, ‘dopo’), pur essendo invariabili, non connettono eventi con relazioni logico-argomentative nella maggior parte dei contesti di occorrenza (si pensi, ad esempio, alla ‘e’ che connette elementi nello stesso sintagma nominale), quindi non sono state segnalate come connettivi nell’annotazione manuale. Inoltre, a queste stesse stringhe risulta problematico assegnare una relazione discorsiva univoca, perché sono altamente polisemiche (ad esempio, il dizionario Sabatini-Coletti elenca almeno 8 sensi per la ‘e’ congiuntiva). La recall dell’identificazione dei connettivi è 0.91, ma l’analisi delle differenze con l’annotazione manuale evidenzia il fatto che alcuni elementi che avrebbero sempre funzione connettiva non sono stati trovati, sia per errori ortografici sia perché esclusi a priori dal lessico, in quanto appartenenti a classi verbali (es. concludendo, visto che, dato che) oppure occorrenti in varietà non standard (es. essendo che). I risultati suggeriscono che un approccio onomasiologico, cioè che parta dall’individuazione delle relazioni semantiche e solo successivamente passi al riconoscimento degli elementi formali che le segnalano, potrebbe favorire lo sviluppo di risorse sempre più precise per l’analisi automatica della struttura discorsiva per l’italiano. In particolare, si potrebbe attingere alle recenti sperimentazioni di Das e Taboada (2017; 2018; Das 2014) o Danlos (2018), in cui sono stati inventariati non solo i connettivi, ma anche altre strategie linguistiche (referenziali, lessicali, sintattiche o grafiche) che, in isolamento o in combinazione (Hoek et al. 2019), fungono da segnali per determinate relazioni discorsive. Un tale arricchimento delle risorse disponibili per l’italiano consentirebbe inoltre di sistematizzare le entrate già presenti nel lessico, distinguendo ciò che è connettivo, secondo la definizione rigorosa di Ferrari (2021), da ciò che non lo è, senza però diminuire il potere descrittivo della risorsa. Riferimenti bibliografici Asher, N. M., & Lascarides, A. (2003). Logics of Conversation. Cambridge University Press. Carlson, L., & Marcu, D. (2001). Discourse Tagging Reference Manual. https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf Danlos, L. (2018). Discourse and Lexicons: Lexemes, MWEs, Grammatical Constructions and Compositional Word Combinations to Signal Discourse Relations. Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWE-CxG-2018), Workshop at Coling 2018. https://hal.science/hal-02069442 Das, D. (2014). Signalling of Coherence Relations in Discourse. PhD thesis. Simon Fraser University. Das, D., & Taboada, M. (2014). RST Signalling Corpus Annotation Manual. Department of Linguistics, Simon Fraser University. Das, D., & Taboada, M. (2018). RST Signalling Corpus: A corpus of signals of coherence relations. Language Resources and Evaluation, 52(1), 149–184. Feltracco, A., Jezek, E., Magnini, B., & Stede, M. (2016). LICO: A Lexicon of Italian Connectives. In A. Corazza, S. Montemagni, & G. Semeraro (ed.), Proceedings of the Third Italian Conference on Computational Linguistics CLiC-it 2016 (pp. 141–145). Accademia University Press. Feltracco, A., Magnini, B., & Jezek, E. (2017). Contrast-Ita Bank: A corpus for Italian Annotated with Discourse Contrast Relations. In R. Basili, M. Nissim, & G. Satta (ed.), Proceedings of the Fourth Italian Conference on Computational Linguistics CLiC-it 2017 (pp. 159–164). Accademia University Press. Ferrari, A. (2010). Connettivi. In Enciclopedia dell’Italiano. Treccani. https://www.treccani.it/enciclopedia/connettivi_(Enciclopedia-dell'Italiano) Ferrari, A. (2014). Linguistica del testo. Principi, fenomeni, strutture. Carocci. Ferrari, A. (2021). Segnali discorsivi e connettivi. Lingua e Stile, LVI(1), 143–150. Glaznieks, A., Frey, J.-C., Stopfner, M., Zanasi, L., & Nicolas, L. (2022). Leonide: A longitudinal trilingual corpus of young learners of Italian, German and English. International Journal of Learner Corpus Research, 8(1), 97–120. Hoek, J., Zufferey, S., Evers-Vermeul, J., & Sanders, T. J. M. (2019). The linguistic marking of coherence relations: Interactions between connectives and segment-internal elements. Pragmatics & Cognition, 25(2), 276–309. Pareti, S., & Prodanof, I. (2010). Annotating Attribution Relations: Towards an Italian Discourse Treebank. Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10), 3566–3571. Prasad, R., Dinesh, N., Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A., & Webber, B. (2008). The Penn Discourse Treebank 2.0. Proceedings of the 6th International Conference of Language Resources and Evaluation (LREC 2008), 2961–2968. Stede, M., Scheffler, T., & Mendes, A. (2019). Connective-Lex: A Web-Based Multilingual Lexical Resource for Connectives. Discours, 24. Webber, B., Prasad, R., Lee, A., & Joshi, A. (2019). The Penn Discourse Treebank 3.0 Annotation Manual.

Applicazione delle risorse disponibili per l’italiano all’annotazione automatica delle relazioni discorsive in testi scolastici: alcune implicazioni teoriche

Abstract

Files and links (2)

Details

Metrics