CORPUS «ITAIST»: NOTE PER LO SVILUPPO DI UNA RISORSA LINGUISTICA PER LO STUDIO DELL’ITALIANO ISTITUZIONALE PER IL DIRITTO DI ACCESSO CIVICO

Daniela Vellutino; Nicola Cirillo

doi:10.54103/2037-3597/23836

Autori/Autrici

Daniela Vellutino Università degli Studi di Salerno https://orcid.org/0000-0002-2525-7940
Nicola Cirillo Università degli Studi di Salerno

DOI:

https://doi.org/10.54103/2037-3597/23836

Abstract

Il corpus “ItaIst” è un corpus parallelo che si sta sviluppando nell’ambito del progetto PRIN 2020 “VerbACxSS: su verbi analitici, complessità, verbi sintetici, e semplificazione. Per l’accessibilità” con l’obiettivo di creare una risorsa linguistica, costituita da testi istituzionali scritti in lingua italiana, che servirà a generare altre risorse linguistiche come, ad esempio, repertori di lessici istituzionali e terminologie specialistiche da sviluppare manualmente, semi-automaticamente e automaticamente secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable). Nel contributo si presentano le prime note per lo sviluppo di una risorsa linguistica, collegata al corpus “ItaIst”, costituita da documenti originali scritti in lingua italiana dello specifico dominio terminologico per la “gestione del servizio pubblico dei rifiuti urbani” relativo alle attività d’informazione e comunicazione delle amministrazioni pubbliche. I documenti sono stati raccolti secondo il modello di classificazione dei testi istituzionali “CPI” (Vellutino 2012, 2014, 2018) che distingue i testi dei linguaggi istituzionali speciali per la pubblicità legale e la trasparenza amministrativa dai testi istituzionali mediali per la comunicazione pubblica per il diritto di accesso civico, per l’informazione di pubblica utilità, per la stampa e i canali social. In questa prima fase di studio è stato elaborato e realizzato uno schema di metadatazione con dati amministrativi e strutturali sui tipi di testo istituzionali. Questo schema rappresenta un primo livello di annotazione utile per repertoriare i testi istituzionali per monitorare le specifiche caratteristiche linguistiche e comunicative caratterizzanti le differenti testualità dei linguaggi istituzionali speciali e mediali. Pertanto, la risorsa linguistica creata, corpus “ItaIst-GRU -DdAC”, sarà utilizzata per rilevare informazioni linguistiche per le seguenti finalità: estrarre la terminologia di dominio per creare risorse linguistiche quali lessici istituzionali e schede terminologiche; rilevare la distribuzione dei termini nei diversi tipi di testi istituzionali speciali e mediali; rilevare ed estrarre le frasi complesse da semplificare per creare una risorsa linguistica costituita da coppie di frasi complesse-semplici utile per addestrare e testare un modello di machine learning; rilevare le modalità di sintetizzazione dipendenti dai processi di semplificazione.

Corpus ‘ItaIst’: notes for the development of a linguistic resource for the study of institutional written medial Italian

The “ItaIst” corpus is a parallel corpus being developed as part of the PRIN 2020 project “VerbACxSS: on analytical verbs, complexity, synthetic verbs, and simplification. For accessibility” with the aim of creating a linguistic resource consisting of institutional texts written in Italian. This resource will serve to generate other linguistic resources, such as institutional lexicon repertoires and specialized terminologies, to be developed manually, semi-automatically, and automatically according to FAIR principles (Findable, Accessible, Interoperable, Reusable). This contribution presents the initial notes for developing a linguistic resource, connected to the “ItaIst” corpus, consisting of original documents written in Italian within the specific terminological domain of “public urban waste management” related to the information and communication activities of public administrations. The documents were collected according to the “CPI” classification model of institutional texts (Vellutino 2012, 2014, 2018), which distinguishes texts of special institutional languages for legal publicity and administrative transparency from institutional media texts for public communication for the right of civic access, public utility information, the press, and social channels. In this initial phase of the study, a metadata schema with administrative and structural data on the types of institutional texts has been developed and implemented. This schema represents a first level of annotation useful for cataloging institutional texts to monitor the specific linguistic and communicative characteristics of the different textualities of special and media institutional languages. Therefore, the created linguistic resource, corpus “ItaIst-GRU -DdAC,” will be used to extract linguistic information for the following purposes: Extract domain terminology to create linguistic resources such as institutional lexicons and terminology records; Detect the distribution of terms in the different types of special and media institutional texts; Detect and extract complex sentences to be simplified to create a linguistic resource consisting of complex-simple sentence pairs useful for training and testing a machine learning model; Detect the modes of synthesis dependent on simplification processes.

Downloads

I dati di download non sono ancora disponibili.

Riferimenti bibliografici

Brunato D. (2015), A study on linguistic complexity from a computational linguistics perspective. a corpus-based investigation of italian bureaucratic texts. Tesi di dottorato non pubblicata, Università di Siena.

Cortelazzo M. A. (1998), “Semplificazione del linguaggio amministrativo”, in Quaderni del Comune di Trento. Progetti, 3.

Cortelazzo M. A. (2021), Il linguaggio amministrativo. Principi e pratiche di modernizzazione, Carocci, Roma.

Cortelazzo M. A., Pellegrino F., Viale M. (1999), Semplificazione del linguaggio amministrativo. Esempi di scrittura per le comunicazioni ai cittadini, Comune di Padova.

Gross M. (1981), “Les bases empiriques de la notion de prédicat sémantique”, in Langages, 63, numero monografico: Formes syntaxiques et prédicats sémantiques, a cura di Guillet A., Leclère C., pp. 7-52.

Manning C. D., Surdeanu M., Bauer J., Finkel J., Bethard S. J., McClosky D. (2014), “The Stanford CoreNLP Natural Language Processing Toolkit”, in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pp. 55-60.

Mel’čuk I. (2004), “Verbes supports sans peine”, in Lingvisticae Investigationes, 27, 2, pp. 203-217.

Miliani M., Auriemma S., Alva-Manchego F., Lenci A. (2022), “Neural Readability Pairwise Ranking for Sentences in Italian Administrative Language”, in Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing ,Volume 1: Long Papers, pp. 849-866.

Passaro L. C., Lenci A. (2015), “Extracting terms with extra”, in Proceedings of EUROPHRAS 2015, Tradulex, pp. 188-196.

Sabatini F. (1998), “«Rigidità-esplicitezza» vs «elasticità-implicitezza»: possibili parametri massimi per una tipologia dei testi”, in Skytte G., Sabatini F. (a cura di), Linguistica testuale comparativa. In memoriam Maria Elisabeth Conte. Atti del Convegno interannuale della Società di Linguistica Italiana (Copenaghen, 5-7 febbraio 1998), Museum Tusculanum Press, Copenaghen, pp. 141-172.

Tonelli S., Aprosio A. P., Saltori F. (2016), “SIMPITIKI: A simplification corpus for Italian”, in Proceedings of the Third Italian Conference on Computational Linguistics CLiC-it 2016, Accademia University Press, Torino.

Vellutino D., Marano F., Elia A. (2012), “L’italiano istituzionale e le sue varietà d’uso pubblico. Aspetti lessicali nei tipi di testo d’informazione e comunicazione delle pubbliche amministrazioni”, in Bianchi P., De Blasi N., De Caprio C., Montuori F. (a cura di), La variazione nell’italiano e nella sua storia. Varietà e varianti linguistiche e testuali, Franco Cesati Editore, Firenze, pp. 539-550.

Vellutino D. (2014), “Esercizi di stile per il diritto di accesso civico”, in Ruffino G., Macaluso F. P. (a cura di), La lingua variabile nei testi letterari, artistici e funzionali contemporanei. Analisi, interpretazione, traduzione. Atti del XIII Congresso della Società Internazionale di Linguistica e Filologia Italiana, Centro studi filologici e linguistici siciliani, Palermo, pp. 1-16.

Vellutino D. (2015), “Risorse linguistiche e Open Data per la comunicazione pubblica della gestione dei rifiuti urbani”, in Vellutino D., Zanola M.T., Comunicare in Europa. Lessici istituzionali e terminologie specialistiche, EDUCatt - Ente per il Diritto allo studio universitario dell’Università Cattolica, Milano, pp. 217-245.

Vellutino D., Maslias R., Rossi F. (2016), “Verso l’interoperabilità semantica di IATE. Studio preliminare per il dominio Gestione dei rifiuti urbani”, in Zanola M. T., Diglio C., Grimaldi C., Terminologie specialistiche e diffusione dei saperi, EDUCatt - Ente per il Diritto allo studio universitario dell’Università Cattolica, Milano, pp. 221-240.

Vellutino D. (2018), L’italiano istituzionale per la comunicazione pubblica, il Mulino, Bologna.

Vellutino D. (2021), Insegnare gli usi dell’italiano istituzionale per la comunicazione pubblica”, in Lingue e Linguaggi, 41, pp. 279-296.

Vellutino (in stampa), “Italiano istituzionale”, in Vedovelli M., Serena E. (a cura di), Dizionario dell’italiano L2: insegnamento, apprendimento, ricerca, Pacini Editore, Pisa.

Wilkinson M. D. et al. (2016), The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18.