IL CORPUS CELI: UNA NUOVA RISORSA PER STUDIARE L’ACQUISIZIONE DELL’ITALIANO L2

Autori

  • Stefania Spina
  • Irene Fioravanti
  • Luciana Forti
  • Valentino Santucci
  • Angela Scerra
  • Fabio Zanda

DOI:

https://doi.org/10.54103/2037-3597/18161

Abstract

L’articolo descrive la progettazione, la realizzazione e le caratteristiche di un nuovo learner corpus di italiano L2: il corpus CELI. Il corpus raccoglie, sistematicamente, le produzioni scritte di apprendenti di italiano L2 che hanno superato le prove per la certificazione linguistica CELI dell’Università per Stranieri di Perugia in relazione ai livelli B1, B2, C1 e C2. Il corpus contiene 3041 testi prodotti da altrettanti apprendenti, con una distribuzione bilanciata dei token per livello di competenza. I metadati associati a ciascun testo includono:

  • il genere, la data di nascita, il numero di matricola e la nazionalità dell’apprendente;
  • il livello di competenza, secondo il QCER, relativo alla prova superata dall’apprendente;
  • il punteggio totale assegnato all’intera prova d’esame, il punteggio totale assegnato alla componente scritta dell’esame, il punteggio specifico assegnato alla singola produzione scritta, con i relativi punteggi assegnati alla competenza lessicale, alla competenza grammaticale, alla competenza sociolinguistica, e alla coerenza e coesione del testo prodotto;
  • il numero identificativo della traccia utilizzata per la produzione di ciascun testo, con l’indicazione del genere (lettera, e-mail, blog, racconto, articolo e relazione) e della tipologia (argomentativa, descrittiva e narrativa, o mista: descrittiva-narrativa; argomentativa-narrativa; argomentativa-descrittiva; argomentativa-narrativa-descrittiva) del testo prodotto.

Il corpus CELI si presta a numerosi utilizzi sia sul versante della ricerca linguistico-acquisizionale, soprattutto in chiave pseudo-longitudinale, sia sul versante della pianificazione didattica, dello sviluppo di attività didattiche e del language testing.

 

The CELI corpus: a new resource for studying Italian L2 acquisition

The article illustrates the design, the development and the characteristics of a new learner corpus of Italian L2: the CELI corpus. The corpus systematically collects the written texts produced by learners of Italian L2 who have passed the CELI exams administered by University for Foreigners of Perugia in relation to proficiency levels B1, B2, C1 and C2. The corpus contains 3041 texts produced by the same number of learners, with a balanced distribution of the tokens in terms of proficiency level. The metadata associated with each text include:

  • gender, date of birth, student ID code and nationality of the learner;
  • CEFR proficiency level, related to the exam passed by the learner;
  • the score assigned to the entire exam, to the entire written component of the exam, and to the single written task together with scores pertaining to lexical, grammatical and sociolinguistic competence and to the cohesion and coherence of the produced text;
  • the ID number related to the task used to produce each text, with the indication of text genre (letter, e-mail, blog, story, article and report) and text type (argumentative, descriptive and narrative, or mixed: descriptive-narrative; argumentative-narrative; argumentative-descriptive; argumentative-narrative-descriptive).

The CELI corpus lends itself to numerous uses both in the domain of second language acquisition research, particularly with regard to pseudo-longitudinal research designs, and in the domain of pedagogical planning, pedagogical materials design and language testing.

Dowloads

Pubblicato

2022-07-18 — Aggiornato il 2022-07-26

Versioni