Schema e storia del 'Corpus Taurinense': linguistica dei corpora dell'italiano antico

Barbera, Emanuele Ferdinando

Il presente volume, forte di 4195 citazioni tratte da 254 testi e 510 query CQP, assolve a molteplici funzioni: pratico manuale di riferimento ed accurata documentazione dell’innovativo Corpus Taurinense; storia di una ricerca e vademecum dell’aspirante costruttore di corpora; irrinunciabile punto di riferimento sulla linguistica dei corpora dell’italiano antico; rilevante contributo ai rapporti tra linguistica teorica, storica e computazionale; ubi consistam in materia della linguistica italiana, romanza e computazionale. Il Corpus Taurinense (257.185 token, 18.876 type, 8.325 lemmi) oggetto del volume è costituito da ventidue testi fiorentini della seconda metà del XIII secolo, annotati e completamente disambiguati per parti del discorso, categorie morfosintattiche, genere letterario, caratteristiche filologiche ed articolazione paragrafematica del testo, portando le esperienze e le tecniche più avanzate della linguistica dei corpora dalle lingue moderne a quelle antiche. Costruito, infatti, secondo specifiche EAGLES>ISLE compatibili nel formato CWB (Corpus Work Bench, sviluppato dall’IMS Stuttgart), e rilasciato sotto licenza Creative Commons Share Alike, è liberamente consultabile con CQP (Corpus Query Processor) alla sua homepage http://www.bmanuel.org/projects/ct-HOME.html.