Linguistica dei corpora

Barbera, Emanuele Ferdinando

La novità più cospicua di questo decennio è resa palese dall’esistenza medesima di questo capitolo: l’avvenuto sdoganamento della linguistica dei corpora (od all’inglese Corpus Linguistics) dalla più generale linguistica computazionale e dalle sue molteplici anime, che spaziano dal trattamento automatico delle lingue naturali (TAL o NLP, Natural Language Processing) all’intelligenza artificiale (IA), qui difatti oggetto di un differente capitolo. La maturazione di questa disciplina, posta ad un crocevia tra le tecnologie di TAL e le pratiche filologiche, lessicografiche e di storia della lingua (cfr. Barbera, 2011: 27), già ben nota e da tempo strutturata in àmbito linguistico anglofono, anche nella tradizione linguistica italiana è avvenuta non senza differenze teoriche significative (come si illustrerà nel § 2.1), radicate nelle diverse tradizioni. Se le applicazioni sono ormai svariate e vanno dal più tradizionale campo della lessicografia (cfr. qui il contributo di Carla Marello) a quelli della linguistica contrastiva od apprendologica, dalla morfologia, alla semantica ed alla linguistica testuale (un buon campionario è offerto dalla silloge di Barbera, Corino, Onesti, 2007), va però detto che i corpora di pubblico accesso non sono poi moltissimi (forse anche per le ragioni legali affrontate nel § 2.4). Nella presente rassegna privilegeremo, da un lato, le riflessioni teoriche e storiografiche sulla disciplina tutta (intendendosi che le applicazioni di tale disciplina a specifici domini linguistici dovrebbero comunque risultare coperte da altre sezioni di questo volume), e dall’altro i corpora di lingua italiana effettivamente prodotti. Non ci prefiggiamo certo la completezza (comunque impossibile in questi spazi), ma piuttosto l’esemplarità, limitandoci a delineare i filoni e le opere che ci paiono storiograficamente centrali. I limiti (naturalmente applicati con la dovuta elasticità) saranno dettati dalla effettiva pertinenza dei prodotti ad una definizione stretta di corpus (che sarà introdotta e discussa nel § 2.2) e dalla loro reale e libera messa a disposizione pubblica (stante la centralità della questione legale discussa nel § 2.4), ad esclusione, quindi, di quanto sia eclusivamente proprietario o commerciale. Questa scelta implica necessariamente anche il ridimensionamento della sezione sul software, dove l’open source e la distribuzione libera costituiscono ancora una percentuale minoritaria, anche se non insignificante: cfr. § 4.