La novità più cospicua di questo decennio è resa palese dall’esistenza medesima di questo capitolo: l’avvenuto sdoganamento della linguistica dei corpora (od all’inglese Corpus Linguistics) dalla più generale linguistica computazionale e dalle sue molteplici anime, che spaziano dal trattamento automatico delle lingue naturali (TAL o NLP, Natural Language Processing) all’intelligenza artificiale (IA), qui difatti oggetto di un differente capitolo. La maturazione di questa disciplina, posta ad un crocevia tra le tecnologie di TAL e le pratiche filologiche, lessicografiche e di storia della lingua (cfr. Barbera, 2011: 27), già ben nota e da tempo strutturata in àmbito linguistico anglofono, anche nella tradizione linguistica italiana è avvenuta non senza differenze teoriche significative (come si illustrerà nel § 2.1), radicate nelle diverse tradizioni. Se le applicazioni sono ormai svariate e vanno dal più tradizionale campo della lessicografia (cfr. qui il contributo di Carla Marello) a quelli della linguistica contrastiva od apprendologica, dalla morfologia, alla semantica ed alla linguistica testuale (un buon campionario è offerto dalla silloge di Barbera, Corino, Onesti, 2007), va però detto che i corpora di pubblico accesso non sono poi moltissimi (forse anche per le ragioni legali affrontate nel § 2.4). Nella presente rassegna privilegeremo, da un lato, le riflessioni teoriche e storiografiche sulla disciplina tutta (intendendosi che le applicazioni di tale disciplina a specifici domini linguistici dovrebbero comunque risultare coperte da altre sezioni di questo volume), e dall’altro i corpora di lingua italiana effettivamente prodotti. Non ci prefiggiamo certo la completezza (comunque impossibile in questi spazi), ma piuttosto l’esemplarità, limitandoci a delineare i filoni e le opere che ci paiono storiograficamente centrali. I limiti (naturalmente applicati con la dovuta elasticità) saranno dettati dalla effettiva pertinenza dei prodotti ad una definizione stretta di corpus (che sarà introdotta e discussa nel § 2.2) e dalla loro reale e libera messa a disposizione pubblica (stante la centralità della questione legale discussa nel § 2.4), ad esclusione, quindi, di quanto sia eclusivamente proprietario o commerciale. Questa scelta implica necessariamente anche il ridimensionamento della sezione sul software, dove l’open source e la distribuzione libera costituiscono ancora una percentuale minoritaria, anche se non insignificante: cfr. § 4.

Linguistica dei corpora

BARBERA, Emanuele Ferdinando
2013-01-01

Abstract

La novità più cospicua di questo decennio è resa palese dall’esistenza medesima di questo capitolo: l’avvenuto sdoganamento della linguistica dei corpora (od all’inglese Corpus Linguistics) dalla più generale linguistica computazionale e dalle sue molteplici anime, che spaziano dal trattamento automatico delle lingue naturali (TAL o NLP, Natural Language Processing) all’intelligenza artificiale (IA), qui difatti oggetto di un differente capitolo. La maturazione di questa disciplina, posta ad un crocevia tra le tecnologie di TAL e le pratiche filologiche, lessicografiche e di storia della lingua (cfr. Barbera, 2011: 27), già ben nota e da tempo strutturata in àmbito linguistico anglofono, anche nella tradizione linguistica italiana è avvenuta non senza differenze teoriche significative (come si illustrerà nel § 2.1), radicate nelle diverse tradizioni. Se le applicazioni sono ormai svariate e vanno dal più tradizionale campo della lessicografia (cfr. qui il contributo di Carla Marello) a quelli della linguistica contrastiva od apprendologica, dalla morfologia, alla semantica ed alla linguistica testuale (un buon campionario è offerto dalla silloge di Barbera, Corino, Onesti, 2007), va però detto che i corpora di pubblico accesso non sono poi moltissimi (forse anche per le ragioni legali affrontate nel § 2.4). Nella presente rassegna privilegeremo, da un lato, le riflessioni teoriche e storiografiche sulla disciplina tutta (intendendosi che le applicazioni di tale disciplina a specifici domini linguistici dovrebbero comunque risultare coperte da altre sezioni di questo volume), e dall’altro i corpora di lingua italiana effettivamente prodotti. Non ci prefiggiamo certo la completezza (comunque impossibile in questi spazi), ma piuttosto l’esemplarità, limitandoci a delineare i filoni e le opere che ci paiono storiograficamente centrali. I limiti (naturalmente applicati con la dovuta elasticità) saranno dettati dalla effettiva pertinenza dei prodotti ad una definizione stretta di corpus (che sarà introdotta e discussa nel § 2.2) e dalla loro reale e libera messa a disposizione pubblica (stante la centralità della questione legale discussa nel § 2.4), ad esclusione, quindi, di quanto sia eclusivamente proprietario o commerciale. Questa scelta implica necessariamente anche il ridimensionamento della sezione sul software, dove l’open source e la distribuzione libera costituiscono ancora una percentuale minoritaria, anche se non insignificante: cfr. § 4.
2013
La linguistica italiana all’alba del terzo millennio (1997-2010)
Bulzoni
Pubblicazioni della Società di linguistica italiana [SLI]
58/2
581
598
9788878709089
Manuel Barbera
File in questo prodotto:
File Dimensione Formato  
Barbera_LinguisticaCorporaItaliaTerzoMillennio_2013-SIS58.pdf

Accesso aperto

Descrizione: Rassegna
Tipo di file: POSTPRINT (VERSIONE FINALE DELL’AUTORE)
Dimensione 3.24 MB
Formato Adobe PDF
3.24 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2318/144496
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact