Il presente lavoro presenta "It-CMC", un tagset di parti del discorso (PoS) che punta a rappresentare un compromesso tra sostenibilità computazionale e precisione in termini di analisi linguistica. It-CMC nasce da un dataset di dati linguistici italiani provenienti dalla Comunicazione Mediata dal Computer (CMC) e le sezioni di questo lavoro portano avanti un paragone sistematico con l'attuale tagset del corpus "La Repubblica". In seguito a una prima fase di monitoraggio della performance d TreeTagger, il tagset è attualmente al centro di un flusso di lavoro che ha lo scopo di creare un file di parametri di RFTagger.
Towards It-CMC: A Fine-Grained POS Tagset for Italian Linguistic Analysis
RUSSO, CLAUDIO
2016-01-01
Abstract
Il presente lavoro presenta "It-CMC", un tagset di parti del discorso (PoS) che punta a rappresentare un compromesso tra sostenibilità computazionale e precisione in termini di analisi linguistica. It-CMC nasce da un dataset di dati linguistici italiani provenienti dalla Comunicazione Mediata dal Computer (CMC) e le sezioni di questo lavoro portano avanti un paragone sistematico con l'attuale tagset del corpus "La Repubblica". In seguito a una prima fase di monitoraggio della performance d TreeTagger, il tagset è attualmente al centro di un flusso di lavoro che ha lo scopo di creare un file di parametri di RFTagger.File in questo prodotto:
File | Dimensione | Formato | |
---|---|---|---|
TSD_It-CMC.pdf
Accesso riservato
Tipo di file:
PREPRINT (PRIMA BOZZA)
Dimensione
186.74 kB
Formato
Adobe PDF
|
186.74 kB | Adobe PDF | Visualizza/Apri Richiedi una copia |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.