Nello scenario odierno, i dati hanno acquisito una posizione centrale in diversi ambiti tecnologici e non. La capacità di riuscire a gestire grandi quantità di dati, analizzarli statisticamente per avere conoscenza sulla distribuzione delle loro caratteristiche ed estrarre informazioni utili ai fini del miglioramento e semplificazione dei processi di business (di gestione e produttivi), permetterebbe molti vantaggi nella risoluzione dei problemi e nello snellimento della burocrazia, e rappresenterebbe un motivo di vantaggio economico e tecnologico. L’Agenda Digitale è uno dei pilastri della Strategia “Europa 2020”, che indica gli obiettivi di crescita dell’UE fino al 2020 (Agenda Digitale). A seguito della pandemia di COVID-19, con l’istituzione del Next Generation EU, la Commissione europea ha stanziato ulteriori finanziamenti puntando maggiormente sulla rivoluzione digitale indicata tra le sei priorità della Commissione europea per il 2019-2024. Ha lo scopo di fare leva sul potenziale delle tecnologie di informazione e comunicazione (ICT) per favorire l’innovazione, il progresso e la crescita economica dei paesi dell’Unione Europea. L’obiettivo principale è lo sviluppo del mercato unico digitale, ba- sato su tre aspetti: 1. Migliorare l’accesso a prodotti e servizi on line attraverso la rimozione delle barriere all’e-commerce; 2. Far crescere le reti di telecomunicazione e i servizi digitali; 3. Favorire la crescita sostenibile dell’economia digitale europea. L’agenda Digitale fa leva sulle tecnologie digitali per la trasformazione dei processi informativi, produttivi e di consumo delle informazioni nella quale ogni Paese membro dell’UE si impegna all’interno del proprio ambito nazionale. La digitalizzazione, innovazione e sicurezza dei sistemi informativi della Pubblica Amministrazione (PA) sono una delle componenti di questa missione. In parte vi sono coinvolti anche il personale dipendente e la cittadinanza, che usufruisce dei servizi offerti, chiamati a partecipare a questo processo di innovazione, ad aumentare la propria capacità competitiva e cultura digitale. Digitalizzare le Pubbliche Amministrazioni significa anche uniformare i loro flussi informativi in modo da rendere interoperabili i loro sistemi informativi. Ciò permetterebbe di avere una banca dati generale, unica, condivisa nelle informazioni che si possono e si devono rendere comuni e pubbliche. Grazie alla questa condivisione si otterrebbero proces- si gestionali più efficienti (perché meglio informati), verificabili e trasparenti. Sui dati condivisi sarebbe possibile effettuare moltissime analisi che permetterebbero di accrescere la conoscenza sulle procedure e di conseguenza le renderebbero più efficienti e meno costose: sugli appalti di gara, sulle procedure svolte dalle amministrazioni, con un beneficio di razionalizzazione e contenimento della spesa pubblica. I dati sono una ricchezza e sono stati denominati il petrolio della nostra era (si veda Berners-Lee e Shadbolt, 2011). Sui dati è basata la realizzazione di procedure di elaborazione automatizzata, la simulazione di scenari e fenomeni di interesse, il calcolo di indicatori di qualità e di performance da ottimizzare, e la previsione sugli andamenti futuri di variabili da monitorare. Molte di queste procedure sono basate sui principi dell’Apprendimento Automatico (ML), una branca dell’Intelligenza Artificiale (IA) che permette di automatizzare i processi e di stimare l’evoluzione futura. Attualmente non sono molti i dati accessibili in maniera aperta (open) e questo penalizza fortemente la qualità dei modelli predittivi, ossia i modelli che fanno previsioni partendo dai dati accumulati. In questo capitolo vogliamo far vedere come sarebbe possibile (e tutto sommato semplice e alla portata di molti) estrarre conoscenza utile dai dati che riguardano le Pubbliche Amministrazioni. Ciò sarebbe possibile se i dati gestionali e i flussi informativi fossero resi disponibili in formato aperto, in modo che si possano sviluppare metodi e software per la loro elaborazione e successivamente poterli rilasciare a disposizione anche di altre amministrazioni per il loro riutilizzo sui dati di loro pertinenza. Ciò permetterebbe di ottenere un “effetto leva”, ossia di poter agire secondo una economia di scala e riusare la conoscenza estratta o le tecniche utilizzate anche in altri ambiti. Una possibile ulteriore utilizzazione delle soluzioni software già sviluppate sarebbe ad esempio impiegarle come strumento per fornire suggerimento e confronto dei livelli di costo o di introito di beni o servizi nello stesso settore economico ma in zone geografiche diverse, o di confronto dello stesso bene o servizio impiegato in settori diversi. In questo lavoro vogliamo applicare quindi tecniche di Apprendimento Automatico sui dati (open) che riguardano i flussi dei pagamenti delle Pubbliche Amministrazioni. Le entrate e le uscite delle PA, oggi sono pubblicate in maniera aperta tramite il Sistema SIOPE (Sistema Informativo sulle Operazioni degli Enti Pubblici) che registra i pagamenti in maniera digitale. SIOPE è nato dalla collaborazione tra la Ragioneria Generale dello Stato, la Banca d’Italia e l’ISTAT, in attuazione dall’articolo 28 della legge n. 289/2002, disciplinato dall’articolo 14 della legge n. 196 del 2009. Il sistema ha permesso di migliorare la rilevazione dei flussi di cassa della PA perché registra con tempestività una grande quantità di informazioni disponibili che permettono di tracciare l’andamento dei conti pubblici. Un aspetto chiave di SIOPE è stato la capacità di superare attraverso una codifica uniforme per tipologia di enti, le differenze tra i sistemi contabili delle singole amministrazioni pubbliche, senza incidere sulla struttura dei loro bilanci. Al momento SIOPE costituisce la principale fonte informativa per la predisposizione delle relazioni trimestrali sul conto consolidato di cassa. SIOPE rappresenta, pertanto, uno strumento fondamentale per il monitoraggio dei conti pubblici al fine della verifica delle regole previste dall’ordinamento comunitario (procedura su disavanzi eccessivi e Patto di stabilità e crescita). Gradualmente, il SIOPE è destinato ad essere esteso a tutte le Amministrazioni Pubbliche. Quando parliamo di stime e predizioni, intendiamo algoritmi di Apprendimento Automatico che fanno uso dell’esperienza per migliorare la propria conoscenza di un fenomeno (o una variabile che interessa stimare) e le performance di stima (correttezza e precisione). L’esperienza è data dagli esempi che l’algoritmo di apprendimento prende in ingresso (input) per addestrare un model- lo. Il modello è costituito da un meccanismo di mappatura che è in grado di associare la variabile da predire ad altre variabili di input che descrivono gli esempi. L’applicazione del modello su dati non inclusi in partenza nell’insieme di addestramento permette di fare stime e previsioni più corrette della variabile di output di quanto si potrebbe fare senza modello, partendo solo dalle variabili di input. Ciò fa riferimento all’incremento della conoscenza ottenuto in seguito all’applicazione del modello a nuovi dati o esempi. Migliore è la qualità dei dati (rappresentativi della situazione di interesse) migliori saranno le performance e di conseguenza più alta sarà l’accuratezza della predizione. I modelli predittivi comprendono quindi tutte quelle tecniche che cercano di “interpretare” i dati, scovando le regolarità nei valori delle variabili e gli andamenti (pattern). Uno dei molti task predittivi dell’Apprendimento Automatico, di cui vedremo un caso di studio, riguarda l’analisi delle serie storiche. Le serie storiche danno informazioni circa l’evoluzione di determinate variabili nel tempo. Ad esempio, informazioni su come varia il valore di una variabile meteorologica (come temperatura, umidità, irraggiamento, ecc) con il passare delle ore o il valore dei titoli azionari quotati in borsa nel corso del tempo. Questo tipo di informazione molto spesso viene utilizzata per apprende- re dallo storico l’andamento dei dati così da predirli nel futuro. Solitamente i modelli utilizzati per apprendere le serie temporali sono i modelli regressivi con tutte le loro varianti. Mentre i modelli standard di Machine Learning considerano i valori delle variabili di interesse negli istanti temporali passati alla stessa stregua rispetto a quelli degli istanti successivi, i modelli che si basano sulle serie temporali (in cui le osservazioni variano nel tempo) aggiungono un’esplicita dipendenza dall’ordine tra le osservazioni: ossia la dimensione temporale. Nello studio che vedremo, i modelli sono stati utilizzati per apprendere e predire le entrate e le uscite delle università pubbliche, classificate come grandi e mega (per quantità di studenti) nel territorio italiano. Al fine di ottenere il dataset, sono stati scaricati tramite il portale SIOPE le serie storiche delle università contenenti gli importi di cassa (in entrata e in uscita) mensili dal 2008 ad oggi. I dati scaricati sono così organizzati: – codice identificativo dell’ente – codice del capitolo di spesa – mese – anno – ammontare del flusso di cassa Il codice del capitolo di spesa non è un dato utile e interpretabile perché non contiene una descrizione del tipo di spesa e quindi non verrà utilizzato. Invece, come operazione di consolidamento dei flussi di cassa mensili, tutte le uscite (e le entrate) dello stesso ente ma per capitoli di spesa diversi sono state aggregate tramite l’operazione di somma per dare luogo ad un unico importo mensile di uscita (o entrata).

Dati e Intelligenza Artificiale Per le Pubbliche Amministrazioni

Rosa Meo
;
Paolo Pasteris
2022-01-01

Abstract

Nello scenario odierno, i dati hanno acquisito una posizione centrale in diversi ambiti tecnologici e non. La capacità di riuscire a gestire grandi quantità di dati, analizzarli statisticamente per avere conoscenza sulla distribuzione delle loro caratteristiche ed estrarre informazioni utili ai fini del miglioramento e semplificazione dei processi di business (di gestione e produttivi), permetterebbe molti vantaggi nella risoluzione dei problemi e nello snellimento della burocrazia, e rappresenterebbe un motivo di vantaggio economico e tecnologico. L’Agenda Digitale è uno dei pilastri della Strategia “Europa 2020”, che indica gli obiettivi di crescita dell’UE fino al 2020 (Agenda Digitale). A seguito della pandemia di COVID-19, con l’istituzione del Next Generation EU, la Commissione europea ha stanziato ulteriori finanziamenti puntando maggiormente sulla rivoluzione digitale indicata tra le sei priorità della Commissione europea per il 2019-2024. Ha lo scopo di fare leva sul potenziale delle tecnologie di informazione e comunicazione (ICT) per favorire l’innovazione, il progresso e la crescita economica dei paesi dell’Unione Europea. L’obiettivo principale è lo sviluppo del mercato unico digitale, ba- sato su tre aspetti: 1. Migliorare l’accesso a prodotti e servizi on line attraverso la rimozione delle barriere all’e-commerce; 2. Far crescere le reti di telecomunicazione e i servizi digitali; 3. Favorire la crescita sostenibile dell’economia digitale europea. L’agenda Digitale fa leva sulle tecnologie digitali per la trasformazione dei processi informativi, produttivi e di consumo delle informazioni nella quale ogni Paese membro dell’UE si impegna all’interno del proprio ambito nazionale. La digitalizzazione, innovazione e sicurezza dei sistemi informativi della Pubblica Amministrazione (PA) sono una delle componenti di questa missione. In parte vi sono coinvolti anche il personale dipendente e la cittadinanza, che usufruisce dei servizi offerti, chiamati a partecipare a questo processo di innovazione, ad aumentare la propria capacità competitiva e cultura digitale. Digitalizzare le Pubbliche Amministrazioni significa anche uniformare i loro flussi informativi in modo da rendere interoperabili i loro sistemi informativi. Ciò permetterebbe di avere una banca dati generale, unica, condivisa nelle informazioni che si possono e si devono rendere comuni e pubbliche. Grazie alla questa condivisione si otterrebbero proces- si gestionali più efficienti (perché meglio informati), verificabili e trasparenti. Sui dati condivisi sarebbe possibile effettuare moltissime analisi che permetterebbero di accrescere la conoscenza sulle procedure e di conseguenza le renderebbero più efficienti e meno costose: sugli appalti di gara, sulle procedure svolte dalle amministrazioni, con un beneficio di razionalizzazione e contenimento della spesa pubblica. I dati sono una ricchezza e sono stati denominati il petrolio della nostra era (si veda Berners-Lee e Shadbolt, 2011). Sui dati è basata la realizzazione di procedure di elaborazione automatizzata, la simulazione di scenari e fenomeni di interesse, il calcolo di indicatori di qualità e di performance da ottimizzare, e la previsione sugli andamenti futuri di variabili da monitorare. Molte di queste procedure sono basate sui principi dell’Apprendimento Automatico (ML), una branca dell’Intelligenza Artificiale (IA) che permette di automatizzare i processi e di stimare l’evoluzione futura. Attualmente non sono molti i dati accessibili in maniera aperta (open) e questo penalizza fortemente la qualità dei modelli predittivi, ossia i modelli che fanno previsioni partendo dai dati accumulati. In questo capitolo vogliamo far vedere come sarebbe possibile (e tutto sommato semplice e alla portata di molti) estrarre conoscenza utile dai dati che riguardano le Pubbliche Amministrazioni. Ciò sarebbe possibile se i dati gestionali e i flussi informativi fossero resi disponibili in formato aperto, in modo che si possano sviluppare metodi e software per la loro elaborazione e successivamente poterli rilasciare a disposizione anche di altre amministrazioni per il loro riutilizzo sui dati di loro pertinenza. Ciò permetterebbe di ottenere un “effetto leva”, ossia di poter agire secondo una economia di scala e riusare la conoscenza estratta o le tecniche utilizzate anche in altri ambiti. Una possibile ulteriore utilizzazione delle soluzioni software già sviluppate sarebbe ad esempio impiegarle come strumento per fornire suggerimento e confronto dei livelli di costo o di introito di beni o servizi nello stesso settore economico ma in zone geografiche diverse, o di confronto dello stesso bene o servizio impiegato in settori diversi. In questo lavoro vogliamo applicare quindi tecniche di Apprendimento Automatico sui dati (open) che riguardano i flussi dei pagamenti delle Pubbliche Amministrazioni. Le entrate e le uscite delle PA, oggi sono pubblicate in maniera aperta tramite il Sistema SIOPE (Sistema Informativo sulle Operazioni degli Enti Pubblici) che registra i pagamenti in maniera digitale. SIOPE è nato dalla collaborazione tra la Ragioneria Generale dello Stato, la Banca d’Italia e l’ISTAT, in attuazione dall’articolo 28 della legge n. 289/2002, disciplinato dall’articolo 14 della legge n. 196 del 2009. Il sistema ha permesso di migliorare la rilevazione dei flussi di cassa della PA perché registra con tempestività una grande quantità di informazioni disponibili che permettono di tracciare l’andamento dei conti pubblici. Un aspetto chiave di SIOPE è stato la capacità di superare attraverso una codifica uniforme per tipologia di enti, le differenze tra i sistemi contabili delle singole amministrazioni pubbliche, senza incidere sulla struttura dei loro bilanci. Al momento SIOPE costituisce la principale fonte informativa per la predisposizione delle relazioni trimestrali sul conto consolidato di cassa. SIOPE rappresenta, pertanto, uno strumento fondamentale per il monitoraggio dei conti pubblici al fine della verifica delle regole previste dall’ordinamento comunitario (procedura su disavanzi eccessivi e Patto di stabilità e crescita). Gradualmente, il SIOPE è destinato ad essere esteso a tutte le Amministrazioni Pubbliche. Quando parliamo di stime e predizioni, intendiamo algoritmi di Apprendimento Automatico che fanno uso dell’esperienza per migliorare la propria conoscenza di un fenomeno (o una variabile che interessa stimare) e le performance di stima (correttezza e precisione). L’esperienza è data dagli esempi che l’algoritmo di apprendimento prende in ingresso (input) per addestrare un model- lo. Il modello è costituito da un meccanismo di mappatura che è in grado di associare la variabile da predire ad altre variabili di input che descrivono gli esempi. L’applicazione del modello su dati non inclusi in partenza nell’insieme di addestramento permette di fare stime e previsioni più corrette della variabile di output di quanto si potrebbe fare senza modello, partendo solo dalle variabili di input. Ciò fa riferimento all’incremento della conoscenza ottenuto in seguito all’applicazione del modello a nuovi dati o esempi. Migliore è la qualità dei dati (rappresentativi della situazione di interesse) migliori saranno le performance e di conseguenza più alta sarà l’accuratezza della predizione. I modelli predittivi comprendono quindi tutte quelle tecniche che cercano di “interpretare” i dati, scovando le regolarità nei valori delle variabili e gli andamenti (pattern). Uno dei molti task predittivi dell’Apprendimento Automatico, di cui vedremo un caso di studio, riguarda l’analisi delle serie storiche. Le serie storiche danno informazioni circa l’evoluzione di determinate variabili nel tempo. Ad esempio, informazioni su come varia il valore di una variabile meteorologica (come temperatura, umidità, irraggiamento, ecc) con il passare delle ore o il valore dei titoli azionari quotati in borsa nel corso del tempo. Questo tipo di informazione molto spesso viene utilizzata per apprende- re dallo storico l’andamento dei dati così da predirli nel futuro. Solitamente i modelli utilizzati per apprendere le serie temporali sono i modelli regressivi con tutte le loro varianti. Mentre i modelli standard di Machine Learning considerano i valori delle variabili di interesse negli istanti temporali passati alla stessa stregua rispetto a quelli degli istanti successivi, i modelli che si basano sulle serie temporali (in cui le osservazioni variano nel tempo) aggiungono un’esplicita dipendenza dall’ordine tra le osservazioni: ossia la dimensione temporale. Nello studio che vedremo, i modelli sono stati utilizzati per apprendere e predire le entrate e le uscite delle università pubbliche, classificate come grandi e mega (per quantità di studenti) nel territorio italiano. Al fine di ottenere il dataset, sono stati scaricati tramite il portale SIOPE le serie storiche delle università contenenti gli importi di cassa (in entrata e in uscita) mensili dal 2008 ad oggi. I dati scaricati sono così organizzati: – codice identificativo dell’ente – codice del capitolo di spesa – mese – anno – ammontare del flusso di cassa Il codice del capitolo di spesa non è un dato utile e interpretabile perché non contiene una descrizione del tipo di spesa e quindi non verrà utilizzato. Invece, come operazione di consolidamento dei flussi di cassa mensili, tutte le uscite (e le entrate) dello stesso ente ma per capitoli di spesa diversi sono state aggregate tramite l’operazione di somma per dare luogo ad un unico importo mensile di uscita (o entrata).
2022
Dati e Intelligenza Artificiale per le Pubbliche Amministrazioni
MIMESIS Edizioni
TECNOLOGIE EMERGENTI E DIRITTO
2
99
122
9788857590349
Rosa Meo; Alessandro Marrazzo; Paolo Pasteris
File in questo prodotto:
File Dimensione Formato  
Alessandro Marrazzo, Rosa Meo, Paolo Pasteris DATI E INTELLIGENZA ARTIFICIALE PER LE PUBBLICHE AMMINISTRAZIONI.pdf

Accesso riservato

Tipo di file: PDF EDITORIALE
Dimensione 1.96 MB
Formato Adobe PDF
1.96 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/2318/1888545
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact