Il ladino e l’intelligenza artificiale
Alessandro Vietti, ricercatore in linguistica presso la facoltà di Scienze della formazione di Bressanone, in cosa consiste la collaborazione con la University of Southern California che ha dato luogo al lavoro sul campo in val di Fassa, in provincia di Trento, nell’ambito del programma di ricerca da lei coordinato per salvare il ladino?
La collaborazione nasce dall’idea di sviluppare nuovi metodi per descrivere le lingue in via di estinzione. Dei metodi che si sfruttino gli enormi progressi compiuti nel campo delle tecnologie del linguaggio (pensiamo per esempio ai sistemi di riconoscimento della nostra voce installati ormai in tutti i telefoni cellulari).
Insieme a Khalil Iskarous, un collega americano docente della University of Southern California, abbiamo perciò pensato di avviare una collaborazione che unisse ricerca sul campo tradizionale e analisi automatica dei dati linguistici raccolti. Il progetto avviato coinvolge una ventina di studenti americani, iscritti a corsi universitari di diverse discipline sia umanistiche che informatiche, che, insieme al gruppo di ricercatori del laboratorio di fonetica ALPS (Alpine Laboratory of Phonetic Sciences) della facoltà di Scienze della Formazione, stanno effettuando la ricerca sul campo, ovvero raccogliendo dati linguistici.
Qual è la valenza in termini scientifici e di ricerca del progetto, o meglio quali sono gli obiettivi di ricerca attesi che hanno a che fare con la lingua ladina?
Questo progetto ha come obiettivo generale quello di sperimentare gli strumenti del machine learning nell’ambito della documentazione linguistica. Il programma prevede dapprima la raccolta di dati linguistici sul campo in val di Fassa attraverso la registrazione di interviste e conversazioni spontanee. Questa fase è svolta anche grazie alla preziosa collaborazione con l’Istituto culturale ladino “Majon di Fascegn” di Vigo di Fassa. Dopo aver raccolto i dati, si passerà alla loro analisi in modo automatico mediante l’utilizzo di strumenti informatici come il deep neural network.
In che modo le nuove tecnologie, con gli strumenti del machine learning (linguistica computazionale, speech recognition e natural language processing) possono aiutare i ricercatori?
Secondo l’Unesco, attualmente circa la metà delle lingue esistenti al mondo sono a rischio di scomparsa e uno dei problemi della documentazione linguistica consiste proprio nel non riuscire a descriverle in tempi abbastanza rapidi, cioè prima che scompaiano. I notevoli progressi nel campo della tecnologia informatica potrebbero fornire la soluzione a questo problema. Infatti, i successi nell’intelligenza artificiale e nel machine learning hanno cambiato profondamente il lavoro sul riconoscimento vocale e l’elaborazione del linguaggio naturale e potrebbero pertanto rivelarsi strumenti importanti per il futuro della documentazione linguistica.
Si può spiegare meglio cosa si intende con il termine deep neural network e come favorisce la ricerca?
Le reti neurali nascono negli anni ‘50 come modelli matematici ispirati al funzionamento dei neuroni del cervello umano. Oggi sono dei sistemi computazionali molto potenti e flessibili che permettono a un computer di “imparare” a svolgere alcune attività estraendo regolarità e informazioni da notevoli quantità di dati. La novità del deep neural network rispetto ai primi modelli risiede principalmente nelle dimensioni e nella complessità delle reti. I modelli attuali sono costituiti anche da centinaia di migliaia di neuroni distribuiti su molti strati (per questo le reti sono deep, cioè profonde) e sono applicati in diverse attività dalla visione artificiale al riconoscimento e trascrizione della lingua parlata e alla traduzione automatica.
E perché proprio il ladino quale lingua di studio?
La scelta del ladino come oggetto di studio non è un caso. Il ladino infatti è una lingua ampiamente descritta, così come lo sono sia le lingue e dialetti parlati nel territorio circostante, sia le lingue romanze con cui il ladino è imparentato. Tutto quello che già sappiamo su questa lingua ci permetterà di valutare più facilmente i risultati del lavoro svolto sull’analisi automatica della lingua.
Qual è l'obiettivo finale dello studio (si parla di un database di materiali ladini)?
Sì, l’obiettivo intermedio dello studio è di produrre un database di materiali linguistici ladini che potrà essere utilizzato da ricercatori per scopi scientifici o dai parlanti nativi come documentazione della lingua parlata. L’obiettivo finale invece, dal punto di vista del linguista, sarà di individuare i punti di forza e i limiti degli approcci di analisi automatica e possibilmente svilupparne di più efficaci.