venerdì 21 ottobre 2016

Il riconoscimento vocale di Microsoft diventa abile quanto gli esseri umani

La Stampa
lorenzo longhitano

L’algoritmo sviluppato dai ricercatori della casa di Redmond è estremamente efficiente; sarà utilizzato negli assistenti virtuali di smartphone e computer, ma non solo



Un computer o uno smartphone in grado di ascoltare come un essere umano: è il traguardo appena raggiunto da Microsoft e dai suoi ricercatori e annunciato sul blog della società. Il gruppo di studiosi interno alla casa di Redmond che si occupa di ricerca e intelligenza artificiale è riuscito ad affinare la propria tecnologia di riconoscimento vocale tanto da poterla mettere a confronto con le abilità di avversari umani.

I risultati della ricerca sono ricchi di implicazioni concrete: basti pensare ad assistenti vocali come Cortana e Siri, che sugli smartphone stanno diventando sempre più importanti ma che al momento sono tutt’altro che perfetti. Per questi sistemi ciò che definiamo linguaggio non è altro che un insieme di onde sonore; sta agli algoritmi che li animano il compito di interpretare e tradurre questi suoni in parole legate tra loro da una sintassi.

Per questo motivo Microsoft definisce storico l’obbiettivo conseguito. Il suo sistema di riconoscimento vocale ha dimostrato di saper trascrivere il testo dato in pasto ai computer con un tasso di errore del 5,9 percento, ovvero il più basso mai ottenuto da un’intelligenza artificiale e soprattutto comparabile con quello fatto registrare dal gruppo di controllo composto da esseri umani. È la prima volta che un algoritmo dimostra di saper ascoltare con la stessa accuratezza di un essere umano, ma la perfezione, precisano da Microsoft, è ancora lontana: proprio come una persona, gli algoritmi appena messi a punto possono ancora confondersi in diverse occasioni, ad esempio se il rumore di fondo interferisce con quello dell’interlocutore umano.

I prossimi passi dei ricercatori, oltre a perfezionare ulteriormente questa abilità di base, sono due: riuscire a distinguere eventuali partecipanti aggiuntivi in una conversazione e soprattutto passare dal riconoscimento alla comprensione. Non più insomma captare soltanto i comandi e le loro variazioni, ma capire realmente il significato di quanto viene detto per agire di conseguenza.