venerdì 10 febbraio 2017

Google come ''Csi'': basta una foto sgranata per creare l'identikit

repubblica.it
di SANDRO IANNACCONE

Gli esperti di Google Brain hanno messo a punto un software basato su reti neurali e apprendimento automatico che permette di trasformare immagini sgranate in foto dettagliate e definite, proprio come si vede nei telefilm polizieschi
Google come ''Csi'': basta una foto sgranata per creare l'identikit
(foto: Google Brain)

UN TEAM di poliziotti esamina i video registrati da una telecamera di sorveglianza. Fermo immagine sul sospetto che si muove. Poi, immancabilmente, qualcuno chiede di zoomare sul viso del fuggitivo. E, come per magia, l'immagine da sgranata diventa perfettamente definita, mostrando tutti i dettagli del volto del criminale. Se scene come queste - frequentissime nei polizieschi e nei film di fantascienza - erano finora per l'appunto solo opera di finzione, le cose potrebbero presto cambiare. Un'équipe di scienziati di Google Brain, la divisione di Big G che lavora agli algoritmi di intelligenza artificiale, ha infatti appena messo a punto un sistema in grado di "migliorare" immagini sgranatissime di visi umani, aumentandone la risoluzione fino a 16 volte e ricostruendone in profondità forma e struttura.

I dettagli dello studio dei ricercatori sono stati appena caricati su ArXiv, il server che ospita i lavori scientifici prima della loro pubblicazione ufficiale su riviste accreditate. L'algoritmo messo a punto dagli esperti di Google Brain funziona grazie alla combinazione di due diverse reti neurali artificiali - i modelli matematici spesso utilizzati dai software di intelligenza artificiale, che in qualche modo "replicano" il funzionamento delle reti di neuroni del cervello. Anzitutto il sistema "impara", analizzando centinaia di migliaia di foto, quali sono le caratteristiche più comuni delle immagini che ritraggono i volti umani. Dopodiché alla prima rete neurale, cosiddetta condizionante, viene data in input un'immagine a bassa risoluzione (8 pixel di larghezza e 8 pixel di altezza): a questo punto la rete cerca, tra tutte le immagini che ha esaminato, quali sono quelle più somiglianti all'input.

Successivamente interviene la seconda rete neurale, cosiddetta principale, che aumenta la risoluzione dell'immagine di input, portandola a 32x32 pixel, e ne aggiunge i pixel mancanti usando quelli inferiti dalle caratteristiche delle foto scelte dall'algoritmo condizionante. Per fare un esempio: se nei pixel in basso il sistema riconosce una macchia rossa, "immaginando" si possa trattare delle labbra del soggetto, le ricostruisce usando labbra presenti nelle foto simili. Per quanto possa suonare fantascientifico, il sistema funziona ragionevolmente bene: i volontari cui sono state sottoposte sia immagini reali che immagini ricreate dall'algoritmo, sono stati "ingannati" - ovvero hanno indicato come reale un'immagine che in realtà era stata generata dal software - il 10% delle volte.

Ripetendo l'esperimento con fotografie di camere da letto anziché di volti umani, la percentuale è salita al 28%. Una frazione che non è affatto bassa come potrebbe sembrare, specialmente tenendo conto del fatto che le immagini create con algoritmi "tradizionali" (per esempio il cosiddetto scaling bicubico, che determina il colore di un pixel in base a quello di quelli che lo circondano) non riescono mai a ingannare l'osservatore.

L'IA di Facebook. Quello del riconoscimento automatico e del miglioramento delle immagini è un settore che fa particolarmente gola ai big della tecnologia. E nessuno vuole rimanere indietro: Facebook, per esempio, ha appena annunciato, in risposta a Google, di aver perfezionato Lumos, una “piattaforma che usa l’apprendimento automatico per il riconoscimento di immagini e video”. A descriverne i dettagli, in un post pubblicato su Code, il blog dedicato a nuovi software e algoritmi targati Facebook, è stato Joaquin Quiñonero Candela, ricercatore della divisione dell’intelligenza artificiale di Menlo Park: sostanzialmente, Lumos “ingurgita” ogni giorno video e foto caricati dagli utenti sul social network, li analizza e ne estrae le informazioni più importanti, per esempio il tipo di oggetti ritratti o dove sono stati scattati.

E, cosa ancora più importante, l’apprendimento è continuo: Lumos, analizzando nuovo materiale ogni giorno, continua a imparare e affina sempre più le proprie performance. Al momento, il software è in grado non solo di identificare molti degli oggetti presenti nelle foto, ma addirittura riesce a riconoscere dodici diverse azioni compiute dai soggetti ritratti, tra cui, per esempio, una persona che cammina, va a cavallo, balla o suona uno strumento.

È bene sottolineare, comunque, che nel caso di Google Brain i dettagli dell'immagine ricostruita al computer non sono reali. Si tratta, come specificano gli autori del lavoro, di una sorta di "allucinazione" del software, che cerca di indovinare come meglio può i pixel mancanti. Certamente ancora troppo poco per essere portata nelle aule di tribunale. Ma probabilmente sufficiente a dare agli investigatori un buon punto di partenza.