Blog

Google acquisisce Phonetic Arts


Google ha acquistato Phonetic Arts società impegnata nella sintesi vocale. Il colosso di Montain View già forte nel riconoscimento vocale, si potenzia ancora di più.
Con un post sul blog ufficiale, Google ha annunciato l'acquisizione di Phonetic Arts.

Simpaticamente l'autore inizia l'annuncio facendo un riferimento a Star Trek. Per i fan della nota serie televisiva è noto che i personaggi comandano i computer semplicemente con la voce. Google vuole arrivare a fare la stessa cosa.

Non che sia una cosa semplice. Anzi al contrario. Lavorare con la voce e il parlato è complicatissimo. E lo so bene per esperienza diretta, visto che la mia tesi di laurea è stata sul riconoscimento del parlato. La grossa difficoltà nel riconoscere il parlato, è che l'onda sonora cambia sempre. Ogni volta che noi diciamo la parola "ciao", in effetti lo diciamo ogni volta in modo leggermente diverso. Ed il modo di pronunciare una parola può cambiare con l'età, con la salute, anche dall'ora del giorno in cui la pronunciamo. La difficoltà aumenta enormemente nel momento in cui pronunciamo più di una parola. Questo perchè in effetti le singole parole nel parlato effettivamente non vengono separate dal silenzio, ma vengono pronunciate una dietro l'altra. E questo fa si che il modo in cui si pronuncia ciao, cambia a seconda della parola che viene attaccata dopo.

E dato che non siamo contenti, ci sono ulteriori difficoltà. Quando parliamo non ci esprimiamo mai in italiano perfetto, da Accademia della Crusca, ed inoltre ci possono essere le inflessioni dialettali. E quindi il nostro ciao, in ogni parte d'Italia viene pronunciato in maniera diversa.

Inoltre il modo con cui si usano i fonemi (i componenti base del parlato) cambia a seconda della lingua in cui ci esprimiamo. Ad esempio in cinese lo stesso fonema cambia significato a seconda della tonalità in cui viene pronunciato. Per questo si dice che i cinesi parlino cantando.

Google già da anni è molto attiva, nella ricerca del parlato, avendo già a disposizione, ad esempio, strumenti per comandare vocalmente gli smartphone come Voice Search, Voice Input e Voice Actions. Inoltre già da diversi mesi su YouTube su diversi video è presente una forma di sottotitolazione automatica del parlato dei video. Una cosa a mio avviso stupefacente. Permette di allargare di molto la platea di un video, permettendomi ad esempio di fruire un video in cinese.

Con l'acquisizione di Phonetic Arts, Google acquisisce know-how nel campo delle sintesi vocale, campo di interesse della società acquisita. Tramite le sintesi vocale è possibile permettere ad un computer di parlare. La difficoltà della sintesi vocale è generare dal computer un parlato che sia il più naturale possibile. Le difficoltà sono le stesse del riconoscimento. I sistemi più avanzati attualmente si basano su database vocali realizzati da speakers professionisti. In pratica le loro frasi vengono decomposte ed i singoli fonemi vengoni poi ricombinati nelle frasi. Per avere un parlato sufficientemente naturale, occorre avere un grosso database di frasi per poter gestire tutti i modi diversi in cui viene usato un fonema. Phonetic Arts ha una tecnologia che permette di riprodurre un linguaggio naturale basandosi su poche registrazioni.

Google sta investendo tantissimo in questo campo, mi aspetto nei prossimi anni, innovazioni notevoli, nell'uso del parlato nei computer, ed anche nella comprensione dei concessi espressi da parte di un computer.

Google non svela su quali progetti utilizzerà queste tecnologie. Però ci comunica una cosa molto incoraggiante. "Faremo un passo in avanti verso il futuro di Star Trek". :-)


Scotty alle prese con un computer Apple ai giorni nostri (Star Trek - Rotta verso la Terra)



Post correlati:

Copyrights © 2011-2024 Tutti i diritti riservati - by Ideativi Srl