Nova Sonic: il nuovo modello AI vocale di Amazon

Amazon ha annunciato proprio in queste ore Nova Sonic, un nuovo modello generativo AI dedicato alla voce. Questo innovativo sistema è in grado di elaborare il linguaggio vocale in modo nativo e generare risposte dal suono naturale, posizionandosi come un concorrente diretto dei modelli vocali all’avanguardia di OpenAI e Google. Con Nova Sonic, Amazon punta a migliorare il modo in cui interagiamo con gli assistenti vocali, portando la tecnologia a un livello di fluidità e reattività mai visto prima.

Una tecnologia all’avanguardia

Nova Sonic si distingue per le sue prestazioni, che Amazon definisce “competitive” rispetto ai migliori modelli vocali sul mercato. Durante l’annuncio, l’azienda ha evidenziato i risultati ottenuti su benchmark che misurano velocità, riconoscimento vocale e qualità conversazionale. Il modello è stato progettato per superare i limiti dei sistemi tradizionali, come quelli che alimentano le prime versioni di Alexa, spesso percepiti come rigidi e innaturali rispetto alle più recenti tecnologie vocali, come la Voice Mode di ChatGPT. Grazie a recenti progressi tecnologici, Nova Sonic promette un’interazione più spontanea e simile a quella umana.

Disponibile attraverso Bedrock, la piattaforma di Amazon per sviluppatori dedicata alla creazione di applicazioni AI aziendali, Nova Sonic si integra tramite una nuova API di streaming bidirezionale. Questo permette una comunicazione in tempo reale, rendendo il modello ideale per applicazioni che richiedono risposte immediate e conversazioni fluide.

Prestazioni e costi: un equilibrio vincente

Amazon ha definito Nova Sonic “il modello vocale AI più conveniente” sul mercato, con un costo stimato inferiore dell’80% rispetto a GPT-4o di OpenAI. Secondo Rohit Prasad, SVP e Head Scientist di AGI (Artificial General Intelligence) di Amazon, il modello si basa sull’esperienza dell’azienda nei “sistemi di orchestrazione su larga scala”, la stessa infrastruttura tecnica che sostiene Alexa. Una delle sue peculiarità è la capacità di instradare le richieste degli utenti verso diverse API in modo intelligente, decidendo autonomamente quando accedere a informazioni in tempo reale dal web, consultare una fonte proprietaria o eseguire un’azione in un’app esterna.

Dal punto di vista tecnico, Nova Sonic eccelle nel riconoscimento vocale, anche in contesti difficili. Su Multilingual LibriSpeech, un benchmark che valuta il riconoscimento vocale in più lingue (inglese, francese, italiano, tedesco e spagnolo), ha raggiunto un tasso di errore delle parole (WER) medio del 4,2%, un risultato impressionante che significa solo 4 parole errate ogni 100 trascritte. Inoltre, su Augmented Multi Party Interaction, un test che misura l’accuratezza in conversazioni rumorose con più partecipanti, Nova Sonic ha superato il modello GPT-4o-transcribe di OpenAI con un miglioramento del 46,7% nel WER. La velocità è un altro punto di forza, con una latenza percepita media di appena 1,09 secondi.

Un tassello verso l’AGI e l’evoluzione di Alexa+

Componenti di Nova Sonic sono già integrati in Alexa+, la versione potenziata dell’assistente vocale di Amazon, segno che il modello non è solo un esperimento, ma una tecnologia pronta a influenzare i prodotti di consumo. Prasad ha spiegato che Nova Sonic fa parte della strategia più ampia di Amazon per costruire un’intelligenza artificiale generale (AGI), definita come “sistemi AI capaci di fare tutto ciò che un umano può fare su un computer”. L’azienda sta lavorando anche su modelli multimodali che integreranno voce, immagini, video e altri dati sensoriali, con l’obiettivo di portare l’AI nel mondo fisico in modo ancora più concreto.

Prospettive future

Amazon non intende fermarsi qui. Prasad ha anticipato che l’azienda rilascerà ulteriori modelli AI nei prossimi mesi, ampliando le capacità di Nova Sonic e rendendo disponibili agli sviluppatori strumenti sempre più versatili. L’obiettivo è chiaro: offrire una piattaforma che non solo competi con i giganti del settore, ma che diventi il punto di riferimento per chi vuole costruire applicazioni vocali avanzate a costi contenuti.