"Aprirò il tettuccio apribile e ascolterò le vecchie canzoni di Jay Chou mentre sono diretto a Quyuan Fenghe." Se dici questo a una persona, capirà facilmente le tue tre intenzioni: una, andare a Quyuan Fenghe; due, aprire il lucernario; tre, ascolta le vecchie canzoni di Jay Chou. Ma se sostituiamo le persone con macchine, come le automobili, queste ultime saranno in grado di comprendere e fornire il relativo feedback operativo? Come tutti sappiamo, la voce è naturalmente uno dei mezzi più adatti per l'interazione in auto, perché è un sistema comodo e sicuro. È quasi diventato lo standard delle soluzioni per veicoli nel settore, sebbene vi siano grandi differenze nelle soluzioni vocali attualmente realizzate dalle varie aziende. Ad esempio, la comprensione semantica del multitasking, di cui si è parlato all'inizio, è ancora un'applicazione tecnologica relativamente nuova nel settore. Sono ancora poche le aziende che non l'hanno ancora implementato. La maggior parte dei produttori si concentra sul miglioramento della precisione del riconoscimento vocale e della comprensione del linguaggio naturale. Chen Hualiang, responsabile dell'intelligence dei dati di AliOS, ha rivelato che stanno attualmente aggiornando la tecnologia vocale, concentrandosi sul miglioramento dell'esperienza di comprensione semantica intelligente basata sulla scena (SSLU: Scene-based Spoken Language Understanding), che è un aggiornamento intelligente della comprensione del linguaggio basato sulla comprensione del linguaggio naturale e sulla comprensione del linguaggio basata sullo scenario, che include il miglioramento delle capacità di elaborazione delle attività multidominio. I sistemi di dialogo comuni sono generalmente composti da diversi moduli: riconoscimento automatico del parlato (ASR), comprensione del linguaggio naturale (NLU), gestione del dialogo (DM), generazione del linguaggio naturale (NLG) e conversione del testo in voce (TTS). È stato segnalato che AliOS ha ora implementato soluzioni innovative di generazione di dati di formazione per dialoghi self-play e crowdsourcing, combinando una comprensione completa di persone, auto e scenari, trasferendo conoscenze linguistiche, semantiche pregresse e conoscenze del knowledge graph nel sistema di dialogo, addestrando modelli di sistema di dialogo di apprendimento profondo end-to-end, migliorando la copertura degli scenari e la fluidità del dialogo e consentendo al sistema di comprendere meglio i comandi vocali in base agli scenari. Prendendo come esempio il comando menzionato all'inizio, AliOS riconoscerà innanzitutto accuratamente ogni parola della frase "Voglio aprire il tettuccio apribile e ascoltare le vecchie canzoni di Jay Chou mentre sono in viaggio per Quyuan Fenghe", quindi combinerà lo scenario di utilizzo attuale dell'utente per comprendere il significato della frase e chiamare i servizi correlati per eseguire operazioni complesse come la navigazione verso Quyuan Fenghe, l'apertura del tettuccio apribile e la riproduzione delle vecchie canzoni di Jay Chou. Chen Hualiang ha affermato: "Il linguaggio parlato è solitamente vago e incompleto nel significato. Non è sufficiente raggiungere la comprensione dell'espressione parlata basandosi esclusivamente su dati di corpus massivi. Crediamo che solo con più informazioni come persone, auto e scene possiamo raggiungere capacità di comprensione intelligente del linguaggio naturale basate sulla scena e fornire agli utenti una migliore esperienza vocale". Ha spiegato che attualmente AliOS si è concentrato sull'ottimizzazione e l'aggiornamento della tecnologia vocale in diversi scenari applicativi ad alta frequenza nei veicoli, come navigazione, musica, audiolibri e radio, per ottenere ricerche multi-condizione, navigazione multi-tasking, modifica delle preferenze durante la navigazione, query multi-slot, ecc. Per fare qualche esempio concreto, ad esempio "Quanto dista da qui il Parco Zhongshan?", AliOS può interpretarlo correttamente come se chiedesse la distanza dalla posizione attuale al Parco Zhongshan; "Elimina i waypoint precedenti", AliOS può eliminare con precisione gli ultimi waypoint; "Riproduci alcune canzoni adatte all'occasione", AliOS può riprodurre le canzoni più adatte in base alle informazioni meteo e orarie attuali. Inoltre, AliOS ha ora ottenuto la fusione multimodale di voce, visione, gesti e altri metodi interattivi dalla base del sistema, cercando di offrire agli utenti un'esperienza immersiva. Sarà ampiamente utilizzato in vari scenari, come la musica in auto, i notiziari, gli audiolibri, la navigazione in auto, ecc. Vincitore del Qingyun Plan di Toutiao e del Bai+ Plan di Baijiahao, del Baidu Digital Author of the Year 2019, del Baijiahao's Most Popular Author in the Technology Field, del Sogou Technology and Culture Author 2019 e del Baijiahao Quarterly Influential Creator 2021, ha vinto numerosi premi, tra cui il Sohu Best Industry Media Person 2013, il China New Media Entrepreneurship Competition Beijing 2015, il Guangmang Experience Award 2015, il China New Media Entrepreneurship Competition Finals 2015 e il Baidu Dynamic Annual Powerful Celebrity 2018. |
<<: Le persone con queste 7 caratteristiche sono mentalmente forti
>>: Cosa è successo a coloro che facevano una passeggiata ogni giorno? Ci sono così tanti vantaggi
Cos'è HMD Global? HMD Global (in breve HMD) è ...
Una recensione completa e una raccomandazione di ...
Corazzata Spaziale Chocovader - Corazzata Spazial...
La sera del 28, durante il concorso "Singer ...
Qual è il sito web della Corte Suprema del Regno U...
Esperto di revisione: Peng Guoqiu, vice primario ...
"Starry Sky": una storia di formazione ...
Qual è il sito web dell'Accademia delle Arti d...
Raccolta originale 199IT L'anno scorso, il 67...
Quattro pazienti con infarto miocardico acuto son...
La Festa di Metà Autunno si terrà il 17 settembre...
Successore della berlina di punta della Volkswage...
In questi due giorni si può dire che Thunder abbi...
Che cos'è Vault? Vault è un sito web di guide ...
Negli ultimi anni, il rapido sviluppo del settore...