Un altro enorme passo avanti! OpenAI o1 è qui. Come risolve problemi complessi?

Un altro enorme passo avanti! OpenAI o1 è qui. Come risolve problemi complessi?

Prodotto da: Science Popularization China

Autore: Wang Chen (candidato al dottorato presso l'Istituto di tecnologia informatica, Accademia cinese delle scienze)

Produttore: China Science Expo

Nota dell'editore: per presentare le ultime tendenze nella tecnologia intelligente, il progetto di tecnologia all'avanguardia di China Science Popularization ha lanciato una serie di articoli sull'"Intelligenza artificiale" per offrire uno sguardo ai progressi all'avanguardia dell'intelligenza artificiale e rispondere a varie preoccupazioni e curiosità. Esploriamo insieme e abbracciamo l'era intelligente.

Negli ultimi due anni, ChatGPT di OpenAI ha avuto un successo esplosivo in tutto il mondo. Proprio mentre tutti attendevano con ansia il rilascio di GPT-5, nelle prime ore del mattino del 13 settembre OpenAI ha rilasciato OpenAI o1, un nuovo modello di ragionamento dedicato alla risoluzione di problemi complessi.

(Fonte dell'immagine: sito web ufficiale di OpenAI)

Quanto è potente OpenAI o1 rispetto alle classifiche della concorrenza?

All'inizio di questo mese, il CEO di OpenAI Sam Altman ha pubblicato una foto di fragole che crescevano nel suo giardino. Successivamente, secondo fonti a conoscenza della questione, OpenAI rilascerà un nuovo modello di intelligenza artificiale, nome in codice Strawberry.

Il predecessore del modello Strawberry è Q*, il che implica che combina due noti metodi di intelligenza artificiale: Q-learning e ricerca A*. Si dice che le capacità eccessivamente potenti di Q* abbiano portato i ricercatori a temere che possa rappresentare una potenziale minaccia per gli esseri umani, il che è stato uno dei motivi principali dei precedenti tumulti interni a OpenAI.

Foto di fragole postata da Sam Altman

(Fonte dell'immagine: account X(twitter) di Sam Altman)

Il modello OpenAI o1 rilasciato da OpenAI è il modello Strawberry. Grazie ai suoi importanti progressi nei problemi di ragionamento complessi, OpenAI ha ripreso a contare da 1 e ha chiamato il nuovo modello OpenAI o1. Secondo le informazioni diffuse da OpenAI, OpenAI o1 può dedicare più tempo a riflettere prima di rispondere alle domande, proprio come gli esseri umani. Pertanto, il modello o1 è in grado di risolvere problemi più difficili nei campi della scienza, della programmazione e della matematica attraverso il ragionamento rispetto a prima.

Rispetto al precedente modello più recente di OpenAI, GPT-4o, OpenAI o1 ha ottenuto notevoli miglioramenti nelle competizioni di matematica, di programmazione e nei problemi scientifici dei benchmark di dottorato, dimostrando la sua solida capacità in compiti di ragionamento complessi. Si classifica nell'89° percentile nelle competizioni di programmazione (Codeforces), è tra i primi 500 negli Stati Uniti nell'American Mathematical Olympiad (AIME) e ha superato i dottori di ricerca umani nel rispondere a domande di riferimento (GPQA) in fisica, biologia e chimica.

Confronto tra OpenAI o1 e GPT-4o in matematica, programmazione e problemi scientifici

(Fonte dell'immagine: sito web ufficiale di OpenAI)

L’arma segreta di OpenAI o1: apprendimento rinforzato basato sul concatenamento dei pensieri

Il motivo per cui OpenAI o1 riesce a raggiungere capacità di ragionamento di gran lunga superiori a GPT-4o è che utilizza l'apprendimento per rinforzo basato sulla catena del pensiero. Proprio come un essere umano potrebbe riflettere a lungo prima di rispondere a una domanda difficile, anche OpenAI o1 utilizza catene di pensiero quando cerca di risolvere un problema. Grazie al concatenamento dei pensieri, il modello suddividerà il compito in passaggi più semplici e li risolverà uno alla volta, il che solitamente è più accurato rispetto alla richiesta al modello di fornire direttamente la risposta al problema.

In realtà, il concatenamento dei pensieri non è un concetto nuovo. Molto prima dell'uscita di GPT-3, i ricercatori avevano scoperto che il concatenamento dei pensieri può guidare grandi modelli linguistici verso la ragione.

Esempio di utilizzo del concatenamento dei pensieri in un modello linguistico di grandi dimensioni

(Fonte dell'immagine: Tradotto dal riferimento 2)

L'esempio nella figura sopra presenta due set di input e output di un modello linguistico di grandi dimensioni. Nell'input, al modello vengono prima fornite una domanda e una risposta sul conteggio del numero di palline da tennis, quindi viene posta al modello una domanda simile sul conteggio del numero di mele.

In basso a sinistra si trovano domande e risposte dirette, in cui il modello ha fornito risposte errate. In basso a destra c'è una domanda e una risposta che utilizzano la catena di pensieri. I ricercatori hanno integrato la domanda e la risposta sul numero di palline da tennis inserite nel modello, hanno mostrato al modello il processo di ragionamento per ottenere il numero di palline da tennis e poi hanno chiesto al modello di rispondere indicando il numero di mele.

Questa volta il modello ha calcolato correttamente il numero di mele attraverso il ragionamento. Questo metodo di guida del modello attraverso una serie di passaggi di ragionamento intermedi nella generazione dei problemi è chiamato concatenamento dei pensieri. Attraverso la catena di pensiero, il modello linguistico di grandi dimensioni può visualizzare in dettaglio e in modo intuitivo i passaggi del ragionamento durante la risoluzione dei problemi. Ciò non solo migliora l'accuratezza del modello linguistico più ampio nella risoluzione dei problemi di ragionamento, ma rende anche spiegabili le risposte del modello linguistico più ampio, che non è più una scatola nera completa.

Dopo l'uscita di GPT-3, le persone hanno scoperto ulteriormente l'importanza di questo prompt. Per modelli linguistici di grandi dimensioni con capacità più elevate, non è nemmeno necessario fornire esempi come quello sopra sul conteggio delle palline da tennis quando si pongono domande. Basta dire al modello "Pensiamo passo dopo passo" per migliorare la capacità del modello di gestire problemi di ragionamento complessi.

Tutti i tentativi sopra descritti aggiungono indicazioni quando si pongono domande al modello. Se le catene di pensiero sono così utili, è possibile consolidarle all'interno del modello durante la sua costruzione e formazione? Questo è ciò che ha tentato OpenAI o1.

Apprendimento per rinforzo di OpenAI o1 e nuova legge di scala

Quando si risponde alle domande, il modello GPT esegue essenzialmente una "catena di testo". Stima quale tipo di risposta è più appropriata in base all'input del modello, basandosi su una grande quantità di dati di probabilità statistica durante l'addestramento.

Per consentire al modello linguistico di grandi dimensioni di imparare a usare catene di pensiero anziché limitarsi a procedere in base alla probabilità, OpenAI o1 ha utilizzato un metodo di apprendimento automatico chiamato apprendimento per rinforzo.

L'apprendimento per rinforzo significa che il modello apprende tramite un metodo di "tentativi ed errori". Durante il processo di addestramento, al modello non viene comunicato qual è il risultato standard, ma viene comunicato quanto è buono o cattivo il risultato. Quando il risultato del modello è corretto, il modello tenderà ad adottare questo risultato nei risultati futuri; quando il risultato del modello è sbagliato, si tenderà a evitare questo risultato nei risultati futuri. Dopo molti cicli di tentativi ed errori, il modello apprenderà una serie di criteri di giudizio basati sulla propria esperienza.

L'apprendimento per rinforzo, un metodo di apprendimento che non fornisce risposte standard, è adatto per problemi decisionali in ambienti complessi, come il controllo dei robot, le transazioni finanziarie, le partite a scacchi e altri campi. In questi ambiti spesso non siamo in grado di dare una risposta corretta in senso standard, ma possiamo solo conoscere i risultati di un'azione. Ad esempio, se un robot cade, se una transazione finanziaria è redditizia o se una partita viene vinta.

Un famoso esempio di apprendimento per rinforzo è AlphaGo, l'intelligenza artificiale che gioca a Go sviluppata da Deepmind nel 2016. Nel campo del Go, il numero totale di situazioni possibili supera persino il numero totale di atomi nell'universo osservabile. Nemmeno i migliori giocatori di Go riescono a determinare la mossa migliore in ogni situazione. Poiché il Go è troppo complesso, è impossibile individuare il modo migliore per giocare attraverso un'enumerazione esaustiva. Prima dell'avvento di AlphaGo, si credeva che fosse impossibile per l'intelligenza artificiale sconfiggere gli umani a Go.

AlphaGo viene addestrato tramite apprendimento per rinforzo, giocando a scacchi contro se stesso e impara da ogni partita vinta e persa. Non ha bisogno che siano gli umani a dirgli qual è la mossa corretta, né ha bisogno di imparare eventuali record umani del passato nel gioco degli scacchi. Dopo solo pochi giorni di allenamento, ha raggiunto un livello che i giocatori di scacchi umani non possono nemmeno sognare.

Nel processo decisionale di AlphaGo, viene innanzitutto effettuata una valutazione approssimativa della situazione e si determina dove effettuare la mossa che ha maggiori probabilità di risultare vincente. Questa sensazione o intuizione viene solitamente chiamata dagli esseri umani senso degli scacchi. Dopo aver determinato approssimativamente in quale punto una mossa ha maggiori probabilità di essere vantaggiosa, AlphaGo calcola ulteriormente le possibilità successive di queste diverse mosse e sceglie la migliore.

Pertanto, sono due i fattori principali che influenzano la forza di AlphaGo: la capacità di valutare la situazione e la quantità di calcolo richiesta per calcolare le possibili mosse. Tra questi, il processo di apprendimento per rinforzo del modello può migliorare la capacità del modello di giudicare la situazione.

Auto-riproduzione di AlphaGo

(Fonte dell'immagine: Riferimento 1)

Durante l'addestramento di OpenAI o1, attraverso l'apprendimento per rinforzo, OpenAI o1 ha imparato ad affinare la propria catena di pensiero e a migliorare le strategie utilizzate. Ha imparato a scomporre i problemi difficili in passaggi più semplici e a riconoscere e correggere gli errori durante il processo di analisi. Questo processo migliora notevolmente le capacità di ragionamento del modello.

Dopo aver imparato a usare le catene di pensiero, l'input di OpenAI o1 non necessita più della guida umana per utilizzare le catene di pensiero. OpenAI consiglia invece di mantenere i prompt semplici e diretti quando si utilizza OpenAI o1 ed evitare prompt con catene di pensiero.

Nei test di OpenAI o1, i ricercatori hanno scoperto che aumentando il tempo di addestramento tramite apprendimento per rinforzo e aggiungendo più tempo di riflessione durante il ragionamento è possibile migliorare le prestazioni del modello, il che è coerente con i fattori che influenzano la potenza di AlphaGo menzionati sopra.

Legge di scala di OpenAI o1

(Fonte immagine: OpenAI)

Nel 2020, i ricercatori di OpenAI hanno scoperto la legge di scala per modelli linguistici di grandi dimensioni. Le prestazioni dei modelli linguistici di grandi dimensioni aumenteranno con l'aumento delle dimensioni del modello, delle dimensioni del set di addestramento e della quantità di calcoli eseguiti durante l'addestramento.

OpenAI o1 dimostra una nuova legge di scala. In termini di miglioramento delle prestazioni del modello, può anche aumentare il tempo di inferenza per far sì che il modello raggiunga prestazioni più elevate, il che offre nuove possibilità per l'ulteriore sviluppo di modelli linguistici di grandi dimensioni in futuro.

La serie OpenAI o1 comprende attualmente tre modelli: o1, o1-preview e o1-mini. I loro modelli sono di dimensioni diverse: o1 è il più grande e ha le capacità di ragionamento più potenti, mentre o1-mini è il più piccolo ma consuma meno quando viene utilizzato. I loro risultati nelle competizioni di matematica sono illustrati nella figura sottostante. o1-mini ha prestazioni addirittura migliori di o1-preview nelle competizioni di matematica, ma ha risultati peggiori in altri compiti che richiedono conoscenze non STEM (scienza, tecnologia, ingegneria, matematica). Allo stesso tempo, con l'aumentare del tempo di inferenza, miglioreranno le prestazioni dei tre modelli.

Prestazioni di diverse versioni dei modelli OpenAI o1 nelle competizioni matematiche

(Fonte immagine: OpenAI)

OpenAI o1 comporterà ulteriori problemi di sicurezza?

L'innovazione del modello o1 di OpenAI ha senza dubbio ulteriormente migliorato le capacità dei modelli linguistici di grandi dimensioni. OpenAI propose in passato cinque fasi per realizzare un'intelligenza artificiale generale (AGI). La prima fase consiste nel realizzare un'intelligenza artificiale in grado di comunicare con gli esseri umani, la seconda fase consiste nel realizzare un'intelligenza artificiale dotata di capacità di ragionamento. ChatGPT ha raggiunto gli obiettivi della prima fase e l'avvento di OpenAI o1 ci avvicina di un passo alla seconda fase.

Sebbene OpenAI o1 dimostri potenti capacità di ragionamento, proprio come i ricercatori si preoccupano di Q*, la gente non può fare a meno di chiedersi se OpenAI o1 non comporterà ulteriori problemi di sicurezza.

Il rapporto di OpenAI ha evidenziato che MindChain offre nuove opportunità per migliorare la sicurezza dei modelli. Durante il processo di formazione, i valori umani possono essere integrati nella catena di pensiero del modello, consentendogli di rifiutare di mettere in atto comportamenti dannosi. Allo stesso tempo, le catene di pensiero ci permettono di osservare in modo chiaro il pensiero del modello, aumentando così la sicurezza del modello stesso.

Il futuro potrebbe essere al di là dell'immaginazione

Attualmente sono disponibili per gli utenti la versione di anteprima e la versione mini di OpenAI o1; in seguito verranno aggiunte funzioni pratiche come la navigazione e il caricamento di file e immagini. La sua efficacia in scenari reali deve ancora essere ulteriormente sperimentata e testata. Nel complesso, gli importanti progressi compiuti da OpenAI o1 nella capacità di ragionamento potrebbero indicare che siamo un passo più vicini all'intelligenza artificiale generale. Dove andrà a parare l'intelligenza artificiale in futuro e potrà apportare maggiori benefici alla società umana? Continuiamo ad attenderlo con ansia.

Riferimenti:

1.Silver, D., Schrittwieser, J., Simonyan, K. et al. Padroneggiare il gioco del Go senza la conoscenza umana. Natura 550, 354–359 (2017). https://doi.org/10.1038/nature24270

2.https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

<<:  Chi è la Detroit cinese?

>>:  Notizie sulle auto elettriche: una nuova scelta con un budget di 80.000 yuan: Southeast DX3 contro Ruifeng S3

Consiglia articoli

Miranda Kerr ha perso peso dopo il parto bevendo succo verde ogni giorno

Miranda Kerr e Orlando Bloom, che un tempo erano ...

Il fascino e le recensioni di "Ponyu Town": un'esperienza anime da non perdere

Ponyu Town - La storia di un piccolo villaggio do...

E che dire di Myvitamins? Recensioni e informazioni sul sito Web di Myvitamins

Che cos'è Myvitamins? Myvitamins è un noto mar...

Qingbi Tang: La sinusite può influenzare l’altezza dei bambini?

Quando un bambino non cresce, la prima reazione d...

Buone notizie per i pazienti malnutriti: nutrizione enterale e parenterale

La malnutrizione è un problema sanitario globale,...

E che dire di Xtranormal? Recensione di Xtranormal e informazioni sul sito web

Che cosa è Xtranormal? Xtranormal è una società am...