Gli esperti di Oxylabs discutono se l'apprendimento automatico tramite rinforzo sia sopravvalutato?

Gli esperti di Oxylabs discutono se l'apprendimento automatico tramite rinforzo sia sopravvalutato?

Supponiamo che tu ti sieda a giocare a scacchi con un amico, ma che il tuo amico non sia una persona normale. Invece, è un programma per computer che non conosce le regole del gioco. Tuttavia, è certo che ha un obiettivo: vincere.

Poiché l'amico non conosce le regole, inizialmente sposterà i pezzi in modo casuale. Alcune di queste mosse non hanno alcun senso e ti sarà facile vincere. Ma supponiamo che ti piaccia così tanto giocare a scacchi con questo amico da decidere di non fare altro che giocare a scacchi per il resto della tua vita (o addirittura nell'aldilà, se ci credi).

Questo amico digitale alla fine vincerà perché imparerà gradualmente i metodi vincenti di cui ha bisogno per sconfiggerti. Questo scenario può sembrare inverosimile, ma dovrebbe fornire una comprensione di base del funzionamento dell'apprendimento per rinforzo (RL) come campo dell'apprendimento automatico (ML).

Quanto è intelligente l'apprendimento per rinforzo?

L'intelligenza artificiale ha molte caratteristiche, tra cui l'acquisizione di conoscenze, il desiderio di espandere l'intelligenza e il pensiero intuitivo. Tuttavia, quando il campione di scacchi Garry Kasparov perse contro un computer IBM chiamato Deep Blue, la nostra intelligenza umana fu ampiamente messa in discussione. Gli scenari apocalittici che descrivono un futuro in cui i robot governeranno l'umanità non solo hanno catturato l'attenzione del pubblico, ma hanno anche contagiato la coscienza comune.

Tuttavia, Deep Blue non era un avversario qualunque. Giocare a scacchi contro questo programma è come giocare contro un uomo di mille anni che ha trascorso tutta la sua vita giocando a scacchi ininterrottamente. Pertanto, Deep Blue è abile nel giocare a una specifica partita di scacchi, ma non comprende altre attività intellettuali, come suonare uno strumento musicale, scrivere libri, condurre esperimenti scientifici, crescere i figli e riparare automobili.

Oxylabs non ha assolutamente intenzione di sminuire i grandi risultati del capolavoro di Deep Blue. Ciò che stiamo dicendo è che quando si considera se i computer possano superare l'intelligenza umana, dobbiamo procedere con attenzione, partendo da una comprensione dettagliata del meccanismo RL.

Come funziona l'apprendimento per rinforzo

Come accennato in precedenza, RL è un sottoinsieme di ML che si concentra sul concetto di come gli agenti intelligenti dovrebbero comportarsi in un ambiente per massimizzare le ricompense cumulative.

In parole povere, gli agenti robotici RL vengono addestrati con un meccanismo di ricompensa-penalità in base al quale vengono premiati per le azioni corrette e puniti per quelle sbagliate. I robot RL non "pensano" alla migliore azione da intraprendere, semplicemente fanno tutte le mosse possibili che massimizzano le loro possibilità di successo.

Svantaggi dell'apprendimento per rinforzo

Lo svantaggio principale dell'apprendimento per rinforzo è che richiede molte risorse per raggiungere l'obiettivo. Il successo della RL in Go ne è un buon esempio. Il Go è un popolare gioco per due giocatori in cui l'obiettivo è occupare più territorio possibile sul tabellone utilizzando pezzi rotondi, evitando però di perderne.

AlphaGo Master è un programma per computer che batte i giocatori umani al gioco del Go. Il suo successo è indissolubilmente legato all'enorme investimento fatto, tra cui numerosi ingegneri, migliaia di anni di esperienza nel gioco degli scacchi, 256 GPU e 128.000 core di CPU, numeri impressionanti.

Ci vuole molto lavoro per imparare a vincere la partita. Ciò solleva la questione se sia razionale progettare un'intelligenza artificiale che non sia in grado di pensare in modo intuitivo. La ricerca sull'intelligenza artificiale non dovrebbe imitare l'intelligenza umana?

Un punto di vista a favore della RL è che non ci si dovrebbe aspettare che gli agenti di intelligenza artificiale si comportino come gli esseri umani, ma che la loro utilità nella risoluzione di problemi complessi merita un ulteriore sviluppo. D'altro canto, un argomento contro la RL è che la ricerca sull'intelligenza artificiale dovrebbe concentrarsi sul consentire alle macchine di fare cose che attualmente solo gli esseri umani e gli animali possono fare. Da questa prospettiva, il paragone tra intelligenza artificiale e intelligenza umana è appropriato.

Apprendimento tramite rinforzo quantistico

Esiste un campo emergente dell'apprendimento per rinforzo che sostiene di poter risolvere alcuni dei problemi sopra menzionati. Per accelerare l'elaborazione dei dati, sono state condotte ricerche sull'apprendimento quantistico tramite rinforzo (QRL).

La QRL dovrebbe principalmente accelerare l'apprendimento ottimizzando le fasi di esplorazione (individuazione di una strategia) e di sfruttamento (scelta della strategia migliore). Alcune delle attuali applicazioni e dei sostenitori dell'informatica quantistica includono il miglioramento delle ricerche nei database, la scomposizione di numeri grandi in numeri primi e così via.

Sebbene il QRL non rappresenti ancora una svolta, si prevede che risolverà alcune delle principali sfide dell'apprendimento per rinforzo convenzionale.

Il business case per RL

Come ho già detto, non ho assolutamente intenzione di sminuire l'importanza della ricerca e dello sviluppo nella vita reale. Infatti, Oxylabs ha lavorato allo sviluppo di modelli RL per ottimizzare l'allocazione delle risorse di web scraping.

Ecco alcuni casi di utilizzo reali per RL, estratti da un report di McKinsey che evidenzia gli attuali casi di utilizzo in vari settori:

• Ottimizzare la progettazione di chip e silicio, ottimizzare i processi di produzione e aumentare la resa nel settore dei semiconduttori.

• Aumentare le rese, ottimizzare la logistica per ridurre gli sprechi e i costi e migliorare la redditività agricola.

• Accelerare il time-to-market per nuovi sistemi nei settori aerospaziale e della difesa.

• Ottimizzare i processi di progettazione e aumentare la resa produttiva nel settore automobilistico.

• Aumentare i ricavi, migliorare l'esperienza del cliente e offrire ai clienti una personalizzazione avanzata nel settore dei servizi finanziari attraverso strategie di trading e determinazione dei prezzi in tempo reale.

• Ottimizzare la progettazione della miniera, gestire la produzione di energia e applicare la pianificazione logistica complessiva per ottimizzare le operazioni, ridurre i costi e aumentare la produzione mineraria.

• Aumentare la produzione attraverso il monitoraggio in tempo reale e la perforazione di precisione, ottimizzare i percorsi delle petroliere e supportare la manutenzione predittiva per prevenire guasti alle apparecchiature e tempi di fermo nel settore petrolifero e del gas.

• Accelerare lo sviluppo di nuovi farmaci, ottimizzare i processi di ricerca, automatizzare la produzione e ottimizzare i metodi biologici nell'industria farmaceutica.

• Ottimizzare le catene di fornitura, abilitare la modellazione avanzata dell'inventario e fornire una personalizzazione avanzata ai clienti al dettaglio.

• Ottimizzare e gestire le reti e applicare la personalizzazione del cliente nel settore delle telecomunicazioni.

• Ottimizzazione dei percorsi, pianificazione della rete, operazioni di magazzino nei trasporti e nella logistica.

• Utilizzare agenti di nuova generazione per estrarre dati dai siti web.

Ripensare l'apprendimento per rinforzo

L'apprendimento per rinforzo potrebbe non essere abbastanza potente, ma è tutt'altro che sopravvalutato. Inoltre, con l'aumento della ricerca e sviluppo in ambito RL, aumentano anche i potenziali casi d'uso in quasi tutti i settori economici.

L'adozione su larga scala dipende da molti fattori, tra cui la progettazione ottimale dell'algoritmo, la configurazione dell'ambiente di apprendimento e la disponibilità di potenza di calcolo.

Oxylabs si impegna a utilizzare l'intelligenza artificiale e l'apprendimento automatico per ottimizzare il web scraping, il processo di estrazione dei dati dai siti web per ottenere informazioni specialistiche.

Autore: Aleksandras Sulzenko, Product Manager presso Oxylabs.io

Vincitore del Qingyun Plan di Toutiao e del Bai+ Plan di Baijiahao, del Baidu Digital Author of the Year 2019, del Baijiahao's Most Popular Author in the Technology Field, del Sogou Technology and Culture Author 2019 e del Baijiahao Quarterly Influential Creator 2021, ha vinto numerosi premi, tra cui il Sohu Best Industry Media Person 2013, il China New Media Entrepreneurship Competition Beijing 2015, il Guangmang Experience Award 2015, il China New Media Entrepreneurship Competition Finals 2015 e il Baidu Dynamic Annual Powerful Celebrity 2018.

<<:  Porridge Laba: preferisci salato o dolce?

>>:  Esperienza di anestesia chirurgica in pazienti con amilasi gigante

Consiglia articoli

Joshiraku: trovare il perfetto equilibrio tra risate ed emozioni

"Joshiraku" - Un anime umoristico che d...

Uova, le mangi nel modo giusto?

Autore: Ye Linfang Il primo ospedale affiliato de...