Autore collaboratore: Xu Hanwen (studente di dottorato al secondo anno presso l'Università di Washington) Negli ultimi anni, lo sviluppo vigoroso della patologia digitale è diventato un elemento importante per accelerare le innovazioni nella medicina di precisione. L'imaging dell'intero vetrino, che converte i campioni di tessuto tumorale in immagini digitali ad alta risoluzione, è diventato di routine nella cura del cancro. Le immagini patologiche con un massimo di un miliardo di pixel contengono informazioni diverse sul microambiente tumorale, offrendo opportunità senza precedenti per la diagnosi della classificazione del cancro, l'analisi del tasso di sopravvivenza e l'immunoterapia di precisione. Di recente, la rivoluzione dell'intelligenza artificiale generativa ha fornito soluzioni potenti per percepire e analizzare con precisione l'enorme quantità di informazioni contenute nelle immagini patologiche. Allo stesso tempo, le innovazioni nella tecnologia dell'intelligenza artificiale generativa multimodale aiuteranno a comprendere le immagini patologiche digitali provenienti da più scale di tempo e spazio e a integrarle con altre modalità biomediche, in modo da rappresentare meglio l'evoluzione e lo sviluppo delle malattie dei pazienti e assistere i medici nella diagnosi clinica e nel trattamento. Tuttavia, a causa delle grandi dimensioni, dell'elevato numero di pixel e delle caratteristiche complesse delle immagini patologiche digitali, è molto difficile elaborare e comprendere in modo efficiente i complessi modelli in esse contenuti da una prospettiva computazionale . Dopo la trasformazione digitale, ogni fetta completa conterrà miliardi di pixel, con un'area centinaia di migliaia di volte superiore a quella di un'immagine naturale, rendendo difficile l'applicazione dei modelli di visione artificiale esistenti. La complessità computazionale dei modelli di visione tradizionali, come Vision Transformer, aumenta rapidamente all'aumentare delle dimensioni dell'immagine in input. Allo stesso tempo, i dati medico-clinici presentano le caratteristiche di essere multimodali, multiscala e ad alto rumore, e la maggior parte dei modelli patologici esistenti si basa su set di dati pubblici standard, che sono ancora piuttosto lontani dalle applicazioni nel mondo reale. A tal fine, i ricercatori di Microsoft Research, Providence Medical Network e dell'Università di Washington hanno proposto congiuntamente il primo modello di patologia digitale a scala completa, GigaPath . È stato riferito che il modello GigaPath adotta una struttura a cascata a due stadi e l'architettura LongNet recentemente sviluppata da Microsoft Research, che risolve in modo efficiente il problema dell'elaborazione e della comprensione di immagini da miliardi di pixel . I ricercatori hanno pre-addestrato GigaPath su larga scala su dati del mondo reale, raccogliendo 170.000 immagini patologiche digitali a diapositiva completa da 30.000 pazienti in 28 ospedali di Providence negli Stati Uniti, per un totale di 1,3 miliardi di tessere patologiche. I risultati sperimentali mostrano che GigaPath ottiene risultati eccellenti in 25 attività su 26, tra cui 9 classificazioni di cancro e 17 attività patologiche, ed è significativamente superiore ai metodi esistenti in 18 attività. I ricercatori hanno affermato che questo studio ha dimostrato l'importanza della modellazione su scala completa e del pre-addestramento con dati reali su larga scala. Allo stesso tempo, GigaPath offrirà anche nuove possibilità per cure oncologiche più avanzate e per scoperte cliniche. Vale la pena ricordare che il modello e il codice di GigaPath sono stati resi open source. metodo GigaPath adotta un curriculum di apprendimento in due fasi, che include il pre-addestramento a livello di tile utilizzando DINOv2 e il pre-addestramento a livello di slice completo utilizzando l'autoencoder di maschera con LongNet, come mostrato nella figura seguente. Figura |Diagramma del modello GigaPath DINOv2 è un metodo standard auto-supervisionato che combina la perdita di contrasto e la perdita di ricostruzione della maschera durante l'addestramento del Vision Transformer dell'insegnante e dello studente. Tuttavia, a causa delle sfide computazionali poste dall'autoattenzione stessa, la sua applicazione è limitata a immagini di piccole dimensioni, come le tessere 256 × 256. Per la modellazione a livello di sezione completa, il team di ricerca ha applicato l'attenzione dilatata di LongNet alla patologia digitale, come mostrato nella figura seguente. Figura|Diagramma del modello LongNet Per gestire lunghe sequenze di tile di immagini su sezioni complete, hanno introdotto una serie di dimensioni crescenti che suddividono la sequenza di tile in segmenti di una determinata dimensione. Per segmenti più grandi, LongNet introduce un'attenzione sparsa, in cui la scarsità è proporzionale alla lunghezza del segmento, contrastando così la crescita quadratica. Il frammento più grande coprirà l'intera fetta. Ciò consente di catturare dipendenze a lungo raggio in modo sistematico, mantenendo al contempo la trattabilità del calcolo (lineare nella lunghezza del contesto). Principali risultati sperimentali In termini di diagnosi di classificazione del cancro , l'obiettivo del compito è quello di classificare sottotipi dettagliati in base alle sezioni patologiche. Ad esempio, per il cancro ovarico, il modello deve distinguere tra sei sottotipi: cancro ovarico a cellule chiare, cancro ovarico endometrioide, cancro ovarico sieroso di alto grado, cancro ovarico sieroso di basso grado, cancro ovarico mucinoso e carcinosarcoma ovarico. **GigaPath ha ottenuto risultati eccellenti in tutti i nove compiti di classificazione del cancro, con miglioramenti significativi della precisione in sei dei compiti di classificazione del cancro. **Per sei tumori (seno, rene, fegato, cervello, ovaie, sistema nervoso centrale), GigaPath ha raggiunto un AUROC del 90% o superiore. Si tratta di un buon punto di partenza per applicazioni a valle nel campo della medicina di precisione, come la diagnosi e la prognosi del cancro. Nei compiti patologici , l'obiettivo del compito è prevedere se un tumore presenta specifiche mutazioni genetiche clinicamente rilevanti basandosi esclusivamente su immagini a strati interi. Questo compito di previsione aiuta a rivelare complesse connessioni tra la morfologia dei tessuti e i percorsi genetici, difficili da percepire per gli esseri umani. A parte alcuni tipi specifici di cancro e coppie di mutazioni genetiche note, resta una domanda senza risposta quanta segnale di mutazione genetica sia presente nelle immagini dell'intera diapositiva. Inoltre, in alcuni esperimenti, i ricercatori hanno preso in considerazione uno scenario pan-cancro, identificando segnali universali di mutazioni genetiche in tutti i tipi di cancro e in morfologie tumorali molto diverse. In scenari così impegnativi, GigaPath ha ottenuto ancora una volta prestazioni eccellenti in 17 attività su 18 e ha nettamente superato il secondo classificato in 12 attività su 18 . Gigapath è in grado di estrarre caratteristiche morfologiche pantumorali e sottotipiche geneticamente rilevanti a livello dell'intero vetrino, aprendo la porta a complesse direzioni di ricerca future in scenari del mondo reale. Inoltre, i ricercatori hanno ulteriormente dimostrato il potenziale di GigaPath in attività multimodali di linguaggio visivo introducendo referti patologici. I lavori precedenti sulla pre-formazione del linguaggio visivo patologico si sono spesso concentrati su piccole immagini a livello di riquadro. Al contrario, GigaPath esplora il pre-addestramento del linguaggio visivo a livello di sezione completa. Continuando il pre-addestramento sulle coppie di referti patologici, la semantica del referto viene utilizzata per allineare le rappresentazioni dello spazio latente delle immagini patologiche. Si tratta di una soluzione più impegnativa rispetto al tradizionale pre-addestramento del linguaggio visivo e, senza sfruttare informazioni di allineamento dettagliate tra singole patch di immagini e frammenti di testo, GigaPath supera significativamente tre modelli di linguaggio visivo patologico all'avanguardia nelle attività di linguaggio visivo standard . Riassumere Attraverso esperimenti approfonditi e completi, i ricercatori hanno dimostrato che il lavoro di ricerca correlato di GigaPath è una buona pratica nella modellazione visiva multimodale e nel pre-addestramento a livello di sezione completa del linguaggio. Vale la pena sottolineare che, nonostante GigaPath abbia ottenuto risultati eccellenti in molteplici attività, c'è ancora molto margine di miglioramento in alcune attività specifiche. Allo stesso tempo, nonostante i ricercatori abbiano esplorato compiti multimodali visivo-linguistici, restano ancora molte questioni specifiche da approfondire per arrivare a costruire un assistente conversazionale multimodale a livello patologico . GigaPath è una collaborazione tra Microsoft Research, Providence Health System e la Paul G. Allen School of Computer Science presso l'Università di Washington. Tra questi, Xu Hanwen, studente di dottorato al secondo anno presso Microsoft Research e l'Università di Washington, e Naoto Usuyama, ricercatore principale presso Microsoft Research, sono i primi coautori dell'articolo. Il dott. Hoifung Poon, direttore generale del team Health Futures presso Microsoft Research, il professor Wang Sheng dell'Università di Washington e il dott. Carlo Bifulco di Providence sono i co-autori corrispondenti dell'articolo. Xu Hanwen è uno studente di dottorato al secondo anno presso l'Università di Washington. La sua direzione di ricerca è l'intersezione tra intelligenza artificiale e medicina. I risultati della ricerca sono stati pubblicati su Nature, Nature Communications, Nature Machine Intelligence e AAAI, ecc. Ha lavorato come revisore per Nature Communications, Nature Computational Science e altre riviste. Wang Sheng: professore associato di informatica presso l'Università di Washington. La sua ricerca si concentra sull'intersezione tra intelligenza artificiale e medicina. I risultati della ricerca sono stati pubblicati su Nature, Science, Nature Biotechnology, Nature Machine Intelligence e The Lancet Oncology, e i risultati della trasformazione della ricerca sono stati utilizzati da numerose istituzioni mediche come la Mayo Clinic, il Chan Zuckerberg Biohub, l'UW Medicine e il Providence. Pan Haifeng: Direttore generale di Health Futures presso Microsoft Research. I suoi interessi di ricerca includono la ricerca di base sull'intelligenza artificiale generativa e sulle applicazioni della medicina di precisione. Ha vinto premi come miglior articolo in numerose importanti conferenze sull'intelligenza artificiale e i modelli biomedici open source pubblicati su HuggingFace sono stati scaricati decine di milioni di volte. Alcuni dei risultati delle sue ricerche hanno iniziato a trasformarsi in applicazioni in istituzioni mediche e aziende farmaceutiche che collaborano. |
<<: Il limite massimo delle "competenze mediche" più avanzate del mondo è nascosto nel tuo corpo?
>>: Ti ricordi ancora il 2006, quando le persone si inviavano gli auguri di Capodanno tramite SMS?
Autore: Wang Lin, primario, Ospedale pediatrico, ...
Non è così. La dislipidemia, nota anche come iper...
Doraemon Anniversary 25 - Le emozioni e il fascin...
Ogni 3 secondi si verifica una frattura osteoporo...
Nel pomeriggio del 14 agosto, Sina Technology ha ...
"Genroku Love Story: Miyoshi e Osayo": ...
Nella vita quotidiana alcuni comportamenti posson...
Per garantire l'effetto divulgativo dell'...
Che cos'è AHAlife? AHAlife è un famoso sito we...
Sei soggetto a edemi? La medicina tradizionale ci...
Cos'è il sito web della classifica musicale co...
Autore: Yao Shiyi, ricercatore post-dottorato pre...
Sfrutta al meglio il poco tempo a disposizione pe...
C'è una canzone il cui testo potrebbe risulta...