Perché Gemini cambierà l’AI (e i suoi legami con l’astrofisica)

La responsabile del team di data science dell’Osservatorio Gravitazionale Europeo spiega la vera novità dell'AI di Google: l'integrazione di dati di natura diversa. Una capacità utile anche nell'esplorazione del cosmo.

-

Perché Gemini cambierà l’AI (e i suoi legami con l’astrofisica)

La responsabile del team di data science dell’Osservatorio Gravitazionale Europeo spiega la vera novità dell'AI di Google: l'integrazione di dati di natura diversa. Una capacità utile anche nell'esplorazione del cosmo.

Recentemente si è molto parlato di Gemini, il nuovo modello di intelligenza artificiale sviluppato da Alphabet, la casa madre di Google. In molti si sono focalizzati sulle sue prestazioni; ma la vera novità è che questo modello è progettato specificamente per affrontare dati multimodali. Ciò significa che è in grado di elaborare e comprendere simultaneamente testi, immagini, video, suoni e codice, combinando le informazioni provenienti da diverse modalità per ottenere una comprensione più completa di ciò che apprende.

Game changer

A differenza di altri modelli di intelligenza artificiale, come ChatGPT, che sono stati inizialmente progettati per la comprensione e la previsione del linguaggio e poi estesi ad altre modalità, Gemini è stato sviluppato fin dall’inizio come modello multimodale. Questo gli conferisce una grande potenza nel trattare dati che contengono informazioni provenienti da più fonti.

Un esempio concreto della sua efficacia è stato mostrato da Google. Quando gli è stato presentato un testo scritto a mano da uno studente, accompagnato da un’immagine correlata, Gemini è stato in grado di correggere gli errori nel testo e di fornire la soluzione corretta al problema. Questa capacità di combinare e di interpretare dati multimodali dimostra la potenza e l’efficacia dello strumento.

Gemini
Gemini si presenta in tre modalità distinte. La versione “Nano” sarà compatibile con qualsiasi dispositivo IoT, la versione “Pro” sarà integrata in Bard (il vero concorrente di ChatGPT) e la versione “Ultra” potrà essere eseguita su server, permettendo analisi e previsioni molto più complesse.

Per questo motivo, Gemini è certamente un game changer nel panorama in rapido sviluppo dell’intelligenza artificiale. La multimodalità è infatti il modo con cui il cervello interpreta le situazioni e agisce di conseguenza. Immaginate un video senza audio o un testo senza musica: perderebbero gran parte della propria forza espressiva, perché sono proprio le diverse modalità in input che ci consentono di trarre conclusioni e di comprendere appieno il contesto.

Lavoro di squadra

Il successo di Gemini è il risultato di un lavoro non solo del team di intelligenza artificiale, ma anche del gruppo di ingegneri infrastrutturali del centro di calcolo e degli scienziati informatici coinvolti. Il gruppo di intelligenza artificiale si è infatti impegnato nell’addestramento e nell’affinamento dei modelli multimodali. Il gruppo di ingegneri infrastrutturali del centro di calcolo, invece, ha svolto un ruolo cruciale nello sviluppo e nella gestione delle risorse necessarie per supportare la potenza di calcolo richiesta. Grazie a questa sinergia, che include anche i computer scientist, Gemini ha potuto sviluppare questa sua enorme capacità di interpretare e comprendere dati multimodali.

L’importanza dei dati

È innegabile che l’accesso a dataset di allenamento ampi diventi sempre più fondamentale e che ciò comporti un aumento dell’importanza dell’acquisizione di dati. La forza dell’intelligenza artificiale risiede, in larga misura, nella sua capacità di apprendere da dati significativi. Maggiore è la quantità e la varietà dei dati disponibili, maggiori sono le possibilità di identificare pattern, correlazioni e relazioni che portano a previsioni più accurate e informate.

Di conseguenza, l’acquisizione di dati di alta qualità e rappresentativi diventa una priorità per i ricercatori e gli sviluppatori. Ciò può comportare sforzi per raccogliere informazioni da diverse fonti, collaborare con organizzazioni o istituti per accedere a dataset esistenti o utilizzare tecniche di generazione sintetica dei dati.

L’osservatorio di La Silla, situato a 2.400 metri di quota in Cile (Foto ESO/B. Tafreshi, twanight.org). L’analisi multimodale usata da Gemini si può applicare anche all’astronomia, in particolare all’astronomia multimessaggera che integra dati di natura diversa (gravitazionale, elettromagnetica e neutrini).

Dal web all’universo

Le tecniche multimodali possono essere di grande aiuto anche in astrofisica, per migliorare la ricerca e la comprensione dei fenomeni celesti – come esplosioni di supernovae e scontri tra stelle di neutroni – che emettono informazioni con diverse modalità: onde gravitazionali, onde elettromagnetiche (come la luce) e neutrini. Attraverso l’acquisizione di dati multimodali provenienti da diversi rivelatori per uno stesso fenomeno fisico, ad EGO (l’Osservatorio Gravitazionale Europeo, che gestisce il rivelatore Virgo), con un team di ricercatori, intendiamo creare un modello simile a Gemini che ci consenta di effettuare previsioni più accurate nel campo dell’astrofisica.

A differenza di Gemini, i nostri dati in ingresso saranno specifici per segnali astrofisici e includeranno diverse modalità, come serie temporali, immagini, tracce, video e misure numeriche relative all’energia emessa, alla distanza e alla posizione nel cielo. Integrando queste informazioni con altre fonti, miriamo a ottenere una visione più completa e dettagliata dei fenomeni che potremmo esaminare. Nonostante i dati non siano perfetti e possano presentare un rapporto segnale-rumore non ottimale, confidiamo che l’utilizzo di tecniche multimodali ci permetterà di sfruttare appieno le informazioni disponibili e di migliorare le nostre previsioni. Il nostro obiettivo è ottenere una comprensione più approfondita dei fenomeni celesti, consentendoci di fare passi avanti significativi nella ricerca e nella comprensione dell’universo.

Link e approfondimenti

• Un’introduzione a Gemini da parte di DeepMind.
• Altri articoli su Josway sull’intelligenza artificiale.
L’articolo scientifico su arXiv di Elena Cuoco et al., “Multimodal Analysis of Gravitational Wave Signals and Gamma-Ray Bursts from Binary Neutron Star Mergers Universe” (2021).
L’articolo scientifico di Elena Cuoco et al., “Computational challenges for multimodal astrophysics”, Nature Computational Science 2, 479–485 (2022).

Elena Cuoco
Elena Cuocohttp://www.elenacuoco.com
Elena Cuoco è responsabile dell’ufficio di Data Science dell’Osservatorio Gravitazionale Europeo (EGO). Fa parte del team che ha scoperto le onde gravitazionali nel 2015 (premio Nobel nel 2017) e del gruppo di Cosmologia della Scuola Normale Superiore di Pisa. Il suo progetto sulla fisica delle onde gravitazionali e sulle tecniche di machine learning (www.g2net.eu) è stato selezionato dalla Cooperazione Europea in Scienza e Tecnologia e coinvolge oltre 27 Paesi Europei.

Il viaggio più estremo

CoverI Buco Nero

Primo piano

Categorie più popolari

Recent comments