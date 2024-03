I ricercatori Apple hanno sviluppato un nuovo metodo per l’addestramento di modelli linguistici di grandi dimensioni (LLM) che integra perfettamente sia informazioni testuali che visive.

I risultati dell’azienda, dettagliati in un documento di ricerca intitolato “ MM1: Metodi, analisi e approfondimenti dalla pre-formazione LLM multimodale ”, mostrano un nuovo approccio alla creazione di sistemi di intelligenza artificiale più intelligenti e flessibili. Utilizzando un set di dati diversificato che comprende coppie di immagini-didascalie, documenti immagine-testo interfogliati e dati di solo testo, Apple afferma che il modello MM1 stabilisce un nuovo standard nella capacità dell’intelligenza artificiale di eseguire attività come didascalie di immagini, risposte visive a domande e risposte naturali. inferenza linguistica con un alto livello di accuratezza.

La ricerca di Apple si concentra sulla combinazione di diversi tipi di dati di addestramento e architetture di modelli, che consentono all’intelligenza artificiale di comprendere e generare linguaggio basato su un mix di segnali visivi e linguistici. Questa capacità è vitale per attività che richiedono una comprensione sfumata del mondo, come interpretare immagini complesse o rispondere a domande che coinvolgono elementi visivi.

Il documento evidenzia inoltre le eccezionali capacità di apprendimento in contesto del modello MM1, in particolare nella più grande configurazione di 30 miliardi di parametri del modello. Questa versione mostra apparentemente notevoli capacità di ragionamento in più fasi su più immagini utilizzando la “catena di pensiero” in pochi scatti, una tecnica che consente all’intelligenza artificiale di eseguire soluzioni di problemi complessi e aperti sulla base di esempi minimi.

Questa ricerca emerge come parte di una più ampia iniziativa di Apple per migliorare le proprie capacità di intelligenza artificiale in un contesto di crescente concorrenza. Stamattina, Mark Gurman di Bloomberg ha riferito che Apple è in trattative con Google per concedere in licenza i modelli generativi di grande linguaggio Gemini di Google per potenziare le nuove funzionalità in arrivo su iPhone come parte di iOS 18 .

