Google Gemini: tutto quello che devi sapere sul modello linguistico multimodale di grandi dimensioni

Potresti aver notato che OpenAI, i creatori della tecnologia ChaptGPT, sta attraversando un periodo di turbolenza con massicce dimissioni e riassegnazioni, in particolare con il suo CEO Sam Altman che parte per un potenziale lavoro con Microsoft per poi tornare con un consiglio di amministrazione completamente nuovo. È selvaggio laggiù. Potresti anche aver notato che nell’ultimo anno Google ha fatto grandi passi avanti nell’intelligenza artificiale rivolta alle aziende e ai consumatori, con il massiccio aggiornamento LLM (modello linguistico di grandi dimensioni) PaLM 2, il rilascio di Google Bard e, in generale, il consolidamento dei suoi servizi di intelligenza artificiale in piattaforme coese.

Metti tutto insieme e non sorprende davvero che Google abbia colto l’occasione per lanciare un’intelligenza artificiale generativa del marchio (ovvero, crea cose), questa chiamata Google Gemini . È nuovo, è divertente, è un po’ strano: ecco cosa dovresti sapere sull’intelligenza artificiale di Google Gemini.

Cos’è Google Gemini?

Google Gemini è una nuova suite di servizi di intelligenza artificiale generativa che Google sta lanciando, in particolare per le aziende interessate ad espandere i propri servizi di intelligenza artificiale. Si tratta di una famiglia di modelli di intelligenza artificiale multimodali (ne parleremo più approfonditamente più avanti) creata dal progetto Google DeepMind.

Google Gemini è attualmente molto nuovo. Google ha aggiunto una versione ottimizzata per l’inglese di Gemini Pro a Google Bard nel dicembre 2023. Nonostante il nome, Google descrive Gemini Pro come la versione “lite” del modello AI, anche se a noi assomiglia più alla versione standard. Della famiglia fa parte anche Gemini Ultra, l’AI premium che Google vuole sia il fiore all’occhiello della suite.

Gemini Nano completa il trio. Nano è la versione ottimizzata per dispositivi mobili del modello linguistico di grandi dimensioni che viene lanciato su Google Pixel 8 Pro con il rilascio di funzionalità di dicembre. Consente l’elaborazione sul dispositivo e alla fine verrà diffuso anche su altri telefoni Android.

Google Gemini è un chatbot? Può creare contenuti?

Gemini può certamente creare contenuti, ma Gemini è molto più ambizioso di un chatbot e ciò richiede qualche spiegazione.

Gemini è tecnicamente un LLM o un modello linguistico di grandi dimensioni , il che significa che è un framework di apprendimento automatico che viene insegnato scaricando al suo interno un mucchio di cose umane (contenuti online, in generale) e aiutandolo a stabilire regole per comprendere quel contenuto. Fallo abbastanza e gli LLM potranno elaborare i dati linguistici abbastanza da mettere insieme le proprie frasi e imitare determinati stili come vediamo fare ChatGPT e Bard, come esperti risolutori di puzzle che creano modi matematici per “risolvere” il linguaggio umano. Più imparano, meglio riescono a farlo.

La maggior parte dei LLM sono specializzati solo in un paio di cose, come la parola o le immagini. Ciò aiuta a mantenerli concentrati e riduce le enormi risorse di cui tendono a richiedere. Google è particolarmente abile nel creare modelli di intelligenza artificiale efficienti che sono profondamente addestrati su una gamma più limitata di contenuti, in contrasto con il sistema di OpenAI che lancia quasi tutto ciò che può all’intelligenza artificiale.

Tuttavia, Gemini sembra essere diverso dal solito LLM, perché è stato addestrato fin dall’inizio come multimodale. Multimodale significa semplicemente che l’intelligenza artificiale può apprendere e creare tutti i tipi di contenuti, non solo una “lingua”. Gemini può gestire parlato, corrispondenza, problemi di ragionamento, codice, immagini (inclusi emoji), video, audio e altro. È come l’eclettico o l’Uomo del Rinascimento del mondo LLM.

Come puoi vedere dai nostri esempi di immagini, ciò sembra rendere Gemini molto bravo a comprendere il contesto e a interpretare correttamente le informazioni per gli utenti, indipendentemente dall’argomento.

Sulla base dei dati in nostro possesso, i Gemelli sembrano essere molto bravi in ​​quello che fanno… nell’ambito del suo campo d’azione. Ha ottenuto un punteggio del 90% nel test Massive Multitask Language Understanding (MMLU), che è migliore della maggior parte degli esperti di linguaggio umano e in linea con le prestazioni passate di Google. Google afferma inoltre che Gemini batte i modelli di intelligenza artificiale esistenti in 30 dei 32 test accademici utilizzati per valutare i LLM. Tuttavia, altri rapporti affermano anche che mentre Gemini Pro può battere GPT-3.5 (che ha alimentato gran parte dei contenuti ChatGPT che abbiamo visto quest’anno) ma è battuto dal più recente GPT-4, mentre Gemini Ultra batte di poco GPT-4. È un campo molto competitivo in questo momento.

Tuttavia, nessuna intelligenza artificiale attualmente sul mercato è multimodale come Gemini, il che significa che le aziende che utilizzano questa intelligenza artificiale addestrata possono adattarla a quasi qualsiasi cosa. Ciò ha un valore particolare per le aziende, che potrebbero voler personalizzare i servizi di intelligenza artificiale per fare qualsiasi cosa, dal riconoscere borse contraffatte all’imitare un utile zio svedese in una chat del servizio clienti. Google menziona anche alcune altre possibilità, come:

  • Spiegare problemi di fisica agli studenti
  • Elaborazione dell’audio grezzo per cercare determinati segnali
  • Analizzare l’intento dell’utente di creare kit e pacchetti personalizzabili per una persona
  • Aiutare gli scienziati a individuare nelle ricerche pubblicate i collegamenti che non avrebbero potuto cogliere
  • Vincere tutti i concorsi di programmazione competitiva a cui è consentito

Google Gemini è diverso da Google Bard?

Non proprio. Bard è stato un tentativo molto precedente di intelligenza artificiale rivolta al consumatore (ricordate, nel contesto di questi LLM AI dei primi anni 2020, anche diversi mesi possono essere lunghi). Ma con il rilascio di Gemini, Google sta aggiornando Google Bard con la tecnologia Gemini Pro, quindi tutti questi vantaggi fanno ora parte di Bard. Naturalmente, gli strumenti di Bard sono molto più limitati di quelli di cui è capace Gemini, ma ora Bard è meglio visto come una parte di Gemini.

Come si collega tutto questo al PaLM 2?

È complicato e non possiamo guardare bene dietro le quinte. PaLM 2 è stato un massiccio aggiornamento del modello LLM incentrato sulla lingua di Google, realizzato all’inizio del 2023. PaLM 2 eccelle in attività linguistiche come la traduzione e, sebbene Google abbia realizzato moduli PaLM 2 che gestiscono altre cose come la lettura di scansioni mediche, non è così nativamente multimodale come Gemelli. Tuttavia, fornisce servizi di intelligenza artificiale leggeri per le aziende che desiderano creare la propria intelligenza artificiale attingendo al lavoro che Google ha già svolto, utilizzando la piattaforma Google Vertex su cui opera anche Gemini.

Gemini e PaLM 2 non sembrano essere concorrenti in alcun senso, almeno non ora. Di entrambi è responsabile Google DeepMind, nata dalla fusione dei due precedenti progetti Brain Team e DeepMind. Sembra probabile che i due si stiano alimentando a vicenda ad un certo livello. Ma per ora Google si riferisce ancora a loro come a due modelli di intelligenza artificiale separati con focus diversi.

Dove posso trovare Google Gemini?

Visita la pagina web di DeepMind per Gemini e cerca un’opzione di registrazione per saperne di più o un’opzione di accesso per il tuo account di sviluppo in modo da poter iniziare con il kit API Gemini Pro. Quindi puoi iniziare a incorporare i servizi Gemini nelle tue app e personalizzare modelli Gemini specifici in base alle tue esigenze. Solo Gemini Pro sarà disponibile il 13 dicembre 2023, mentre le altre versioni seguiranno successivamente.

Tieni presente che Gemini è progettato solo per uso organizzativo e sviluppatore, principalmente tramite la piattaforma Vertex. È per le aziende che desiderano soluzioni di intelligenza artificiale su misura, da offrire poi ai clienti tramite le proprie app e siti Web. Se tu, come consumatore, desideri provare Gemini, la soluzione migliore è Google Bard o i servizi Google correlati.

Quanto costa l’utilizzo di Google Gemini?

I prezzi specifici dei Gemini sono difficili da analizzare in questo momento. Ti suggeriamo di dare un’occhiata a Google Vertex e ai suoi prezzi per tutti i servizi di intelligenza artificiale generativa, che variano in base al tipo di contenuto e al servizio specifico a cui un’azienda è interessata.

Google Gemini è sicuro?

DeepMind afferma che Gemini è stato addestrato pensando alla sicurezza e sarà schierato in modo responsabile. Google è molto vago su ciò che ciò comporta, ma probabilmente significa che i Gemelli non saranno in grado di fare nulla di troppo cattivo, invasivo o illegale.

VIA

Potrebbe piacerti anche