(VIDEO) Google a lansat Gemini, noul model de inteligenţă artificială, care poate cumula date din text, imagini, video, audio, cod şi combinaţii dintre acestea

7 Decembrie 2023, 14:28
Redacţia PiataAuto.md

Google mai face un pas major în inteligenţa artificială, lansând Gemini, noul model de inteligenţă artificială care funcţionează multi-modal, putând acumula date din text, imagini, video, audio, cod şi orice combinaţii simultane dintre acestea. Este, deci, cel mai capabil şi mai comprehensiv instrument de inteligenţă artificială din toate cele lansate până în prezent, spun creatorii săi, şi doar săptămâna trecută menţionam că tehnologia DeepMind de inteligenţă artificială şi învăţare a Google reuşise să descopere 400.000 materiale noi validate în doar câteva săptămâni.

Foto: Sundar Pichai, CEO al Google şi Alphabet

Practic, cei de la Google spun că atunci când au dezvoltat DeepMind, modelul lor vizionar a fost să se ajungă la ceea ce vedem acum sub formă de Gemini. Marele salt tehnologic pe care-l aduce noul model e multi-modalitatea de analiză, deci capacitatea de a acumula date din toate mediile descris mai sus, nu doar din text, cum se întâmplă la majoritatea modelelor existente în prezent.

Astfel, Gemini poate înţelege simboluri scrise de mână, care sunt fotografiate într-o imagine, sau sunt filmate într-un material video. Poate înţelege rezolvarea unei probleme scrisă de mână la lecţia de fizică, de exemplu, şi poate şi explica unde ai greşit în rezolvare, înţelegând amplasarea spaţială, şi indicând tot pe imagine unde anume e nevoie de corecţie.

Iar aici vine şi un alt salt tehnologic major — argumentarea. Gemini nu-ţi oferi doar nişte răspunsuri deştepte pe care le-a dedus, ci va argumenta solid acele răspunsuri şi concluzii, sau rezolvările pe care le propune. Asta va face informaţia oferită de el mai uşor verificabilă, pe de o parte, iar de cealaltă parte modelul AI va fi perceput ca un asistent expert, care te ajută şi să înveţi din ceea ce-ţi comunică.

Creatorii Gemini spun că până acum modelele AI analizează separat tipurile de informaţii şi pot deduce concluzii de la un mediu la altul, spre exemplu deducând ce se conţine într-o imagine, însă atunci când sarcina e mai complexă şi presupune interconexiune între formatele de date pentru a analiza şi decide corect, procesele şchiopătează foarte mult. Gemini vine să rezolve tocmai această problemă, putând conglomera informaţiile din toate mediile într-un singur proces de analiză şi face astfel deducţii mult mai complexe. Chiar şi din literatură, studii, cărţi, Gemini poate procesa aceste volume imense de informaţii înţelegând nu doar textul, ci şi graficele şi imaginile conţinute în el, înţelegând logic valorile conţinute în acele grafice, nu doar forma lor ca o imagine statică. Şi le poate chiar actualiza cu date mai noi, spre exemplu.

Cei de la Google dau şi un exemplu în acest sens, când într-o pauză de masă Gemini a studiat 200.000 de documente noi de studii în genetică, adăugate în ultimii doi ani, pentru a selecta doar informaţii relevante şi a adăuga aceste date într-un rezumat relevant, actualizat cu noi date în acest fel.

Astfel, acest nou model de inteligenţă artificială va oferi în primul rând oamenilor de ştiinţă uşurinţa de a procesa mult mai rapid volume imense de date, generate anterior sau în timpul studiilor curente, pentru a le putea centraliza mai rapid şi a-şi dedica timpul rezolvării problemelor creative esenţiale, nu procesării a sute de mii de pagini. Şi, desigur, Gemini îi va putea ajuta şi pe partea creativă, iar posibilităţile sunt limitate doar de imaginaţie, de perfecţionarea modelului AI şi de domeniile în care va fi pus să exploreze.

Vor exista 3 nivele ale modelului Gemini, în funcţie de complexitatea sarcinilor cărora le e destinat, iar Google anunţă că un element esenţial în dezvoltarea noului produs a fost asigurarea securităţii şi multiplelor mecanisme de protecţie împotriva situaţiilor în care un model AI ar putea-o lua razna în direcţii nedorite. S-au implementat filtre şi clasificatoare de interdicţii în algoritm, astfel încât să se minimizeze orice risc de posibile daune viitoare.

La nivelul publicului general, noul Gemini a fost integrat în Google Bard, în smartphone-ul Google Pixel 8 Pro, iar în lunile următoare acesta va fi integrat şi în serviciile web ale Google, precum căutările, publicitatea şi broswer-ele Chrome. Cea mai avansată versiune, destinată echipelor profesioniste de oameni de ştiinţă, trece în prezent prin ultimele simulări şi verificări de siguranţă, înainte de a deveni disponibilă. Funcţionalitatea noului model Gemini va fi asigurată de o putere de procesare imensă, prin servere cu unităţi de procesare tensor TPU v5 din centrele de date Google, cu asemenea compartimente cu rol de acceleratoare AI.

Foto: Centru de date Google, cu unităţi de procesare TPU v5, unde are loc procesarea din spatele modelelor de inteligenţă artificială

Vezi mai jos şi două materiale video cu mai multe detalii şi exemple date pentru Gemini.