Sora, Gemini 2.0 i Willow, l’èxtasi del 2024
Sora de ChatGPT arriba a Europa amb límits però anuncia un ‘boom’ del vídeo amb IA
Willow de Google resol problemes quàntics i Gemini 2.0 desafia els grans competidors
Poques setmanes han estat tan productives aquest 2024 com la passada en el món de la intel·ligència artificial. Abans d’acabar l’any, Google i OpenAI han protagonitzat una sèrie d’anuncis rellevants, però IBM, Meta, xAI i Apple tampoc s’han quedat de braços plegats. Arribem a final d’any amb una sensació de democratització de la IA generativa com mai abans. L’eina que genera vídeo Sora ja està disponible per a tots els usuaris prèmium de ChatGPT, amb algunes limitacions per no incórrer en l’incompliment de la normativa europea. Tanmateix, els usuaris d’aquesta esperada aplicació de vídeo d’OpenAI –després d’una espera de 10 mesos des del seu anunci durant els quals han sorgit alternatives molt competitives– han detectat que no és tan bona com es presentava en les primeres demostracions, tant pel que fa al moviment com a les imatges hiperrealistes. Caldrà veure si és una censura intencionada d’OpenAI per complir amb la legislació o si es tracta d’una limitació indesitjada. Sora incorpora marques d’aigua visibles, metadades integrades per a la traçabilitat i estrictes prohibicions contra la generació de contingut amb drets d’autor, representacions de menors i material explícit. Tota prudència és poca.
L’arribada de Sora al gran públic de la IA després de setmanes i mesos d’avantatge dels seus competidors posa de manifest un aspecte que semblava superat amb la IA generativa en altres formats: la importància del prompting. S’havia arribat a pensar que la capacitat per donar instruccions de text o saber iterar era cada cop menys rellevant amb la IA generativa, però quan es tracta de generar vídeo amb Sora, Gen-3 Alpha de Runway o Tencent de Hunyuan Video, entre altres, l’encert dels qui manegen aquestes IA amb ordres textuals és molt significatiu. Ja arribarà el moment en què sigui facilíssim generar vídeo de qualitat o aconseguir espectacularitat amb poc esforç o professionalitat. El vídeo encara va una passa enrere respecte al text, la imatge i, fins i tot, l’àudio. Amb Sora es popularitzaran els clips i, malgrat les restriccions per evitar deepfakes, assistirem a un boom del vídeo amb IA pròximament. Sora arriba amb 10 llargs mesos de retard i amb el fre de mà d’OpenAI posat, però la capacitat de marcar tendència de la companyia de Sam Altman està fora de qualsevol dubte. Només cal veure la campanya de màrqueting del calendari d’advent nadalenc i els anuncis d’OpenAI que cada vespre (horari europeu) ens mantenen pendents dels seus directes a YouTube.
Google va fer un cop de puny sobre la taula la setmana passada. Va presentar Willow, un xip quàntic que resol en cinc minuts una tasca que abans hauria ocupat quadrilions d’anys d’un superordinador. També ha presentat Trillium, un xip poderós per a la seva IA Gemini 2.0, que afegeix funcions multimodals i desafia els seus competidors directes. Google fa un salt important en l’era dels agents d’IA. Gemini 2.0 està decidit a jugar la partida. Google també acaba de convertir el projecte Jarvis en Mariner, i fa de Jules el veritable salvavides per als programadors. El que ha fet aquests dies la companyia de Sundar Pichai és molt important. Pichai ha avisat de canvis rellevants en el cercador de Google a partir de principis del 2025. Així que venen corbes.
Benvolgut lector, si fins ara vivíeu aliè a l’actualitat de la IA, sapigueu que arribeu en el millor moment. La setmana ha estat un punt d’inflexió per Sora, les presentacions de Google, el llançament d’OpenAI d’un ChatGPT Pro a 200 dòlars mensuals com una IA de raonament bestial, productiva i robusta, però també per tota una sèrie de novetats d’altres actors tecnològics i les expectatives del segon mandat de Donald Trump a la Casa Blanca i la influència sobre els Javiers Milei del món o la d’Elon Musk a la nova administració, que només n’hi ha un.
Musk deu ser lector d’El Punt Avui perquè, si la setmana passada dèiem que Grok 2 dins de X (antic Twitter) és una integració atractiva i estimulant, ara acaba d’anunciar que serà gratuïta per a tots els piuladors. L’eina de generació d’imatges de Grok 2, amb resultats hiperrealistes sense censura i amb un toc punk, ja és perceptible a la xarxa social X, marcant un nou escenari i contribuint a un imaginari de la IA més alliberador. N’hi ha que s’han escandalitzat pel risc de (més) proliferació de deepfakes d’imatges a X.
Benvolgut lector, prengueu nota de tot el que està passant i no dubteu a provar aplicacions i eines perquè teniu la sort d’arribar en el moment oportú i de no haver-vos perdut gran cosa els dos darrers anys: ara això va de debò, tant com a usuari com com en el món de l’empresa. L’avantatge que alguns us porten és cultural o d’hàbits, però la capacitat de tot el que és nou li dona una dimensió a la IA generativa, a la multimodalitat i a mil i una aplicacions que us permeten pujar al tren en un moment d’acceleració i popularització determinants.
Dèiem que IBM, Meta i Apple no s’havien pas quedat de braços plegats. Ara ja sembla impossible una setmana en què cadascuna de les grans tecnològiques no hagi fet un moviment amb la IA. Seguir comptes de X, directes a YouTube i feeds de mitjans especialitzats genera una mena de vertigen, passió, pessigolleig i estrès. IBM accelera en la cursa per fer els centres de dades més sostenibles amb un invent que redueix cinc vegades el consum energètic per entrenar la IA. Meta ha llançat el model de text Llama 3.3 70B i suma gairebé 100 milions de nous d’usuaris de Meta AI en l’últim mes. Apple activa ChatGPT gratuït amb Siri a l’iPhone perquè la IA d’OpenAI respongui preguntes complexes. L’iOS 18.2 ja està disponible, de manera que ChatGPT i les funcions més avançades d’Apple Intelligence arriben a l’iPhone.
Detecto una presència de continguts informatius sobre IA en els mitjans generalistes cada cop més amables i generosos. Digueu-me optimista, però sembla que el catastrofisme ha reculat. L’anunci d’una inversió de l’Estat de 62 milions d’euros al Barcelona Supercomputing Center per instal·lar-hi una fàbrica d’IA pensant en les petites i mitjanes empreses hi ha contribuït. Brussel·les aposta per Catalunya i ho fa amb la IA.
Gemini 2.0 dona veu pròpia i multilingüe a la IA
Google guanya punts amb Gemini 2.0 , el seu model d’IA que genera àudio multilingüe i de forma nativa oferint una experiència més natural. L’eina transforma assistents virtuals, materials educatius i creació de contingut, afegint personalitat i autenticitat a les interaccions amb una veu realista i expressiva.
Santa arriba a ChatGPT per fer màgic el teu Nadal
OpenAI ha llançat el Mode Santa a ChatGPT, una veu festiva que simula el Pare Noel, pensada per interactuar amb els més petits. Disponible durant el desembre, aquest mode garanteix privadesa i seguretat, afegint un toc tecnològic i entranyable a les tradicions nadalenques de casa teva.
NotebookLM Plus: privadesa i usos exclusius
Google presenta NotebookLM Plus , amb més opcions per personalitzar xats, compartir quaderns i gestionar fins a 300 fonts per projecte. Aquesta versió prèmium garanteix privadesa total i ofereix estadístiques d’ús, consolidant-se com una eina imprescindible per a empreses i investigadors.
Narakeet, l’eina de veu que també parla català
Narakeet converteix textos i presentacions en vídeos narrats amb veus en més de 100 idiomes, incloent-hi el català. Ideal per a contingut educatiu i empresarial, destaca per la seva interfície intuïtiva i la generació automàtica de subtítols, simplificant el procés de creació audiovisual, segons ressenya Parèntesi .
Actualitat
Suleyman topa amb Altman sobre la IA general
Mustafa Suleyman, conseller delegat de Microsoft AI, discrepa amb Sam Altman, CEO d’OpenAI, sobre l’arribada de la intel·ligència artificial general (AGI). Mentre que Altman creu que és imminent, Suleyman estima que caldran entre cinc i set anys i diverses generacions de xips, amb grans incerteses per resoldre. Es dona la circumstància que Microsoft és inversora i sòcia d’OpenAI.
TikTok té fins al gener per evitar el bloqueig als EUA
Un tribunal nord-americà ha donat la raó al govern de Joe Biden: TikTok estarà prohibit als Estats Units si ByteDance no ven l’aplicació a una empresa americana abans del 19 de gener. L’empresa apel·larà al Suprem, mentre es juga el futur d’una de les xarxes socials més populars del món.
“No contractis humans”, la campanya polèmica d’Artisan
L’empresa emergent d’IA Artisan omple els carrers de San Francisco amb cartells que insten les empreses a substituir treballadors per IA. Amb missatges com ara “L’era dels empleats d’IA ja és aquí”, promouen el seu software Artisan, capaç d’automatitzar tasques com ara atenció al client i vendes.
El relleu de Tim Cook, clau per al futur d’Apple
El relleu de Tim Cook com a CEO d’Apple està en marxa. Els experts apunten a John Ternus i Jeff Williams com els candidats més ben situats, amb visions diferents: Ternus per a un lideratge a llarg termini i Williams per a una transició immediata si Cook deixa el càrrec de manera inesperada.