Ultima actualizare: 2 august 2024
Compania OpenAI a lansat recent un nou model de generare video numit Sora, capabil sa creeze scene complexe pornind de la instructiuni text. Conform companiei, Sora poate genera clipuri fotorealiste de pana la un minut bazate pe prompting-uri scrise de utilizatori.
Modelul poate crea scene cu mai multe personaje, miscari specifice si detalii accurate ale subiectului si fundalului, potrivit anuntului OpenAI. De asemenea, Sora intelege cum exista obiectele in lumea fizica si interpreteaza corect recuzita, generand personaje convingatoare ce exprima emotii vii.
Cum functioneaza modelul Sora

Sora poate genera un videoclip pornind de la o imagine statica, completand cadrele lipsa dintr-un clip existent sau extinzandu-l. Printre demo-urile generate de Sora si incluse in postarea OpenAI se numara o scena aeriana a Californiei in timpul goanei dupa aur, un video ce pare filmat din interiorul unui tren din Tokyo s.a.
Unele clipuri au indicii specifice AI – precum o podea ce se misca suspect intr-un muzeu – insa rezultatele sunt in general impresionante. Acum cativa ani, generatoare text-to-image precum Midjourney erau in avangarda modelelor ce transformau textul in imagini.
Competitori redutabili
Recent insa, zona video a inceput sa progreseze rapid: companii ca Runway si Pika au prezentat modele text-to-video impresionante, iar Lumiere de la Google va fi unul dintre principalii competiori ai Sorei. La fel ca Sora, Lumiere ofera instrumente text-to-video si permite crearea de clipuri pornind de la o imagine.
Momentan, Sora este disponibil doar pentru „red teamers” ce evalueaza potentialele daune si riscuri ale modelului. OpenAI ofera acces si unor artisti vizuali, designeri si cineasti pentru feedback. Compania noteaza ca modelul existent ar putea sa nu simuleze corect fizica unei scene complexe si sa nu interpreteze corect anumite instante de cauzalitate.
Provocari viitoare
OpenAI va trebui sa faca fata consecintelor clipurilor fotorealiste fals generate de AI ce ar putea fi confundate cu realitatea, la fel ca in cazul instrumentului text-to-image DALL-E 3 care primeste acum filigrane ce pot fi insa eliminate cu usurinta. Ramane de vazut cum va aborda compania aceste provocari.
Modelul Sora marcheaza o etapa importanta in dezvoltarea tehnologiilor AI generative si deschide noi orizonturi creative. impactul sau pe termen lung ramane insa de evaluat, in special in ceea ce priveste potentialele utilizari daunatoare. Responsabilitatea companiilor de tech este esentiala pentru ca astfel de inovatii sa aduca mai mult bine decat rau.































