Model "text-to-video" omogućava korisnicima da kreiraju fotorealistične klipove dužine do jedne minute, koji su bazirani na osnovu onoga što su napisali.
Sora može kreirati "složene scene s više likove, specifične tipove pokreta i precizne detalje subjekta i pozadine", saopćili su iz kompanije OpenAI. Navodi se i da model može "razumjeti kako objekti egzistiraju u fizičkom svijetu" te "precizno interpretirati rekvizite i stvarati uvjerljive likove koji izražavaju živahne emocije".
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Prije nekoliko godina su postojali text-to-image generatori kao što je Midjouney, koji su mogli pretvarati riječi u slike. Međutim, nedavno je video počeo napredovati velikom brzinom, a kompanije kao što su Runway i Pika pokazale su vlastite text-to-video modele, dok se Googleov Lumiere smatra jednim od primarnih konkurenata kompanije OpenAI na ovom polju. Slično kao i Sora, Lumiere nudi korisnicima text-to-video alate te im omogućava da kreiraju video iz nepokretne slike.
Sora je trenutno dostupna "crvenim timovima" koji procjenjuju model zbog potencijalne štete i rizika. OpenAI također nudi pristup vizuelnim umjetnicima, dizajnerima i filmskim stvaraocima kako bi dali povratne informacije. Napominje da postojeći model možda neće precizno simulirati fiziku složene scene te da možda neće pravilno interpretirati određene slučajeve uzroka i posljedice.
Ranije ove godine je OpenAi najavio da dodaje vodene žigove svom text-to-image alatu DALL-E 3, no oni se mogu lako ukloniti. Kao što je slučaj s njegovim ostalim AI proizvodima, OpenAI će se morati boriti s posljedicama lažnih, AI fotorealističnih videa koji se poglešno smatraju stvarnim.