Przyjemnie się ogląda nowe narzędzie Google do konwersji tekstu na wideo. Ale co dalej?

Google drażniło się z narzędziem do tworzenia filmów opartym na sztucznej inteligencji, ale nie jest jasne, kiedy – i czy – ktokolwiek spoza giganta wyszukiwarek będzie mógł zabrać się do pracy. Z pewnością przyjemnie się na to patrzy.

W środę dział badawczy Google Opublikowano wideo Ta atrakcja to nowy model konwersji tekstu na wideo, który nazywa się Lumiere.

W poście na LinkedIn powiedział lider zespołu Inbar Mosseri Gadżet powiedział „Tworzy spójne filmy wysokiej jakości za pomocą prostych podpowiedzi tekstowych”, z których korzysta firma New Atlas On mówi Graj do pięciu sekund. Przykładowe wpisy to „Puszysty mały leniwiec w pomarańczowej czapce próbujący znaleźć laptopa” i „Uciekła panda jedząca popcorn w parku”.

W roku, w którym generatywna sztuczna inteligencja stała się najgorętszą technologią, wiele uwagi poświęcono narzędziom takim jak ChatGPT, które generują tekstowe odpowiedzi na monity, lub takim jak Dall-E, które generują obrazy statyczne. Tworzenie wideo z podpowiedzi tekstowych to prawdopodobnie kolejna granica, więc jeśli Lumiere rzeczywiście będzie w stanie „zademonstrować najnowsze wyniki konwersji tekstu na wideo”, jak twierdzi Google, być może wyszliśmy już poza „ohydne okrucieństwa” wideo. Wygenerowane przez sztuczną inteligencję obrazy roku 2023.

Jak wyjaśniono w filmie, możliwości Lumiere obejmują generowanie tekstu na wideo i obrazu na wideo, a także generowanie stylizowane, czyli używanie obrazu do tworzenia filmów w podobnym stylu. Inne sztuczki obejmują możliwość uzupełnienia brakujących elementów wizualnych w filmie.

Obejmuje to możliwość animowania słynnych obrazów, takich jak Gwiaździsta noc Van Gogha („sekwencyjny obraz olejny przedstawiający gwiaździstą noc z poruszającymi się chmurami”) czy Mona Lisa Da Vinci („wyglądająca na zmęczoną kobietę ziewająca”). O ile przykład Gwiaździstej Nocy działa niemal bezbłędnie, o tyle Mona Lisa wygląda bardziej, jakby się śmiała, niż ziewała.

Chociaż wiele zwierząt – np. „wół piżmowy pasący się na pięknych polnych kwiatach” czy „wesoły słoń w urodzinowym kapeluszu spacerujący po morzu” – wygląda realistycznie, w niektórych psach jest coś dziwnego. Pudel zabawkowy jeżdżący na deskorolce i szczeniak golden retrievera biegający po parku wyglądają jak prawdziwe, ale ich twarze – a może zwłaszcza oczy – zdradzają fakt, że są dziełem CGI.

Jednak narzędzia do edycji wideo niosą ze sobą wiele obietnic. Korzystając z wideo źródłowego i podpowiedzi, takich jak „Zrobiony z kolorowych kostek zabawek” lub „Zrobiony z kwiatów”, twierdzi się, że użytkownicy mogą całkowicie zmienić styl motywu. Używając na przykład takich poleceń, jak „załóż szlafrok”, „załóż czapeczkę” i „załóż kalosze”, aby dodać te elementy do zdjęcia małej laski, Lumiere może ułatwić manipulowanie filmem tym z nas, którzy tego nie robią. t specjalizuje się w projektowaniu graficznym.

Chociaż dotychczasowe zasoby sprawiają, że Lumiere wydaje się łatwy w użyciu, opis jego działania taki nie jest. (Google nie odpowiedziało na prośbę o dodatkowy komentarz).

Strona projektu Opisać Lumiere’a jako „model dyfuzji czasoprzestrzennej”, co brzmi jak coś, nad czym pracował Doc Brown w swojej książce „Powrót do przyszłości”. Oznacza to, że model zamiany tekstu na obraz uczy się, jak tworzyć wideo, przetwarzając je w wielu skalach czasowych, co pomaga tworzyć filmy, które „przedstawiają realistyczny, różnorodny i spójny ruch” – wynika z badań Google.

Według Google zapewnia to lepsze wyniki niż obecne modele, w których „układa się w stos odległe klatki kluczowe, po których następuje doskonała rozdzielczość czasowa”.

Jason Alan Snyder, globalny dyrektor ds. technologii w agencji reklamowej Momentum Worldwide, wyjaśnił to w ten sposób: „To jak różnica między obejrzeniem przedstawienia kukiełkowego a przeżyciem baletu w Lincoln Center”.

Dodał, że dzieje się tak dlatego, że Lumiere „nie skupia się tylko na ujęciach, ale tworzy płynny ruch w każdej klatce”.

Innymi słowy, jeśli pomyślisz o tradycyjnym sposobie kręcenia filmu, będziesz musiał zbudować kluczowe sceny i później wypełnić luki.

„Lumiere jest inny” – powiedział Snyder. „Widzi w myślach cały film i rozumie, jak poruszają się postacie, jak wszystko na siebie oddziałuje i wszystko zmienia się z biegiem czasu”. „To jak narysowanie całej książki na raz i upewnienie się, że każda strona płynie idealnie”.

Zatem to „myślenie przestrzenno-czasowe” pomaga Lumiere’owi tworzyć filmy, które wyglądają realistycznie, co – dodał – oznacza brak szybkich przejść i ruchów robotów. (No może z wyjątkiem oczu szczeniaka.)

Czas pokaże.

Tymczasem, jak wiedzą fani Pięknej i Bestii, Lumiere oznacza po francusku „światło”.

Uwaga redaktora: CNET wykorzystuje silnik sztucznej inteligencji do tworzenia niektórych historii. Więcej informacji znajdziesz w tym poście.

Andrzej Stasiuk

Andrzej Stasiuk jest współpracownikiem serwisu Przecław News, gdzie zajmuje się tematyką wiadomości, polityki, biznesu, technologii, sportu, rozrywki i stylu życia. Skupia się na jasnym i rzetelnym przekazywaniu informacji, relacjonowaniu bieżących wydarzeń oraz prezentowaniu historii i tematów, które mają znaczenie dla współczesnych czytelników.

Przyjemnie się ogląda nowe narzędzie Google do konwersji tekstu na wideo. Ale co dalej?

„To wygląda jak nowy Wiedźmin” – gracze zachwyceni gameplayem z The Blood of Dawnwalker

Sony pod presją graczy. Krytyka PlayStation nie słabnie, a petycję podpisały już setki tysięcy osób

Garmin Cirqa oficjalnie zaprezentowany. Nowa opaska bez ekranu może zastąpić smartwatch

„To wygląda jak nowy Wiedźmin” – gracze zachwyceni gameplayem z The Blood of Dawnwalker

Sony pod presją graczy. Krytyka PlayStation nie słabnie, a petycję podpisały już setki tysięcy osób

Garmin Cirqa oficjalnie zaprezentowany. Nowa opaska bez ekranu może zastąpić smartwatch

Arabia Saudyjska mocno obniża ceny ropy dla Azji. Największa korekta od ponad dwóch dekad

Dodaj komentarz Anuluj pisanie odpowiedzi

Więcej artykułów

„To wygląda jak nowy Wiedźmin” – gracze zachwyceni gameplayem z The Blood of Dawnwalker

Sony pod presją graczy. Krytyka PlayStation nie słabnie, a petycję podpisały już setki tysięcy osób

Garmin Cirqa oficjalnie zaprezentowany. Nowa opaska bez ekranu może zastąpić smartwatch

Być może przegapiłeś

„To wygląda jak nowy Wiedźmin” – gracze zachwyceni gameplayem z The Blood of Dawnwalker

Sony pod presją graczy. Krytyka PlayStation nie słabnie, a petycję podpisały już setki tysięcy osób

Garmin Cirqa oficjalnie zaprezentowany. Nowa opaska bez ekranu może zastąpić smartwatch

Arabia Saudyjska mocno obniża ceny ropy dla Azji. Największa korekta od ponad dwóch dekad