Przecław News

Informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej w Wiadomościach Przecławia.

Przyjemnie się ogląda nowe narzędzie Google do konwersji tekstu na wideo. Ale co dalej?

Google drażniło się z narzędziem do tworzenia filmów opartym na sztucznej inteligencji, ale nie jest jasne, kiedy – i czy – ktokolwiek spoza giganta wyszukiwarek będzie mógł zabrać się do pracy. Z pewnością przyjemnie się na to patrzy.

W środę dział badawczy Google Opublikowano wideo Ta atrakcja to nowy model konwersji tekstu na wideo, który nazywa się Lumiere.

W poście na LinkedIn powiedział lider zespołu Inbar Mosseri Gadżet powiedział „Tworzy spójne filmy wysokiej jakości za pomocą prostych podpowiedzi tekstowych”, z których korzysta firma New Atlas On mówi Graj do pięciu sekund. Przykładowe wpisy to „Puszysty mały leniwiec w pomarańczowej czapce próbujący znaleźć laptopa” i „Uciekła panda jedząca popcorn w parku”.

W roku, w którym generatywna sztuczna inteligencja stała się najgorętszą technologią, wiele uwagi poświęcono narzędziom takim jak ChatGPT, które generują tekstowe odpowiedzi na monity, lub takim jak Dall-E, które generują obrazy statyczne. Tworzenie wideo z podpowiedzi tekstowych to prawdopodobnie kolejna granica, więc jeśli Lumiere rzeczywiście będzie w stanie „zademonstrować najnowsze wyniki konwersji tekstu na wideo”, jak twierdzi Google, być może wyszliśmy już poza „ohydne okrucieństwa” wideo. Wygenerowane przez sztuczną inteligencję obrazy roku 2023.

Jak wyjaśniono w filmie, możliwości Lumiere obejmują generowanie tekstu na wideo i obrazu na wideo, a także generowanie stylizowane, czyli używanie obrazu do tworzenia filmów w podobnym stylu. Inne sztuczki obejmują możliwość uzupełnienia brakujących elementów wizualnych w filmie.

Obejmuje to możliwość animowania słynnych obrazów, takich jak Gwiaździsta noc Van Gogha („sekwencyjny obraz olejny przedstawiający gwiaździstą noc z poruszającymi się chmurami”) czy Mona Lisa Da Vinci („wyglądająca na zmęczoną kobietę ziewająca”). O ile przykład Gwiaździstej Nocy działa niemal bezbłędnie, o tyle Mona Lisa wygląda bardziej, jakby się śmiała, niż ziewała.

READ  Singapurscy naukowcy tworzą energooszczędne urządzenie mikroelektroniczne

Chociaż wiele zwierząt – np. „wół piżmowy pasący się na pięknych polnych kwiatach” czy „wesoły słoń w urodzinowym kapeluszu spacerujący po morzu” – wygląda realistycznie, w niektórych psach jest coś dziwnego. Pudel zabawkowy jeżdżący na deskorolce i szczeniak golden retrievera biegający po parku wyglądają jak prawdziwe, ale ich twarze – a może zwłaszcza oczy – zdradzają fakt, że są dziełem CGI.

Jednak narzędzia do edycji wideo niosą ze sobą wiele obietnic. Korzystając z wideo źródłowego i podpowiedzi, takich jak „Zrobiony z kolorowych kostek zabawek” lub „Zrobiony z kwiatów”, twierdzi się, że użytkownicy mogą całkowicie zmienić styl motywu. Używając na przykład takich poleceń, jak „załóż szlafrok”, „załóż czapeczkę” i „załóż kalosze”, aby dodać te elementy do zdjęcia małej laski, Lumiere może ułatwić manipulowanie filmem tym z nas, którzy tego nie robią. t specjalizuje się w projektowaniu graficznym.

Chociaż dotychczasowe zasoby sprawiają, że Lumiere wydaje się łatwy w użyciu, opis jego działania taki nie jest. (Google nie odpowiedziało na prośbę o dodatkowy komentarz).

Strona projektu Opisać Lumiere’a jako „model dyfuzji czasoprzestrzennej”, co brzmi jak coś, nad czym pracował Doc Brown w swojej książce „Powrót do przyszłości”. Oznacza to, że model zamiany tekstu na obraz uczy się, jak tworzyć wideo, przetwarzając je w wielu skalach czasowych, co pomaga tworzyć filmy, które „przedstawiają realistyczny, różnorodny i spójny ruch” – wynika z badań Google.

Według Google zapewnia to lepsze wyniki niż obecne modele, w których „układa się w stos odległe klatki kluczowe, po których następuje doskonała rozdzielczość czasowa”.

Jason Alan Snyder, globalny dyrektor ds. technologii w agencji reklamowej Momentum Worldwide, wyjaśnił to w ten sposób: „To jak różnica między obejrzeniem przedstawienia kukiełkowego a przeżyciem baletu w Lincoln Center”.

Dodał, że dzieje się tak dlatego, że Lumiere „nie skupia się tylko na ujęciach, ale tworzy płynny ruch w każdej klatce”.

READ  Amazon ogłasza szybsze, inteligentniejsze urządzenia do przesyłania strumieniowego i nowy głośnik Fire TV

Innymi słowy, jeśli pomyślisz o tradycyjnym sposobie kręcenia filmu, będziesz musiał zbudować kluczowe sceny i później wypełnić luki.

„Lumiere jest inny” – powiedział Snyder. „Widzi w myślach cały film i rozumie, jak poruszają się postacie, jak wszystko na siebie oddziałuje i wszystko zmienia się z biegiem czasu”. „To jak narysowanie całej książki na raz i upewnienie się, że każda strona płynie idealnie”.

Zatem to „myślenie przestrzenno-czasowe” pomaga Lumiere’owi tworzyć filmy, które wyglądają realistycznie, co – dodał – oznacza brak szybkich przejść i ruchów robotów. (No może z wyjątkiem oczu szczeniaka.)

Czas pokaże.

Tymczasem, jak wiedzą fani Pięknej i Bestii, Lumiere oznacza po francusku „światło”.

Uwaga redaktora: CNET wykorzystuje silnik sztucznej inteligencji do tworzenia niektórych historii. Więcej informacji znajdziesz w tym poście.