Naukowcy z Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL) MIT oraz Google Research być może właśnie dokonali cyfrowej magii w postaci modelu dyfuzyjnego, który może zmieniać właściwości fizyczne obiektów na obrazach.
Nazwany Alchemiksystem umożliwia użytkownikom zmianę czterech atrybutów zarówno obrazów rzeczywistych, jak i obrazów wygenerowanych przez sztuczną inteligencję: szorstkość, metaliczność, albedo (początkowy podstawowy kolor obiektu) i przezroczystość. W modelu publikowania obrazu do obrazu można wprowadzić dowolny obraz, a następnie dostosować każdą właściwość w ciągłej skali od -1 do 1, aby utworzyć nowy obraz wizualny. Te możliwości edycji obrazów mogą obejmować ulepszanie modeli w grach wideo, rozszerzanie możliwości sztucznej inteligencji w zakresie efektów wizualnych i wzbogacanie danych szkoleniowych maszyn.
Magia Alchemist zaczyna się od modelu dyfuzji, który redukuje szum: w praktyce badacze wykorzystali Stable Diffusion 1.5, model zamiany tekstu na obraz, chwalony za realistyczne wyniki i możliwości edycji. Poprzednie prace opierały się na popularnym modelu, aby umożliwić użytkownikom wprowadzanie zmian wyższego poziomu, takich jak zamiana obiektów lub zmiana głębi obrazów. Z kolei metody CSAIL i Google Research wykorzystują ten model do skupienia się na atrybutach niższego poziomu i przeglądaniu drobniejszych szczegółów właściwości materiału obiektu za pomocą unikalnego interfejsu opartego na suwakach, który przewyższa swoje odpowiedniki.
Podczas gdy poprzednie systemy dyfuzyjne mogły wyciągnąć królika z kapelusza, aby uzyskać obraz, chemik mógł sprawić, że to samo zwierzę wyglądało na przezroczyste. System może również nadać gumowej kaczce wygląd metaliczny, usunąć złoty kolor ze złotej rybki i wypolerować stary but. Podobne możliwości mają programy takie jak Photoshop, jednak ten model potrafi zmieniać właściwości materiałów w znacznie bardziej zauważalny sposób. Na przykład modyfikacja metalicznego wyglądu obrazu wymaga kilku kroków w powszechnie używanej aplikacji.
„Kiedy patrzysz na utworzony obraz, rezultat często nie jest dokładnie taki, jaki miałeś na myśli” – mówi Praful Sharma, doktorant MIT w dziedzinie elektrotechniki i informatyki oraz główny autor nowego artykułu opisującego wyniki . Praca. „Chcesz kontrolować obraz podczas jego edycji, ale elementy sterujące w oprogramowaniu do edycji obrazów nie umożliwiają zmiany materiałów. W Alchemist wykorzystujemy realizm wyników z modeli przekształcających tekst na obraz i tworzymy suwak co pozwala nam modyfikować określoną właściwość po tym, jak obraz zostanie wyrenderowany jako „podstawowy”.
Precyzyjna kontrola
„Generatywne modele zamiany tekstu na obraz umożliwiły zwykłym użytkownikom tworzenie obrazów tak łatwo, jak pisanie zdania” – mówi Jun-Yan Zhou, adiunkt na Uniwersytecie Carnegie Mellon, który nie był zaangażowany w badanie. „Jednak kontrolowanie ich modele mogą być trudne.” . „Chociaż stworzenie wazonu jest proste, wyprodukowanie wazonu o określonych właściwościach fizycznych, takich jak przezroczystość i szorstkość, wymaga od użytkowników spędzenia godzin na eksperymentowaniu z różnymi podpowiedziami tekstowymi i losowymi nasionami. Może to być frustrujące, szczególnie dla profesjonalnych użytkowników, którzy potrzebują precyzji w swojej pracy. Oferuje rozwiązanie: „Spróbuj sprostać temu wyzwaniu, umożliwiając precyzyjną kontrolę tekstur obrazu wejściowego, jednocześnie wykorzystując surowe dane do modeli dyfuzji na dużą skalę, inspirując przyszłe prace nad bezproblemową integracją modeli generatywnych z istniejącymi interfejsami powszechnie używanego oprogramowania do tworzenia treści”.
Możliwości projektowania Alchemist mogą pomóc w modyfikowaniu wyglądu różnych modeli w grach wideo. Zastosowanie tego modelu dyfuzji w tym obszarze może pomóc twórcom przyspieszyć proces projektowania i zoptymalizować tekstury, aby pasowały do rozgrywki na danym poziomie. Co więcej, Sharma i jego zespół projektowy mogą pomóc w zmianie elementów projektów graficznych, filmów i efektów filmowych, aby zwiększyć fotorealizm i uzyskać dokładnie pożądany wygląd fizyczny.
Ta metoda może również ulepszyć dane szkoleniowe maszyn pod kątem zadań takich jak przetwarzanie. Wystawiając maszyny na działanie większej liczby tekstur, mogą lepiej zrozumieć różne elementy, które są w stanie zrozumieć w prawdziwym świecie. Chemik może również pomóc w klasyfikacji obrazu, analizując, gdzie sieć neuronowa nie rozpoznaje fizycznych zmian w obrazie.
Praca Sharmy i jego zespołu wykracza poza podobne modele i starannie redaguje tylko wymagany temat. Na przykład, gdy użytkownik poprosił różne modele o edytowanie delfina w celu uzyskania maksymalnej przezroczystości, tylko chemik był w stanie tego dokonać, pozostawiając tło oceanu bez edycji. Kiedy badacze przeszkolili porównawczy model dyfuzji InstructPix2Pix na tych samych danych, które wykorzystali w swojej metodzie porównawczej, odkryli, że Alchemist osiągnął doskonałe wyniki w zakresie dokładności. Podobnie badanie użytkowników wykazało, że model MIT był preferowany i postrzegany jako bardziej realistyczny niż jego odpowiednik.
Urzeczywistnianie rzeczywistości dzięki danym syntetycznym
Zdaniem naukowców gromadzenie prawdziwych danych było niepraktyczne. Zamiast tego przeszkolili swój model na syntetycznym zbiorze danych, losowo edytując atrybuty materiałów 1200 materiałów zastosowanych do 100 unikalnych, publicznie dostępnych obiektów 3D w Blenderze, popularnym narzędziu do projektowania grafiki komputerowej.
„Kontrola generatywnej syntezy obrazów AI była dotychczas ograniczona do tego, co można opisać w tekście” – mówi Fredo Durand, profesor informatyki na Wydziale Elektrotechniki i Informatyki (EECS) MIT oraz członek CSAIL. Starszy autor artykułu. „Ta praca otwiera nową i lepszą kontrolę cech wizualnych odziedziczonych po dziesięcioleciach badań nad grafiką komputerową”.
„Alchemist to rodzaj technologii potrzebnej, aby modele uczenia maszynowego i rozpowszechniania były praktyczne i przydatne dla społeczności CGI i projektantów graficznych” – dodaje Mark Matthews, starszy inżynier oprogramowania w Google Research i współautor. „Bez tego utkniesz w tego rodzaju niekontrolowanej przypadkowości. Przez chwilę może to być zabawne, ale w pewnym momencie trzeba wykonać prawdziwą pracę i sprawić, by była zgodna z twórczą wizją”.
Najnowszy projekt Sharmy pojawia się rok po tym, jak kierował badaniami materiał, czyli metoda uczenia maszynowego, która potrafi rozpoznać podobne materiały na obrazie. Ta poprzednia praca pokazała, w jaki sposób modele AI mogą poprawić umiejętności rozumienia materiałów i, podobnie jak w przypadku Alchemist, została dostrojona na syntetycznym zestawie danych modeli 3D z Blendera.
Jednakże Alchemist ma obecnie pewne ograniczenia. Model ma trudności z prawidłowym wnioskowaniem o oświetleniu, dlatego czasami nie nadąża za wskazówkami użytkownika. Sharma zwraca uwagę, że ta metoda czasami generuje również fizycznie nieprawdopodobne przezroczystości. Wyobraź sobie na przykład dłoń znajdującą się częściowo w pudełku płatków śniadaniowych – kiedy dostosujesz maksymalne ustawienie alchemika dla tej cechy, zobaczysz przezroczysty pojemnik bez sięgania palcami.
Naukowcy chcą rozwinąć sposób, w jaki model ten poprawia zasoby 3D w przypadku grafiki na poziomie sceny. Może również pomóc chemikowi we wnioskowaniu o właściwościach materiałów na podstawie obrazów. Według Sharmy tego typu prace mogą w przyszłości otworzyć powiązania między cechami optycznymi i mechanicznymi obiektów.
Profesor MIT EECS i członek CSAIL William T. Freeman jest także starszym autorem, dołączając do naukowców Varuna Jampaniego i naukowców z Google Research, Yuanzhen Li PhD '09, Xuhui Jia i Dmitry'ego Laguna. Praca ta została częściowo wsparta grantem National Science Foundation oraz darowiznami od Google i Amazon. Prace grupy zostaną podkreślone podczas CVPR w czerwcu.
„Chcę być miłośnikiem telewizji. Certyfikowany entuzjasta popkultury. Stypendysta Twittera. Student amator.”
More Stories
TRUE NORTH uruchomiła nową platformę marki „Life's Different After” w ramach kampanii Today the Brave
Pomiar mowy ciała Wiadomości o Mirażu
W trakcie testu | Rower Giant Revolt 2025 ma dodatkowe schowki w dolnej rurze i twierdzi, że zapewnia większy komfort