Bez względu na branżę, technologie sztucznej inteligencji (AI) i uczenia maszynowego (ML) zawsze starały się poprawić jakość życia ludzi. Jednym z głównych zastosowań sztucznej inteligencji w ostatnich czasach jest projektowanie i tworzenie agentów, którzy mogą wykonywać zadania decyzyjne w różnych domenach. Na przykład duże modele językowe, takie jak GPT-3 i PaLM oraz modele wizyjne, takie jak CLIP i Flamingo, okazały się wyjątkowo dobre w nauce bez strzału we własnych dziedzinach. Istnieje jednak jedna poważna wada związana ze szkoleniem tych agentów. Dzieje się tak, ponieważ czynniki te pokazują nieodłączną właściwość różnorodności środowiskowej podczas treningu. Mówiąc prościej, szkolenie w zakresie różnych zadań lub środowisk wymaga korzystania z różnych przestrzeni rządowych, co może czasami utrudniać uczenie się, transfer wiedzy i uogólnianie modeli w różnych domenach. Ponadto w przypadku zadań opartych na uczeniu się przez wzmacnianie (RL) tworzenie funkcji nagród dla określonych zadań w różnych środowiskach staje się wyzwaniem.
Pracując nad tym opisem problemu, zespół z Google Research zbadał, czy tych narzędzi można użyć do stworzenia bardziej uniwersalnych agentów. W swoich badaniach zespół skupił się w szczególności na sterowanej tekstem syntezie obrazu, w której żądany cel jest wprowadzany w postaci tekstu do wykresu, który generuje serię ramek reprezentujących zamierzony przebieg działania, po czym działania kontrolne są wyodrębniane z wygenerowane wideo. Dlatego zespół Google zaproponował globalną politykę (UniPi) odnoszącą się do wyzwań związanych z różnorodnością biologiczną i równoważną specyfikacją w swoim najnowszym artykule „Nauka globalnych zasad poprzez tworzenie wideo sterowane tekstem”. Polityka UniPi wykorzystuje tekst jako uniwersalny interfejs do opisywania zadań i wideo jako uniwersalny interfejs do komunikowania działań i zachowań obserwacyjnych w różnych sytuacjach. W szczególności zespół zaprojektował generator wideo jako plan, który akceptuje bieżącą ramkę obrazu i monit tekstowy pokazujący bieżący cel jako dane wejściowe do utworzenia ścieżki w postaci obrazu lub sekwencji wideo. Wygenerowane wideo jest następnie wprowadzane do odwróconego modelu dynamicznego, który wyodrębnia podstawowe wykonane działania. To podejście wyróżnia się, ponieważ pozwala wykorzystać uniwersalną naturę języka i wideo do uogólnienia na nowe cele i zadania w różnych środowiskach.
W ciągu ostatnich kilku lat dokonał się znaczny postęp w dziedzinie komponowania obrazów zorientowanego na tekst, co zaowocowało modelami o wyjątkowej zdolności do tworzenia wyrafinowanych obrazów. To zmotywowało zespół do wybrania tego jako zadania decyzyjnego. Podejście UniPi zaproponowane przez badaczy Google składa się głównie z czterech elementów: spójności ścieżki poprzez kafelkowanie, hierarchiczny układ, elastyczną modyfikację zachowania i dostosowanie działania do określonego zadania, które szczegółowo opisano w następujący sposób:
1. Spójność toru poprzez kafelkowanie:
Istniejące metody konwersji tekstu na wideo często tworzą filmy ze znacznie zmienionymi podstawowymi warunkami środowiskowymi. Jednak upewnienie się, że środowisko jest spójne we wszystkich sygnaturach czasowych, jest niezbędne do zbudowania dokładnego diagramu ścieżki. Dlatego, aby wymusić symetrię środowiska w modalnej syntezie wideo, badacze dodatkowo dostarczają obserwowany obraz podczas odszumiania dla każdej klatki w kompozytowym wideo. Aby utrzymać podstawowy stan środowiska w czasie, UniPi bezpośrednio kojarzy każdą zaszumioną klatkę pośrednią z obserwowanym obrazem warunkowo poprzez etapy próbkowania.
2. Planowanie hierarchiczne:
Trudno jest ustalić wszystkie niezbędne procedury podczas tworzenia planów w złożonych i zmieniających się środowiskach, które wymagają dużo czasu i procedur. Metody planowania pozwalają obejść ten problem, wykorzystując naturalną hierarchię, tworząc ogólne plany na mniejszej przestrzeni i przekształcając je w bardziej szczegółowe plany. Podobnie w procesie tworzenia wideo, UniPi najpierw tworzy filmy na poziomie przybliżonym, aby pokazać pożądane zachowanie proxy, a następnie optymalizuje je, aby uczynić je bardziej realistycznymi, wypełniając brakujące klatki i wygładzając je. Odbywa się to za pomocą hierarchii kroków, z których każdy poprawia jakość wideo, aż do osiągnięcia pożądanego poziomu szczegółowości.
3. Elastyczna modyfikacja zachowania:
Planując serię działań dla mniejszego celu, można łatwo uwzględnić zewnętrzne ograniczenia, aby zmodyfikować utworzony plan. Można tego dokonać poprzez włączenie prawdopodobieństwa a priori, które odzwierciedla wymagane ograniczenia oparte na charakterystyce planu. Te pierwsze można opisać za pomocą wyuczonego klasyfikatora lub rozkładu delta Diraca na danym obrazie, aby skierować plan na określone stany. To podejście jest również kompatybilne z UniPi. Naukowcy wykorzystali algorytm wdrażania wideo do trenowania modelu generowania wideo dostosowanego do tekstu. Algorytm ten składa się z wstępnie przeszkolonych zakodowanych funkcji językowych z konwertera tekstu na tekst (T5).
4 – Dostosowanie do procedur dla zadań:
Mały odwrotny model dynamiczny jest szkolony do przekształcania klatek wideo na działania kontrolne niskiego poziomu przy użyciu zestawu kompozytowych filmów. Ten model jest niezależny od schematu i można go trenować na mniejszym dyskretnym zbiorze danych generowanym przez symulator. Model dynamiki odwrotnej pobiera ramki wejściowe i opisy tekstowe istniejących celów, łączy ramki obrazu i generuje serię działań w celu przewidywania przyszłych kroków. Następnie agent wykonuje działania kontrolne niskiego poziomu przy użyciu kontroli w pętli zamkniętej.
Podsumowując, badacze z Google wnieśli imponujący wkład, demonstrując wartość wykorzystania tekstowego tworzenia wideo do reprezentowania zasad umożliwiających uogólnianie kombinatoryczne, wielozadaniowe uczenie się i transmisję w świecie rzeczywistym. Naukowcy ocenili swoje podejście do wielu nowatorskich zadań opartych na języku i doszli do wniosku, że UniPi dobrze uogólnia zarówno wizualne, jak i nieznane kombinacje bodźców językowych, w porównaniu z innymi liniami bazowymi, takimi jak Transformer BC, Trajectory Transformer i Diffuser. Te zachęcające wyniki podkreślają potencjał wykorzystania modeli generatywnych i ogromnych ilości dostępnych danych jako cennych zasobów do tworzenia wszechstronnych systemów podejmowania decyzji.
zeskanuj papier I Blog Google’a. Nie zapomnij dołączyć 19 000 + ML Sub RedditI kanał na discordzieI I Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres [email protected]
🚀 Sprawdź 100’s AI Tools w AI Tools Club
Khushboo Gupta jest stażystą konsultantem w MarktechPost. Obecnie zdobywa tytuł Bachelor of Technology w Indyjskim Instytucie Technologii (IIT) w Goa. Pasjonuje się obszarami uczenia maszynowego, przetwarzania języka naturalnego i tworzenia stron internetowych. Lubisz uczyć się więcej o dziedzinie technicznej, uczestnicząc w różnych wyzwaniach.
„Całkowity miłośnik kawy. Miłośnik podróży. Muzyczny ninja. Bekonowy kujon. Beeraholik.”
More Stories
Prognoza cukrzycy w Australii w 2024 r. | Wiadomości o Mirażu
„Gorąca sauna żabia” pomaga australijskim gatunkom w walce ze śmiercionośnym grzybem
Model sztucznej inteligencji poprawia reakcję pacjentów na leczenie raka