W poniedziałek Tencent, chiński gigant internetowy znany z imperium gier wideo i aplikacji do czatowania WeChat, demaskować Nowa wersja modelu generowania wideo typu open source DynamiCrafter na GitHub. Przypominamy, że niektóre z największych chińskich firm technologicznych po cichu zwiększają wysiłki, aby dokonać zmian w dziedzinie konwersji tekstu i obrazu na wideo.
Podobnie jak inne generatywne narzędzia wideo dostępne na rynku, DynamiCrafter wykorzystuje metodę dyfuzji do przekształcania podpisów i nieruchomych obrazów w trwające kilka sekund filmy. Zainspirowany naturalnym zjawiskiem dyfuzji w fizyceModele dyfuzyjne w uczeniu maszynowym mogą przekształcać proste dane w bardziej złożone i realistyczne dane, podobnie jak cząsteczki przemieszczają się z obszaru o wysokim stężeniu do innego obszaru o niskim stężeniu.
Druga generacja programu DynamiCrafter tworzy filmy w rozdzielczości 640 x 1024 pikseli, co stanowi ulepszenie w porównaniu z pierwszą wersją z października, która obejmowała filmy w rozdzielczości 320 x 512. papier Zespół, który opublikował DynamiCrafter, zauważa, że jego technologia różni się od technologii konkurencji tym, że rozszerza zastosowanie technik animacji obrazu na „bardziej ogólną treść wizualną”.
„Podstawową ideą jest oparcie się na wcześniejszym ruchu modeli rozpowszechniania tekstu na wideo poprzez włączenie obrazu do procesu generatywnego w drodze heurystyki” – czytamy w artykule. Natomiast techniki „tradycyjne” skupiają się przede wszystkim na animowaniu naturalnych scen przy użyciu dynamiki stochastycznej (takiej jak chmury i płyny) lub ruchów specyficznych dla domeny (takich jak ludzkie włosy lub ruchy ciała).
W wersji demonstracyjnej (patrz poniżej) porównującej DynamiCrafter, Stable Video Diffusion (uruchomiony W listopadzie) i Niedawno promowany Pika Labs,Rezultat modelu Tencent wydaje się nieco bardziej żywy niż w przypadku innych modeli. Nieuchronnie wybrane próbki będą faworyzować DynamiCrafter, a żaden z modeli po kilku pierwszych próbach nie pozostawił we mnie wrażenia, że AI wkrótce będzie w stanie wyprodukować całe filmy.
Jednak generatywne filmy wzbudziły duże nadzieje jako kolejny centralny punkt w wyścigu AI po boomie na tekst i obrazy generatywne. Oczekuje się zatem, że start-upy i firmy technologiczne będą pompować zasoby w ten obszar. Nie jest to wyjątkiem w Chinach. Oprócz Tencent, ByteDance, spółka matka TikTok, Baidu i Alibaba wypuściły własne modele publikowania wideo.
Zarówno ByteDance comMagicVideo I Baidu UniVG Opublikowali dema na GitHubie, choć żadne z nich nie wydaje się jeszcze dostępne publicznie. Podobnie jak Tencent, Alibaba zbudowała własny model generowania wideo, VGen Otwarte źródłocoraz popularniejsza strategia wśród chińskich firm technologicznych chcących dotrzeć do globalnej społeczności programistów.
„Chcę być miłośnikiem telewizji. Certyfikowany entuzjasta popkultury. Stypendysta Twittera. Student amator.”
More Stories
TRUE NORTH uruchomiła nową platformę marki „Life's Different After” w ramach kampanii Today the Brave
Pomiar mowy ciała Wiadomości o Mirażu
W trakcie testu | Rower Giant Revolt 2025 ma dodatkowe schowki w dolnej rurze i twierdzi, że zapewnia większy komfort