Przecław News

Informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej w Wiadomościach Przecławia.

Apple wypuszcza model sztucznej inteligencji, który może edytować zdjęcia na podstawie poleceń tekstowych

Apple wypuszcza model sztucznej inteligencji, który może edytować zdjęcia na podstawie poleceń tekstowych

jabłko Nie jest to dziś jeden z czołowych graczy w grze AI, ale nowy model AI o otwartym kodzie źródłowym do edycji zdjęć pokazuje, co może wnieść do przestrzeni. Model ten nosi nazwę MLLM Guided Image Editing (MGIE) i wykorzystuje multimodalne modele dużego języka (MLLM) do interpretowania poleceń tekstowych podczas przetwarzania obrazów. Innymi słowy, narzędzie ma możliwość edycji obrazów na podstawie tekstu wpisywanego przez użytkownika. Chociaż nie jest to pierwsze narzędzie, które może to zrobić, „instrukcje ludzkie są czasami zbyt krótkie, aby istniejące metody mogły je uchwycić i zastosować”. Arkusz projektu (PDF) Przeczytaj.

Firma opracowała MGIE we współpracy z naukowcami z Uniwersytetu Kalifornijskiego w Santa Barbara. MLLM mają możliwość przekształcania prostych lub niejednoznacznych podpowiedzi tekstowych w bardziej szczegółowe i jasne instrukcje, które może wykonać sam edytor obrazów. Na przykład, jeśli użytkownik chciał edytować zdjęcie pizzy pepperoni, aby „uczynić ją zdrowszą”, MLLM mogą zinterpretować to jako „dodaj dodatki wegetariańskie” i jako takie edytować obraz.

Zdjęcia pizzy, gepardów, komputerów i ludzi.

Zdjęcia pizzy, gepardów, komputerów i ludzi. (jabłko)

Oprócz wprowadzania znaczących zmian w obrazach, MGIE może także przycinać, zmieniać rozmiar i obracać obrazy, a także poprawiać jasność, kontrast i balans kolorów, a wszystko to za pomocą podpowiedzi tekstowych. Może także modyfikować określone obszary obrazu i może na przykład modyfikować włosy, oczy i ubranie znajdującej się na nim osoby lub usuwać obiekty w tle.

tak jak przedsięwzięcie Uwagi, Apple wypuściło model przez githubieale zainteresowani mogą też spróbować eksperymentalny Który jest obecnie hostowany w Hugging Face Spaces. Apple nie wyjaśniło jeszcze, czy planuje wykorzystać wiedzę zdobytą w ramach tego projektu w narzędziu lub funkcji, którą mógłby zintegrować z dowolnym swoim produktem.