Co kryje się w nowym generatywnym modelu AI ChatGPT i jak to działa?

OpenAI podniosło stawkę w wysoce konkurencyjnym świecie generatywnej sztucznej inteligencji, wprowadzając nowy model, który, jak ma nadzieję, przyciągnie więcej użytkowników do swojej platformy i odeprze wszystkich konkurentów.

GPT-4o to zaktualizowana wersja podstawowej technologii modelu dużego języka, która napędza ChatGPT. W zeszłym tygodniu krążyły pogłoski, że zostanie ona uruchomiona jako wyszukiwarka, która będzie stanowić wyzwanie dla Google, ale agencja Reuters poinformowała, że OpenAI opóźniło tę decyzję.

Sam Altman, dyrektor generalny OpenAI, zaprzeczył jakiemukolwiek wprowadzeniu na rynek – jedynie po to, by zamieścić na X informację, że firma „ciężko pracuje nad nowymi rzeczami, które naszym zdaniem przypadną ludziom do gustu”.

„O” w nazwie oznacza „omni”, a kalifornijska firma promuje GPT-4o jako coś dla każdego, co ma sens, ponieważ „omni” oznacza „wszystko” lub „wszystko” – czy OpenAI chce być w Wszędzie w naszym życiu?

Co to jest GPT-4o?

Krótka odpowiedź: według OpenAI GPT-4o to „nowy główny paradygmat, który potrafi rozumować za pomocą dźwięku, obrazu i tekstu w czasie rzeczywistym”.

Krótka odpowiedź: To najszybszy model AI w OpenAI.

Nazwa „omni” odnosi się do „kroku w kierunku bardziej naturalnej interakcji człowiek-komputer” – stwierdziła OpenAI w poniedziałkowym poście na blogu.

Jest także natywnie multimodalny, co oznacza, że może przyjmować dowolną kombinację tekstu, dźwięku i obrazu jako dane wejściowe, a także generować dowolną kombinację tekstu, dźwięku i obrazu.

Jak szybki jest GPT-4o?

Według kilku badań OpenAI twierdzi, że GPT-4o może reagować na polecenia głosowe w zaledwie 232 milisekundy, średnio 320 milisekund, co jest podobne do czasu reakcji człowieka podczas rozmowy.

Zatem GPT-4o wymaga użycia mniejszej liczby tokenów językowych, co jest podstawową jednostką AI obliczającą długość tekstu i mogącą uwzględniać znaki interpunkcyjne i spacje. Liczba tokenów różni się w zależności od języka.

Wśród języków wyróżnionych przez OpenAI, które wykorzystują mniej tokenów z GPT-4o, są arabski (53 do 26), gudżarati (145 do 33), hindi (90 do 31), koreański (45 do 27) i chiński (34 do 34 24). .

Dla perspektywy możemy dokonać porównań z badaniem Roberta Millera z 1968 r. Czas odpowiedzi w transakcjach konwersacyjnych człowiek-komputer – Który szczegółowo opisuje trzy miary responsywności komputera mainframe.

Badanie wykazało, że czas reakcji wynoszący 100 milisekund jest postrzegany jako natychmiastowy, natomiast jedna sekunda lub mniej jest uważana za wystarczająco szybką, aby użytkownicy mieli wrażenie, że swobodnie wchodzą w interakcję z informacjami. Czas reakcji dłuższy niż 10 sekund spowoduje, że użytkownik całkowicie straci uwagę.

Jak działa GPT-4o?

Najprostsza odpowiedź jest taka, że OpenAI uprościło proces konwersji danych wejściowych na wyjściowe.

W poprzednich modelach OpenAI AI do rozmowy z ChatGPT używany był tryb głosowy z opóźnieniem wynoszącym średnio 2,8 sekundy (GPT-3.5) i 5,4 sekundy (GPT-4). Tryb głosowy wykorzystuje trzy oddzielne modele: prosty model konwertuje dźwięk na tekst, GPT-3.5 lub GPT-4 odbiera tekst i wysyła go, a trzecia prosta wersja konwertuje ten tekst z powrotem na dźwięk.

„Proces ten oznacza, że główne źródło inteligencji, GPT-4, traci wiele informacji – nie może bezpośrednio obserwować tonu, wielu głośników ani szumu tła, nie może też wywołać śmiechu, śpiewu ani wyrażania emocji” – powiedział OpenAI .

Jednak dzięki GPT-4o OpenAI było w stanie skonsolidować całą tę funkcjonalność w jednym modelu, z kompleksowymi możliwościami w zakresie tekstu, obrazu i głosu, radykalnie zmniejszając ilość czasu spędzanego na przetwarzaniu informacji.

„Wszystkie wejścia i wyjścia są przetwarzane przez tę samą sieć neuronową” – powiedział OpenAI. Sieć neuronowa to technologia sztucznej inteligencji, która uczy komputery przetwarzania danych podobnie jak ludzki mózg.

Jednak OpenAI stwierdziło, że „wciąż dopiero zarysowuje powierzchnię” możliwości i ograniczeń GPT-4o, ponieważ jest to jego pierwszy model integrujący wszystkie te metody.

Co potrafi GPT-4o NIE Do?

Skoro mowa o ograniczeniach, OpenAI przyznało, że w modelu GPT-4o było ich „wiele” i obejmowały niespójności w odpowiedziach pojawiające się na pasku błędów. Pokazał nawet, jak sprytnie potrafi GPT-4o kpić.

Ponadto OpenAI stwierdziło, że w dalszym ciągu poprawia zachowanie modeli poprzez szkolenia po szkoleniu, co ma kluczowe znaczenie w rozwiązywaniu problemów związanych z bezpieczeństwem, co jest głównym punktem spornym współczesnej sztucznej inteligencji.

Firma oświadczyła, że stworzyła nowe systemy bezpieczeństwa, które mają stanowić bariery dla wyjścia audio, a także przetestowała model z ponad 70 ekspertami w dziedzinie psychologii społecznej, uprzedzeń, uczciwości i dezinformacji, aby zidentyfikować wszelkie zagrożenia, które mogą się przez nie przedostać.

„Będziemy nadal ograniczać nowe zagrożenia w miarę ich odkrywania. Zdajemy sobie sprawę, że metody akustyczne GPT-4o stwarzają szereg nowych zagrożeń” – stwierdził OpenAI.

Ile kosztuje GPT-4o?

Dobra wiadomość — jest bezpłatna dla wszystkich użytkowników, a płatni użytkownicy mogą cieszyć się nawet pięciokrotnie większą pojemnością niż ich bezpłatne odpowiedniki, powiedziała Mira Moratti, dyrektor ds. technologii w OpenAI, w prezentacji ją przedstawiającej.

Jeśli jednak nie jesteś płacącym użytkownikiem OpenAI, będzie Cię to kosztować odpowiednio 5 i 15 dolarów za 1 milion tokenów wejściowych i wyjściowych.

Umożliwienie bezpłatnego korzystania z GPT-4o powinno dobrze służyć OpenAI, co uzupełniłoby także inne płatne oferty firmy.

W sierpniu OpenAI uruchomiło miesięczny plan ChatGPT Enterprise, którego cena różni się w zależności od wymagań użytkownika. Jest to trzeci poziom po podstawowej bezpłatnej usłudze i planie Plus za 20 USD miesięcznie.

W styczniu firma uruchomiła sklep internetowy ChatGPT, który zapewnia użytkownikom dostęp do ponad trzech milionów niestandardowych wersji GPT, opracowanych przez partnerów OpenAI i ich społeczność.

OpenAI ma nadzieję przyciągnąć więcej użytkowników w miarę wzrostu konkurencji w świecie generatywnej sztucznej inteligencji – a wiele na nich czeka.

Jak OpenAI konkuruje na tym etapie ze swoimi największymi konkurentami?

Decyzja OpenAI zmierzająca do zaoferowania nowego, bezpłatnego i szybkiego modelu dużego języka wskazuje, jak bardzo jest ona zajęta konkurencją w dziedzinie generatywnej sztucznej inteligencji.

Google, prawdopodobnie największy konkurent w tej dziedzinie, ma Gemini, który był pierwszym modelem sztucznej inteligencji, który przewyższał ludzkich ekspertów w wielozadaniowym rozumieniu języka, co jest jedną z powszechnie stosowanych metod testowania wiedzy i umiejętności rozwiązywania problemów przez sztuczną inteligencję.

Dostęp do Gemini można uzyskać w ramach planu Google One AI Premium za 19,99 USD miesięcznie, który obejmuje 2 TB miejsca na dane, 10% zwrotu pieniędzy za zakupy w Google Store oraz więcej funkcji w Gmailu, Dokumentach Google, Prezentacjach Google i Google Meet.

W lutym uruchomiła Gemmę, która ma pomóc programistom i badaczom w „odpowiedzialnym budowaniu sztucznej inteligencji” i jest przeznaczona bardziej do skromnych zadań, takich jak podstawowe chatboty lub funkcje podsumowujące.

Tymczasem w marcu firma Anthropic uruchomiła Cloud 3, bezpośrednie wyzwanie dla pioniera sztucznej inteligencji OpenAI.

Firma, wspierana przez samego Google i Amazon, ma trzy poziomy – Haiku, Sonnet i Opus – każdy oferujący coraz większe możliwości w celu zaspokojenia potrzeb użytkowników.

Haiku kosztuje 0,25 dolara za milion tokenów (MTok) za dane wejściowe i 1,25 dolara za dane wyjściowe, podczas gdy Sonnet kosztuje 3 i 15 dolarów. Opus jest najdroższy i kosztuje 15 i 75 dolarów.

Dla porównania, GPT-4 Turbo OpenAI kosztuje 10 dolarów za dane wejściowe i 30 dolarów za dane wyjściowe, również z mniejszym oknem kontekstowym wynoszącym 128 000 MTok.

Microsoft, największy sponsor OpenAI, pobiera opłatę w wysokości 20 dolarów miesięcznie za usługę Copilot pro, która gwarantuje szybsze działanie i „wszystko”, co oferuje usługa. Jeśli nie chcesz płacić, dostępny jest bezpłatny poziom Copilot, który oczywiście ma ograniczoną funkcjonalność.

Jest też Grok xAI od przyjaciela, który stał się wrogiem OpenAI, Elona Muska.

Obecna wersja Groka, Grok-1.5, jest dostępna tylko dla abonentów poziomu Premium+ X, którego cena zaczyna się od 16 dolarów miesięcznie lub 168 dolarów rocznie.

Podmioty regionalne również celują w liderów: W poniedziałek Instytut Innowacji Technologicznych w Abu Zabi zaprezentował drugą wersję swojego dużego modelu językowego, Falcon 2, mającego konkurować z modelami opracowanymi przez Meta, Google i OpenAI.

Również w poniedziałek Core42, jednostka firmy G42 zajmującej się sztuczną inteligencją i chmurą z siedzibą w Abu Zabi, uruchomiła dwujęzycznego arabsko-angielskiego chatbota opracowanego w Zjednoczonych Emiratach Arabskich, Jais Chat. Można ją pobrać i używać bezpłatnie na iPhone'ach firmy Apple.

Aktualizacja: 15 maja 2024 o 10:34

Andrzej Stasiuk

Andrzej Stasiuk jest współpracownikiem serwisu Przecław News, gdzie zajmuje się tematyką wiadomości, polityki, biznesu, technologii, sportu, rozrywki i stylu życia. Skupia się na jasnym i rzetelnym przekazywaniu informacji, relacjonowaniu bieżących wydarzeń oraz prezentowaniu historii i tematów, które mają znaczenie dla współczesnych czytelników.

Co kryje się w nowym generatywnym modelu AI ChatGPT i jak to działa?

Co to jest GPT-4o?

Jak szybki jest GPT-4o?

Jak działa GPT-4o?

Co potrafi GPT-4o NIE Do?

Ile kosztuje GPT-4o?

Jak OpenAI konkuruje na tym etapie ze swoimi największymi konkurentami?

Jakie korzyści oferują serwery VPS w 2026 roku?

TRUE NORTH uruchomiła nową platformę marki „Life’s Different After” w ramach kampanii Today the Brave

Pomiar mowy ciała Wiadomości o Mirażu

Arabia Saudyjska mocno obniża ceny ropy dla Azji. Największa korekta od ponad dwóch dekad

Dino rozwija własną energetykę słoneczną. Kierowcy aut elektrycznych liczą na więcej

Rekordowe niemal 124 mld zł na obronność w 2025 roku. NIK podsumowała wydatki państwa

Polsat pokaże dziś hitową komedię romantyczną. „Tylko nie ty” wraca do telewizji

Co to jest GPT-4o?

Jak szybki jest GPT-4o?

Jak działa GPT-4o?

Co potrafi GPT-4o NIE Do?

Ile kosztuje GPT-4o?

Jak OpenAI konkuruje na tym etapie ze swoimi największymi konkurentami?

Dodaj komentarz Anuluj pisanie odpowiedzi

Więcej artykułów

Jakie korzyści oferują serwery VPS w 2026 roku?

TRUE NORTH uruchomiła nową platformę marki „Life’s Different After” w ramach kampanii Today the Brave

Pomiar mowy ciała Wiadomości o Mirażu

Być może przegapiłeś

Arabia Saudyjska mocno obniża ceny ropy dla Azji. Największa korekta od ponad dwóch dekad

Dino rozwija własną energetykę słoneczną. Kierowcy aut elektrycznych liczą na więcej

Rekordowe niemal 124 mld zł na obronność w 2025 roku. NIK podsumowała wydatki państwa

Polsat pokaże dziś hitową komedię romantyczną. „Tylko nie ty” wraca do telewizji