Nowy model do tworzenia grafik od OpenAI analizuje polecenia użytkownika przed ich wykonaniem. Narzędzie ma ostatecznie wyeliminować dotychczasowe bolączki związane z nieczytelnymi tekstami i gubieniem detali na obrazach generowanych przez sztuczną inteligencję.
- Model ChatGPT Images 2.0 potrafi wygenerować do ośmiu spójnych wizualnie obrazów w rozdzielczości 2K z jednego polecenia, obsługując formaty od proporcji 3:1 do 1:3 oraz tworząc w pełni działające kody QR.
- Wersja dla płatnych subskrybentów oferuje nowy tryb pozwalający sztucznej inteligencji na przeszukiwanie internetu w czasie rzeczywistym i weryfikację własnych wyników.
Sztuczna inteligencja od OpenAI zaczyna myśleć nad generowanymi obrazami
Najważniejszą innowacją nowego modelu ChatGPT Images 2.0 jest zdolność do przedwstępnego analizowania zadań.
Dzięki niej algorytm nie tylko ślepo układa piksele, ale bada polecenie, które otrzymał od użytkownika i uzupełnia brakujące informacje, korzystając z obszernego kontekstu.
W płatnych subskrypcjach idzie jeszcze dalej – może na bieżąco przeszukiwać sieć, zbierać materiały referencyjne, a następnie samodzielnie weryfikować poprawność wygenerowanego obrazu tuż przed zaprezentowaniem go użytkownikowi.
Nacisk na detale, które dotychczas były ogromnym problemem algorytmów dyfuzyjnych (tworzących obrazy poprzez stopniowe usuwanie szumu, aż do momentu uzyskania efektu zgodnego z opisem) sprawia, że model radzi sobie z trudną typografią – w tym z drobnym drukiem czy generowaniem kodów QR, które można realnie zeskanować.
Wykazuje też zrozumienie alfabetów innych, niż łaciński, poprawnie osadzając na grafikach znaki w języku japońskim czy hindi. I robi to, imitując różne style wizualne – od fotorealizmu, przez komiks i mangę, aż po pixel art (pozwalając na rozdzielczość sięgającą 2K przy elastycznych proporcjach).
Profesjonaliści działający w branży kreatywnej dostali też opcję masowego tworzenia powiązanych ze sobą materiałów.
Zamiast renderowania pojedynczych grafik, model umożliwia generowanie do ośmiu wariantów obrazu z pojedynczego promptu.
Przy tym potrafi pilnować spójności tekstur, wykreowanych postaci i kontekstu, w którym się znajdują, dlatego sprawdza się przy projektowaniu komiksów czy scenopisów.
Generowanie skomplikowanych układów powiązanych ze sobą elementów wymaga jednak znacznie większej mocy obliczeniowej, dlatego zajmuje nawet kilka minut.
Jednym z najważniejszych ograniczeń systemu jest jednak aktualność jego bazy treningowej, która urywa się w grudniu 2025 roku, co może przeszkadzać w próbach ilustrowania najświeższych wydarzeń.
Od dziś, dostęp do podstawowych funkcji nowego modelu został otwarty dla wszystkich osób korzystających z ChatGPT oraz platformy programistycznej Codex.
Z kolei subskrybenci pakietów Plus, Pro oraz Enterprise zyskali wyłączny dostęp do trybu głębokiej analizy i wspomnianej wcześniej funkcji wielokrotnego generowania obrazów.
OpenAI przygotowało też interfejs API o nazwie gpt-image-2, z którego skorzystają deweloperzy.
Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->
Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->
