
Ще два роки тому різниця між зображеннями, створеними людиною, та згенерованими штучним інтелектом (ШІ) була доволі очевидною. Тоді спроба створити меню для мексиканського ресторану за допомогою моделей генерації зображень призводила до появи кулінарних “шедеврів” на кшталт “енчуїти” (enchuita), “чурірос” (churiros), “буррто” (burrto) та “маргаритас” (margartas).
Тепер же, коли я звертаюся до новітньої моделі ChatGPT Images 2.0 із запитом на меню мексиканської кухні, вона видає результат, який цілком міг би бути використаний у реальному закладі, не викликаючи підозр у відвідувачів. (Хоча севіче за ціною 350 ₴, можливо, змусило б мене засумніватися в якості риби).

Еволюція генерації зображень: від помилок до реалізму
Для порівняння, ось результат, отриманий від DALL-E 3 два роки тому (на той час ChatGPT ще не генерував зображення):

Від дифузійних до авторегресійних моделей
Генератори зображень за допомогою ШІ історично мали проблеми з написанням тексту, оскільки вони переважно використовували дифузійні моделі. Ці моделі працюють за принципом реконструкції зображень із шуму.
«Дифузійні моделі […] реконструюють наданий вхідний сигнал», — пояснював засновник і генеральний директор Lesan AI Асмелаш Тека Хадгу TechCrunch у 2024 році. «Ми можемо припустити, що написи на зображенні становлять дуже, дуже незначну частину, тому генератор зображень вивчає закономірності, які охоплюють більше пікселів».
З того часу дослідники вивчали інші механізми генерації зображень, такі як авторегресійні моделі. Вони роблять прогнози щодо того, як має виглядати зображення, і функціонують подібніше до великих мовних моделей (LLM).
На жаль, OpenAI відмовилася відповідати на запитання під час брифінгу для преси цього тижня щодо того, який тип моделі лежить в основі ChatGPT Images 2.0.
Нові можливості ChatGPT Images 2.0
Компанія, однак, пояснила, що нова модель має «можливості мислення», які дозволяють їй шукати інформацію в Інтернеті, створювати кілька зображень за одним запитом і перевіряти власні результати. Це дає змогу Images 2.0 генерувати маркетингові матеріали різних розмірів, а також багатопанельні комікси.
OpenAI також стверджує, що Images краще розуміє рендеринг нелатинських текстів мовами, такими як японська, корейська, гінді та бенгальська. Знання моделі обмежені груднем 2025 року, що може вплинути на точність генерації зображень, пов’язаних із нещодавніми новинами.
«Images 2.0 забезпечує безпрецедентний рівень деталізації та точності у створенні зображень. Вона може не тільки концептуалізувати складніші зображення, але й ефективно втілювати це бачення в життя, здатна дотримуватися інструкцій, зберігати запитувані деталі та відтворювати дрібні елементи, які часто є слабким місцем моделей генерації зображень: дрібний текст, іконографія, елементи інтерфейсу користувача, щільні композиції та тонкі стилістичні обмеження, все це з роздільною здатністю до 2K», — зазначено в прес-релізі OpenAI.
Ці можливості означають, що процес генерації зображень не такий швидкий, як введення запитання до ChatGPT, але створення чогось складного, як-от багатопанельний комікс, все одно займає лише кілька хвилин.
Усі користувачі ChatGPT та Codex матимуть доступ до Images 2.0, починаючи з вівторка; платні користувачі зможуть генерувати більш просунуті результати. Компанія також надасть доступ до API gpt-image-2, ціноутворення якого залежатиме від якості та роздільної здатності зображень.
Коли ви здійснюєте покупки за посиланнями в наших статтях, ми можемо отримувати невелику комісію. Це не впливає на нашу редакційну незалежність.
Думка ІТ-Блогу: Впровадження ChatGPT Images 2.0 значно розмиває межі між створеним людиною та ШІ контентом, що ставить нові виклики перед автентифікацією та цифровою грамотністю. Водночас, це відкриває нові горизонти для креативних індустрій та бізнесу, роблячи високоякісну візуалізацію доступнішою.
Інформація підготовлена на основі матеріалів: techcrunch.com
