
25 марта 2025 года OpenAI представила в блоге "Introducing 4o Image Generation" функции для работы с изображениями в ChatGPT: генерацию и редактирование прямо в чате. Это может пригодиться для создания иллюстраций, мемов, обложек и других визуальных материалов. Это работает на новой модели GPT-4o. Ниже — краткий обзор из официального блога OpenAI "Introducing 4o Image Generation".
Улучшенная модель генерации изображений
Обновление построено на авторегрессионной модели. Она даёт несколько улучшений:
- Точная генерация. Изображения реалистичнее и лучше соответствуют запросу.
- Читаемый текст. Надписи легко разобрать.
- Правильная композиция. Объекты располагаются логично.
Редактирование изображений (inpainting)
Изображения можно менять прямо в чате — как созданные ChatGPT, так и загруженные пользователем:
- Щёлкнуть по нужной области.
- Написать, что изменить (например: "фон — зелёный" или "замени собаку на кошку").
- Модель перерисует картинку с учётом этих изменений.
Удобно для визуальных правок и экспериментов.
Разные стили и гибкость
GPT-4o поддерживает разные стили:
- фотореализм, цифровая живопись;
- схемы, мультяшные изображения.
Можно указать стиль прямо в запросе: "в стиле студии Ghibli" или "как обложка фантастики 70-х".
Примеры
Я пробовал использовать эти функции на своих фотографиях — всё происходит прямо в чате. Результатами хочу поделиться:
- Загружаю фото, прошу "сделай в стиле аниме" — и получаю классный результат:
- Затем прошу поменять фамилию на шевроне:
Еще несколько прикольных примеров:
Ограничения и защита
Чтобы избежать злоупотреблений, OpenAI внедрила ограничения:
- Запрещены изображения известных людей.
- Не допускается копирование авторских стилей.
- Фильтруется запрещённый контент: сцены насилия и т. п.
Где это работает
Функции доступны в ChatGPT:
- Полный доступ — у подписок Plus, Team и Enterprise.
- Ограничения — в бесплатной версии (например, до 3 изображений в день).
Генерация изображений стала частью стандартных возможностей ChatGPT и сочетается с другими функциями. Например, можно сгенерировать описание продукта, а затем сразу получить его визуализацию. Это также работает с анализом данных — модель создаёт графики и схемы на основе текстового ввода.
Работать с визуальными идеями стало проще и удобнее.