Gemini 2.5 в разработке: тестирование и выводы

13th May 2025

Источник: Gemini 2.5: лучший ИИ в Cursor, полный обзор от ElKornacio

Введение

С выходом новых AI-моделей разработчику стало доступно больше инструментов. В этом обзоре рассматривается поведение Gemini 2.5 в Cursor на реальных задачах разработки. Автор видео делится опытом месячного использования модели, отмечает её сильные и слабые стороны. В будущем ожидаются аналогичные обзоры моделей OpenAI O3, O4-mini и GPT-4.1.

Почему не бенчмарки?

Чтобы добиться объективности, автор разработал собственную методику:

Многократное выполнение: каждый тест выполнялся 3–5 раз.
Обнуление репозитория: перед каждым запуском состояние проекта сбрасывалось.
Балльная система: использовались дробные оценки (например, 1.5/3).
Фиксация затупов и отклонений: отмечались случаи несоблюдения условий и слабой логики.

Критерии оценки:

✅ Задача решена (достигнут ожидаемый результат)
📋 Условия соблюдены (строгое следование промту)
🚀 Скорость выполнения
🤖 Качество кода
❌ Затуп (отклонение от задачи, переход в чат-режим)

Среда тестирования

Тестирование проводилось в редакторе Cursor 0.49.6 с установленным Supercode 1.43.5. Использовался премиум-доступ, но Enhanced Gemini был отключён. Активен режим usage-based, влияющий на приоритет в очереди запросов. Все промты запускались через Supercode, но воспроизводимы вручную. Технологический стек: TypeScript, ExpressJS, TypeORM, реальные репозитории автора (07:43).

Сценарии тестирования

Создание выпадающего меню (HTML/JS/CSS) — 09:03
Интерпретатор выражений (конечный автомат) — 10:42
Соблюдение стиля (без правил / с правилами) — 12:11
Проверка дублирования функций (без правил / с правилами) — 17:53
Инструменты Cursor и MCP — 22:51
Генерация документации — 25:08
Работа с большими файлами и правками — 27:55
Визуальный ввод (Pixel Perfect) — 29:41
Архитектурное проектирование — 33:01

Результаты тестов

Базовые задачи

Создание выпадающего меню: 09:03: 3/3. Простая задача, с которой Gemini 2.5 справился безошибочно.
Интерпретатор: 10:42: 3/3. Отличное качество кода, корректная архитектура. В одном случае ошибка была исправлена благодаря TypeScript-линтеру.

Работа со стилем кода

Без заданных AI-правил

Соблюдение стиля: 1.5/3. Проблемы с адаптацией к стилю проекта, использование несуществующих middleware.
Избежание дублирования: 0/3. Модель каждый раз переизобретала функцию, несмотря на её наличие в кодовой базе.

С использованием AI-правил

Соблюдение стиля: 3/3. Модель уверенно следует правилам и контексту проекта, демонстрируя агентское поведение.
Избежание дублирования: 2/3. В большинстве случаев функция была найдена и переиспользована. Один сбой связан с инструментом Cursor.

Дополнительные сценарии

Инструменты (MCP): 6/10. Хорошая интеграция, но возможны ошибки в аргументах. В остальном — выше среднего по рынку.
Документация: Быстрая генерация (до 30 секунд), минимум правок. Значительно лучше, чем у Claude и GPT-4.
Большой файл и правки: Отличный результат. Gemini справился с 400 CSS-переменными и успешно модифицировал Tailwind-конфиг. Оценка: 7/10 (снижение — за сбои модели Cursor Apply).
Визуальный ввод (Pixel Perfect): 0/3. Сходство общее есть, но расхождения в цветах, отступах и иконках не позволяют назвать результат Pixel Perfect.
Архитектура: Превосходный результат. Модель генерирует реалистичный технологический план и может поэтапно выполнять задачи в агентском режиме.

Выводы

Сильные стороны

🚀 Быстрее Claude Sonnet
📚 Контекст до 1M токенов
🤖 Хорошо использует Cursor и MCP
🧱 Отлично соблюдает правила и документацию
🛠️ Интеграция с инструментами разработки — выше среднего

Слабые места

🤷 Затупы в 1 из 10 случаев
🎨 Слабое зрение (Pixel Perfect задачи не выполняет)
🔁 Без правил склонен к дублированию и нарушению стиля

Общая оценка

Gemini 2.5 — оптимальный выбор для разработки в Cursor, особенно если вы:

работаете с большими кодовыми базами,
цените скорость и точность,
готовы настроить AI Rules и документацию.

Supercode значительно усиливает эффект, особенно при использовании архитектурного режима и готовых промтов.

Что дальше?

В этом обзоре рассматривалась только модель Gemini 2.5. В следующих видео автор планирует протестировать O3, O4-mini и GPT-4.1 по аналогичной методике с теми же задачами.