Gemini 2.5 в разработке: тестирование и выводы

Источник: Gemini 2.5: лучший ИИ в Cursor, полный обзор от ElKornacio

Введение

С выходом новых AI-моделей разработчику стало доступно больше инструментов. В этом обзоре рассматривается поведение Gemini 2.5 в Cursor на реальных задачах разработки. Автор видео делится опытом месячного использования модели, отмечает её сильные и слабые стороны. В будущем ожидаются аналогичные обзоры моделей OpenAI O3, O4-mini и GPT-4.1.

Почему не бенчмарки?

Чтобы добиться объективности, автор разработал собственную методику:

  • Многократное выполнение: каждый тест выполнялся 3–5 раз.
  • Обнуление репозитория: перед каждым запуском состояние проекта сбрасывалось.
  • Балльная система: использовались дробные оценки (например, 1.5/3).
  • Фиксация затупов и отклонений: отмечались случаи несоблюдения условий и слабой логики.

Критерии оценки:

  • ✅ Задача решена (достигнут ожидаемый результат)
  • 📋 Условия соблюдены (строгое следование промту)
  • 🚀 Скорость выполнения
  • 🤖 Качество кода
  • ❌ Затуп (отклонение от задачи, переход в чат-режим)

Среда тестирования

Тестирование проводилось в редакторе Cursor 0.49.6 с установленным Supercode 1.43.5. Использовался премиум-доступ, но Enhanced Gemini был отключён. Активен режим usage-based, влияющий на приоритет в очереди запросов. Все промты запускались через Supercode, но воспроизводимы вручную. Технологический стек: TypeScript, ExpressJS, TypeORM, реальные репозитории автора (07:43).

Сценарии тестирования

  • Создание выпадающего меню (HTML/JS/CSS)09:03
  • Интерпретатор выражений (конечный автомат)10:42
  • Соблюдение стиля (без правил / с правилами)12:11
  • Проверка дублирования функций (без правил / с правилами)17:53
  • Инструменты Cursor и MCP22:51
  • Генерация документации25:08
  • Работа с большими файлами и правками27:55
  • Визуальный ввод (Pixel Perfect)29:41
  • Архитектурное проектирование33:01

Результаты тестов

Базовые задачи

  • Создание выпадающего меню: 09:03: 3/3. Простая задача, с которой Gemini 2.5 справился безошибочно.
  • Интерпретатор: 10:42: 3/3. Отличное качество кода, корректная архитектура. В одном случае ошибка была исправлена благодаря TypeScript-линтеру.

Работа со стилем кода

Без заданных AI-правил

  • Соблюдение стиля: 1.5/3. Проблемы с адаптацией к стилю проекта, использование несуществующих middleware.
  • Избежание дублирования: 0/3. Модель каждый раз переизобретала функцию, несмотря на её наличие в кодовой базе.

С использованием AI-правил

  • Соблюдение стиля: 3/3. Модель уверенно следует правилам и контексту проекта, демонстрируя агентское поведение.
  • Избежание дублирования: 2/3. В большинстве случаев функция была найдена и переиспользована. Один сбой связан с инструментом Cursor.

Дополнительные сценарии

  • Инструменты (MCP): 6/10. Хорошая интеграция, но возможны ошибки в аргументах. В остальном — выше среднего по рынку.
  • Документация: Быстрая генерация (до 30 секунд), минимум правок. Значительно лучше, чем у Claude и GPT-4.
  • Большой файл и правки: Отличный результат. Gemini справился с 400 CSS-переменными и успешно модифицировал Tailwind-конфиг. Оценка: 7/10 (снижение — за сбои модели Cursor Apply).
  • Визуальный ввод (Pixel Perfect): 0/3. Сходство общее есть, но расхождения в цветах, отступах и иконках не позволяют назвать результат Pixel Perfect.
  • Архитектура: Превосходный результат. Модель генерирует реалистичный технологический план и может поэтапно выполнять задачи в агентском режиме.

Выводы

Сильные стороны

  • 🚀 Быстрее Claude Sonnet
  • 📚 Контекст до 1M токенов
  • 🤖 Хорошо использует Cursor и MCP
  • 🧱 Отлично соблюдает правила и документацию
  • 🛠️ Интеграция с инструментами разработки — выше среднего

Слабые места

  • 🤷 Затупы в 1 из 10 случаев
  • 🎨 Слабое зрение (Pixel Perfect задачи не выполняет)
  • 🔁 Без правил склонен к дублированию и нарушению стиля

Общая оценка

Gemini 2.5 — оптимальный выбор для разработки в Cursor, особенно если вы:

  • работаете с большими кодовыми базами,
  • цените скорость и точность,
  • готовы настроить AI Rules и документацию.

Supercode значительно усиливает эффект, особенно при использовании архитектурного режима и готовых промтов.

Что дальше?

В этом обзоре рассматривалась только модель Gemini 2.5. В следующих видео автор планирует протестировать O3, O4-mini и GPT-4.1 по аналогичной методике с теми же задачами.


Источник: Gemini 2.5: лучший ИИ в Cursor, полный обзор от ElKornacio