В проекте TasK мне потребовалось выбрать модели LLM для обработки RAG-запросов. Помимо технических характеристик важны и цены. Ниже — сводка по «топовым» моделям 2025 года и ссылки, где их можно попробовать.
Под «топовыми» я имею в виду флагманские (frontier) и/или широко признанные модели 2025 года, которые занимают верхние позиции в лидербордах либо являются актуальными флагманами компаний.
Ориентиры качества
- LLM Arena — открытая платформа оценки качества ответов LLM на русском языке в реальных задачах.
- MERA (Multimodal Evaluation for Russian-language Architectures) — независимый бенчмарк для русскоязычных LLM с 23 инструктивными задачами из разных доменов.
- LMArena.ai / Text Leaderboard — сравнение моделей по полезности ответов на реальные запросы.
- ArtificialAnalysis.ai / Models — сравнение по качеству, скорости/задержке, стоимости токенов и размерам контекстного окна.
Методика и допущения
- Единицы измерения. Цены приведены за 1 млн токенов (Input/Output/Cached Input).
- Курс валюты. Для удобства сравнения параллельно долларам указан эквивалент в рублях. Пересчёт выполнен по курсу ЦБ РФ на 29.10.2025 $1 = 79.8174 ₽.
- Cached Input. У ряда провайдеров есть кэширование запросов, в таблице это вынесено отдельной колонкой.
- Актуальность. Цены меняются. Эта статья служит шпаргалкой для сравнения цен и может помочь выбрать модель по соотношению цена/качеству.
Сводная таблица цен
Курс пересчёта: $1 = 79.8174 ₽. Данные актуальны на 29 октября 2025.
| Разработчик | Модель | Knowledge cutoff |
Input | Output | Cached Input |
Примечание |
|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | January 2025 | $1.25 99.77₽ |
$10 798.17₽ |
$0.125 9.98₽ |
pricing | |
| Gemini 2.5 Flash | January 2025 | $0.3 23.95₽ |
$2.5 199.54₽ |
$0.03 2.39₽ |
pricing | |
| Gemini 2.5 Flash Lite | January 2025 | $0.1 7.98₽ |
$0.4 31.93₽ |
$0.01 0.80₽ |
pricing | |
| OpenAI | GPT-5 pro | Sep 30, 2024 | $15 1197.26₽ |
$120 9578.09₽ |
||
| OpenAI | GPT-5 | Sep 30, 2024 | $1.25 99.77₽ |
$10 798.17₽ |
$0.125 9.98₽ |
|
| OpenAI | GPT-5 nano | May 31, 2024 | $0.05 3.99₽ |
$0.40 31.93₽ |
$0.005 0.40₽ |
|
| OpenAI | gpt-oss-120B | Jun 01, 2024 | $0.04 3.19₽ |
$0.40 31.93₽ |
openrouter.ai | |
| xAI | Grok 4 | $3 239.45₽ |
$15 1197.26₽ |
$0.75 59.86₽ |
||
| xAI | Grok 4 Fast | $0.20 15.96₽ |
$0.50 39.91₽ |
$0.05 3.99₽ |
||
| xAI | Grok 4 Fast (Non-Reasoning) | $0.20 15.96₽ |
$0.50 39.91₽ |
$0.05 3.99₽ |
||
| Anthropic | Claude 4.1 Opus | $15 1197.26₽ |
$75 5986.31₽ |
$1.50 119.73₽ |
||
| Anthropic | Claude 4.5 Sonnet | $3 239.45₽ |
$15 1197.26₽ |
$0.30 23.95₽ |
||
| Anthropic | Claude 4.5 Haiku | $1 79.82₽ |
$5 399.09₽ |
$0.10 7.98₽ |
||
| Minimax | MiniMax-M2 | $0.3 23.95₽ |
$1.2 95.78₽ |
pricing | ||
| Minimax | MiniMax M1 | $0.4 31.93₽ |
$2.2 175.60₽ |
openrouter.ai | ||
| DeepSeek | DeepSeek V3.1 Terminus | $0.27 21.55₽ |
$1 79.82₽ |
openrouter.ai | ||
| DeepSeek | DeepSeek V3.2 Exp | $0.28 22.35₽ |
$0.42 33.52₽ |
$0.028 2.23₽ |
pricing | |
| Alibaba | Qwen-Max | $1.2 95.78₽ |
$6 478.90₽ |
$0.24 19.16₽ |
||
| Alibaba | Qwen-Plus | $0.4 31.93₽ |
$1.2 95.78₽ |
$0.16 12.77₽ |
||
| Alibaba | Qwen-Flash | $0.05 3.99₽ |
$0.4 31.93₽ |
|||
| Zhipu AI | GLM-4.6 | $0.45 35.92₽ |
$2 159.63₽ |
openrouter.ai | ||
| Zhipu AI | GLM-4.5-Air | $0.13 10.38₽ |
$0.85 67.84₽ |
openrouter.ai | ||
| Mistral | Magistral Medium 1.2 | $2 159.63₽ |
$5 399.09₽ |
openrouter.ai | ||
| Moonshot AI | Kimi K2 0905 | $0.6 47.89₽ |
$2.5 199.54₽ |
$0.15 11.97₽ |
||
| ServiceNow | Apriel-v1.5-15B-Thinker | ollama.com | ||||
| Сбер | GigaChat 2 Max | 1950₽ $24.43 |
1950₽ $24.43 |
Тарифы | ||
| Сбер | GigaChat 2 Pro | 1500₽ $18.79 |
1500₽ $18.79 |
Тарифы | ||
| Сбер | GigaChat 2 Lite | 200₽ $2.51 |
200₽ $2.51 |
Тарифы | ||
| Yandex | YandexGPT Pro | 1200₽ $15.03 |
1200₽ $15.03 |
Тарифы | ||
| Yandex | YandexGPT Lite | 200₽ $2.51 |
200₽ $2.51 |
Тарифы |
Как читать таблицу и выбирать модель под RAG
- Для RAG обычно дорогой Input. Если ваш пайплайн активно «жует» длинные контексты, смотрим сперва столбец Input и наличие Cached Input.
- Output важен в длинных генерациях. Для больших ответов критичен тариф на Output.
- Кэширование. Обращаем внимание на наличие кэша, оно позволяет существенно экономить расходы.
- Российские LLM. Их цена существенно выше китайских моделей и местами приближается к топовым зарубежным флагманам — хотелось бы при этом получать соразмерное качество.
Где попробовать эти модели в режиме чата?
-
https://gemini.google.com/ — удобный мультимодальный чат (текст, картинки, голос), базовый доступ в вебе бесплатный; продвинутые функции и повышенные лимиты — по подпискам Google AI Pro/Ultra. В РФ веб-версия открывается только через прокси или впн.
-
https://aistudio.google.com/ — «песочница» для разработчиков с чат-интерфейсом; пользоваться UI можно бесплатно в пределах лимитов. Для РФ официальной поддержки нет. Помогут прокси или впн.
OpenAI
-
https://chatgpt.com/ — мультимодальный чат с бесплатным уровнем и платными подписками Plus/Pro (расширенные модели и лимиты). В РФ сервис официально не поддерживается (страна вне списка поддерживаемых). Из РФ доступ возможен только через прокси или впн.
-
https://platform.openai.com — playground через API «по токенам»: тарифицируется по токенам (pay-as-you-go). Из РФ доступ возможен только через прокси или впн.
xAI
- https://grok.com/ — чат-ассистент с «живым» поиском, кодом и генерацией изображений; есть бесплатный доступ с лимитами и платные уровни (SuperGrok/Premium+ для более мощных моделей и квот). Из РФ доступ возможен только через прокси или впн.
Minimax
- https://agent.minimax.io/ — «агентный» ассистент (многошаговые задачи, анализ, презентации, код, мультимодальность); сейчас заявлен бесплатным. Промо-бесплатность может закончиться. Из РФ доступ есть.
DeepSeek
- https://chat.deepseek.com/ — бесплатный веб-чат с сильными рассуждениями. В веб-чате лимиты могут меняться при нагрузке. Из РФ доступ есть.
Qwen
- https://chat.qwen.ai/ — бесплатный чат на моделях Qwen (в т.ч. Qwen2.5/3), умеет искать в вебе, понимать картинки/видео и генерировать изображения. Из РФ доступ есть.
Z.ai
- https://chat.z.ai/ — бесплатный чат на GLM-4.6/4.5: хорошо пишет, кодит и умеет быстро собирать презентации (AI Slides) и простые «агенты». Ограничения: часть возможностей/квот — по подписке. Из РФ доступ есть.
Mistral
- https://chat.mistral.ai/chat — быстрый чат с загрузкой файлов, «code interpreter» и поиском; есть бесплатный план и подписка Pro (~$14.99/мес.) с повышенными лимитами/приоритетом. В бесплатном режиме действуют дневные квоты. Из РФ доступ возможен только через прокси или впн.
Moonshot AI (Kimi)
- https://www.kimi.com/ — чат Kimi с очень длинным контекстом; новый K2 можно выбрать прямо в чате бесплатно. Из РФ доступ есть.
Сбер (GigaChat)
- https://giga.chat/ — русскоязычный мультимодальный чат (текст/картинки/файлы) «бесплатный навсегда» для пользователей. Вход по Сбер ID.
Yandex
- https://alice.yandex.ru/ — чат с Алисой на актуальных моделях YandexGPT, генерирует текст/изображения, умеет анализировать файлы и работать в «режиме рассуждений»; с июля 2025 заявлен как «бесплатный и без ограничений».
Где можно попробовать модели через API?
Почти у каждого разработчика есть свой API. Есть и зарубежные агрегаторы доступа к множеству провайдеров:
Начали появляться российские агрегаторы LLM:
dmitry prikotov