Сравнение цен на инференс LLM

В проекте TasK мне потребовалось выбрать модели LLM для обработки RAG-запросов. Помимо технических характеристик важны и цены. Ниже — сводка по «топовым» моделям 2025 года и ссылки, где их можно попробовать.

Под «топовыми» я имею в виду флагманские (frontier) и/или широко признанные модели 2025 года, которые занимают верхние позиции в лидербордах либо являются актуальными флагманами компаний.

Ориентиры качества

  • LLM Arena — открытая платформа оценки качества ответов LLM на русском языке в реальных задачах.
  • MERA (Multimodal Evaluation for Russian-language Architectures) — независимый бенчмарк для русскоязычных LLM с 23 инструктивными задачами из разных доменов.
  • LMArena.ai / Text Leaderboard — сравнение моделей по полезности ответов на реальные запросы.
  • ArtificialAnalysis.ai / Models — сравнение по качеству, скорости/задержке, стоимости токенов и размерам контекстного окна.

Методика и допущения

  • Единицы измерения. Цены приведены за 1 млн токенов (Input/Output/Cached Input).
  • Курс валюты. Для удобства сравнения параллельно долларам указан эквивалент в рублях. Пересчёт выполнен по курсу ЦБ РФ на 29.10.2025 $1 = 79.8174 ₽.
  • Cached Input. У ряда провайдеров есть кэширование запросов, в таблице это вынесено отдельной колонкой.
  • Актуальность. Цены меняются. Эта статья служит шпаргалкой для сравнения цен и может помочь выбрать модель по соотношению цена/качеству.

Сводная таблица цен

Курс пересчёта: $1 = 79.8174 ₽. Данные актуальны на 29 октября 2025.

Разработчик Модель Knowledge
cutoff
Input Output Cached
Input
Примечание
Google Gemini 2.5 Pro January 2025 $1.25
99.77₽
$10
798.17₽
$0.125
9.98₽
pricing
Google Gemini 2.5 Flash January 2025 $0.3
23.95₽
$2.5
199.54₽
$0.03
2.39₽
pricing
Google Gemini 2.5 Flash Lite January 2025 $0.1
7.98₽
$0.4
31.93₽
$0.01
0.80₽
pricing
OpenAI GPT-5 pro Sep 30, 2024 $15
1197.26₽
$120
9578.09₽
OpenAI GPT-5 Sep 30, 2024 $1.25
99.77₽
$10
798.17₽
$0.125
9.98₽
OpenAI GPT-5 nano May 31, 2024 $0.05
3.99₽
$0.40
31.93₽
$0.005
0.40₽
OpenAI gpt-oss-120B Jun 01, 2024 $0.04
3.19₽
$0.40
31.93₽
openrouter.ai
xAI Grok 4 $3
239.45₽
$15
1197.26₽
$0.75
59.86₽
xAI Grok 4 Fast $0.20
15.96₽
$0.50
39.91₽
$0.05
3.99₽
xAI Grok 4 Fast (Non-Reasoning) $0.20
15.96₽
$0.50
39.91₽
$0.05
3.99₽
Anthropic Claude 4.1 Opus $15
1197.26₽
$75
5986.31₽
$1.50
119.73₽
Anthropic Claude 4.5 Sonnet $3
239.45₽
$15
1197.26₽
$0.30
23.95₽
Anthropic Claude 4.5 Haiku $1
79.82₽
$5
399.09₽
$0.10
7.98₽
Minimax MiniMax-M2 $0.3
23.95₽
$1.2
95.78₽
pricing
Minimax MiniMax M1 $0.4
31.93₽
$2.2
175.60₽
openrouter.ai
DeepSeek DeepSeek V3.1 Terminus $0.27
21.55₽
$1
79.82₽
openrouter.ai
DeepSeek DeepSeek V3.2 Exp $0.28
22.35₽
$0.42
33.52₽
$0.028
2.23₽
pricing
Alibaba Qwen-Max $1.2
95.78₽
$6
478.90₽
$0.24
19.16₽
Alibaba Qwen-Plus $0.4
31.93₽
$1.2
95.78₽
$0.16
12.77₽
Alibaba Qwen-Flash $0.05
3.99₽
$0.4
31.93₽
Zhipu AI GLM-4.6 $0.45
35.92₽
$2
159.63₽
openrouter.ai
Zhipu AI GLM-4.5-Air $0.13
10.38₽
$0.85
67.84₽
openrouter.ai
Mistral Magistral Medium 1.2 $2
159.63₽
$5
399.09₽
openrouter.ai
Moonshot AI Kimi K2 0905 $0.6
47.89₽
$2.5
199.54₽
$0.15
11.97₽
ServiceNow Apriel-v1.5-15B-Thinker ollama.com
Сбер GigaChat 2 Max 1950₽
$24.43
1950₽
$24.43
Тарифы
Сбер GigaChat 2 Pro 1500₽
$18.79
1500₽
$18.79
Тарифы
Сбер GigaChat 2 Lite 200₽
$2.51
200₽
$2.51
Тарифы
Yandex YandexGPT Pro 1200₽
$15.03
1200₽
$15.03
Тарифы
Yandex YandexGPT Lite 200₽
$2.51
200₽
$2.51
Тарифы

Как читать таблицу и выбирать модель под RAG

  1. Для RAG обычно дорогой Input. Если ваш пайплайн активно «жует» длинные контексты, смотрим сперва столбец Input и наличие Cached Input.
  2. Output важен в длинных генерациях. Для больших ответов критичен тариф на Output.
  3. Кэширование. Обращаем внимание на наличие кэша, оно позволяет существенно экономить расходы.
  4. Российские LLM. Их цена существенно выше китайских моделей и местами приближается к топовым зарубежным флагманам — хотелось бы при этом получать соразмерное качество.

Где попробовать эти модели в режиме чата?

Google

  • https://gemini.google.com/ — удобный мультимодальный чат (текст, картинки, голос), базовый доступ в вебе бесплатный; продвинутые функции и повышенные лимиты — по подпискам Google AI Pro/Ultra. В РФ веб-версия открывается только через прокси или впн.

  • https://aistudio.google.com/ — «песочница» для разработчиков с чат-интерфейсом; пользоваться UI можно бесплатно в пределах лимитов. Для РФ официальной поддержки нет. Помогут прокси или впн.

OpenAI

  • https://chatgpt.com/ — мультимодальный чат с бесплатным уровнем и платными подписками Plus/Pro (расширенные модели и лимиты). В РФ сервис официально не поддерживается (страна вне списка поддерживаемых). Из РФ доступ возможен только через прокси или впн.

  • https://platform.openai.com — playground через API «по токенам»: тарифицируется по токенам (pay-as-you-go). Из РФ доступ возможен только через прокси или впн.

xAI

  • https://grok.com/ — чат-ассистент с «живым» поиском, кодом и генерацией изображений; есть бесплатный доступ с лимитами и платные уровни (SuperGrok/Premium+ для более мощных моделей и квот). Из РФ доступ возможен только через прокси или впн.

Minimax

  • https://agent.minimax.io/ — «агентный» ассистент (многошаговые задачи, анализ, презентации, код, мультимодальность); сейчас заявлен бесплатным. Промо-бесплатность может закончиться. Из РФ доступ есть.

DeepSeek

  • https://chat.deepseek.com/ — бесплатный веб-чат с сильными рассуждениями. В веб-чате лимиты могут меняться при нагрузке. Из РФ доступ есть.

Qwen

  • https://chat.qwen.ai/ — бесплатный чат на моделях Qwen (в т.ч. Qwen2.5/3), умеет искать в вебе, понимать картинки/видео и генерировать изображения. Из РФ доступ есть.

Z.ai

  • https://chat.z.ai/ — бесплатный чат на GLM-4.6/4.5: хорошо пишет, кодит и умеет быстро собирать презентации (AI Slides) и простые «агенты». Ограничения: часть возможностей/квот — по подписке. Из РФ доступ есть.

Mistral

  • https://chat.mistral.ai/chat — быстрый чат с загрузкой файлов, «code interpreter» и поиском; есть бесплатный план и подписка Pro (~$14.99/мес.) с повышенными лимитами/приоритетом. В бесплатном режиме действуют дневные квоты. Из РФ доступ возможен только через прокси или впн.

Moonshot AI (Kimi)

  • https://www.kimi.com/ — чат Kimi с очень длинным контекстом; новый K2 можно выбрать прямо в чате бесплатно. Из РФ доступ есть.

Сбер (GigaChat)

  • https://giga.chat/ — русскоязычный мультимодальный чат (текст/картинки/файлы) «бесплатный навсегда» для пользователей. Вход по Сбер ID.

Yandex

  • https://alice.yandex.ru/ — чат с Алисой на актуальных моделях YandexGPT, генерирует текст/изображения, умеет анализировать файлы и работать в «режиме рассуждений»; с июля 2025 заявлен как «бесплатный и без ограничений».

Где можно попробовать модели через API?

Почти у каждого разработчика есть свой API. Есть и зарубежные агрегаторы доступа к множеству провайдеров:

Начали появляться российские агрегаторы LLM: