Сравнение цен на инференс LLM

28 октября 2025

В проекте TasK мне потребовалось выбрать модели LLM для обработки RAG-запросов. Помимо технических характеристик важны и цены. Ниже — сводка по «топовым» моделям 2025 года и ссылки, где их можно попробовать.

Под «топовыми» я имею в виду флагманские (frontier) и/или широко признанные модели 2025 года, которые занимают верхние позиции в лидербордах либо являются актуальными флагманами компаний.

Ориентиры качества

LLM Arena — открытая платформа оценки качества ответов LLM на русском языке в реальных задачах.
MERA (Multimodal Evaluation for Russian-language Architectures) — независимый бенчмарк для русскоязычных LLM с 23 инструктивными задачами из разных доменов.
LMArena.ai / Text Leaderboard — сравнение моделей по полезности ответов на реальные запросы.
ArtificialAnalysis.ai / Models — сравнение по качеству, скорости/задержке, стоимости токенов и размерам контекстного окна.

Методика и допущения

Единицы измерения. Цены приведены за 1 млн токенов (Input/Output/Cached Input).
Курс валюты. Для удобства сравнения параллельно долларам указан эквивалент в рублях. Пересчёт выполнен по курсу ЦБ РФ на 29.10.2025 $1 = 79.8174 ₽.
Cached Input. У ряда провайдеров есть кэширование запросов, в таблице это вынесено отдельной колонкой.
Актуальность. Цены меняются. Эта статья служит шпаргалкой для сравнения цен и может помочь выбрать модель по соотношению цена/качеству.

Сводная таблица цен

Курс пересчёта: $1 = 79.8174 ₽. Данные актуальны на 29 октября 2025.

Разработчик	Модель	Knowledge cutoff	Input	Output	Cached Input	Примечание
Google	Gemini 2.5 Pro	January 2025	$1.25 99.77₽	$10 798.17₽	$0.125 9.98₽	pricing
Google	Gemini 2.5 Flash	January 2025	$0.3 23.95₽	$2.5 199.54₽	$0.03 2.39₽	pricing
Google	Gemini 2.5 Flash Lite	January 2025	$0.1 7.98₽	$0.4 31.93₽	$0.01 0.80₽	pricing
OpenAI	GPT-5 pro	Sep 30, 2024	$15 1197.26₽	$120 9578.09₽
OpenAI	GPT-5	Sep 30, 2024	$1.25 99.77₽	$10 798.17₽	$0.125 9.98₽
OpenAI	GPT-5 nano	May 31, 2024	$0.05 3.99₽	$0.40 31.93₽	$0.005 0.40₽
OpenAI	gpt-oss-120B	Jun 01, 2024	$0.04 3.19₽	$0.40 31.93₽		openrouter.ai
xAI	Grok 4		$3 239.45₽	$15 1197.26₽	$0.75 59.86₽
xAI	Grok 4 Fast		$0.20 15.96₽	$0.50 39.91₽	$0.05 3.99₽
xAI	Grok 4 Fast (Non-Reasoning)		$0.20 15.96₽	$0.50 39.91₽	$0.05 3.99₽
Anthropic	Claude 4.1 Opus		$15 1197.26₽	$75 5986.31₽	$1.50 119.73₽
Anthropic	Claude 4.5 Sonnet		$3 239.45₽	$15 1197.26₽	$0.30 23.95₽
Anthropic	Claude 4.5 Haiku		$1 79.82₽	$5 399.09₽	$0.10 7.98₽
Minimax	MiniMax-M2		$0.3 23.95₽	$1.2 95.78₽		pricing
Minimax	MiniMax M1		$0.4 31.93₽	$2.2 175.60₽		openrouter.ai
DeepSeek	DeepSeek V3.1 Terminus		$0.27 21.55₽	$1 79.82₽		openrouter.ai
DeepSeek	DeepSeek V3.2 Exp		$0.28 22.35₽	$0.42 33.52₽	$0.028 2.23₽	pricing
Alibaba	Qwen-Max		$1.2 95.78₽	$6 478.90₽	$0.24 19.16₽
Alibaba	Qwen-Plus		$0.4 31.93₽	$1.2 95.78₽	$0.16 12.77₽
Alibaba	Qwen-Flash		$0.05 3.99₽	$0.4 31.93₽
Zhipu AI	GLM-4.6		$0.45 35.92₽	$2 159.63₽		openrouter.ai
Zhipu AI	GLM-4.5-Air		$0.13 10.38₽	$0.85 67.84₽		openrouter.ai
Mistral	Magistral Medium 1.2		$2 159.63₽	$5 399.09₽		openrouter.ai
Moonshot AI	Kimi K2 0905		$0.6 47.89₽	$2.5 199.54₽	$0.15 11.97₽
ServiceNow	Apriel-v1.5-15B-Thinker					ollama.com
Сбер	GigaChat 2 Max		1950₽ $24.43	1950₽ $24.43		Тарифы
Сбер	GigaChat 2 Pro		1500₽ $18.79	1500₽ $18.79		Тарифы
Сбер	GigaChat 2 Lite		200₽ $2.51	200₽ $2.51		Тарифы
Yandex	YandexGPT Pro		1200₽ $15.03	1200₽ $15.03		Тарифы
Yandex	YandexGPT Lite		200₽ $2.51	200₽ $2.51		Тарифы

Как читать таблицу и выбирать модель под RAG

Для RAG обычно дорогой Input. Если ваш пайплайн активно «жует» длинные контексты, смотрим сперва столбец Input и наличие Cached Input.
Output важен в длинных генерациях. Для больших ответов критичен тариф на Output.
Кэширование. Обращаем внимание на наличие кэша, оно позволяет существенно экономить расходы.
Российские LLM. Их цена существенно выше китайских моделей и местами приближается к топовым зарубежным флагманам — хотелось бы при этом получать соразмерное качество.

Где попробовать эти модели в режиме чата?

Google

https://gemini.google.com/ — удобный мультимодальный чат (текст, картинки, голос), базовый доступ в вебе бесплатный; продвинутые функции и повышенные лимиты — по подпискам Google AI Pro/Ultra. В РФ веб-версия открывается только через прокси или впн.
https://aistudio.google.com/ — «песочница» для разработчиков с чат-интерфейсом; пользоваться UI можно бесплатно в пределах лимитов. Для РФ официальной поддержки нет. Помогут прокси или впн.

OpenAI

https://chatgpt.com/ — мультимодальный чат с бесплатным уровнем и платными подписками Plus/Pro (расширенные модели и лимиты). В РФ сервис официально не поддерживается (страна вне списка поддерживаемых). Из РФ доступ возможен только через прокси или впн.
https://platform.openai.com — playground через API «по токенам»: тарифицируется по токенам (pay-as-you-go). Из РФ доступ возможен только через прокси или впн.

xAI

https://grok.com/ — чат-ассистент с «живым» поиском, кодом и генерацией изображений; есть бесплатный доступ с лимитами и платные уровни (SuperGrok/Premium+ для более мощных моделей и квот). Из РФ доступ возможен только через прокси или впн.

Minimax

https://agent.minimax.io/ — «агентный» ассистент (многошаговые задачи, анализ, презентации, код, мультимодальность); сейчас заявлен бесплатным. Промо-бесплатность может закончиться. Из РФ доступ есть.

DeepSeek

https://chat.deepseek.com/ — бесплатный веб-чат с сильными рассуждениями. В веб-чате лимиты могут меняться при нагрузке. Из РФ доступ есть.

Qwen

https://chat.qwen.ai/ — бесплатный чат на моделях Qwen (в т.ч. Qwen2.5/3), умеет искать в вебе, понимать картинки/видео и генерировать изображения. Из РФ доступ есть.

Z.ai

https://chat.z.ai/ — бесплатный чат на GLM-4.6/4.5: хорошо пишет, кодит и умеет быстро собирать презентации (AI Slides) и простые «агенты». Ограничения: часть возможностей/квот — по подписке. Из РФ доступ есть.

Mistral

https://chat.mistral.ai/chat — быстрый чат с загрузкой файлов, «code interpreter» и поиском; есть бесплатный план и подписка Pro (~$14.99/мес.) с повышенными лимитами/приоритетом. В бесплатном режиме действуют дневные квоты. Из РФ доступ возможен только через прокси или впн.

Moonshot AI (Kimi)

https://www.kimi.com/ — чат Kimi с очень длинным контекстом; новый K2 можно выбрать прямо в чате бесплатно. Из РФ доступ есть.

Сбер (GigaChat)

https://giga.chat/ — русскоязычный мультимодальный чат (текст/картинки/файлы) «бесплатный навсегда» для пользователей. Вход по Сбер ID.

Yandex

https://alice.yandex.ru/ — чат с Алисой на актуальных моделях YandexGPT, генерирует текст/изображения, умеет анализировать файлы и работать в «режиме рассуждений»; с июля 2025 заявлен как «бесплатный и без ограничений».

Где можно попробовать модели через API?

Почти у каждого разработчика есть свой API. Есть и зарубежные агрегаторы доступа к множеству провайдеров:

Начали появляться российские агрегаторы LLM: