Fiction.liveBench — 22 Мая 2025

Краткое содержание
Оценка ИИ-моделей на понимание длинного контекста

Представляем Fiction.LiveBench: первый в реальных условиях бенчмарк длинного контекста для писателей

Fiction.live предоставляет ИИ-инструменты, которые помогают авторам экономить время — создавать краткие пересказы, временные линии, базы персонажей и развивать эти документы осмысленными способами. Чтобы всё это работало эффективно, большая языковая модель (LLM) должна действительно понимать сюжет, каждого персонажа и его мотивации на глубоком и многоплановом уровне. Однако на практике современные ИИ-модели часто теряют нить повествования, не улавливают мотивацию героев и выдают текст, который полностью противоречит авторскому замыслу.

Главная проблема в том, что модели до сих пор не справляются с длинным контекстом.

Платформа Fiction.live — это огромный архив сложных и масштабных историй, поэтому мы находимся в уникальной позиции, чтобы пролить свет на проблему.

Большинство LLM заявляют, что способны обрабатывать десятки, а то и сотни тысяч токенов контекста, но реальный опыт говорит об обратном.

Чтобы действительно понимать историю, LLM должна уметь:

  • отслеживать изменения со временем — например: герои ненавидят друг друга → теперь любят → снова ненавидят → теперь их ненависть превратилась в болезненную одержимость;
  • делать логические выводы на основе ранее упомянутых намёков;
  • различать тайны, рассказанные читателю наедине, и те, что известны персонажам;
  • и многое другое.

Это специализированный тест на реальное понимание длинного контекста, который, по нашему мнению, лучше отражает задачи писательской работы, чем существующие бенчмарки вроде LongBench или RULER, проверяющие в первую очередь поиск, а не понимание.

На нашем опыте, большинство LLM в принципе могут справляться с такими задачами — но не при длинном контексте. Именно поэтому мы запускаем новый бенчмарк под названием Fiction.LiveBench, чтобы показать проблему на практике и помочь авторам выбрать подходящую модель ИИ для творческой работы.

Методология Fiction.LiveBench

На основе дюжины длинных и сложных историй, а также множества проверенных викторин, мы создали тесты на основе специально сокращённых версий этих историй. Каждый тест начинается с версии, содержащей только ключевую информацию. Мы называем это «тестом с нулевым количеством токенов» ("0"- токен тест). Затем мы сокращаем историю всё меньше и меньше, создавая более длинные версии тестов, в которых нужная информация становится лишь частью общего повествования.

Мы протестировали ведущие LLM на разных длинах контекста.

Вот пример вопроса для 8k-контекста, типичного для этого бенчмарка. Этот вопрос считается сложным — большинство моделей не справляются с ним. Тут — версия того же вопроса для 1k-контекста, с которой справляется больше моделей. Например, Grok 3 проваливает вариант на 8k, но успешно проходит на 1k. Реальный датасет собран от наших пользователей и остаётся закрытым.

Модели o1 и o3-mini тестировались с настройками по умолчанию (средний режим). Claude Sonnet 3.7-thinking использует 8k «thinking»-токенов.

Результаты

Model 0 400 1k 2k 4k 8k 16k 32k 60k 120k 192k
o3 100 100 100 100 100 100 889 100.0 833 100.0 58.1
o4-mini 100 100 100 100 77.8 66.7 778 55.6 66.7 62.5 43.8
o1 100 97.2 100 94.4 94.4 86.1 83.3 83.3 72.2 53.1
o3-mini 100 63.9 58.3 47.2 47.2 60 50 55.6 444 43.8
claude-3-7-sonnet-20250219-thinking 100 100 100 97.2 91.7 97.2 83.3 75.0 69.4 53.1
deepseek-r1 100 82.2 80.6 76.7 77.8 83.3 69.4 63.9 66.7 33.3
deepseek-r1-0528:free 100 91.7 83.3 82.9 88.9 86.1 75 69.4 58.3 - -
gemini-2.5-pro-preview-05-06 100 97.2 86.1 83.3 75 69.4 66.7 72.2 61.1 71.9 72.2
gemini-2.5-pro-preview-03-25 87.5 91.7 83.3 75 72.2 80.6 66.7 50.0 58.3 71.9
gemini-2.5-pro-exp-03-25:free 100 100 100 100 97.2 91.7 66.7 86.1 83.3 90.6
gemini-2.5-flash-preview-05-20 100 97.2 94.4 75 91.7 72.2 778 55.6 69.4 68.8 65.6
gemini-2.5-flash-preview:thinking 100 97.2 86.1 75 75 61.1 63.9 55.6 58.3 75.0
qwq-32b:free 100 91.7 94.4 88.9 94.4 86.1 83.3 80.6 61.1 -
qwen3-235b-a22b:free 100 90 89.3 80 69 66.7 677 - - -
qwen3-32b:free 80 90.9 93.8 76.7 86.7 80 74.2 - - -
qwen3-30b-a3b:free 85.7 58.1 54.8 51.5 53.3 50 406 - - -
qwen3-14b:free 83.3 64.5 61.8 59.4 64.7 51.6 62.5 - - -
qwen3-8b:free 100 77.4 63.3 66.7 74.2 61.3 62.1 - - -
grok-3-mini-beta 87.5 778 778 80.6 77.8 72.2 66.7 75.0 72.2 65.6
gpt-4.1 100 91.7 75 69.4 63.9 55.6 63.9 58.3 62.8 62.5 56.3
gpt-4.1-mini 75 667 556 41.7 444 41.7 444 389 389 469
gpt-4.1-nano 62.5 50 41.7 36.1 33.3 38.9 25 33.3 36.1 18.8
chatgpt-4o-latest 87.5 83.3 66.7 63.9 63.9 66.7 66.7 63.9 55.6 65.6
gpt-4.5-preview 100 94.4 83.3 83.3 83.3 72.2 63.9 63.9 66.7 63.9
claude-opus-4 100 77.8 778 66.7 66.7 66.7 61.1 63.9 55.6 37.5 -
claude-sonnet-4 100 77.8 62.5 66.7 55.6 55.6 46.9 44.4 37.5 36.4 -
claude-3-7-sonnet-20250219 100 77.8 80.6 72.2 61.1 52.8 50 52.8 444 34.4
deepseek-chat-v3-0324:free 87.5 61.1 69.4 52.8 52.8 52.8 50 55.6 556 -
gemma-3-27b-it:free 87.5 44.4 50 417 33.3 38.9 33.3 25.0 30.6 -
gemini-2.5-flash-preview 62.5 63.9 69.4 61.1 47.2 44.4 47.2 44.4 58.3 53.1
gemini-2.0-pro-exp-02-05:free 87.5 91.7 80.6 72.2 61.1 52.8 41.7 47.2 41.7 37.5
llama-4-maverick:free 100 56 50 52 48 48 46.2 44.0 32.0 36.4
llama-4-scout:free 62.5 52 50 36 32 40 36 16.0 24.0 27.3
grok-3-beta 75 72.2 63.9 55.6 55.6 52.8 58.3 55.6 63.9 58.3

Основные выводы

  • o3 теперь — очевидный лидер (SOTA — state of the art).
  • DeepSeek-r1 значительно превосходит o3-mini. Отличный выбор для пользователей, ориентированных на цену. Однако его версия без «мышления» резко теряет эффективность на больших объёмах контекста.
  • GPT-4.5-preview и GPT-4.1 — лучшие модели без рассуждений (non-reasoning).
  • Gemini 2.5 Pro от Google — превосходна. Впервые LLM потенциально пригодна для написания с длинным контекстом. Сейчас мне особенно интересно протестировать её на больших размерах контекста.
  • Gemini 2.5 Pro preview уступают оригинальной experimental-версии.
  • Gemma-3 показала слабые результаты в этом тесте.
  • Sonnet-3.7 от Anthropic значительно улучшилась по сравнению с 3.5. Вариант thinking использует 8000 «мысленных» токенов, чего должно быть достаточно, поскольку логика заданий довольно простая.
  • Jamba стартует сразу с результатом ниже 50%, но дальнейшее падение умеренное.
  • Qwen-max показывает хорошие результаты на коротких контекстах, по которым есть данные. qwq — отличная модель, лучше, чем R1.
  • Qwen3 не превосходит qwq-32b, но сопоставима с моделями других компаний.
  • Llama 4 — средняя. Версия Maverick по качеству близка к Gemini 2.0-0205, а Scout сопоставим с GPT-4.1-nano.
  • Grok 3 — надёжная модель. В версии instruct немного уступает gpt-4o, а в версии thinking опережает o3-mini.

Что дальше?

Эти результаты подтверждают то, о чём нам давно говорят авторы: современные LLM с трудом справляются с задачами письма в условиях реального длинного контекста.

Следите за обновлениями — мы готовим продолжение в ближайшие недели! А пока загляните на Fiction.LiveBench и посмотрите, какая модель лучше всего подойдёт именно для ваших писательских задач.

Будем рады услышать ваше мнение о наших результатах. Мы также открыты к предложениям о спонсорстве — это поможет нам улучшить систему оценки. У нас есть большой потенциал для повышения как сложности, так и реалистичности тестов.

Пишите в личку здесь или в X (Twitter): https://x.com/ficlive

Почему результаты этого бенчмарка могут показаться заниженными

Обычно LLM-модели заявляют о поддержке больших окон контекста — и иногда действительно кажется, что они справляются. Другие тесты, например популярные в стиле «иголка в стоге сена», показывают отличные результаты даже при длинных контекстах.

В чём разница: наш бенчмарк сложнее, чем большинство подобных тестов, и включает вопросы более высокого уровня сложности, чем те, с которыми сталкиваются пользователи в типичном взаимодействии с LLM.

Мы сознательно разрабатывали вопросы, проверяющие понимание подтекста, а не просто поиск конкретной информации. Это требует от модели действительно прочитать и осмыслить весь контекст, а не только найти и сфокусироваться на релевантных фрагментах (чем многие LLM отлично владеют).

Наши тесты специально ориентированы на случаи, в которых стратегия простого поиска не работает — как это часто бывает при написании художественных текстов.

История изменений

  • 21.02.2025 — В соответствии с распространёнными сценариями использования мы увеличили количество простых вопросов в наборе бенчмарка. Добавлены модели: gemini-2.0-pro-exp-02-05:free, deepseek-chat:free (v3) и dolphin3.0-r1-mistral-24b:free.

  • 25.02.2025 — Добавлена модель Claude Sonnet 3.7.

  • 28.02.2025 — Добавлена модель gpt-4.5-preview.

  • 14.03.2025 — Добавлены модели qwq-32b и gemma-3-27b.

  • 25.03.2025 — Добавлены deepseek-v3-0324 и gemini-2.5-pro-exp-03-25.

  • 03.04.2025 — Добавлена модель quasar-alpha.

  • 06.04.2025 — Добавлена модель Llama 4.

  • 10.04.2025 — Добавлена модель Grok 3 и обновлена Llama 4 после исправлений от провайдера инференса (vllm). Спасибо @jon_durbin.

  • 14.04.2025 — Добавлено семейство моделей GPT 4.1.

  • 17.04.2025 — Добавлены o3 и o4-mini. Обе тестировались с настройками по умолчанию (средний режим).

  • 17.04.2025 — Добавлены Gemini 2.5 Flash и Gemini 2.5 Thinking.

  • 29.04.2025 — Добавлена модель Qwen3 (пока до 16k токенов).

  • 06.05.2025 — Добавлены Gemini Pro 2.5 версии 03-25 и 05-06.

  • 22.05.2025 — Добавлена Gemini Pro 2.5 Flash Preview 05-20. Расширены некоторые модели до 192k токенов. Добавлена версия Claude-4 без “thinking” режима.

  • 28.05.2025 — Добавлена новая версия Deepseek R1-0528.


Этот текст является переводом статьи: Fiction.liveBench May 22 2025