
Краткое содержание
Оценка ИИ-моделей на понимание длинного контекста
Представляем Fiction.LiveBench: первый в реальных условиях бенчмарк длинного контекста для писателей
Fiction.live предоставляет ИИ-инструменты, которые помогают авторам экономить время — создавать краткие пересказы, временные линии, базы персонажей и развивать эти документы осмысленными способами. Чтобы всё это работало эффективно, большая языковая модель (LLM) должна действительно понимать сюжет, каждого персонажа и его мотивации на глубоком и многоплановом уровне. Однако на практике современные ИИ-модели часто теряют нить повествования, не улавливают мотивацию героев и выдают текст, который полностью противоречит авторскому замыслу.
Главная проблема в том, что модели до сих пор не справляются с длинным контекстом.
Платформа Fiction.live — это огромный архив сложных и масштабных историй, поэтому мы находимся в уникальной позиции, чтобы пролить свет на проблему.
Большинство LLM заявляют, что способны обрабатывать десятки, а то и сотни тысяч токенов контекста, но реальный опыт говорит об обратном.
Чтобы действительно понимать историю, LLM должна уметь:
- отслеживать изменения со временем — например: герои ненавидят друг друга → теперь любят → снова ненавидят → теперь их ненависть превратилась в болезненную одержимость;
- делать логические выводы на основе ранее упомянутых намёков;
- различать тайны, рассказанные читателю наедине, и те, что известны персонажам;
- и многое другое.
Это специализированный тест на реальное понимание длинного контекста, который, по нашему мнению, лучше отражает задачи писательской работы, чем существующие бенчмарки вроде LongBench или RULER, проверяющие в первую очередь поиск, а не понимание.
На нашем опыте, большинство LLM в принципе могут справляться с такими задачами — но не при длинном контексте. Именно поэтому мы запускаем новый бенчмарк под названием Fiction.LiveBench, чтобы показать проблему на практике и помочь авторам выбрать подходящую модель ИИ для творческой работы.
Методология Fiction.LiveBench
На основе дюжины длинных и сложных историй, а также множества проверенных викторин, мы создали тесты на основе специально сокращённых версий этих историй. Каждый тест начинается с версии, содержащей только ключевую информацию. Мы называем это «тестом с нулевым количеством токенов» ("0"- токен тест). Затем мы сокращаем историю всё меньше и меньше, создавая более длинные версии тестов, в которых нужная информация становится лишь частью общего повествования.
Мы протестировали ведущие LLM на разных длинах контекста.
Вот пример вопроса для 8k-контекста, типичного для этого бенчмарка. Этот вопрос считается сложным — большинство моделей не справляются с ним. Тут — версия того же вопроса для 1k-контекста, с которой справляется больше моделей. Например, Grok 3 проваливает вариант на 8k, но успешно проходит на 1k. Реальный датасет собран от наших пользователей и остаётся закрытым.
Модели o1 и o3-mini тестировались с настройками по умолчанию (средний режим). Claude Sonnet 3.7-thinking использует 8k «thinking»-токенов.
Результаты
Model | 0 | 400 | 1k | 2k | 4k | 8k | 16k | 32k | 60k | 120k | 192k |
---|---|---|---|---|---|---|---|---|---|---|---|
o3 | 100 | 100 | 100 | 100 | 100 | 100 | 889 | 100.0 | 833 | 100.0 | 58.1 |
o4-mini | 100 | 100 | 100 | 100 | 77.8 | 66.7 | 778 | 55.6 | 66.7 | 62.5 | 43.8 |
o1 | 100 | 97.2 | 100 | 94.4 | 94.4 | 86.1 | 83.3 | 83.3 | 72.2 | 53.1 | |
o3-mini | 100 | 63.9 | 58.3 | 47.2 | 47.2 | 60 | 50 | 55.6 | 444 | 43.8 | |
claude-3-7-sonnet-20250219-thinking | 100 | 100 | 100 | 97.2 | 91.7 | 97.2 | 83.3 | 75.0 | 69.4 | 53.1 | |
deepseek-r1 | 100 | 82.2 | 80.6 | 76.7 | 77.8 | 83.3 | 69.4 | 63.9 | 66.7 | 33.3 | |
deepseek-r1-0528:free | 100 | 91.7 | 83.3 | 82.9 | 88.9 | 86.1 | 75 | 69.4 | 58.3 | - | - |
gemini-2.5-pro-preview-05-06 | 100 | 97.2 | 86.1 | 83.3 | 75 | 69.4 | 66.7 | 72.2 | 61.1 | 71.9 | 72.2 |
gemini-2.5-pro-preview-03-25 | 87.5 | 91.7 | 83.3 | 75 | 72.2 | 80.6 | 66.7 | 50.0 | 58.3 | 71.9 | |
gemini-2.5-pro-exp-03-25:free | 100 | 100 | 100 | 100 | 97.2 | 91.7 | 66.7 | 86.1 | 83.3 | 90.6 | |
gemini-2.5-flash-preview-05-20 | 100 | 97.2 | 94.4 | 75 | 91.7 | 72.2 | 778 | 55.6 | 69.4 | 68.8 | 65.6 |
gemini-2.5-flash-preview:thinking | 100 | 97.2 | 86.1 | 75 | 75 | 61.1 | 63.9 | 55.6 | 58.3 | 75.0 | |
qwq-32b:free | 100 | 91.7 | 94.4 | 88.9 | 94.4 | 86.1 | 83.3 | 80.6 | 61.1 | - | |
qwen3-235b-a22b:free | 100 | 90 | 89.3 | 80 | 69 | 66.7 | 677 | - | - | - | |
qwen3-32b:free | 80 | 90.9 | 93.8 | 76.7 | 86.7 | 80 | 74.2 | - | - | - | |
qwen3-30b-a3b:free | 85.7 | 58.1 | 54.8 | 51.5 | 53.3 | 50 | 406 | - | - | - | |
qwen3-14b:free | 83.3 | 64.5 | 61.8 | 59.4 | 64.7 | 51.6 | 62.5 | - | - | - | |
qwen3-8b:free | 100 | 77.4 | 63.3 | 66.7 | 74.2 | 61.3 | 62.1 | - | - | - | |
grok-3-mini-beta | 87.5 | 778 | 778 | 80.6 | 77.8 | 72.2 | 66.7 | 75.0 | 72.2 | 65.6 | |
gpt-4.1 | 100 | 91.7 | 75 | 69.4 | 63.9 | 55.6 | 63.9 | 58.3 | 62.8 | 62.5 | 56.3 |
gpt-4.1-mini | 75 | 667 | 556 | 41.7 | 444 | 41.7 | 444 | 389 | 389 | 469 | |
gpt-4.1-nano | 62.5 | 50 | 41.7 | 36.1 | 33.3 | 38.9 | 25 | 33.3 | 36.1 | 18.8 | |
chatgpt-4o-latest | 87.5 | 83.3 | 66.7 | 63.9 | 63.9 | 66.7 | 66.7 | 63.9 | 55.6 | 65.6 | |
gpt-4.5-preview | 100 | 94.4 | 83.3 | 83.3 | 83.3 | 72.2 | 63.9 | 63.9 | 66.7 | 63.9 | |
claude-opus-4 | 100 | 77.8 | 778 | 66.7 | 66.7 | 66.7 | 61.1 | 63.9 | 55.6 | 37.5 | - |
claude-sonnet-4 | 100 | 77.8 | 62.5 | 66.7 | 55.6 | 55.6 | 46.9 | 44.4 | 37.5 | 36.4 | - |
claude-3-7-sonnet-20250219 | 100 | 77.8 | 80.6 | 72.2 | 61.1 | 52.8 | 50 | 52.8 | 444 | 34.4 | |
deepseek-chat-v3-0324:free | 87.5 | 61.1 | 69.4 | 52.8 | 52.8 | 52.8 | 50 | 55.6 | 556 | - | |
gemma-3-27b-it:free | 87.5 | 44.4 | 50 | 417 | 33.3 | 38.9 | 33.3 | 25.0 | 30.6 | - | |
gemini-2.5-flash-preview | 62.5 | 63.9 | 69.4 | 61.1 | 47.2 | 44.4 | 47.2 | 44.4 | 58.3 | 53.1 | |
gemini-2.0-pro-exp-02-05:free | 87.5 | 91.7 | 80.6 | 72.2 | 61.1 | 52.8 | 41.7 | 47.2 | 41.7 | 37.5 | |
llama-4-maverick:free | 100 | 56 | 50 | 52 | 48 | 48 | 46.2 | 44.0 | 32.0 | 36.4 | |
llama-4-scout:free | 62.5 | 52 | 50 | 36 | 32 | 40 | 36 | 16.0 | 24.0 | 27.3 | |
grok-3-beta | 75 | 72.2 | 63.9 | 55.6 | 55.6 | 52.8 | 58.3 | 55.6 | 63.9 | 58.3 |
Основные выводы
- o3 теперь — очевидный лидер (SOTA — state of the art).
- DeepSeek-r1 значительно превосходит o3-mini. Отличный выбор для пользователей, ориентированных на цену. Однако его версия без «мышления» резко теряет эффективность на больших объёмах контекста.
- GPT-4.5-preview и GPT-4.1 — лучшие модели без рассуждений (non-reasoning).
- Gemini 2.5 Pro от Google — превосходна. Впервые LLM потенциально пригодна для написания с длинным контекстом. Сейчас мне особенно интересно протестировать её на больших размерах контекста.
- Gemini 2.5 Pro preview уступают оригинальной experimental-версии.
- Gemma-3 показала слабые результаты в этом тесте.
- Sonnet-3.7 от Anthropic значительно улучшилась по сравнению с 3.5. Вариант thinking использует 8000 «мысленных» токенов, чего должно быть достаточно, поскольку логика заданий довольно простая.
- Jamba стартует сразу с результатом ниже 50%, но дальнейшее падение умеренное.
- Qwen-max показывает хорошие результаты на коротких контекстах, по которым есть данные. qwq — отличная модель, лучше, чем R1.
- Qwen3 не превосходит qwq-32b, но сопоставима с моделями других компаний.
- Llama 4 — средняя. Версия Maverick по качеству близка к Gemini 2.0-0205, а Scout сопоставим с GPT-4.1-nano.
- Grok 3 — надёжная модель. В версии instruct немного уступает gpt-4o, а в версии thinking опережает o3-mini.
Что дальше?
Эти результаты подтверждают то, о чём нам давно говорят авторы: современные LLM с трудом справляются с задачами письма в условиях реального длинного контекста.
Следите за обновлениями — мы готовим продолжение в ближайшие недели! А пока загляните на Fiction.LiveBench и посмотрите, какая модель лучше всего подойдёт именно для ваших писательских задач.
Будем рады услышать ваше мнение о наших результатах. Мы также открыты к предложениям о спонсорстве — это поможет нам улучшить систему оценки. У нас есть большой потенциал для повышения как сложности, так и реалистичности тестов.
Пишите в личку здесь или в X (Twitter): https://x.com/ficlive
Почему результаты этого бенчмарка могут показаться заниженными
Обычно LLM-модели заявляют о поддержке больших окон контекста — и иногда действительно кажется, что они справляются. Другие тесты, например популярные в стиле «иголка в стоге сена», показывают отличные результаты даже при длинных контекстах.
В чём разница: наш бенчмарк сложнее, чем большинство подобных тестов, и включает вопросы более высокого уровня сложности, чем те, с которыми сталкиваются пользователи в типичном взаимодействии с LLM.
Мы сознательно разрабатывали вопросы, проверяющие понимание подтекста, а не просто поиск конкретной информации. Это требует от модели действительно прочитать и осмыслить весь контекст, а не только найти и сфокусироваться на релевантных фрагментах (чем многие LLM отлично владеют).
Наши тесты специально ориентированы на случаи, в которых стратегия простого поиска не работает — как это часто бывает при написании художественных текстов.
История изменений
-
21.02.2025 — В соответствии с распространёнными сценариями использования мы увеличили количество простых вопросов в наборе бенчмарка. Добавлены модели: gemini-2.0-pro-exp-02-05:free, deepseek-chat:free (v3) и dolphin3.0-r1-mistral-24b:free.
-
25.02.2025 — Добавлена модель Claude Sonnet 3.7.
-
28.02.2025 — Добавлена модель gpt-4.5-preview.
-
14.03.2025 — Добавлены модели qwq-32b и gemma-3-27b.
-
25.03.2025 — Добавлены deepseek-v3-0324 и gemini-2.5-pro-exp-03-25.
-
03.04.2025 — Добавлена модель quasar-alpha.
-
06.04.2025 — Добавлена модель Llama 4.
-
10.04.2025 — Добавлена модель Grok 3 и обновлена Llama 4 после исправлений от провайдера инференса (vllm). Спасибо @jon_durbin.
-
14.04.2025 — Добавлено семейство моделей GPT 4.1.
-
17.04.2025 — Добавлены o3 и o4-mini. Обе тестировались с настройками по умолчанию (средний режим).
-
17.04.2025 — Добавлены Gemini 2.5 Flash и Gemini 2.5 Thinking.
-
29.04.2025 — Добавлена модель Qwen3 (пока до 16k токенов).
-
06.05.2025 — Добавлены Gemini Pro 2.5 версии 03-25 и 05-06.
-
22.05.2025 — Добавлена Gemini Pro 2.5 Flash Preview 05-20. Расширены некоторые модели до 192k токенов. Добавлена версия Claude-4 без “thinking” режима.
-
28.05.2025 — Добавлена новая версия Deepseek R1-0528.
Этот текст является переводом статьи: Fiction.liveBench May 22 2025