Эффект Даннинга–Крюгера у больших языковых моделей (LLM)

Проявление избыточной уверенности у LLM

Исследователи отмечают, что современные большие языковые модели демонстрируют смещённую уверенность, аналогичную эффекту Даннинга–Крюгера у людей. Проще говоря, LLM часто проявляют чрезмерную уверенность в своих ответах, даже если они ошибочны. Например, в недавнем эксперименте пять различных моделей LLM систематически переоценивали вероятность правильности своих ответов – на 20–60% выше, чем это соответствовало реальности arxiv.org. При схожей точности ответа, люди показывали гораздо меньшую избыточную уверенность. В том же исследовании группа испытуемых отвечала на вопросы правильно в ~66% случаев и оценивала свою точность ~в 70%, то есть завышали оценку своей точности всего на ~4%. Любая из LLM с сопоставимой точностью при этом демонстрировала значительно большую самоуверенность.

Особенно важно, что различие в поведении LLM и человека усиливается по мере усложнения задач. Когда задача становится труднее и модель менее уверена, её смещение только усиливается – точность ответов снижается быстрее, чем самооценка уверенности. Напротив, люди в подобных условиях обычно уменьшают свою уверенность и становятся осторожнее. Графики из того же исследования показывают: у LLM биас (разница между заявленной уверенностью и реальной точностью) резко растёт на неуверенных ответах, тогда как у людей при низкой уверенности проявляется даже склонность к недооценке (человек может полагать, что ошибся, тогда как на деле его вероятность быть правым оказывается выше). Авторы прямо называют эту картину «ярким проявлением эффекта Даннинга–Крюгера» у моделей. LLM «не знают, что не знают» — им недоступна внутренняя рефлексия для осознания пробелов в знаниях, поэтому они подставляют наиболее правдоподобную информацию из тренировочных данных и не сигнализируют о своей неуверенности. В итоге модель может демонстрировать уверенность даже в тех случаях, когда у неё отсутствуют необходимые знания.

Примечательно, что более совершенные модели не избавлены от этой проблемы. Хотя GPT-4 и аналогичные модели нового поколения показывают более высокую точность, у них зачастую наблюдается более выраженный «градиент уверенности» — то есть расхождение между заявленной и фактической точностью у них более выражено, чем у людей. В эксперименте, когда модели были на 100% уверены в ответе, их точность варьировалась – лучшие модели (GPT-4, GPT-3.5 и Llama 2) всё равно ошибались в ~14–20% таких случаев. Для сравнения, люди, полностью уверенные в своём ответе, были правы только в ~81% случаев – это тоже переоценка своих знаний, но человеческая самоуверенность на сложных вопросах оставалась стабильной или снижалась, тогда как у LLM — значительно возрастала. Иными словами, LLM демонстрируют особенно выраженную смещённую уверенность именно в условиях низкой компетентности — и это как раз отражает суть эффекта Даннинга–Крюгера: чем меньше знаний — тем больше уверенности.

Исследования по эффекту Даннинга–Крюгера в LLM

Опубликовано уже несколько исследований, напрямую анализирующих этот феномен. В статье Fengfei Sun и др. (4 May 2025) Large Language Models are overconfident and amplify human bias авторы количественно измерили уверенность LLM. Они использовали вопросы с известными ответами, ранее не встречавшимися модели, и просили её не только дать ответ, но и указать степень уверенности в нём. Ключевые выводы: все проверенные LLM оказались переуверенными, причём величина переоценки составляла от ~20% до ~60% в зависимости от модели. Более продвинутые модели (например, GPT-4 или проприетарная GPT-o1 от OpenAI) были точнее в ответах, но их самоуверенность оказалась непропорционально высокой — почти такой же, как у более слабых моделей. Это говорит о том, что различия в точности между моделями никак не отражаются на уровне их самоуверенности — все модели сообщали высокую уверенность даже там, где менее совершенные из них часто ошибаются.

Другое наблюдение из этой работы: у LLM смещение уверенности увеличивается на трудных задачах, а у людей – наоборот уменьшается. На графике сравнения человека и моделей видно, что если снизить уверенность со 100% до 50%, точность LLM снижается заметно быстрее, чем у людей, в результате модели выглядят ещё более переуверенными на фоне снижения точности, а у людей при такой уверенности проявляется лёгкая склонность к недооценке своих знаний (их реальная точность ~54%). Исследователи интерпретируют это как то, что LLM не обладают инстинктом «я этого не знаю», который есть у людей. Человек может распознать в вопросе незнакомую тему и сознательно занизить свою уверенность, а модель — нет: она всегда предложит какой-то ответ, опираясь на усвоенные статистические зависимости, и оценивает его по аналогии с известными шаблонами, даже если вопрос выходит за пределы её знаний. Это и есть проявление эффекта Даннинга–Крюгера: «некомпетентный не осознаёт своей некомпетентности», однако в случае модели такая “неосознанность” обусловлена архитектурными ограничениями.

Эффект Даннинга–Крюгера также рассматривается в исследовании Do Large Language Models Show Human-like Biases? Exploring Confidence—Competence Gap in AI. Они исследовали «confidence–competence gap» у семи разных моделей, включая GPT-3.5, GPT-4 и другие. Исследование подтвердило, что GPT-4 иногда демонстрирует высокую уверенность при неправильном ответе, а также зафиксированы обратные случаи — когда модель даёт правильный ответ, но выражает лишь умеренную уверенность. Таким образом, и переоценка, и недооценка собственной компетентности наблюдаются у ИИ, несмотря на отсутствие у моделей самосознания. Авторы подчеркивают: это «тонкое несоответствие между самоуверенностью и реальной способностью» у моделей похоже на человеческий эффект Даннинга–Крюгера, хотя причины, разумеется, иные — не когнитивные, а архитектурные.

В совокупности современные исследования сходятся: большие языковые модели нередко демонстрируют «синдром всезнайки» – они с уверенностью дают ответ, даже если он оказывается неверным или основан на галлюцинации. Такое поведение рассматривается как серьёзная проблема для доверия к ИИ и активно изучается.

Влияние различных стилей промптинга на уверенность модели

Возникает вопрос: можем ли мы повлиять на уровень уверенности LLM, изменяя стиль формулировки запроса (промпта) и снизить избыточную самоуверенность модели? Недавние работы показывают, что стиль промпта действительно влияет на калибровку уверенности модели arxiv.org. Ниже приведены основные подходы и их эффекты:

  • Прямое требование уверенности. Один из простейших приёмов – просить модель явно указать, насколько она уверена в своём ответе (например: «Ответь на вопрос и укажи вероятность того, что ответ верен»). Это обеспечивает вербализацию уверенности. Однако без дополнительных мер такой подход выявляет проблему – LLM склонны завышать эту самооценку. Экспериментально показано, что если просто попросить чат-модель написать «Я уверен на X%», она часто указывает высокий X даже в тех случаях, когда ответ ошибочен arxiv.org. Причина может быть в том, что модель подражает стилю человеческих ответов из обучающих данных, где люди редко выражают сомнения. Тем не менее, само присутствие численной оценки уже полезно: можно откалибровать эти значения на основе проверочных вопросов или хотя бы понять относительную уверенность модели между разными ответами.

  • Human-inspired prompts (имитирующие человека). Подход, опробованный Miao Xiong и др. arxiv.org, заключается в использовании таких формулировок запроса, которые побуждают модель выражать неуверенность похожим на человека образом. Например, добавление фраз вроде: «Если не уверены, то скажите об этом…», «Подумай, нет ли причин усомниться в своём выводе» и т.п. Исследование показало, что комбинация человекоподобного стиля ответа + несколько попыток + усреднение результатов дала заметный эффект: избыточная уверенность снижается при разных вариантах такого промптинга. Также помогло требование консистентности: модель запускается несколько раз или в нескольких формулировках, и если она сама видит разные варианты ответов, это сигнализирует о необходимости избегать категоричности. Авторы отмечают, что согласование нескольких ответов и специальные агрегации (например, голосование ответов) помогают уменьшить переуверенность с разных сторон. В практическом плане это означает: многоступенчатый запрос или запрос с несколькими формулировками может сделать итоговый ответ более осторожным.

  • Chain-of-Thought (цепочка рассуждений). Этот метод промпта предлагает модели пошагово объяснить ход мыслей перед финальным ответом (часто с фразой “Давай подумаем шаг за шагом…”). Цепочки рассуждений улучшают логичность и прозрачность ответа, а также действуют как своеобразная проверка: модель, проговаривая промежуточные шаги, может сама обнаружить противоречия или нехватку знаний и скорректировать уверенность. Интересно, что исследование Zhao et al. (2024) показало: разные вариации пошаговых промптов влияют на заявленную уверенность модели. В их эксперименте простой приём – попросить сначала сгенерировать факты, на которые опирается ответ – привёл к тому, что вероятность успеха ответа повысилась, но и модель сообщила более высокую уверенность arxiv.org. Иными словами, когда LLM сперва извлекает факты, она становится чуть более самоуверенной (вероятно, опираясь на эти факты). Однако главное – CoT-промптирование помогает сократить количество грубых ошибок, потому что модель не бросается сразу выдавать ответ. Даже если уверенность в конце может оказаться высокой, такой ответ обычно более обоснован. В целом, побуждая модель рассуждать, мы получаем выигрыш в точности, а уверенность становится более заслуженной.

  • FaR (Fact-and-Reflection) – факт и размышление. Это усовершенствование цепочки мыслей, предложенное Xinran Zhao и др. (2024) arxiv.org. Промпт разбивается на два этапа: (1) Fact – модель сначала извлекает из своих знаний факты или контекст, относящиеся к вопросу, (2) Reflection – модель анализирует эти факты и делает вывод, формулируя окончательный ответ. Такой стиль промптинга значительно улучшил калибровку уверенности. В цифрах: Expected Calibration Error снизилась на ~23,5% по сравнению со стандартными способами задавать вопросы. Более того, модель начала открыто выражать неуверенность, когда сталкивалась со сложным или недостаточно известным вопросом. В экспериментах FaR-промпт вызывал у модели добавление фраз вроде «нет достаточных оснований утверждать…» или «мне не хватает данных…» в ответе – то, чего почти не бывает при обычном запросе. Фактически, формируется элемент самопроверки: если на этапе Reflection модель поняла, что доступных фактов недостаточно, она давала более осторожный ответ. Вывод: метод FaR снижает переуверенность и побуждает ИИ признавать пробелы в знаниях.

  • Self-Consistency (самоконсистентность ответов). Ещё одна техника – просить модель дать несколько различных предположений или попыток и затем сверить результаты. Например, можно задать вопрос и сгенерировать ответ 5 раз (изменяя случайность через температурный параметр) или попросить: «Приведи три возможных ответа и поясни, какой из них наиболее вероятен». Если модель приходит к одному и тому же ответу разными путями, это повышает доверие к нему; если разные попытки противоречат друг другу, то это свидетельствует о сложности вопроса и неопределённости ответа. Эта стратегия была рекомендована рядом исследований как метод оценки неопределённости «чёрного ящика» без доступа к внутренним логитам arxiv.org. Практически, подход self-consistency не столько снижает уверенность модели (она в каждой попытке может быть уверена), сколько позволяет пользователю выявить случаи, где модель склонна галлюцинировать. Впрочем, есть и вариант, когда сама модель сравнивает несколько своих ответов: такие многоэтапные промпты, где ИИ должен обосновать, почему один вариант лучше, часто приводят к более взвешенному финальному решению.

  • Лингвистическая калибровка ответов. Под этим подразумевается настройка стиля ответа модели. Sabrina J. Mielke и др. (2022) показали, что можно обучить модель выражать неуверенность через стиль формулировок, когда она не уверена aclanthology.org. Они ввели термин linguistic calibration – соответствие между словами модели (уверенный тон или сомневающийся) и фактической правильностью. В их эксперименте с диалоговой системой выяснилось, что исходные нейросетевые болталки плохо откалиброваны – часто звучат уверенно, когда ошибаются. Но, используя метаданные о вероятности ошибки, авторы обучили модель более прозрачно выражать своё незнание и добились существенного улучшения: агент стал значительно реже вводить в заблуждение за счёт излишней уверенности. Для промптинга отсюда урок: включать в запрос указания на желаемый тон. Например, явно просить: «Если ответ не очевиден, отвечай предположительно и избегай категоричных формулировок». Также можно дать пример формата ответа, где на неопределённый вопрос модель говорит «Точного ответа я не знаю, возможно, …». Хотя базовые LLM не всегда охотно следуют такому стилю, эксперименты показывают, что даже простое разрешение «не знать» иногда снижает количество галлюцинаций reddit.com reddit.com. Модель получает от пользователя сигнал, что от неё ожидается честность, а не выдумка, и это может слегка скорректировать её поведение.

Таким образом, различные стили промптинга влияют на уверенность LLM. Типовой формат вопрос–ответ без контекста обычно приводит к наибольшей самоуверенности модели, потому что она автоматически выдаёт наиболее вероятный ответ, демонстрируя уверенность по умолчанию. Более сложные промпты, требующие размышления, уточнений или нескольких вариантов, как правило, формируют у модели более осторожную позицию. Она либо находит более обоснованный ответ через рассуждение, либо, при недостатке информации, сигнализирует о неуверенности. Именно это подтверждают исследования: правильный промптинг может частично смягчить эффект переоценки у LLM.

Практические рекомендации по снижению избыточной уверенности LLM

На основе вышеописанных исследований можно предложить несколько практических приёмов промптинга, которые помогут минимизировать проявления эффекта Даннинга–Крюгера у языковых моделей:

  • Разрешите модели “не знать”. В явном виде включите в инструкцию (system prompt) фразу, что допустимо отвечать с оговорками или отказаться от ответа, если модель сомневается. Например: «Если не уверены в ответе, сообщите об этом и поясните, почему возникает сомнение». Это снизит давление на модель всегда выдавать уверенный ответ. Без такого разрешения многие модели, особенно обученные методом RLHF, по умолчанию пытаются дать уверенный ответ на любой запрос. Задав подобное правило, вы поощряете более честное поведение.

  • Используйте пошаговое рассуждение. Вместо прямого вопроса требуйте сначала цепочку рассуждений. Скажите: «Подумай над решением шаг за шагом и объясни свой вывод». Когда модель расписывает свои мысли, она с большей вероятностью обнаружит, если чего-то не знает, и может в конце либо дать более точный ответ, либо явно упомянуть допущения. Исследования подтверждают, что Chain-of-Thought улучшает и точность, и прозрачность, хоть и не гарантирует полного отсутствия ошибок.

  • Метод FaR (Fact-and-Reflection). Разбейте взаимодействие на два этапа: (1) спросите у модели факты или контекст по теме вопроса («Что известно о …, что может быть полезно для ответа?»), (2) затем на основании этих сведений задайте сам вопрос. На втором шаге можно сформулировать запрос так: «Учитывая вышеупомянутые факты, каков ответ?». Такой подход вынуждает LLM вспомнить свои знания и оценить их достаточность, прежде чем отвечать. Практика показывает, что модель станет реже “стрелять от бедра”, а если знаний мало, то итоговый ответ может содержать пометку неуверенности (например, «на основании доступных данных затруднительно дать точный ответ»). FaR-подобный промпт, по данным экспериментов, снижает избыточную уверенность и ожидаемую ошибку калибровки почти на четверть.

  • Запрос нескольких вариантов/ответов. Попросите модель не один окончательный ответ, а несколько гипотез. Например: «Приведи 2–3 возможных ответа на вопрос и укажи, какой из них тебе кажется наиболее верным и почему». Когда модель одновременно генерирует несколько вариантов, она неформально снижает уверенность в каждом из них – ведь признаёт, что есть альтернативы. Последующий выбор лучшего варианта при этом покажет, какой ответ предпочтителен, но уже с оговоркой, что были и другие идеи. Это тренирует модель соблюдать скепсис и не выдавать первое же предположение как истину в последней инстанции.

  • Побуждайте модель к самопроверке. Вы можете включить инструкцию вроде: «Перед тем как дать окончательный ответ, проверь, непротиворечивы ли твои доводы и достаточны ли факты». Либо более конкретно: «После того как ответишь, оцени вероятность, что твой ответ правильный, на основе имеющихся данных». Такая мета-задача стимулирует модель проанализировать свой вывод. Исследование Xiong et al. называет это eliciting verbalized confidence – когда модель сама выводит суждение о своей уверенности. Хотя LLM могут и ошибиться в самооценке, дополнительные размышления обычно не вредят точности, а в некоторых случаях позволяют скорректировать ранее сказанное. Например, модель может добавить: «… хотя не полностью уверена, так как информация ограничена» – и это уже ценная оговорка для пользователя.

  • Демонстрируйте осторожный тон на примерах. Если вы используете few-shot примеры в промпте, включите один-два примера ответов, где AI выражает неопределённость. Например, диалог, в котором на сложный вопрос ассистент отвечает: «На этот счёт нет уверенности, но я предполагаю, что…». Следуя примеру, модель будет склонна перенимать подобную манеру. Исследование Mielke et al. показало, что контролируя тон генерации, можно добиться лучшей корреляции между истинной и заявленной уверенностью. То есть, если модель "усвоит", что выражать сомнение – это нормально, она реже станет отвечать неоправданно уверенно.

  • Не поощряйте безосновательную уверенность. В ходе общения с моделью, если она дала явно неправильный, но самоуверенный ответ, полезно указать на ошибку. Например: «Ты очень уверенно ответил, но ответ неверный – вот верные данные… Пожалуйста, будь осторожнее и объясни, почему вышла ошибка.» Такая обратная связь, сработает, но только если вы используете модель в интерактивном режиме. Она заставит LLM скорректировать ответы в дальнейшем общении. (В рамках одного сеанса диалога многие модели умеют учитывать исправления и чуть сбавлять тон после того, как их уличили в ошибке.)

  • Инструменты и внешние проверки. Современные чат-модели могут подключаться к инструментам (поиск, калькулятор и т.п.). Сформулируйте промпт так, чтобы модель сначала проверила ключевые факты (в идеале реальным поиском) перед ответом. Если модель самостоятельно найдёт источник или уточнение, она уже не будет галлюцинировать с прежней уверенностью. Даже без инструментов можно попросить: «Приведи источник информации для своего ответа». Требование цитировать источник косвенно снижает вероятность выдуманного ответа – модель либо вспомнит что-то реальное (тогда уверенность обоснованна), либо признается, что не может найти источник, что тоже полезно.

Следует понимать, что полностью убрать эффект переуверенности у LLM только приёмами промптинга сложно. Модели обучены выдавать наиболее вероятное продолжение текста, а не наиболее осторожное. Однако сочетание описанных подходов заметно улучшает калибровку уверенности и уменьшает число ситуаций, когда модель утверждает откровенную неверность с апломбом. Исследования показывают, что лучшие результаты достигаются комбинированием методов – например, многошаговое рассуждение + явное указание вероятности + выбор лучшего ответа из нескольких. В итоге цель пользователя – заставить модель осознать пределы своих знаний, по крайней мере до степени, когда она начнёт сообщать о своих сомнениях или запрашивать уточнения, вместо того чтобы уверенно дезинформировать. Пока LLM не обладают настоящей метакогницией, грамотный промптинг – наш инструмент, чтобы привить им хотя бы каплю осторожности.

Вывод

Да, эффект Даннинга–Крюгера у LLM подтверждён научными исследованиями. Такие модели, как GPT-3.5, GPT-4, LLaMA и другие, склонны демонстрировать уверенность даже в ошибочных ответах. Однако исследования также дают надежду: правильно спроектированные запросы снижают это вредное свойство. Эффективны техники, побуждающие модель к самопроверке: детализация хода мыслей, генерация альтернативных ответов, указание на допустимость незнания — всё это способствует формированию более правдивых и надёжных ответов. Как отмечают Xinran Zhao и др., продуманный стиль промпта может даже побудить ИИ «выражать озабоченность» в сложных случаях, что повышает его надёжность. Применение этих подходов позволяет значительно снизить избыточную уверенность LLM и получать от неё более корректную и честную информацию.

Источники