
Исследователи считают, что корень проблемы кроется в системе оценки. Известные бенчмарки, такие как MMLU и SWE-bench, используют бинарный подход «верно/неверно». Это заставляет модели угадывать, вместо того чтобы открыто признаться в своей неуверенности. Это подтверждают данные, приведенные в таблице ниже:
Хотя у GPT-5-Thinking-mini наблюдается значительно меньшая доля ошибок, по точности она немного уступает старшему o4-mini и в тестах, направленных исключительно на точность, демонстрирует худшие результаты.
«После тысячи тестовых запросов угадывающая модель в конце концов имеет лучшие результаты в рейтинге, чем модель, признающая свою неопределенность», — отмечает OpenAI.
Компания предлагает усовершенствовать систему оценивания: за уверенную ложь начислять больший штраф, чем за честное "я не знаю", а за правильное выражение неопределенности - частичные баллы. Авторы считают, что такие изменения в системе оценивания снизят мотивацию к угадыванию.
Также в OpenAI отмечают, что им удалось существенно снизить количество галлюцинаций в GPT-5, хотя модель все еще далека от совершенства. Ранее пользователи выражали обеспокоенность, что ответы ИИ стали короче и менее удовлетворительными, даже на творческие запросы.


