
Дослідники вважають, що корінь проблеми криється в системі оцінювання. Відомі бенчмарки, такі як MMLU та SWE-bench, застосовують бінарний підхід «вірно/невірно». Це змушує моделі вгадувати, замість того, щоб відкрито зізнатися в своїй невпевненості. Це підтверджують дані, наведені в таблиці нижче:
Хоча у GPT-5-Thinking-mini спостерігається значно менша частка помилок, за точністю вона трохи поступається старшій o4-mini і в тестах, спрямованих виключно на точність, демонструє гірші результати.
«Після тисячі тестових запитів модель, яка вгадує, врешті-решт має кращі результати в рейтингу, ніж модель, яка визнає свою невизначеність», — зазначає OpenAI.
Компанія пропонує вдосконалити систему оцінювання: за впевнену неправду нараховувати більший штраф, ніж за чесне «я не знаю», а за правильне вираження невизначеності — часткові бали. Автори вважають, що такі зміни в системі оцінювання зменшать мотивацію до вгадування.
Також в OpenAI відзначають, що їм вдалося суттєво зменшити кількість галюцинацій у GPT-5, хоча модель все ще далека від досконалості. Раніше користувачі висловлювали занепокоєння, що відповіді ШІ стали коротшими і менш задовільними, навіть на творчі запити.


