Горячие новости

OpenAI исследовала, почему даже самые лучшие модели ИИ галлюцинируют

0.1 грн
в день
1'001 грн
к оплате
До 15'000 грн
1-а позика під 0.1%
до 30 дней
РРПС, max - 100841%
Подробнее
0.1 грн
в день
1'001 грн
к оплате
До 15'000 грн
1-я ссуда под 0.01%
до 30 дней
РРПС, max - 100841%
Подробнее
0.1 грн
в день
1'001 грн
к оплате
До 15'000 грн
1-я ссуда под 0.01%
до 365 дней
РРПС, max - 100841%
Подробнее


OpenAI провела исследование, раскрывающее причины, почему даже самые современные системы искусственного интеллекта, такие как GPT-5, все еще чувствуют галлюцинации, а также возможности для улучшений. Авторы исследования проводят аналогию между нейронными сетями и учениками на экзаменах: если ответ «не знаю» ведет к нулевому баллу, то выгоднее рискнуть и дать любой ответ. Этот подход создает условия для галлюцинаций, поскольку есть небольшая вероятность, что ИИ может угадать правильный ответ.

Исследователи считают, что корень проблемы кроется в системе оценки. Известные бенчмарки, такие как MMLU и SWE-bench, используют бинарный подход «верно/неверно». Это заставляет модели угадывать, вместо того чтобы открыто признаться в своей неуверенности. Это подтверждают данные, приведенные в таблице ниже:

Хотя у GPT-5-Thinking-mini наблюдается значительно меньшая доля ошибок, по точности она немного уступает старшему o4-mini и в тестах, направленных исключительно на точность, демонстрирует худшие результаты.

«После тысячи тестовых запросов угадывающая модель в конце концов имеет лучшие результаты в рейтинге, чем модель, признающая свою неопределенность», — отмечает OpenAI.

Компания предлагает усовершенствовать систему оценивания: за уверенную ложь начислять больший штраф, чем за честное "я не знаю", а за правильное выражение неопределенности - частичные баллы. Авторы считают, что такие изменения в системе оценивания снизят мотивацию к угадыванию.

Также в OpenAI отмечают, что им удалось существенно снизить количество галлюцинаций в GPT-5, хотя модель все еще далека от совершенства. Ранее пользователи выражали обеспокоенность, что ответы ИИ стали короче и менее удовлетворительными, даже на творческие запросы.

0.1 грн
в день
1'001 грн
к оплате
До 15'000 грн
1-а позика під 0.1%
до 30 дней
РРПС, max - 100841%
Подробнее
0.1 грн
в день
1'001 грн
к оплате
До 15'000 грн
1-я ссуда под 0.01%
до 30 дней
РРПС, max - 100841%
Подробнее
0.1 грн
в день
1'001 грн
к оплате
До 15'000 грн
1-я ссуда под 0.01%
до 365 дней
РРПС, max - 100841%
Подробнее