Ученые решили повторить тест Тьюринга, попросив 500 человек поговорить с четырьмя респондентами: человеком, программой ИИ эпохи 1960-х годов ELIZA, а также GPT-3.5 и GPT-4. Разговоры длились пять минут, после чего участники должны были сказать, считают ли они, что разговаривают с человеком или с искусственным интеллектом. В исследовании, опубликованном 9 мая на сервере препринтов arXiv, ученые обнаружили, что участники в 54% случаев считали GPT-4 человеком.
ELIZA, система, заранее запрограммированная на ответы, но не имеющая большой языковой модели (LLM) или архитектуры нейронной сети, была признана человеком только в 22% случаев. GPT-3.5 набрал 50%, а человек-участник набрал 67%.