Человечеству конец: нейросеть GPT-4.5 прошла тест Тьюринга

Нейросеть GPT-4.5 успешно прошла тест Тьюринга, ее приняли за человека в 73% случаев.

Человечеству конец: нейросеть GPT-4.5 прошла тест Тьюринга

Freepik

Новая версия ИИ-модели GPT-4.5 от OpenAI сумела пройти классический тест Тьюринга — и в большинстве случаев оказалась убедительнее настоящих людей, говорится в исследовании Калифорнийского университета в Сан-Диего.

В нем приняли участие более трех сотен участников, которые общались в чате и не знали, кем является их собеседник – машиной или человеком. Участники вели 5-минутные беседы одновременно с другим человеком и одной из этих систем, а затем определяли, кто из собеседников, по их мнению, был человеком. После беседы им предложили угадать, где нейросеть. В тестировании принимали участие 4 системы — ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5.

Чтобы усложнить прохождение теста, исследователи задавали нейросети определенный промт-персону. К примеру, просили говорить от имени интроверта, фанатеющего по интернет-культуре. Когда GPT-4.5 попросили принять человеческий облик, его сочли человеком в 73% случаев: значительно чаще, чем интервьюеры выбирали реального человека-участника. Без роли результат был почти вдвое ниже — 36%.

LLaMa-3.1 с той же подсказкой сочли человеком в 56% случаев — не значительно чаще или реже, чем людей, с которыми их сравнивали, — в то время как базовые модели (ELIZA и GPT-4o) показали результаты значительно ниже ожидаемых (23% и 21% соответственно).

Летом прошлого года модель GPT-4 проходила тест Тьюринга всего в 54% случаев. Полученные результаты доказывают, что любая искусственная система проходит стандартный трехсторонний тест Тьюринга. Полученные результаты имеют значение для дебатов о том, какой тип интеллекта демонстрируют Большие языковые модели (LLM), а также о социальных и экономических последствиях, которые, вероятно, окажут эти системы на будущее человечества.

Что такое тест Тьюринга?

В 1950 году Алан Тьюринг разработал тест, который позволяет определить, может ли искусственный интеллект думать, как человек.

Как проходит тест?

Есть человек-судья, человек и машина. Судья общается с ними через текст (не зная, кто есть кто). Если судья не может отличить ответы машины от ответов человека, значит, ИИ прошел тест. В 2014 году чат-бот Eugene Goostman (симулировал 13-летнего подростка) формально прошел тест. Современные ChatGPT, Bard, Claude ведут очень реалистичные диалоги, но тест Тьюринга уже считается устаревшим. Сейчас ИИ оценивают по другим критериям, например, способности понимать контекст, обучаться и создавать новое.