Тест Тьюринга пройден
2025-04-02 19:58"Large Language Models Pass the Turing Test"
Файлы с данными этой статьи доступны тут: osf.io/jk7bw/files/osfstorage
Пример диалога:

В каждом из диалогов один собеседник человек, другой - ИИ.

Мы оценили 4 системы (ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5) в двух рандомизированных, контролируемых и предварительно зарегистрированных тестах Тьюринга на независимых популяциях. Участники вели 5-минутные разговоры одновременно с другим участником-человеком и одной из этих систем, прежде чем решить, какой из собеседников, по их мнению, был человеком. Когда им предлагалось выбрать человекоподобную персону, GPT-4.5 считалась человеком в 73% случаев: значительно чаще, чем допрашивающие выбирали настоящего участника-человека. LLaMa-3.1 с той же подсказкой считалась человеком в 56% случаев — не значительно чаще или реже, чем люди, с которыми их сравнивали, — в то время как базовые модели (ELIZA и GPT-4o) достигли показателей побед значительно ниже случайных (23% и 21% соответственно). Результаты представляют собой первое эмпирическое доказательство того, что искусственная система проходит стандартный трехсторонний тест Тьюринга. Результаты имеют значение для дебатов о том, какой тип интеллекта демонстрируют большие языковые модели (LLM), а также какое социальное и экономическое влияние эти системы могут оказать.С чем вас и поздравляем! Таки мы имеем ИИ некоторого качества.
Файлы с данными этой статьи доступны тут: osf.io/jk7bw/files/osfstorage
Пример диалога:

В каждом из диалогов один собеседник человек, другой - ИИ.


no subject
Date: 2025-04-03 06:01 (UTC)https://www.perplexity.ai/search/afdff463-4130-4b84-a0bd-74f4593800ff
no subject
Date: 2025-04-03 18:04 (UTC)no subject
Date: 2025-04-03 20:33 (UTC)no subject
Date: 2025-04-03 06:30 (UTC)no subject
Date: 2025-04-03 15:53 (UTC)no subject
Date: 2025-04-03 20:35 (UTC)no subject
Date: 2025-04-04 07:48 (UTC)no subject
Date: 2025-04-04 08:27 (UTC)Хм
Date: 2025-04-06 15:04 (UTC)