vak: (Робот 1)
[personal profile] vak
"Large Language Models Pass the Turing Test"
Мы оценили 4 системы (ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5) в двух рандомизированных, контролируемых и предварительно зарегистрированных тестах Тьюринга на независимых популяциях. Участники вели 5-минутные разговоры одновременно с другим участником-человеком и одной из этих систем, прежде чем решить, какой из собеседников, по их мнению, был человеком. Когда им предлагалось выбрать человекоподобную персону, GPT-4.5 считалась человеком в 73% случаев: значительно чаще, чем допрашивающие выбирали настоящего участника-человека. LLaMa-3.1 с той же подсказкой считалась человеком в 56% случаев — не значительно чаще или реже, чем люди, с которыми их сравнивали, — в то время как базовые модели (ELIZA и GPT-4o) достигли показателей побед значительно ниже случайных (23% и 21% соответственно). Результаты представляют собой первое эмпирическое доказательство того, что искусственная система проходит стандартный трехсторонний тест Тьюринга. Результаты имеют значение для дебатов о том, какой тип интеллекта демонстрируют большие языковые модели (LLM), а также какое социальное и экономическое влияние эти системы могут оказать.
С чем вас и поздравляем! Таки мы имеем ИИ некоторого качества.

Файлы с данными этой статьи доступны тут: osf.io/jk7bw/files/osfstorage

Пример диалога:



В каждом из диалогов один собеседник человек, другой - ИИ.

Date: 2025-04-03 20:33 (UTC)
From: [personal profile] dijifi
«Конец вечности» 1987 года длиннее и зануднее. За пределами нерушимого зубодробительно-нравоучительный Star Trek: The Next Generation.

Date: 2025-04-03 06:30 (UTC)
juan_gandhi: (Default)
From: [personal profile] juan_gandhi
3 questions are not enough. And also, an interrogator could be smarter. Here the interrogator is a casual companion. He doesn't seem interested in finding out the truth.

Date: 2025-04-03 15:53 (UTC)
spamsink: (Default)
From: [personal profile] spamsink
A model can be trained for deflection just as well as an average person would react to questions that need intellectual effort.

Date: 2025-04-04 07:48 (UTC)
From: [personal profile] sassa_nf
We know some people who can't be easily discerned from a robot.

Date: 2025-04-04 08:27 (UTC)
juan_gandhi: (Default)
From: [personal profile] juan_gandhi
Definitely. But that's until you go into personal details and the things that happened today or are happening right now.

Хм

Date: 2025-04-06 15:04 (UTC)
sla165: (Default)
From: [personal profile] sla165
Неправильный тест,это как в том анекдоте когад инопланетяне похили людейц и стали требовать от них чтобы они доказали что они люди,зарешал дворник михалыч ответом а с хера с должен вам что-то доказывать?