vak | Тест Тьюринга пройден

"Large Language Models Pass the Turing Test"

Мы оценили 4 системы (ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5) в двух рандомизированных, контролируемых и предварительно зарегистрированных тестах Тьюринга на независимых популяциях. Участники вели 5-минутные разговоры одновременно с другим участником-человеком и одной из этих систем, прежде чем решить, какой из собеседников, по их мнению, был человеком. Когда им предлагалось выбрать человекоподобную персону, GPT-4.5 считалась человеком в 73% случаев: значительно чаще, чем допрашивающие выбирали настоящего участника-человека. LLaMa-3.1 с той же подсказкой считалась человеком в 56% случаев — не значительно чаще или реже, чем люди, с которыми их сравнивали, — в то время как базовые модели (ELIZA и GPT-4o) достигли показателей побед значительно ниже случайных (23% и 21% соответственно). Результаты представляют собой первое эмпирическое доказательство того, что искусственная система проходит стандартный трехсторонний тест Тьюринга. Результаты имеют значение для дебатов о том, какой тип интеллекта демонстрируют большие языковые модели (LLM), а также какое социальное и экономическое влияние эти системы могут оказать.

С чем вас и поздравляем! Таки мы имеем ИИ некоторого качества.

Файлы с данными этой статьи доступны тут: osf.io/jk7bw/files/osfstorage

Пример диалога:

В каждом из диалогов один собеседник человек, другой - ИИ.

Flat | Top-Level Comments Only

From:

dijifi

https://youtu.be/fidBzp3YZ8k

https://www.perplexity.ai/search/afdff463-4130-4b84-a0bd-74f4593800ff

Edited Date: 2025-04-03 07:07 (UTC)

vak

Боже, какое занудство когда-то снимали.

«Конец вечности» 1987 года длиннее и зануднее. За пределами нерушимого зубодробительно-нравоучительный Star Trek: The Next Generation.

juan_gandhi

3 questions are not enough. And also, an interrogator could be smarter. Here the interrogator is a casual companion. He doesn't seem interested in finding out the truth.

spamsink

A model can be trained for deflection just as well as an average person would react to questions that need intellectual effort.

https://www.amazon.com/dp/B002FCP2IG

sassa_nf

We know some people who can't be easily discerned from a robot.

Definitely. But that's until you go into personal details and the things that happened today or are happening right now.

sla165

Неправильный тест,это как в том анекдоте когад инопланетяне похили людейц и стали требовать от них чтобы они доказали что они люди,зарешал дворник михалыч ответом а с хера с должен вам что-то доказывать?

Пятнадцать байтов на стек от конца

Тест Тьюринга пройден

Тест Тьюринга пройден

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Хм

Профиль

Метки

Посетители