GPT-4.5 пройшов тест Тюрінга з результатом 73%

GPT-4.5 пройшов тест Тюрінга з результатом 73% 1

Група науковців з Каліфорнійського університету в Сан-Дієго опублікувала результати дослідження, які свідчать: сучасні системи штучного інтелекту (ШІ) вже демонструють вражаючу здатність успішно проходити тест Тюрінга в умовах реального, “живого” спілкування. Більше того, в одному з експериментів модель GPT-4.5 продемонструвала результат, коли її частіше сприймали за людину, ніж за реальних учасників діалогу.

Штучний інтелект перевершив людей у тесті на “людяність”

У рамках дослідження вчені застосували модифікований, більш складний варіант класичного тесту Тюрінга. Експертам-оцінювачам пропонувалося вести текстовий діалог одночасно з реальною людиною та з моделлю ШІ, не знаючи, хто з них є хто. Після завершення сесії спілкування (яка тривала певний час) вони мали визначити, хто з учасників є людиною, а хто — програмою.

Результати виявилися справді несподіваними. Модель GPT-4.5 змогла переконати близько 73% опитаних, що за екраном сидить людина. Інша потужна система — LLaMa-3.1-405B — також показала високі показники, здобувши статус “людини” у 56% випадків. Ці цифри свідчать про значний прогрес у здатності ШІ імітувати людську манеру спілкування.

Деталі експерименту та вплив “персони”

Загалом у тестуванні брали участь декілька моделей: GPT-4.5, GPT-4o, LLaMa-3.1-405B, а також історична модель ELIZA, створена ще у 1960-х роках. Найкращий показник вдалося досягти саме GPT-4.5, коли для неї було застосовано так званий “persona prompt”. Це спеціальне налаштування, яке задає моделі певну роль чи поведінкову модель. У цьому випадку чат-бот імітував образ інтровертного молодого користувача, обізнаного з інтернет-культурою та вживаючим сленг. Саме в такому “амплуа” модель успішно пройшла тест у 73% випадків, що означає, що люди частіше ідентифікували її як реального співрозмовника, аніж реальну людину.

Без використання додаткових налаштувань “персони” результати були значно скромнішими. GPT-4.5 тоді набрала лише 36%, а LLaMa — 38%. Для порівняння, GPT-4o отримала 21%, а ELIZA — 23%.

Дослідження охопило понад тисячу індивідуальних діалогів. Учасники спілкувалися протягом 5 хвилин, а в окремому випробуванні — 15 хвилин. Цікаво, що навіть під час триваліших розмов деякі моделі зберігали високий рівень “людяності” у своїй комунікації, демонструючи показники до 59%.

Думка ІТ-Блогу: Ці результати свідчать про експоненційне зростання можливостей ШІ в імітації людської мови та поведінки, що ставить нові виклики перед розробниками та відкриває нові горизонти для взаємодії людей і машин. З одного боку, це відкриває шлях до більш природних інтерфейсів та персоналізованих сервісів, з іншого — викликає дискусії щодо етичних аспектів та необхідності розпізнавання роботизованих агентів.

Подробиці можна знайти на сайті: itc.ua

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *