Техногіганти зіткнулися з несподіваною кризою: ШІ-моделі “тупіють” у тривалих діалогах
Провідні гравці світового технологічного ринку опинилися перед обличчям серйозного виклику, який може значно загальмувати прогрес у сфері штучного інтелекту.
Аналітики з Microsoft Research спільно з колегами з Salesforce провели глибоке дослідження, охопивши понад 200 тисяч взаємодій із найсучаснішими нейронними мережами. Результати дослідження, на які посилається видання ixbt, викликають неабияке занепокоєння.
Результати дослідження: від вражаючої точності до критичних помилок
Виявилося, що такі потужні системи, як GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 та Llama 4, демонструють надзвичайно високу точність (близько 90%) при обробці окремих запитів. Однак, щойно розмова стає більш розгорнутою та багатоходовою, як це відбувається у природному спілкуванні, продуктивність цих моделей різко падає до 65%.

Для пересічного користувача це проявляється як помітне зниження “інтелекту” співрозмовника, яке супроводжується вигадками (галюцинаціями) та відверто хибними відповідями. Вчені встановили, що нейромережі мають тенденцію використовувати свою першу відповідь як основу для наступних реплік, навіть якщо початкова інформація була неточною.
“Роздування” відповідей та хибний контекст
Ще більш тривожним виявилося явище, яке дослідники назвали “роздуванням відповідей”. Під час тривалих діалогів відповіді моделей ставали значно довшими — на 20-300%. Це призводило до появи великої кількості припущень та ілюзорної інформації.
Ці неправдиві дані згодом використовувалися нейросетями як постійний контекст, що лише поглиблювало проблему з кожним новим обміном повідомленнями. Цікаво, що навіть моделі з розширеними можливостями “мислення”, як-от OpenAI o3 та DeepSeek R1, не змогли вийти з цієї специфічної пастки.
Прискорення генерації: ціна швидкості
Дослідники наголошують, що надійність мовних моделей знизилася на 112% через їхню схильність до передчасної генерації відповідей. Нейромережі намагаються надати рішення, не дочекавшись повного розуміння запиту, що призводить до накопичення помилок.
Отже, стає очевидним, що штучний інтелект ще далекий від свого абсолютного потенціалу, стикаючись із критичними проблемами під час багатоходових діалогів. Відповідно, ставлення користувачів до ШІ-сервісів швидко змінюється, особливо з появою таких інструментів, як, наприклад, огляди від Google, що генеруються за допомогою нейромереж.
Експерти застерігають: відмова від традиційних пошукових систем на користь інструментів на базі ШІ є значним ризиком. Згенерована інформація може виявитися недостовірною, особливо у випадках складних запитів, що вимагають поетапного обговорення.
Варто згадати, що раніше Microsoft вже звинувачувала користувачів у некоректному використанні ШІ, посилаючись на недостатній рівень інженерних навичок при формуванні запитів. Іронія полягає в тому, що чим довше користувач взаємодіє з ботом, намагаючись отримати якісну відповідь, тим швидше деградує сама модель.
Читайте також
- Тренування без компромісів: порівнюємо точність датчиків Garmin Fenix 8 проти Amazfit T-Rex 3
- Процесор проти камери: що обрали мільйони у битві Xiaomi 15 Pro та Vivo X200 Pro
Порада від ІТ-Блог:
Ці результати дослідження є надзвичайно важливими для всіх, хто активно використовує або планує використовувати інструменти штучного інтелекту. Вони нагадують про необхідність критичного ставлення до інформації, отриманої від ШІ, особливо в складних або довгих діалогах. Важливо перевіряти ключові факти та розуміти обмеження сучасних нейромереж, щоб уникнути поширення неточної інформації.
