AI Overviews від Google розповсюджує дезінформацію, катастрофічну для людства

Останні результати аналізу, проведеного ШІ-стартапом Oumi на замовлення The New York Times, викликають серйозне занепокоєння. Згідно з дослідженням, згенеровані штучним інтелектом резюме AI Overviews, які стали звичною частиною видачі результатів пошуку Google, демонструють вражаючу, на перший погляд, точність — близько 91%.

Масштаби проблеми: мільярди помилок

Хоча 91% може здатися солідною цифрою, контекст змінює все. Google щороку обробляє приблизно 5 трильйонів пошукових запитів. Це означає, що навіть за такої відносно високої точності, AI Overviews генерують десятки мільйонів невірних відповідей щодня, і сотні тисяч — щохвилини. Звіт фактично констатує, що Google ненавмисно створив справжню кризу дезінформації.

“Когнітивна капітуляція” та довіра до ШІ

Дослідники виявили тривожну тенденцію: користувачі схильні беззастережно довіряти інформації, наданій штучним інтелектом. Згідно з одним із звітів, лише 8% користувачів перевіряють надані ШІ відповіді. Інший експеримент показав, що близько 80% користувачів продовжували довіряти ШІ, навіть коли він надавав невірну інформацію. Цей феномен дослідники охрестили “когнітивною капітуляцією” — небажанням або нездатністю критично оцінювати надані алгоритмом дані.

Авторитетний тон та зручність: небезпечне поєднання

Великі мовні моделі, які лежать в основі таких сервісів, часто використовують авторитетний тон. Вони можуть впевнено викладати вигадану інформацію як факт, особливо коли не можуть одразу знайти точну відповідь. Додайте до цього надзвичайну зручність AI Overviews, які надають швидкі резюме, і стає зрозуміло, чому незліченна кількість користувачів сприймає ці висновки як істину в останній інстанції.

Конструктивні недоліки та ризики

“Проблема з неякісними AI Overviews закладена в самій їхній архітектурі. Вони створені для швидкості, а не для максимальної точності, що може призводити до помилок у медичній інформації, які потенційно можуть бути небезпечними для життя”, — коментує Джина Нефф, професорка відповідального ШІ в Університеті Королеви Мері, у розмові з The Guardian.

Методологія дослідження та еволюція моделей

Компанія Oumi провела свій аналіз, використовуючи інструмент SimpleQA — галузевий еталон для оцінки точності ШІ, розроблений OpenAI. Перший етап тестування, що відбувся у жовтні, базувався на версії AI Overviews, яка використовувала модель Google Gemini 2. Другий етап, проведений у лютому, оцінював функцію після оновлення до Gemini 3.

У кожному раунді тестування було використано 4 326 пошукових запитів. Gemini 3 продемонструвала вищу точність, надавши фактично коректну відповідь у 91% випадків, порівняно з 85% у Gemini 2. Хоча це свідчить про прогрес у вдосконаленні моделей, ситуація викликає занепокоєння: Google був готовий впровадити для своїх користувачів модель, яка була ще більш схильна до “галюцинацій” (генерації вигаданої інформації) в рамках триваючого експерименту, що вже дезінформує мільйони.

Варто зазначити, що Google назвав цей аналіз помилковим, проте сама суть проблеми залишається актуальною.

Думка ІТ-Блогу: Проблема точності ШІ-резюме в пошукових системах є надзвичайно важливою, адже вона безпосередньо впливає на інформаційну гігієну користувачів. Компанії-розробники мають знайти баланс між швидкістю надання інформації та її беззаперечною достовірністю, інакше ризики поширення дезінформації сягнуть критичного рівня.

За даними порталу: itc.ua

Масштаби проблеми: мільярди помилок

“Когнітивна капітуляція” та довіра до ШІ

Авторитетний тон та зручність: небезпечне поєднання

Конструктивні недоліки та ризики

Методологія дослідження та еволюція моделей

Залишити відповідьСкасувати відповідь