Чому ШІ Google не вчить літери: секрети помилок алгоритмів

Скільки літер “П” у слові “Google”? За даними Google, дві.

Також, “рівно 1 ‘р’ у слові ‘лайно’,” стверджує AI Overview від Google, додаючи, що у слові “журналістика” є два ‘д’, але пише його як: ж-у-р-н-а-л-і-с-т-и-к-а. Google принаймні правильно визначив, що в прізвищі президента США є одна літера “П”, але написав його як т-р-у-м-п.

Google знову спотикається на базових помилках

Не потрібно бути пророком, щоб передбачити, що оновлення Пошуку Google з акцентом на штучний інтелект (ШІ) буде сприйняте неоднозначно. Ми це вже бачили. Коли Google вперше додав AI Overviews до Пошуку, функція цитувала сатиричні дописи з The Onion та Reddit, радивши людям їсти каміння та клеїти клей на піцу. Цього разу, коли Google посилює свою прихильність зробити генеративний ШІ центральним елементом свого 29-річного флагманського продукту, не дивно бачити такі промахи.

Google is revamping its entire search engine to this btw pic.twitter.com/PIR4llFhiV

— mersomas (@mersomas) May 27, 2026

Проблема підрахунку літер та природа LLM

«Підрахунок літер у словах був відомим викликом для великих мовних моделей (LLM), і ми працюємо над виправленням цієї конкретної проблеми», — повідомила Google у заяві для TechCrunch. Ці прості орфографічні помилки можуть здатися знайомими. LLM, тип штучного інтелекту, що лежить в основі чат-ботів та інших генераторів тексту, не створені для розуміння орфографії. Роками існує жарт, що коли компанія представляє нову модель ШІ, її варто запитати, скільки літер ‘р’ у слові ‘полуниця’. Ці моделі ШІ — які можуть написати код програми за секунди або вирішити проблеми, що спантеличували математиків десятиліттями — приблизно такі ж добрі у написанні слів, як і дитина в дитячому садку.

Виходи ШІ Google: від кумедних помилок до фундаментальних обмежень

Проблеми з AI Overview від Google виходять за межі кумедних помилок у написанні. Google вже виправив проблему минулого тижня, коли пошук слова “disregard” (ігнорувати) видавав вигляд словникового визначення, але з текстом: “Зрозуміло. Дайте мені знати, коли у вас буде новий запит чи питання!”. Однак, ці орфографічні помилки залишаються кумедними через їхню складність у виправленні. Як раніше пояснювали дослідники, коли ми запитували про ці орфографічні головоломки, ШІ не сприймає речення як одиниці мови, що складаються зі слів і літер. Багато LLM побудовані на архітектурі трансформерів, яка розбиває текст на токени (tokens), що можуть бути цілими словами, складами або літерами, залежно від моделі. Замість того, щоб “читати” як людина, ШІ перетворює текст на числові представлення, які потім контекстуалізуються, щоб допомогти ШІ сформулювати логічну відповідь.

Чому ШІ Google не вчить літери: секрети помилок алгоритмів 2

Обмеження архітектури трансформерів

«LLM базуються на цій архітектурі трансформерів, яка насправді не читає текст. Коли ви вводите запит, він перетворюється на кодування», — розповів TechCrunch Меттью Ґузд’ял, дослідник ШІ та доцент Університету Альберти. «Коли він бачить слово ‘the’, він має одне кодування того, що означає ‘the’, але він не знає про ‘T’, ‘H’, ‘E’». Токен-орієнтована архітектура, що лежить в основі LLM, таких як AI Overview від Google, має внутрішні обмеження, і дослідники не оптимістичні щодо можливості вирішення проблеми орфографії. «Важко обійти питання того, що саме має бути ‘словом’ для мовної моделі, і навіть якби ми змусили експертів погодитися на ідеальний словник токенів, моделям, ймовірно, все одно було б корисно ‘розбивати’ речі ще далі», — сказав TechCrunch Шерідан Фойхт, докторант, який вивчає інтерпретованість великих мовних моделей у Північно-Східному університеті. «Я б припустив, що ідеального токенізатора не існує через таку розмитість». Це не обов’язково нагальна проблема для дослідників, оскільки корисність LLM полягає не в їхній здатності писати грамотно. Але ці відверті збої допомагають нам пам’ятати, що ШІ не є досконалим, навіть якщо іноді він може здаватися всезнаючою силою, що виходить за межі нашого розуміння. Ми не можемо сліпо довіряти виводам ШІ, не перевіряючи їхню точність.

Коли ви здійснюєте покупки за посиланнями в наших статтях, ми можемо отримувати невелику комісію. Це не впливає на нашу редакційну незалежність.

Думка ІТ-Блогу: Постійні помилки в функціях ШІ від Google підкреслюють, що навіть найбільші технологічні компанії стикаються з фундаментальними викликами інтеграції ШІ. Це створює значні ризики для довіри користувачів та потенційно сповільнює темпи впровадження передових технологій у повсякденне життя.

Джерело новини: techcrunch.com

Google знову спотикається на базових помилках

Проблема підрахунку літер та природа LLM

Виходи ШІ Google: від кумедних помилок до фундаментальних обмежень

Обмеження архітектури трансформерів

Залишити відповідьСкасувати відповідь