Поисковый алгоритм Google помог китайцам создать самого эффективного ИИ-цензора для интернета

Два года назад компания Google представила новый поисковый алгоритм BERT для лучшей обработки запросов на разных языках. С помощью нейронной сети алгоритм анализирует не отдельные слова, а предложения целиком, что существенно улучшает релевантность выдачи. Оказалось, что на базе BERT можно создать крайне эффективного ИИ-цензора, чем воспользовались китайские разработчики.

Источник изображения: Shutterstock / SCMP

Как известно, китайский сегмент интернета отличается высокой степенью цензуры. Сложность китайского языка и различные ухищрения пользователей не позволяют эффективно использовать для цензуры традиционные алгоритмы поиска «крамольных» публикаций. Например, поиск по ключевым словам достигает точности 70 %, а точность обученной людьми нейросети приближается к 80 %. Новая китайская разработка с элементами ИИ на алгоритме BERT даже без обучения позволяет повысить точность обнаружения подлежащих цензуре текстов до 91 %.

Алгоритм Google BERT с открытым кодом не может анализировать тексты длиной более 512 слов. Чтобы обойти это ограничение разработчики из Шэньянского университета Лигун и Китайской академии наук разработали алгоритм для разбивки больших текстов на доступные для анализа с помощью BERT и технологию последующей сборки текстов до первоначального объёма. Получилось решение, которое может искать даже скрытый между строк подтекст.

Сегодня в Китае для обеспечения цензуры в интернете — для поиска содержимого от аморального и террористического до нападок на коммунистическую партию и строй в стране — работает огромная армия цензоров-людей. Это колоссальная статья расходов. Искусственный интеллект приближается к тому, чтобы не только заменить всё это на машинный анализ, но также обещает буквально не захлебнуться в растущем потоке данных, с чем люди просто не справятся.

Источник:

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *