Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Два года назад компания Google представила новый поисковый алгоритм BERT для лучшей обработки запросов на разных языках. С помощью нейронной сети алгоритм анализирует не отдельные слова, а предложения целиком, что существенно улучшает релевантность выдачи. Оказалось, что на базе BERT можно создать крайне эффективного ИИ-цензора, чем воспользовались китайские разработчики.
Как известно, китайский сегмент интернета отличается высокой степенью цензуры. Сложность китайского языка и различные ухищрения пользователей не позволяют эффективно использовать для цензуры традиционные алгоритмы поиска «крамольных» публикаций. Например, поиск по ключевым словам достигает точности 70 %, а точность обученной людьми нейросети приближается к 80 %. Новая китайская разработка с элементами ИИ на алгоритме BERT даже без обучения позволяет повысить точность обнаружения подлежащих цензуре текстов до 91 %.
Алгоритм Google BERT с открытым кодом не может анализировать тексты длиной более 512 слов. Чтобы обойти это ограничение разработчики из Шэньянского университета Лигун и Китайской академии наук разработали алгоритм для разбивки больших текстов на доступные для анализа с помощью BERT и технологию последующей сборки текстов до первоначального объёма. Получилось решение, которое может искать даже скрытый между строк подтекст.
Сегодня в Китае для обеспечения цензуры в интернете — для поиска содержимого от аморального и террористического до нападок на коммунистическую партию и строй в стране — работает огромная армия цензоров-людей. Это колоссальная статья расходов. Искусственный интеллект приближается к тому, чтобы не только заменить всё это на машинный анализ, но также обещает буквально не захлебнуться в растущем потоке данных, с чем люди просто не справятся.
Источник: