Компания Facebook объявила о запуске нейросети Rosetta, которая может распознавать текст на изображениях и видео.
Такой алгоритм должен помочь модераторам в борьбе со спамом, а также оскорбительным контентом, сообщается в официальном блоге Facebook.
"Значительное количество фотографий в Facebook, и Instagram содержат текст в различных формах. Он может быть наложен на изображение в меме или изображен на фотографии витрины, уличного знака или меню ресторана. Мы построили и развернули крупномасштабную систему машинного обучения под названием Rosetta. Она извлекает текст из более чем миллиарда общедоступных изображений Facebook и Instagram на самых разных языках, а затем ежедневно и в режиме реального времени вводит его в модель распознавания текста", - рассказывают разработчики.
Нейросеть использует технологию оптического распознавания текста, которая была создана Facebook в 2015 году. Она определяет прямоугольные области, которые содержат текст, а затем проводит распознавание и перевод картинки в текст. Помимо фотографий и мемов, нейросеть также способна покадрово сканировать видеоролики.
"Текст, извлеченный из изображений, используется в различных моделях обучения на верхнем уровне, таких как те, которые улучшают качество поиска фотографий, автоматически идентифицируют контент, который нарушает нашу политику ненависти на платформе на разных языках и повышает точность классификации фотографий в новостной ленте", - отметили в Facebook.
Само по себе распознавания текста алгоритмами с искусственным интеллектом не является принципиально новым шагом – делать это могут многие существующие программы, однако ни одна из них не способна справиться с объемами контента, которые предлагает Facebook.
По мнению разработчиков, Rosetta, сможет распознавать мемы и поможет модераторам понять их смысл. Авторы технологии считают, что она в перспективе поможет идентифицировать спам или оскорбительный контент. Тем не менее, авторы разработки признают, что работа Rosetta пока далека от совершенства.
"Модели распознавания текста преимущественно сосредоточены на наборах данных на английском языке или с использованием латиницы. Для поддержки глобальной платформы мы продолжаем инвестировать в расширение модели распознавания текста для широкого числа языков, которые используются в Facebook. С единой моделью для большого количества языков мы рискуем оказаться посредственными для каждого языка, что затрудняет задачу", - признаются разработчики.