Компания VK представила подробности о работе своих новых алгоритмов, объединенных в систему Discovery. Представленные технологии направлены на улучшение рекомендаций и глубокое понимание мультимедийного контента за счет использования искусственного интеллекта. Основу системы составляет кросс-форматная модель, которая разбирает видео на отдельные источники информации, включая визуальный ряд, аудиодорожку, заголовки и текст. Для каждого типа данных применяются специализированные энкодеры, преобразующие информацию в числовые векторы или эмбеддинги. На финальном этапе нейросеть объединяет эти данные в единый мультимодальный образ, что позволяет алгоритмам более точно определять содержание и смысловую нагрузку ролика.
Важной частью технологического стека стала система распознавания известных персон. Алгоритм отбирает ключевые кадры с частотой одна секунда и выделяет лица, формируя массив визуальных данных. С помощью иерархической кластеризации система группирует изображения одного и того же человека, учитывая изменения ракурса, мимики и освещения. Усредненные данные затем сравниваются с базой популярных личностей, что позволяет автоматически идентифицировать знаменитостей, присутствующих в видео.
Мультимодальная языковая модель обрабатывает информацию на основе трансформерной архитектуры, используя данные из названия, описания, видеоряда и аудио. Визуальные и звуковые сигналы переводятся в пространство токенов большой языковой модели с помощью линейного преобразования. Особенностью подхода стало компактное кодирование видео, которое занимает всего шестнадцать токенов, что обеспечивает высокую скорость обработки без существенной потери качества. Система способна анализировать до 2000 видео в одном запросе, создавая развернутые описания, сравнивая ролики на релевантность, предлагая названия и предсказывая реакции аудитории.