Система распознаёт содержание видео за доли секунды после загрузки. Для этого она превращает каждый ролик в набор из 512 чисел, которые хранят всё: от цветовой палитры до смысла разговора. Классические рекомендации ждут первые просмотры, а новые мультимодальные модели уже в момент загрузки определяют, о чём ролик, и предлагают его тем, кто может быть заинтересован.
Как мультимодальные модели учатся понимать контент
Мультимодальный эмбеддинг: единый числовой вектор, объединяющий визуальные, текстовые и аудио сигналы. Каждый слой информации (картинка, субтитры, звук) проходит через специализированный модуль, после чего полученные векторы складываются в один компактный представительный объект. Этот объект хранит тему, стиль и общий контекст ролика.
Эмбеддинг работает как штрихкод товара: компактный код, в котором зашифрованы все важные свойства. Только вместо цены и веса в нём закодированы сюжет, настроение и визуальный стиль. Когда система получает новый ролик, она мгновенно создаёт такой «штрихкод» и сравнивает его с миллионами других.

Как 512 чисел описывают целый ролик
В VK Видео система извлекает кадры, распознаёт речь и анализирует подписи, после чего формирует эмбеддинг размером 512 измерений. По данным пресс‑релиза VK, после внедрения этой технологии среднесуточное количество просмотров выросло до 3,3 млрд, а совокупное время просмотра увеличилось в 4,4 раза по сравнению с прошлым годом.
Каждое из 512 чисел отвечает за отдельный аспект: освещение, темп речи, наличие музыки, эмоциональный тон. Вместе они создают уникальный «отпечаток» ролика. Два видео о горных походах получат похожие наборы чисел, даже если сняты в разных странах и на разных языках.
Как модель учится связывать картинку и смысл
Как система понимает, что два ролика похожи? Через метод contrastive learning. Во время обучения модель получает парные примеры.
- Кадр с его описанием (положительная пара): модель уменьшает расстояние между их эмбеддингами.
- Кадр с несоответствующим описанием (отрицательная пара): модель увеличивает расстояние.
Модель обрабатывает миллионы таких пар. Постепенно она начинает «видеть» связь между изображением горного пейзажа и текстом о походе, даже если слова «гора» в ролике отсутствуют. Числовые векторы сближаются в пространстве из 512 измерений: чем ближе векторы, тем схожее содержание.
Представьте карту, где каждая точка (это ролик). Видео о восхождениях лежат рядом. Рецепты борща образуют отдельный кластер. Система не знает слова «гора» или «борщ», она просто видит, что одни точки тяготеют друг к другу, а другие отталкиваются. Эта геометрия и есть понимание контекста.
Почему новый ролик попадает в ленту мгновенно
Традиционный алгоритм ждёт. Первые зрители смотрят ролик. Только потом система решает, кому его показать. Мультимодальная модель анализирует контент мгновенно, поэтому пользователь получает релевантные ролики сразу после загрузки. По результатам A/B‑тестов, проведённых командой VK, точность рекомендаций увеличилась на 5,3 %.
Автор загружает видео о зимней рыбалке. Система извлекает кадры льда, распознаёт слово «окунь», регистрирует звук бура. За секунды формируется эмбеддинг. Через мгновение ролик появляется в лентах пользователей, которые недавно смотрели материалы о рыбалке или зимнем отдыхе. Не нужно ждать первой сотни просмотров.
Как найти видео по фотографии заката
Пользователь может загрузить фотографию заката, и система найдёт видео с похожей цветовой палитрой. Как это работает пошагово?
- Фото превращается в числовой вектор: система анализирует оттенки оранжевого, розового, фиолетового.
- Этот вектор сравнивается с эмбеддингами всех роликов в базе.
- Система выбирает видео, чьи векторы ближе всего к вектору загруженного фото.
- В результатах появляются ролики с закатами, даже если в их названии нет слова «закат».
Аналогично короткий аудиоклип позволяет подобрать ролики с схожим саундтреком. Поиск работает не через ключевые слова, а через смысловые связи между модальностями. Тот же «штрихкод»: система сравнивает коды, а не описания.
Как лайк во ВКонтакте влияет на клипы
Лайкнув пост о путешествиях во ВКонтакте, пользователь увидит в VK Клипах ролики с видами Алтая. Общий эмбеддинг позволяет переносить предпочтения из одной платформы в другую без потери контекста.
Конкретный сценарий: пользователь ставит лайк посту с фотографией Байкала зимой. Система фиксирует эмбеддинг этого изображения (лёд, синие тона, горизонт). Через несколько минут в VK Клипах появляется короткое видео о зимней поездке на Байкал. Никаких явных тегов «Байкал» не требуется: достаточно совпадения числовых векторов.
Почему алгоритм порекомендовал именно это видео
В ближайших версиях система будет показывать подпись типа: «Рекомендуем это видео, потому что вы оценили сцену с горами в предыдущем ролике». Такая прозрачность помогает понять, почему был сделан конкретный совет, и корректировать его при необходимости.
Вместо чёрного ящика пользователь увидит логику. «Этот клип про альпинизм появился, потому что вы досмотрели до конца ролик о восхождении на Эльбрус». Можно будет указать, что горы интересны, но альпинизм (нет). Система скорректирует будущие рекомендации, опираясь на уточнённые векторы.
Что будет дальше
Развитие интерпретируемости и генерации контента станет следующим шагом. Модели смогут не только подбирать существующие ролики, но и создавать новые коллажи из любимых сцен, формировать плейлисты под текущие условия (время суток, погода) и генерировать короткие саммари длинных видеоматериалов.
Исследовательская база VK‑LSVD уже содержит более 40 млрд взаимодействий, что ускорит обучение будущих моделей. По мере роста понимания тонких смыслов контента рекомендации станут точнее и объяснимее, превращаясь из «умного фильтра» в персонального помощника, способного не только искать и подбирать, но и объяснять свой выбор. В дальнейшем система будет ещё точнее определять интересы пользователя, учитывая контекст его действий и предпочтения, а также предлагать персонализированные подборки роликов.




.png&w=3840&q=75)













