Что такое мультимодальный эмбеддинг и как он работает в VK Видео?

Мультимодальный эмбеддинг — это числовой вектор из 512 чисел, который объединяет визуальные, текстовые и аудио сигналы видео. Система анализирует кадры, речь и подписи, формируя компактный «отпечаток» ролика, который хранит его тему, стиль и контекст для мгновенных рекомендаций.

Почему новые видео попадают в рекомендации сразу после загрузки?

Мультимодальная модель анализирует контент мгновенно, не дожидаясь первых просмотров. Она создаёт эмбеддинг сразу при загрузке, определяет тему и показывает ролик заинтересованным пользователям. Традиционные алгоритмы требуют накопления статистики просмотров, что занимает время.

Как система находит видео по загруженной фотографии?

Система превращает фотографию в числовой вектор, анализируя цвета и визуальные элементы. Затем этот вектор сравнивается с эмбеддингами всех роликов в базе. Видео с похожими векторами появляются в результатах, даже если их названия не содержат соответствующих ключевых слов.

Как лайки во ВКонтакте влияют на рекомендации в VK Клипах?

Общий эмбеддинг позволяет переносить предпочтения между платформами. Когда вы лайкаете пост с изображением, система фиксирует его эмбеддинг и использует для подбора похожих видео в VK Клипах. Совпадение числовых векторов работает без явных тегов.

Что означает contrastive learning в обучении модели?

Contrastive learning — метод обучения, при котором модель получает парные примеры: правильные (кадр с его описанием) и неправильные (кадр с несоответствующим текстом). Модель учится сближать векторы похожего контента и отдалять векторы разного, постепенно понимая связи между изображением и смыслом.

Какие улучшения показала мультимодальная система по сравнению с классическими рекомендациями?

По данным VK, после внедрения мультимодальных эмбеддингов среднесуточное количество просмотров выросло до 3,3 млрд, совокупное время просмотра увеличилось в 4,4 раза, а точность рекомендаций повысилась на 5,3% по результатам A/B-тестирования.