Что такое мультимодальный эмбеддинг и как он работает в VK Видео?

Мультимодальный эмбеддинг — это числовой вектор из 512 чисел, который объединяет визуальные, текстовые и аудио сигналы видео. Система анализирует кадры, речь и подписи, формируя компактный «отпечаток» ролика, который хранит его тему, стиль и контекст для мгновенных рекомендаций.

Почему новые видео попадают в рекомендации сразу после загрузки?

Мультимодальная модель анализирует контент мгновенно, не дожидаясь первых просмотров. Она создаёт эмбеддинг сразу при загрузке, определяет тему и показывает ролик заинтересованным пользователям. Традиционные алгоритмы требуют накопления статистики просмотров, что занимает время.

Как система находит видео по загруженной фотографии?

Система превращает фотографию в числовой вектор, анализируя цвета и визуальные элементы. Затем этот вектор сравнивается с эмбеддингами всех роликов в базе. Видео с похожими векторами появляются в результатах, даже если их названия не содержат соответствующих ключевых слов.

Как лайки во ВКонтакте влияют на рекомендации в VK Клипах?

Общий эмбеддинг позволяет переносить предпочтения между платформами. Когда вы лайкаете пост с изображением, система фиксирует его эмбеддинг и использует для подбора похожих видео в VK Клипах. Совпадение числовых векторов работает без явных тегов.

Что означает contrastive learning в обучении модели?

Contrastive learning — метод обучения, при котором модель получает парные примеры: правильные (кадр с его описанием) и неправильные (кадр с несоответствующим текстом). Модель учится сближать векторы похожего контента и отдалять векторы разного, постепенно понимая связи между изображением и смыслом.

Какие улучшения показала мультимодальная система по сравнению с классическими рекомендациями?

По данным VK, после внедрения мультимодальных эмбеддингов среднесуточное количество просмотров выросло до 3,3 млрд, совокупное время просмотра увеличилось в 4,4 раза, а точность рекомендаций повысилась на 5,3% по результатам A/B-тестирования.

Технологии/Софт

Как мультимодальные модели меняют рекомендации в VK Видео?

512‑мерный эмбеддинг объединяет видео, звук и текст, подбирая релевантные ролики

6 марта 2026, 17:09

Мультимодальные модели VK Видео превращают каждый ролик в 512‑мерный эмбеддинг, объединяющий изображение, субтитры и звук. Контрастивное обучение позволяет системе мгновенно определять тему и стиль, предлагая релевантные ролики сразу после загрузки. Точность рекомендаций выросла на 5,3 %, а время просмотра увеличилось в 4,4 раз, делая поиск по примеру и кросс‑форматные подсказки привычными.

Краткое содержание

VK Видео превращает каждый ролик в 512‑мерный эмбеддинг‑«штрихкод», мгновенно определяя тему и стиль, что подняло просмотры до 3,3 млрд в сутки.
Модель обучается контрастивным обучением: похожие кадр‑текст пары сближаются в 512‑мерном пространстве, что позволяет находить видео по фото или звуку.
Благодаря мгновенному эмбеддингу рекомендации растут на 5,3 % и лайк в ВКонтакте сразу влияет на подбор клипов в VK Клипах; будущие версии объяснят причины советов.

Система распознаёт содержание видео за доли секунды после загрузки. Для этого она превращает каждый ролик в набор из 512 чисел, которые хранят всё: от цветовой палитры до смысла разговора. Классические рекомендации ждут первые просмотры, а новые мультимодальные модели уже в момент загрузки определяют, о чём ролик, и предлагают его тем, кто может быть заинтересован.

Как мультимодальные модели учатся понимать контент

Мультимодальный эмбеддинг: единый числовой вектор, объединяющий визуальные, текстовые и аудио сигналы. Каждый слой информации (картинка, субтитры, звук) проходит через специализированный модуль, после чего полученные векторы складываются в один компактный представительный объект. Этот объект хранит тему, стиль и общий контекст ролика.

Эмбеддинг работает как штрихкод товара: компактный код, в котором зашифрованы все важные свойства. Только вместо цены и веса в нём закодированы сюжет, настроение и визуальный стиль. Когда система получает новый ролик, она мгновенно создаёт такой «штрихкод» и сравнивает его с миллионами других.

Как 512 чисел описывают целый ролик

В VK Видео система извлекает кадры, распознаёт речь и анализирует подписи, после чего формирует эмбеддинг размером 512 измерений. По данным пресс‑релиза VK, после внедрения этой технологии среднесуточное количество просмотров выросло до 3,3 млрд, а совокупное время просмотра увеличилось в 4,4 раза по сравнению с прошлым годом.

Каждое из 512 чисел отвечает за отдельный аспект: освещение, темп речи, наличие музыки, эмоциональный тон. Вместе они создают уникальный «отпечаток» ролика. Два видео о горных походах получат похожие наборы чисел, даже если сняты в разных странах и на разных языках.

Как модель учится связывать картинку и смысл

Как система понимает, что два ролика похожи? Через метод contrastive learning. Во время обучения модель получает парные примеры.

Кадр с его описанием (положительная пара): модель уменьшает расстояние между их эмбеддингами.
Кадр с несоответствующим описанием (отрицательная пара): модель увеличивает расстояние.

Модель обрабатывает миллионы таких пар. Постепенно она начинает «видеть» связь между изображением горного пейзажа и текстом о походе, даже если слова «гора» в ролике отсутствуют. Числовые векторы сближаются в пространстве из 512 измерений: чем ближе векторы, тем схожее содержание.

Представьте карту, где каждая точка (это ролик). Видео о восхождениях лежат рядом. Рецепты борща образуют отдельный кластер. Система не знает слова «гора» или «борщ», она просто видит, что одни точки тяготеют друг к другу, а другие отталкиваются. Эта геометрия и есть понимание контекста.

Почему новый ролик попадает в ленту мгновенно

Традиционный алгоритм ждёт. Первые зрители смотрят ролик. Только потом система решает, кому его показать. Мультимодальная модель анализирует контент мгновенно, поэтому пользователь получает релевантные ролики сразу после загрузки. По результатам A/B‑тестов, проведённых командой VK, точность рекомендаций увеличилась на 5,3 %.

Автор загружает видео о зимней рыбалке. Система извлекает кадры льда, распознаёт слово «окунь», регистрирует звук бура. За секунды формируется эмбеддинг. Через мгновение ролик появляется в лентах пользователей, которые недавно смотрели материалы о рыбалке или зимнем отдыхе. Не нужно ждать первой сотни просмотров.

Как найти видео по фотографии заката

Пользователь может загрузить фотографию заката, и система найдёт видео с похожей цветовой палитрой. Как это работает пошагово?

Фото превращается в числовой вектор: система анализирует оттенки оранжевого, розового, фиолетового.
Этот вектор сравнивается с эмбеддингами всех роликов в базе.
Система выбирает видео, чьи векторы ближе всего к вектору загруженного фото.
В результатах появляются ролики с закатами, даже если в их названии нет слова «закат».

Аналогично короткий аудиоклип позволяет подобрать ролики с схожим саундтреком. Поиск работает не через ключевые слова, а через смысловые связи между модальностями. Тот же «штрихкод»: система сравнивает коды, а не описания.

Как лайк во ВКонтакте влияет на клипы

Лайкнув пост о путешествиях во ВКонтакте, пользователь увидит в VK Клипах ролики с видами Алтая. Общий эмбеддинг позволяет переносить предпочтения из одной платформы в другую без потери контекста.

Конкретный сценарий: пользователь ставит лайк посту с фотографией Байкала зимой. Система фиксирует эмбеддинг этого изображения (лёд, синие тона, горизонт). Через несколько минут в VK Клипах появляется короткое видео о зимней поездке на Байкал. Никаких явных тегов «Байкал» не требуется: достаточно совпадения числовых векторов.

Почему алгоритм порекомендовал именно это видео

В ближайших версиях система будет показывать подпись типа: «Рекомендуем это видео, потому что вы оценили сцену с горами в предыдущем ролике». Такая прозрачность помогает понять, почему был сделан конкретный совет, и корректировать его при необходимости.

Вместо чёрного ящика пользователь увидит логику. «Этот клип про альпинизм появился, потому что вы досмотрели до конца ролик о восхождении на Эльбрус». Можно будет указать, что горы интересны, но альпинизм (нет). Система скорректирует будущие рекомендации, опираясь на уточнённые векторы.

Что будет дальше

Развитие интерпретируемости и генерации контента станет следующим шагом. Модели смогут не только подбирать существующие ролики, но и создавать новые коллажи из любимых сцен, формировать плейлисты под текущие условия (время суток, погода) и генерировать короткие саммари длинных видеоматериалов.

Исследовательская база VK‑LSVD уже содержит более 40 млрд взаимодействий, что ускорит обучение будущих моделей. По мере роста понимания тонких смыслов контента рекомендации станут точнее и объяснимее, превращаясь из «умного фильтра» в персонального помощника, способного не только искать и подбирать, но и объяснять свой выбор. В дальнейшем система будет ещё точнее определять интересы пользователя, учитывая контекст его действий и предпочтения, а также предлагать персонализированные подборки роликов.

О чём это

Лента

Xiaomi запустила предзаказ Mijia 10kg Front-Load

12 апреля 2026 года Xiaomi объявила предзаказ стиральной машины Mijia 10kg Front‑Load в Китае. Устройство шириной 516 мм и барабаном 525 мм подходит для типовых российских квартир, где глубина бытовой техники ограничена. Управление через приложение Mijia, голос XiaoAI и OTA‑обновления HyperOS обеспечивают гибкую интеграцию в умный дом и постоянное улучшение функций.

около 7 часов назад

JBL EasySing + On‑the‑Go 2 Plus: ИИ‑караоке в реальном времени

5 апреля JBL начала продажи набора EasySing + On‑the‑Go 2 Plus: Bluetooth‑колонки и караоке‑микрофона с ИИ‑алгоритмом, который в реальном времени убирает оригинальный вокал (25 %‑100 %) и корректирует высоту нот. Устройство подключается через USB‑C, работает до 10 часов, и подходит для выездных вечеринок. Отдельный комплект из двух микрофонов появится 12 апреля.

около 8 часов назад

Почему хронический стресс приводит к постоянной усталости

Почему гипоталамус‑надпочечниковая ось утомляет и как за три шага вернуть энергию

около 8 часов назад

Алкоголь разрушает фазу быстрого сна: миф о засыпании

Как небольшие дозы алкоголя сокращают REM‑сон и как спать лучше без спирта

около 8 часов назад

Что скрывают обычные весы: мышцы, жир и риск саркопении

Почему после 35 лет масса падает, а вес остаётся, и как измерить состав тела

около 8 часов назад

Стабилизировать глюкозу и победить вечернюю тягу к сладкому

Как уровень глюкозы падает вечером и как белок помогает снизить желание сладкого

около 8 часов назад

Почему после 40 лет просыпаемся в 3‑4 утра?

Гормональный сдвиг: падение прогестерона и рост кортизола ускоряют подъем

около 9 часов назад

Apple анонсирует складной iPhone с двойным режимом работы

Apple разрабатывает складной iPhone с двойным режимом работы, который будет работать на отдельной ОС и иметь экран размера iPad Mini. Разрешение 2268×1488 пикселей, соотношение 4:3. Планируется выпуск в 2026 году, что даст российским пользователям гибкость для работы и обучения, а отсутствие iOS откроет путь к альтернативным экосистемам.

около 10 часов назад

7 шагов к полной настройке PowerToys на Windows

Установите PowerToys, настройте клавиши и разверните в компании за 20 минут

около 12 часов назад

Яндекс запустил бесплатную «Алиса» 2.5 на 19,3 млн устройств

12 марта 2026 года Яндекс запустил обновлённую ИИ‑модель «Алиса» 2.5, автоматически установленную на более чем 19,3 млн умных колонок и ТВ‑устройств. Новая версия отвечает точнее в 60 % запросов, удлиняет ответы на 37 % и сокращает уточняющие вопросы почти на 10 %, делая диалог естественнее и экономя время.

около 14 часов назад

Apple закрыла проект складного iPhone‑раскладушки

Apple закрыла разработку складного iPhone‑раскладушки, объяснив это потерей ёмкости батареи почти на 15 % из‑за шарнира, который занимает место для камер. Решение последовало после анализа слабых продаж iPhone 12 mini и iPhone 13 mini, потерявших 30 % рынка в первом квартале. Компания переключила усилия на книжный iPhone, запланированный к выпуску в 2026 году.

1 день назад

GAC Aion V стартует в России: 580 км на одной зарядке

Китайский автопроизводитель GAC объявил о запуске в России электрокроссовера Aion V. По циклу NEDC автомобиль проходит 580 км на одной зарядке, а на станции 180 кВт заряжается от 10 % до 80 % за 24 минуты. Модель оснащена 204 л.с. мотором, крутящим моментом 210 Нм и разгоняется до 100 км/ч за 7,9 с. Запуск запланирован на март 2026 г., цены пока не раскрыты.

1 день назад

Klotho запустила ИИ‑тесты биологического возраста

Klotho Neurosciences представила два теста на основе искусственного интеллекта, определяющих биологический возраст через метилирование ДНК и профиль мРНК. Технология анализирует ген Klotho и девять генов долголетия, помогая точнее отбирать участников клинических испытаний нейродегенеративных заболеваний. Прототип Klotho Clock ожидается в 2026 году.

1 день назад

Meta купила Moltbook: управление ИИ‑агентами

11 марта 2026 года Meta объявила в Москве покупку Moltbook, платформы для общения ИИ‑агентов. Вирусный рост проекта в январе 2026 года показал спрос на автономные диалоги, а устранённая в феврале 2026 года уязвимость гарантирует безопасность. Несмотря на запрет Meta в России, компания планирует интегрировать Moltbook в Superintelligence Labs и тестировать модели Avocado и Mango в 2026 году.

1 день назад

Adobe запустила бета‑доступ AI‑ассистента в Photoshop

26 марта 2026 г. Adobe открыла бета‑доступ к новому AI‑ассистенту в Photoshop, работающему в веб‑версии и мобильных приложениях. Бесплатные пользователи получают 20 генераций в сутки, а платные получают неограниченное количество до 9 апреля 2026 г. Инструмент удаляет объекты, меняет фон и освещение по текстовым запросам, ускоряя работу дизайнеров без глубоких навыков.

1 день назад

MacBook Neo A18 Pro: тишина и цена в одном ноутбуке

Для студентов: ноутбук без вентилятора, 8 ГБ ОЗУ, два Type‑C порта и низкая цена

2 дня назад

Xiaomi представила детскую умную щётку Mijia Kids Pro

Xiaomi тестирует в Китае новую детскую умную щётку Mijia Kids Electric Toothbrush Pro. Устройство имеет цветной дисплей, ИИ‑поддержку и вибромотор 31 000 колебаний/мин, защищённый по IPX8, а аккумулятор держит заряд до 90 дней. Приложение Mijia позволяет отмечать кариес, пломбы и выпавшие зубы, исключая их из маршрута чистки, а анимации и значки мотивируют детей от 3‑12 лет. После теста планируется запуск в России через mi.com/ru и крупные сети.

2 дня назад

MacBook Neo — как Apple завоевывает рынок ноутбуков

В статье рассматривается запуск MacBook Neo с процессором A18 Pro, его технические характеристики и позиционирование на российском рынке бюджетных ноутбуков. Анализируются преимущества модели перед типичными Windows‑устройствами, возможности для школ, студентов и небольших компаний, а также стратегические выводы Apple о вертикальной интеграции и ценовой политике.

3 дня назад

Как собрать компьютер в 2026 году: пошаговое руководство

От 50 000 до 280 000 рублей: четыре конфигурации для любых задач

3 дня назад

Apple анонсирует iMac 2026 с чипами M5 и M6

Apple объявила о выпуске нового iMac в конце 2026 года. Устройство сохранит алюминиевый корпус 2021 года, но получит семь новых оттенков: от глубокого синего до ярко‑оранжевого. Внутри будет установлен процессор M5 либо более мощный M6, что ускорит графику и компиляцию. Обновление призвано поддержать спрос на настольные решения.

3 дня назад

Технологии/Софт

Как мультимодальные модели меняют рекомендации в VK Видео?

512‑мерный эмбеддинг объединяет видео, звук и текст, подбирая релевантные ролики

6 марта 2026

Татьяна Шаповалова

Краткое содержание:

VK Видео превращает каждый ролик в 512‑мерный эмбеддинг‑«штрихкод», мгновенно определяя тему и стиль, что подняло просмотры до 3,3 млрд в сутки.
Модель обучается контрастивным обучением: похожие кадр‑текст пары сближаются в 512‑мерном пространстве, что позволяет находить видео по фото или звуку.
Благодаря мгновенному эмбеддингу рекомендации растут на 5,3 % и лайк в ВКонтакте сразу влияет на подбор клипов в VK Клипах; будущие версии объяснят причины советов.

Как мультимодальные модели учатся понимать контент

Как 512 чисел описывают целый ролик

Как модель учится связывать картинку и смысл

Кадр с его описанием (положительная пара): модель уменьшает расстояние между их эмбеддингами.
Кадр с несоответствующим описанием (отрицательная пара): модель увеличивает расстояние.

Почему новый ролик попадает в ленту мгновенно

Как найти видео по фотографии заката

Фото превращается в числовой вектор: система анализирует оттенки оранжевого, розового, фиолетового.
Этот вектор сравнивается с эмбеддингами всех роликов в базе.
Система выбирает видео, чьи векторы ближе всего к вектору загруженного фото.
В результатах появляются ролики с закатами, даже если в их названии нет слова «закат».