Wanture.

Decide better.

Live better.

Stay Curious. Stay Wanture.

© 2026 Wanture. All rights reserved.

  • Terms of Use
  • Privacy Policy
Технологии/Софт
Как мультимодальные модели меняют рекомендации в VK Видео?

512‑мерный эмбеддинг объединяет видео, звук и текст, подбирая релевантные ролики

6 марта 2026

—

Explainer

Татьяна Шаповалова
banner

Мультимодальные модели VK Видео превращают каждый ролик в 512‑мерный эмбеддинг, объединяющий изображение, субтитры и звук. Контрастивное обучение позволяет системе мгновенно определять тему и стиль, предлагая релевантные ролики сразу после загрузки. Точность рекомендаций выросла на 5,3 %, а время просмотра увеличилось в 4,4 раз, делая поиск по примеру и кросс‑форматные подсказки привычными.

D8qBf6hxn7EW-3

Краткое содержание:

  • VK Видео превращает каждый ролик в 512‑мерный эмбеддинг‑«штрихкод», мгновенно определяя тему и стиль, что подняло просмотры до 3,3 млрд в сутки.
  • Модель обучается контрастивным обучением: похожие кадр‑текст пары сближаются в 512‑мерном пространстве, что позволяет находить видео по фото или звуку.
  • Благодаря мгновенному эмбеддингу рекомендации растут на 5,3 % и лайк в ВКонтакте сразу влияет на подбор клипов в VK Клипах; будущие версии объяснят причины советов.

Система распознаёт содержание видео за доли секунды после загрузки. Для этого она превращает каждый ролик в набор из 512 чисел, которые хранят всё: от цветовой палитры до смысла разговора. Классические рекомендации ждут первые просмотры, а новые мультимодальные модели уже в момент загрузки определяют, о чём ролик, и предлагают его тем, кто может быть заинтересован.

Как мультимодальные модели учатся понимать контент

Мультимодальный эмбеддинг: единый числовой вектор, объединяющий визуальные, текстовые и аудио сигналы. Каждый слой информации (картинка, субтитры, звук) проходит через специализированный модуль, после чего полученные векторы складываются в один компактный представительный объект. Этот объект хранит тему, стиль и общий контекст ролика.

Эмбеддинг работает как штрихкод товара: компактный код, в котором зашифрованы все важные свойства. Только вместо цены и веса в нём закодированы сюжет, настроение и визуальный стиль. Когда система получает новый ролик, она мгновенно создаёт такой «штрихкод» и сравнивает его с миллионами других.

Как 512 чисел описывают целый ролик

В VK Видео система извлекает кадры, распознаёт речь и анализирует подписи, после чего формирует эмбеддинг размером 512 измерений. По данным пресс‑релиза VK, после внедрения этой технологии среднесуточное количество просмотров выросло до 3,3 млрд, а совокупное время просмотра увеличилось в 4,4 раза по сравнению с прошлым годом.

Каждое из 512 чисел отвечает за отдельный аспект: освещение, темп речи, наличие музыки, эмоциональный тон. Вместе они создают уникальный «отпечаток» ролика. Два видео о горных походах получат похожие наборы чисел, даже если сняты в разных странах и на разных языках.

Как модель учится связывать картинку и смысл

Как система понимает, что два ролика похожи? Через метод contrastive learning. Во время обучения модель получает парные примеры.

  • Кадр с его описанием (положительная пара): модель уменьшает расстояние между их эмбеддингами.
  • Кадр с несоответствующим описанием (отрицательная пара): модель увеличивает расстояние.

Модель обрабатывает миллионы таких пар. Постепенно она начинает «видеть» связь между изображением горного пейзажа и текстом о походе, даже если слова «гора» в ролике отсутствуют. Числовые векторы сближаются в пространстве из 512 измерений: чем ближе векторы, тем схожее содержание.

Представьте карту, где каждая точка (это ролик). Видео о восхождениях лежат рядом. Рецепты борща образуют отдельный кластер. Система не знает слова «гора» или «борщ», она просто видит, что одни точки тяготеют друг к другу, а другие отталкиваются. Эта геометрия и есть понимание контекста.

Почему новый ролик попадает в ленту мгновенно

Традиционный алгоритм ждёт. Первые зрители смотрят ролик. Только потом система решает, кому его показать. Мультимодальная модель анализирует контент мгновенно, поэтому пользователь получает релевантные ролики сразу после загрузки. По результатам A/B‑тестов, проведённых командой VK, точность рекомендаций увеличилась на 5,3 %.

Автор загружает видео о зимней рыбалке. Система извлекает кадры льда, распознаёт слово «окунь», регистрирует звук бура. За секунды формируется эмбеддинг. Через мгновение ролик появляется в лентах пользователей, которые недавно смотрели материалы о рыбалке или зимнем отдыхе. Не нужно ждать первой сотни просмотров.

Как найти видео по фотографии заката

Пользователь может загрузить фотографию заката, и система найдёт видео с похожей цветовой палитрой. Как это работает пошагово?

  1. Фото превращается в числовой вектор: система анализирует оттенки оранжевого, розового, фиолетового.
  2. Этот вектор сравнивается с эмбеддингами всех роликов в базе.
  3. Система выбирает видео, чьи векторы ближе всего к вектору загруженного фото.
  4. В результатах появляются ролики с закатами, даже если в их названии нет слова «закат».

Аналогично короткий аудиоклип позволяет подобрать ролики с схожим саундтреком. Поиск работает не через ключевые слова, а через смысловые связи между модальностями. Тот же «штрихкод»: система сравнивает коды, а не описания.

Как лайк во ВКонтакте влияет на клипы

Лайкнув пост о путешествиях во ВКонтакте, пользователь увидит в VK Клипах ролики с видами Алтая. Общий эмбеддинг позволяет переносить предпочтения из одной платформы в другую без потери контекста.

Конкретный сценарий: пользователь ставит лайк посту с фотографией Байкала зимой. Система фиксирует эмбеддинг этого изображения (лёд, синие тона, горизонт). Через несколько минут в VK Клипах появляется короткое видео о зимней поездке на Байкал. Никаких явных тегов «Байкал» не требуется: достаточно совпадения числовых векторов.

Почему алгоритм порекомендовал именно это видео

В ближайших версиях система будет показывать подпись типа: «Рекомендуем это видео, потому что вы оценили сцену с горами в предыдущем ролике». Такая прозрачность помогает понять, почему был сделан конкретный совет, и корректировать его при необходимости.

Вместо чёрного ящика пользователь увидит логику. «Этот клип про альпинизм появился, потому что вы досмотрели до конца ролик о восхождении на Эльбрус». Можно будет указать, что горы интересны, но альпинизм (нет). Система скорректирует будущие рекомендации, опираясь на уточнённые векторы.

Что будет дальше

Развитие интерпретируемости и генерации контента станет следующим шагом. Модели смогут не только подбирать существующие ролики, но и создавать новые коллажи из любимых сцен, формировать плейлисты под текущие условия (время суток, погода) и генерировать короткие саммари длинных видеоматериалов.

Исследовательская база VK‑LSVD уже содержит более 40 млрд взаимодействий, что ускорит обучение будущих моделей. По мере роста понимания тонких смыслов контента рекомендации станут точнее и объяснимее, превращаясь из «умного фильтра» в персонального помощника, способного не только искать и подбирать, но и объяснять свой выбор. В дальнейшем система будет ещё точнее определять интересы пользователя, учитывая контекст его действий и предпочтения, а также предлагать персонализированные подборки роликов.

О чём это

  • Explainer/
  • Татьяна Шаповалова/
  • Технологии/
  • Софт

Лента

    article

    Елена Ковригинаоколо 11 часов назад

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Елена Абрамовичоколо 12 часов назад

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафароваоколо 18 часов назад

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова4 дня назад

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова6 дней назад

    Загрузки VPN в России выросли в 14 раз в 2026 году

    С начала 2026 года загрузки VPN‑приложений в России выросли в 14 раз. В марте россияне скачали более 9,2 млн через Google Play, что в 14 раз больше, чем в марте 2025 года. За первый квартал 2026 года суммарные загрузки достигли 21,27 млн, а за год зафиксировано 35,7 млн скачиваний. Три приложения из топ‑5 собрали по 2,5+ млн загрузок, подтверждая рост спроса после новых правил блокировки VPN‑трафика.

    Загрузки VPN в России выросли в 14 раз в 2026 году
    Алина Джафарова6 дней назад

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску

    Samsung готовит к летнему запуску в июле 2026 года три складных смартфона (Galaxy Z Fold 8, Z Fold 8 Wide и Galaxy Z Flip 8). Все модели получат встроенную магнитную систему, аналогичную MagSafe, что решит дефицит совместимых чехлов в России, где в первом квартале продано 29 000 складных устройств. Ожидается анонс 22 июля в Лондоне, детали надёжности шарнира пока не раскрыты.

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску
    Алина Джафарова6 дней назад

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней

    С 28 апреля Sony объявила, что цифровые лицензии для игр на консолях PS4 и PS5 будут проверяться каждые 30 дней. После мартовского обновления доступ к купленным онлайн‑играм будет отключаться до следующей синхронизации, если консоль не подключена к сети хотя бы раз в месяц. Физические диски не затронуты, а старые покупки остаются активными.

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней
    Алина Джафарова6 дней назад

    Биологический возраст: VO₂max ≥48 и HRV 50‑66 мс

    Глюкоза <5,0 ммоль/л, сон 7‑9 ч — путь к замедлению старения

    Тимур Красников6 дней назад

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC

    23 апреля 2026 г. на автосалоне в Пекине Rox Motor представила гибридный внедорожник Adamas — 1,5 л двигатель и два электромотора, суммарная мощность 476 л. с., запас хода 1 115 км по WLTC. Электрический диапазон 235 км, разгон 0–100 км/ч за 5,5 с, макс. 190 км/ч. Батарея 70 кВт·ч, быстрая зарядка 100 кВт 0–80 % за 29 мин. Компания объявила о локальном сборе, предзаказы с марта, ожидаются к концу года.

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC
    Виктор Морозов27 апреля 2026
    Loading...
Технологии/Софт

Как мультимодальные модели меняют рекомендации в VK Видео?

512‑мерный эмбеддинг объединяет видео, звук и текст, подбирая релевантные ролики

6 марта 2026, 17:09

Мультимодальные модели VK Видео превращают каждый ролик в 512‑мерный эмбеддинг, объединяющий изображение, субтитры и звук. Контрастивное обучение позволяет системе мгновенно определять тему и стиль, предлагая релевантные ролики сразу после загрузки. Точность рекомендаций выросла на 5,3 %, а время просмотра увеличилось в 4,4 раз, делая поиск по примеру и кросс‑форматные подсказки привычными.

D8qBf6hxn7EW-3

Краткое содержание

  • VK Видео превращает каждый ролик в 512‑мерный эмбеддинг‑«штрихкод», мгновенно определяя тему и стиль, что подняло просмотры до 3,3 млрд в сутки.
  • Модель обучается контрастивным обучением: похожие кадр‑текст пары сближаются в 512‑мерном пространстве, что позволяет находить видео по фото или звуку.
  • Благодаря мгновенному эмбеддингу рекомендации растут на 5,3 % и лайк в ВКонтакте сразу влияет на подбор клипов в VK Клипах; будущие версии объяснят причины советов.

Система распознаёт содержание видео за доли секунды после загрузки. Для этого она превращает каждый ролик в набор из 512 чисел, которые хранят всё: от цветовой палитры до смысла разговора. Классические рекомендации ждут первые просмотры, а новые мультимодальные модели уже в момент загрузки определяют, о чём ролик, и предлагают его тем, кто может быть заинтересован.

Как мультимодальные модели учатся понимать контент

Мультимодальный эмбеддинг: единый числовой вектор, объединяющий визуальные, текстовые и аудио сигналы. Каждый слой информации (картинка, субтитры, звук) проходит через специализированный модуль, после чего полученные векторы складываются в один компактный представительный объект. Этот объект хранит тему, стиль и общий контекст ролика.

Эмбеддинг работает как штрихкод товара: компактный код, в котором зашифрованы все важные свойства. Только вместо цены и веса в нём закодированы сюжет, настроение и визуальный стиль. Когда система получает новый ролик, она мгновенно создаёт такой «штрихкод» и сравнивает его с миллионами других.

Как 512 чисел описывают целый ролик

В VK Видео система извлекает кадры, распознаёт речь и анализирует подписи, после чего формирует эмбеддинг размером 512 измерений. По данным пресс‑релиза VK, после внедрения этой технологии среднесуточное количество просмотров выросло до 3,3 млрд, а совокупное время просмотра увеличилось в 4,4 раза по сравнению с прошлым годом.

Каждое из 512 чисел отвечает за отдельный аспект: освещение, темп речи, наличие музыки, эмоциональный тон. Вместе они создают уникальный «отпечаток» ролика. Два видео о горных походах получат похожие наборы чисел, даже если сняты в разных странах и на разных языках.

Как модель учится связывать картинку и смысл

Как система понимает, что два ролика похожи? Через метод contrastive learning. Во время обучения модель получает парные примеры.

  • Кадр с его описанием (положительная пара): модель уменьшает расстояние между их эмбеддингами.
  • Кадр с несоответствующим описанием (отрицательная пара): модель увеличивает расстояние.

Модель обрабатывает миллионы таких пар. Постепенно она начинает «видеть» связь между изображением горного пейзажа и текстом о походе, даже если слова «гора» в ролике отсутствуют. Числовые векторы сближаются в пространстве из 512 измерений: чем ближе векторы, тем схожее содержание.

Представьте карту, где каждая точка (это ролик). Видео о восхождениях лежат рядом. Рецепты борща образуют отдельный кластер. Система не знает слова «гора» или «борщ», она просто видит, что одни точки тяготеют друг к другу, а другие отталкиваются. Эта геометрия и есть понимание контекста.

Почему новый ролик попадает в ленту мгновенно

Традиционный алгоритм ждёт. Первые зрители смотрят ролик. Только потом система решает, кому его показать. Мультимодальная модель анализирует контент мгновенно, поэтому пользователь получает релевантные ролики сразу после загрузки. По результатам A/B‑тестов, проведённых командой VK, точность рекомендаций увеличилась на 5,3 %.

Автор загружает видео о зимней рыбалке. Система извлекает кадры льда, распознаёт слово «окунь», регистрирует звук бура. За секунды формируется эмбеддинг. Через мгновение ролик появляется в лентах пользователей, которые недавно смотрели материалы о рыбалке или зимнем отдыхе. Не нужно ждать первой сотни просмотров.

Как найти видео по фотографии заката

Пользователь может загрузить фотографию заката, и система найдёт видео с похожей цветовой палитрой. Как это работает пошагово?

  1. Фото превращается в числовой вектор: система анализирует оттенки оранжевого, розового, фиолетового.
  2. Этот вектор сравнивается с эмбеддингами всех роликов в базе.
  3. Система выбирает видео, чьи векторы ближе всего к вектору загруженного фото.
  4. В результатах появляются ролики с закатами, даже если в их названии нет слова «закат».

Аналогично короткий аудиоклип позволяет подобрать ролики с схожим саундтреком. Поиск работает не через ключевые слова, а через смысловые связи между модальностями. Тот же «штрихкод»: система сравнивает коды, а не описания.

Как лайк во ВКонтакте влияет на клипы

Лайкнув пост о путешествиях во ВКонтакте, пользователь увидит в VK Клипах ролики с видами Алтая. Общий эмбеддинг позволяет переносить предпочтения из одной платформы в другую без потери контекста.

Конкретный сценарий: пользователь ставит лайк посту с фотографией Байкала зимой. Система фиксирует эмбеддинг этого изображения (лёд, синие тона, горизонт). Через несколько минут в VK Клипах появляется короткое видео о зимней поездке на Байкал. Никаких явных тегов «Байкал» не требуется: достаточно совпадения числовых векторов.

Почему алгоритм порекомендовал именно это видео

В ближайших версиях система будет показывать подпись типа: «Рекомендуем это видео, потому что вы оценили сцену с горами в предыдущем ролике». Такая прозрачность помогает понять, почему был сделан конкретный совет, и корректировать его при необходимости.

Вместо чёрного ящика пользователь увидит логику. «Этот клип про альпинизм появился, потому что вы досмотрели до конца ролик о восхождении на Эльбрус». Можно будет указать, что горы интересны, но альпинизм (нет). Система скорректирует будущие рекомендации, опираясь на уточнённые векторы.

Что будет дальше

Развитие интерпретируемости и генерации контента станет следующим шагом. Модели смогут не только подбирать существующие ролики, но и создавать новые коллажи из любимых сцен, формировать плейлисты под текущие условия (время суток, погода) и генерировать короткие саммари длинных видеоматериалов.

Исследовательская база VK‑LSVD уже содержит более 40 млрд взаимодействий, что ускорит обучение будущих моделей. По мере роста понимания тонких смыслов контента рекомендации станут точнее и объяснимее, превращаясь из «умного фильтра» в персонального помощника, способного не только искать и подбирать, но и объяснять свой выбор. В дальнейшем система будет ещё точнее определять интересы пользователя, учитывая контекст его действий и предпочтения, а также предлагать персонализированные подборки роликов.

О чём это

  • Explainer/
  • Татьяна Шаповалова/
  • Технологии/
  • Софт

Лента

    article

    Елена Ковригинаоколо 11 часов назад

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Елена Абрамовичоколо 12 часов назад

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафароваоколо 18 часов назад

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова4 дня назад

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова6 дней назад

    Загрузки VPN в России выросли в 14 раз в 2026 году

    С начала 2026 года загрузки VPN‑приложений в России выросли в 14 раз. В марте россияне скачали более 9,2 млн через Google Play, что в 14 раз больше, чем в марте 2025 года. За первый квартал 2026 года суммарные загрузки достигли 21,27 млн, а за год зафиксировано 35,7 млн скачиваний. Три приложения из топ‑5 собрали по 2,5+ млн загрузок, подтверждая рост спроса после новых правил блокировки VPN‑трафика.

    Загрузки VPN в России выросли в 14 раз в 2026 году
    Алина Джафарова6 дней назад

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску

    Samsung готовит к летнему запуску в июле 2026 года три складных смартфона (Galaxy Z Fold 8, Z Fold 8 Wide и Galaxy Z Flip 8). Все модели получат встроенную магнитную систему, аналогичную MagSafe, что решит дефицит совместимых чехлов в России, где в первом квартале продано 29 000 складных устройств. Ожидается анонс 22 июля в Лондоне, детали надёжности шарнира пока не раскрыты.

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску
    Алина Джафарова6 дней назад

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней

    С 28 апреля Sony объявила, что цифровые лицензии для игр на консолях PS4 и PS5 будут проверяться каждые 30 дней. После мартовского обновления доступ к купленным онлайн‑играм будет отключаться до следующей синхронизации, если консоль не подключена к сети хотя бы раз в месяц. Физические диски не затронуты, а старые покупки остаются активными.

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней
    Алина Джафарова6 дней назад

    Биологический возраст: VO₂max ≥48 и HRV 50‑66 мс

    Глюкоза <5,0 ммоль/л, сон 7‑9 ч — путь к замедлению старения

    Тимур Красников6 дней назад

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC

    23 апреля 2026 г. на автосалоне в Пекине Rox Motor представила гибридный внедорожник Adamas — 1,5 л двигатель и два электромотора, суммарная мощность 476 л. с., запас хода 1 115 км по WLTC. Электрический диапазон 235 км, разгон 0–100 км/ч за 5,5 с, макс. 190 км/ч. Батарея 70 кВт·ч, быстрая зарядка 100 кВт 0–80 % за 29 мин. Компания объявила о локальном сборе, предзаказы с марта, ожидаются к концу года.

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC
    Виктор Морозов27 апреля 2026
    Loading...
banner