Logo
Моя лентаСегодня
Logo
Decide better.Live better.
Моя лентаСегодня
Logo
Моя лентаСегодня

Stay Curious. Stay Wanture.

© 2026 Wanture. All rights reserved.

  • Terms of Use
  • Privacy Policy
Logo
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Logo
Decide better.Live better.
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Logo
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Технологии/Софт

Как мультимодальные модели меняют рекомендации в VK Видео?

512‑мерный эмбеддинг объединяет видео, звук и текст, подбирая релевантные ролики

Как мультимодальные модели меняют рекомендации в VK Видео?

Мультимодальные модели VK Видео превращают каждый ролик в 512‑мерный эмбеддинг, объединяющий изображение, субтитры и звук. Контрастивное обучение позволяет системе мгновенно определять тему и стиль, предлагая релевантные ролики сразу после загрузки. Точность рекомендаций выросла на 5,3 %, а время просмотра увеличилось в 4,4 раз, делая поиск по примеру и кросс‑форматные подсказки привычными.

6 марта 2026

—

Explainer

Татьяна Шаповалова
banner

Краткое содержание:

  • VK Видео превращает каждый ролик в 512‑мерный эмбеддинг‑«штрихкод», мгновенно определяя тему и стиль, что подняло просмотры до 3,3 млрд в сутки.
  • Модель обучается контрастивным обучением: похожие кадр‑текст пары сближаются в 512‑мерном пространстве, что позволяет находить видео по фото или звуку.
  • Благодаря мгновенному эмбеддингу рекомендации растут на 5,3 % и лайк в ВКонтакте сразу влияет на подбор клипов в VK Клипах; будущие версии объяснят причины советов.

Система распознаёт содержание видео за доли секунды после загрузки. Для этого она превращает каждый ролик в набор из 512 чисел, которые хранят всё: от цветовой палитры до смысла разговора. Классические рекомендации ждут первые просмотры, а новые мультимодальные модели уже в момент загрузки определяют, о чём ролик, и предлагают его тем, кто может быть заинтересован.

Как мультимодальные модели учатся понимать контент

Мультимодальный эмбеддинг: единый числовой вектор, объединяющий визуальные, текстовые и аудио сигналы. Каждый слой информации (картинка, субтитры, звук) проходит через специализированный модуль, после чего полученные векторы складываются в один компактный представительный объект. Этот объект хранит тему, стиль и общий контекст ролика.

Эмбеддинг работает как штрихкод товара: компактный код, в котором зашифрованы все важные свойства. Только вместо цены и веса в нём закодированы сюжет, настроение и визуальный стиль. Когда система получает новый ролик, она мгновенно создаёт такой «штрихкод» и сравнивает его с миллионами других.

Как 512 чисел описывают целый ролик

В VK Видео система извлекает кадры, распознаёт речь и анализирует подписи, после чего формирует эмбеддинг размером 512 измерений. По данным пресс‑релиза VK, после внедрения этой технологии среднесуточное количество просмотров выросло до 3,3 млрд, а совокупное время просмотра увеличилось в 4,4 раза по сравнению с прошлым годом.

Каждое из 512 чисел отвечает за отдельный аспект: освещение, темп речи, наличие музыки, эмоциональный тон. Вместе они создают уникальный «отпечаток» ролика. Два видео о горных походах получат похожие наборы чисел, даже если сняты в разных странах и на разных языках.

Как модель учится связывать картинку и смысл

Как система понимает, что два ролика похожи? Через метод contrastive learning. Во время обучения модель получает парные примеры.

  • Кадр с его описанием (положительная пара): модель уменьшает расстояние между их эмбеддингами.
  • Кадр с несоответствующим описанием (отрицательная пара): модель увеличивает расстояние.

Модель обрабатывает миллионы таких пар. Постепенно она начинает «видеть» связь между изображением горного пейзажа и текстом о походе, даже если слова «гора» в ролике отсутствуют. Числовые векторы сближаются в пространстве из 512 измерений: чем ближе векторы, тем схожее содержание.

Представьте карту, где каждая точка (это ролик). Видео о восхождениях лежат рядом. Рецепты борща образуют отдельный кластер. Система не знает слова «гора» или «борщ», она просто видит, что одни точки тяготеют друг к другу, а другие отталкиваются. Эта геометрия и есть понимание контекста.

Почему новый ролик попадает в ленту мгновенно

Традиционный алгоритм ждёт. Первые зрители смотрят ролик. Только потом система решает, кому его показать. Мультимодальная модель анализирует контент мгновенно, поэтому пользователь получает релевантные ролики сразу после загрузки. По результатам A/B‑тестов, проведённых командой VK, точность рекомендаций увеличилась на 5,3 %.

Автор загружает видео о зимней рыбалке. Система извлекает кадры льда, распознаёт слово «окунь», регистрирует звук бура. За секунды формируется эмбеддинг. Через мгновение ролик появляется в лентах пользователей, которые недавно смотрели материалы о рыбалке или зимнем отдыхе. Не нужно ждать первой сотни просмотров.

Как найти видео по фотографии заката

Пользователь может загрузить фотографию заката, и система найдёт видео с похожей цветовой палитрой. Как это работает пошагово?

  1. Фото превращается в числовой вектор: система анализирует оттенки оранжевого, розового, фиолетового.
  2. Этот вектор сравнивается с эмбеддингами всех роликов в базе.
  3. Система выбирает видео, чьи векторы ближе всего к вектору загруженного фото.
  4. В результатах появляются ролики с закатами, даже если в их названии нет слова «закат».

Аналогично короткий аудиоклип позволяет подобрать ролики с схожим саундтреком. Поиск работает не через ключевые слова, а через смысловые связи между модальностями. Тот же «штрихкод»: система сравнивает коды, а не описания.

Как лайк во ВКонтакте влияет на клипы

Лайкнув пост о путешествиях во ВКонтакте, пользователь увидит в VK Клипах ролики с видами Алтая. Общий эмбеддинг позволяет переносить предпочтения из одной платформы в другую без потери контекста.

Конкретный сценарий: пользователь ставит лайк посту с фотографией Байкала зимой. Система фиксирует эмбеддинг этого изображения (лёд, синие тона, горизонт). Через несколько минут в VK Клипах появляется короткое видео о зимней поездке на Байкал. Никаких явных тегов «Байкал» не требуется: достаточно совпадения числовых векторов.

Почему алгоритм порекомендовал именно это видео

В ближайших версиях система будет показывать подпись типа: «Рекомендуем это видео, потому что вы оценили сцену с горами в предыдущем ролике». Такая прозрачность помогает понять, почему был сделан конкретный совет, и корректировать его при необходимости.

Вместо чёрного ящика пользователь увидит логику. «Этот клип про альпинизм появился, потому что вы досмотрели до конца ролик о восхождении на Эльбрус». Можно будет указать, что горы интересны, но альпинизм (нет). Система скорректирует будущие рекомендации, опираясь на уточнённые векторы.

Что будет дальше

Развитие интерпретируемости и генерации контента станет следующим шагом. Модели смогут не только подбирать существующие ролики, но и создавать новые коллажи из любимых сцен, формировать плейлисты под текущие условия (время суток, погода) и генерировать короткие саммари длинных видеоматериалов.

Исследовательская база VK‑LSVD уже содержит более 40 млрд взаимодействий, что ускорит обучение будущих моделей. По мере роста понимания тонких смыслов контента рекомендации станут точнее и объяснимее, превращаясь из «умного фильтра» в персонального помощника, способного не только искать и подбирать, но и объяснять свой выбор. В дальнейшем система будет ещё точнее определять интересы пользователя, учитывая контекст его действий и предпочтения, а также предлагать персонализированные подборки роликов.

О чём это

  • Explainer/
  • Татьяна Шаповалова/
  • Технологии/
  • Софт/
  • компьютерное зрение/
  • машинное обучение/
  • алгоритмы соцсетей/
  • короткие видео/
  • пределы масштабирования/
  • мультимодальные эмбеддинги

Лента

    Apple Liquid Glass получила золото на премии ADC 2026

    Apple Liquid Glass получила золото на премии ADC 2026

    Новый дизайн интерфейса iOS 26 и macOS Tahoe признан мировым стандартом UX/UI

    Павел Островскийоколо 2 часов назад

    Учёные восстановили молодость старых иммунных клеток

    Американская команда обнаружила, что старение стволовых клеток обратимо через лизосомы

    Павел Гринберг2 дня назад

    Омоложение стволовых клеток крови: как учёные связывают старение с лизосомами

    Елена Ковригина2 дня назад
    Xiaomi представила робот-пылесос с роликовой шваброй

    Xiaomi представила робот-пылесос с роликовой шваброй

    Mijia Robot Vacuum and Mop 6 получил мощность всасывания 28000Па

    Павел Островский6 мая 2026
    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Kaspersky Lab предупреждает: версии 12.5.0.2421‑12.5.0.2434 заражены, а безопасную 12.6.0.2445 уже выпустили

    Сергей Ким6 мая 2026
    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    8 июня: iOS 27 с 7 новыми функциями, в том числе Siri‑чат и AI‑фичи в Photos

    Алина Джафарова5 мая 2026

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Алина Джафарова3 мая 2026

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафарова3 мая 2026

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова30 апреля 2026

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова28 апреля 2026
    Loading...
Технологии/Софт

Как мультимодальные модели меняют рекомендации в VK Видео?

512‑мерный эмбеддинг объединяет видео, звук и текст, подбирая релевантные ролики

6 марта 2026, 17:09

Мультимодальные модели VK Видео превращают каждый ролик в 512‑мерный эмбеддинг, объединяющий изображение, субтитры и звук. Контрастивное обучение позволяет системе мгновенно определять тему и стиль, предлагая релевантные ролики сразу после загрузки. Точность рекомендаций выросла на 5,3 %, а время просмотра увеличилось в 4,4 раз, делая поиск по примеру и кросс‑форматные подсказки привычными.

Как мультимодальные модели меняют рекомендации в VK Видео?

Краткое содержание

  • VK Видео превращает каждый ролик в 512‑мерный эмбеддинг‑«штрихкод», мгновенно определяя тему и стиль, что подняло просмотры до 3,3 млрд в сутки.
  • Модель обучается контрастивным обучением: похожие кадр‑текст пары сближаются в 512‑мерном пространстве, что позволяет находить видео по фото или звуку.
  • Благодаря мгновенному эмбеддингу рекомендации растут на 5,3 % и лайк в ВКонтакте сразу влияет на подбор клипов в VK Клипах; будущие версии объяснят причины советов.

Система распознаёт содержание видео за доли секунды после загрузки. Для этого она превращает каждый ролик в набор из 512 чисел, которые хранят всё: от цветовой палитры до смысла разговора. Классические рекомендации ждут первые просмотры, а новые мультимодальные модели уже в момент загрузки определяют, о чём ролик, и предлагают его тем, кто может быть заинтересован.

Как мультимодальные модели учатся понимать контент

Мультимодальный эмбеддинг: единый числовой вектор, объединяющий визуальные, текстовые и аудио сигналы. Каждый слой информации (картинка, субтитры, звук) проходит через специализированный модуль, после чего полученные векторы складываются в один компактный представительный объект. Этот объект хранит тему, стиль и общий контекст ролика.

Эмбеддинг работает как штрихкод товара: компактный код, в котором зашифрованы все важные свойства. Только вместо цены и веса в нём закодированы сюжет, настроение и визуальный стиль. Когда система получает новый ролик, она мгновенно создаёт такой «штрихкод» и сравнивает его с миллионами других.

Как 512 чисел описывают целый ролик

В VK Видео система извлекает кадры, распознаёт речь и анализирует подписи, после чего формирует эмбеддинг размером 512 измерений. По данным пресс‑релиза VK, после внедрения этой технологии среднесуточное количество просмотров выросло до 3,3 млрд, а совокупное время просмотра увеличилось в 4,4 раза по сравнению с прошлым годом.

Каждое из 512 чисел отвечает за отдельный аспект: освещение, темп речи, наличие музыки, эмоциональный тон. Вместе они создают уникальный «отпечаток» ролика. Два видео о горных походах получат похожие наборы чисел, даже если сняты в разных странах и на разных языках.

Как модель учится связывать картинку и смысл

Как система понимает, что два ролика похожи? Через метод contrastive learning. Во время обучения модель получает парные примеры.

  • Кадр с его описанием (положительная пара): модель уменьшает расстояние между их эмбеддингами.
  • Кадр с несоответствующим описанием (отрицательная пара): модель увеличивает расстояние.

Модель обрабатывает миллионы таких пар. Постепенно она начинает «видеть» связь между изображением горного пейзажа и текстом о походе, даже если слова «гора» в ролике отсутствуют. Числовые векторы сближаются в пространстве из 512 измерений: чем ближе векторы, тем схожее содержание.

Представьте карту, где каждая точка (это ролик). Видео о восхождениях лежат рядом. Рецепты борща образуют отдельный кластер. Система не знает слова «гора» или «борщ», она просто видит, что одни точки тяготеют друг к другу, а другие отталкиваются. Эта геометрия и есть понимание контекста.

Почему новый ролик попадает в ленту мгновенно

Традиционный алгоритм ждёт. Первые зрители смотрят ролик. Только потом система решает, кому его показать. Мультимодальная модель анализирует контент мгновенно, поэтому пользователь получает релевантные ролики сразу после загрузки. По результатам A/B‑тестов, проведённых командой VK, точность рекомендаций увеличилась на 5,3 %.

Автор загружает видео о зимней рыбалке. Система извлекает кадры льда, распознаёт слово «окунь», регистрирует звук бура. За секунды формируется эмбеддинг. Через мгновение ролик появляется в лентах пользователей, которые недавно смотрели материалы о рыбалке или зимнем отдыхе. Не нужно ждать первой сотни просмотров.

Как найти видео по фотографии заката

Пользователь может загрузить фотографию заката, и система найдёт видео с похожей цветовой палитрой. Как это работает пошагово?

  1. Фото превращается в числовой вектор: система анализирует оттенки оранжевого, розового, фиолетового.
  2. Этот вектор сравнивается с эмбеддингами всех роликов в базе.
  3. Система выбирает видео, чьи векторы ближе всего к вектору загруженного фото.
  4. В результатах появляются ролики с закатами, даже если в их названии нет слова «закат».

Аналогично короткий аудиоклип позволяет подобрать ролики с схожим саундтреком. Поиск работает не через ключевые слова, а через смысловые связи между модальностями. Тот же «штрихкод»: система сравнивает коды, а не описания.

Как лайк во ВКонтакте влияет на клипы

Лайкнув пост о путешествиях во ВКонтакте, пользователь увидит в VK Клипах ролики с видами Алтая. Общий эмбеддинг позволяет переносить предпочтения из одной платформы в другую без потери контекста.

Конкретный сценарий: пользователь ставит лайк посту с фотографией Байкала зимой. Система фиксирует эмбеддинг этого изображения (лёд, синие тона, горизонт). Через несколько минут в VK Клипах появляется короткое видео о зимней поездке на Байкал. Никаких явных тегов «Байкал» не требуется: достаточно совпадения числовых векторов.

Почему алгоритм порекомендовал именно это видео

В ближайших версиях система будет показывать подпись типа: «Рекомендуем это видео, потому что вы оценили сцену с горами в предыдущем ролике». Такая прозрачность помогает понять, почему был сделан конкретный совет, и корректировать его при необходимости.

Вместо чёрного ящика пользователь увидит логику. «Этот клип про альпинизм появился, потому что вы досмотрели до конца ролик о восхождении на Эльбрус». Можно будет указать, что горы интересны, но альпинизм (нет). Система скорректирует будущие рекомендации, опираясь на уточнённые векторы.

Что будет дальше

Развитие интерпретируемости и генерации контента станет следующим шагом. Модели смогут не только подбирать существующие ролики, но и создавать новые коллажи из любимых сцен, формировать плейлисты под текущие условия (время суток, погода) и генерировать короткие саммари длинных видеоматериалов.

Исследовательская база VK‑LSVD уже содержит более 40 млрд взаимодействий, что ускорит обучение будущих моделей. По мере роста понимания тонких смыслов контента рекомендации станут точнее и объяснимее, превращаясь из «умного фильтра» в персонального помощника, способного не только искать и подбирать, но и объяснять свой выбор. В дальнейшем система будет ещё точнее определять интересы пользователя, учитывая контекст его действий и предпочтения, а также предлагать персонализированные подборки роликов.

О чём это

  • Explainer/
  • Татьяна Шаповалова/
  • Технологии/
  • Софт/
  • компьютерное зрение/
  • машинное обучение/
  • алгоритмы соцсетей/
  • короткие видео/
  • пределы масштабирования/
  • мультимодальные эмбеддинги

Лента

    Apple Liquid Glass получила золото на премии ADC 2026

    Apple Liquid Glass получила золото на премии ADC 2026

    Новый дизайн интерфейса iOS 26 и macOS Tahoe признан мировым стандартом UX/UI

    Павел Островскийоколо 2 часов назад

    Учёные восстановили молодость старых иммунных клеток

    Американская команда обнаружила, что старение стволовых клеток обратимо через лизосомы

    Павел Гринберг2 дня назад

    Омоложение стволовых клеток крови: как учёные связывают старение с лизосомами

    Елена Ковригина2 дня назад
    Xiaomi представила робот-пылесос с роликовой шваброй

    Xiaomi представила робот-пылесос с роликовой шваброй

    Mijia Robot Vacuum and Mop 6 получил мощность всасывания 28000Па

    Павел Островский6 мая 2026
    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Kaspersky Lab предупреждает: версии 12.5.0.2421‑12.5.0.2434 заражены, а безопасную 12.6.0.2445 уже выпустили

    Сергей Ким6 мая 2026
    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    8 июня: iOS 27 с 7 новыми функциями, в том числе Siri‑чат и AI‑фичи в Photos

    Алина Джафарова5 мая 2026

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Алина Джафарова3 мая 2026

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафарова3 мая 2026

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова30 апреля 2026

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова28 апреля 2026
    Loading...
Home
Главная
Search
Поиск
banner