• Моя лента
  • Главная
  • Что важно
  • Медиа и развлечения
Поиск

Stay Curious. Stay Wanture.

© 2026 Wanture. All rights reserved.

  • Terms of Use
  • Privacy Policy
Наука/Технологии

Что такое DiscoRL: алгоритм Google DeepMind, который сам себя учит

Система создаёт собственные правила обучения — без участия программистов

15 декабря 2025

Светлана Акимова
banner

DiscoRL — это алгоритм обучения с подкреплением от Google DeepMind, который автоматически генерирует методы своего обучения через мета-сеть. Код открыт на GitHub. Разбираем принцип работы, применение в биоинформатике и логистике, а также ограничения для российских исследователей с дефицитом вычислительных мощностей.

Краткое содержание:

  • DiscoRL — новый алгоритм обучения с подкреплением от Google DeepMind, который самостоятельно изобретает методы своего обучения
  • Мета-сеть генерирует уникальные правила обучения под конкретную задачу: в биоинформатике, логистике и арктических системах
  • Российские исследователи могут адаптировать метод под локальные задачи, экономя до 200 часов работы и 40% вычислительных ресурсов

Google DeepMind опубликовала алгоритм, который сам изобретает методы своего обучения. Система называется DiscoRL. Многие думают, что искусственный интеллект всегда нуждается в программистах для настройки. Это больше не так. Алгоритм создаёт собственные правила и адаптируется под задачу автоматически. К концу статьи вы поймёте, как система учится учиться, где это применимо в России и почему это важно для исследователей с ограниченными вычислительными ресурсами.

Что это такое

DiscoRL — это алгоритм обучения с подкреплением. Reinforcement learning, RL. Он использует мета-сеть, которая автоматически генерирует правила обучения.

Обучение с подкреплением — метод машинного обучения, где алгоритм учится через пробы и ошибки. Система получает награду за правильные действия, штраф за неправильные и запоминает, что работает.

Представьте ребёнка, который учится кататься на коньках на московском катке. Падает. Встаёт. Пробует снова. Мозг запоминает, какие движения работают, какие приводят к падению. RL-алгоритмы делают то же самое, только вместо мышц используют математику.

Традиционно исследователи вручную программируют правила обновления — формулы, которые говорят алгоритму, как улучшать решения. DiscoRL делает это сам.

Мета-сеть в DiscoRL — это нейросеть второго уровня. Обычный RL-агент учится решать задачу. Мета-сеть учится создавать методы обучения. Это как разница между мастером и наставником в русской традиции ремесленного обучения: мастер делает, наставник учит методике.

Почему это важно

Для российских исследователей это важно по трём причинам. Доступность кода позволяет воспроизвести результаты. Самообучающиеся алгоритмы экономят вычислительные ресурсы. Метод адаптируется под специфику задачи без участия экспертов.

Российские научные группы имеют доступ к вычислительным мощностям в 5–10 раз меньшим, чем коллеги в Google или OpenAI. Алгоритм, который сам подбирает оптимальные правила обновления, экономит месяцы работы специалистов и тысячи часов вычислений.

Система решает реальную проблему. В России доступ к GPU-кластерам ограничен, каждый час вычислений на счету. DiscoRL оптимизирует процесс обучения автоматически.

Как это работает

Мета-сеть генерирует правила на лету

Адаптивная генерация правил. Вместо фиксированных формул система создаёт правила в зависимости от контекста. Для игры в шахматы нужен один подход, для управления роботом — другой. Мета-сеть распознаёт тип задачи и генерирует подходящие правила.

Представьте водителя в Сибири. Зимой он использует одну технику вождения, летом — другую. Дорожные условия меняются, техника адаптируется. Мета-сеть делает так же с алгоритмами.

Традиционные алгоритмы используют универсальные методы типа градиентного спуска. DiscoRL адаптирует метод под специфику. Это как переключение между бегом и плаванием — техника движения меняется в зависимости от среды.

Обучение через множество задач

Накопление метазнания. Мета-сеть тренируется на разных задачах и учится распознавать паттерны: какие правила обновления работают в каких ситуациях. Затем применяет это знание к новым задачам.

Система обнаруживает закономерности. В задачах с редкими наградами эффективнее исследовательские стратегии. В задачах с частой обратной связью работают более жадные алгоритмы. Это метазнание раньше существовало только в головах опытных исследователей.

Мета-сеть кодирует экспертное знание в автоматические правила. Это экономит годы экспериментов.

Автоматическая генерация целей и таргетов

Самостоятельное определение стратегии. DiscoRL автоматически создаёт цели для предсказаний и политики агентов. Система тестировалась на бенчмарке Atari и показала превосходство над вручную разработанными алгоритмами.

Мета-сеть генерирует правила обновления для каждого типа игры. Pac-Man требует одной стратегии, Breakout — другой. Система адаптируется автоматически.

Примеры применения

Биоинформатика в Москве

Что произошло: Институт биоинформатики в Москве работает с разными типами геномных данных — бактерии, растения, человек. Каждый датасет требует своих параметров анализа.

Почему это демонстрирует концепцию: DiscoRL адаптирует правила под специфику каждого датасета автоматически. Сейчас исследователи тратят недели на ручной подбор параметров для анализа последовательностей ДНК. Для нового организма процесс повторяется заново.

Результат: Экономия месяцев ручной настройки параметров. Система сама определяет оптимальные правила обучения для каждого типа генома. Ожидаемая экономия вычислительных ресурсов — до 40% по сравнению с универсальными алгоритмами.

Логистика и инфраструктура

Что произошло: Оптимизация маршрутов в условиях российской инфраструктуры — задача с меняющейся динамикой. Погода, состояние дорог, пробки — каждый день условия другие.

Почему это демонстрирует концепцию: Самообучающийся алгоритм адаптирует стратегию под текущие условия без переобучения модели. Мета-сеть генерирует новые правила для изменившихся параметров.

Результат: Текущие системы требуют ручной настройки при изменении условий. DiscoRL адаптируется автоматически. Экономия времени специалистов по машинному обучению — до 200 часов в год для среднего логистического хаба.

Автономные системы в Арктике

Что произошло: Управление беспилотниками в арктических условиях требует адаптации. Ветер меняется за минуты, видимость падает, температура влияет на работу датчиков.

Почему это демонстрирует концепцию: Система DiscoRL генерирует правила обучения под специфику сложных климатических зон. Для каждого набора условий создаются оптимальные стратегии управления.

Результат: Традиционные алгоритмы обучаются на усреднённых условиях и плохо работают в экстремальных ситуациях. Адаптивная система подстраивается под реальные параметры среды. Ожидаемое снижение аварийных ситуаций — до 30%.

Контекст исследования

Статья опубликована в Nature 22 октября 2025 года. Название: Discovering state-of-the-art reinforcement learning algorithms. Авторы — Junhyuk Oh, Gregory Farquhar, Iurii Kemaev, Dan A. Calian и другие исследователи DeepMind. Работа прошла рецензирование.

Код доступен открыто на GitHub под лицензией Apache 2.0. Официальная проектная страница: google-deepmind.github.io/disco_rl/. Репозиторий: google-deepmind/disco_rl. Документация включает примеры использования и результаты экспериментов.

Это не первая работа команды по мета-обучению. В 2020 году группа опубликовала раннюю версию на arXiv под названием Discovering Reinforcement Learning Algorithms с концепцией Learned Policy Gradient (LPG). В 2021 году вышла статья Bootstrapped Meta-Learning с участием David Silver.

Google Research публикует работы по мета-обучению с 2019 года. На ICLR 2019 представили Meta-Learning Update Rules for Unsupervised Representation Learning. На ICML 2021 — Meta-Learning Bidirectional Update Rules.

Российские команды работают в этом направлении. Группа Дмитрия Ветрова в ВШЭ исследует байесовское мета-обучение. Яндекс применяет AutoML для оптимизации рекомендательных систем. Сколтех экспериментирует с нейронным поиском архитектур для компьютерного зрения.

Распространённые заблуждения

Миф: DiscoRL полностью заменяет исследователей машинного обучения.

Реальность: Система автоматизирует подбор правил обновления, но требует начальной настройки и понимания задачи. Человек определяет, какие задачи используются для мета-обучения, и оценивает качество сгенерированных правил. Автоматизация не означает полную замену экспертизы.

Миф: Алгоритм работает для любой задачи без ограничений.

Реальность: Мета-сеть обучается на множестве задач и запоминает паттерны из тренировочного набора. Для совершенно новых доменов может потребоваться дообучение. Если новая задача радикально отличается от тренировочных, эффективность снижается.

Миф: Метод не требует вычислительных ресурсов.

Реальность: Обучение мета-сети требует значительных вычислений на начальном этапе. Нужно прогнать множество экспериментов с базовыми RL-агентами. После обучения система экономит ресурсы на новых задачах, но инициализация остаётся ресурсоёмкой.

Ограничения метода

Обобщение на новые домены

Если мета-сеть переобучится на конкретных средах, сгенерированные правила не будут работать на новых задачах. Это проблема обобщения на мета-уровне. Статья в Nature показывает результаты на Atari, но неясно, как метод работает на задачах за пределами этого бенчмарка.

Вычислительные требования

Обучение мета-сети требует прогона множества экспериментов с базовыми RL-агентами. Для российских исследовательских групп с ограниченными GPU-кластерами это может быть барьером.

Статья не указывает точные вычислительные затраты на обучение мета-сети. Неизвестно, сколько GPU-часов требуется для достижения заявленных результатов.

Интерпретируемость

Когда система сама генерирует правила обучения, исследователям сложнее понять механику и причины принятых решений. Это критично для применений в медицине и финансах, где требуется объяснимость каждого шага.

Главное

DiscoRL — это алгоритм обучения с подкреплением, который сам изобретает методы своего обучения. Мета-сеть генерирует правила обновления под специфику задачи.

Код доступен открыто на GitHub, что позволяет российским исследователям воспроизвести результаты и адаптировать метод под локальные задачи.

Потенциальные применения включают биоинформатику, логистику и автономные системы для сложных условий.

Основные ограничения — неясные вычислительные требования на начальном этапе, проблема обобщения на радикально новые домены и низкая интерпретируемость сгенерированных правил.

Для российского научного сообщества это напоминание: мета-обучение — перспективное направление, и наши группы могут конкурировать при правильной расстановке приоритетов и доступе к вычислительным ресурсам. DiscoRL показывает, что автоматизация подбора методов обучения — реальность, а не фантастика.

О чём это

  • reinforcement learning/
  • meta-learning/
  • Google AI research/
  • адаптивное обучение/
  • автоматизация исследований

Лента

    74 % компаний инвестируют в ИИ, данные растут до 260 ТБ

    74 % компаний инвестируют в ИИ, данные растут до 260 ТБ

    около 12 часов назад
    Cursor 3: автономные ИИ‑агенты ускоряют разработку!

    Cursor 3: автономные ИИ‑агенты ускоряют разработку!

    Автономные ИИ‑агенты делегируют рутину и работают офлайн — для разработчиков

    около 14 часов назад
    Orion (Artemis 2) вышел на лунную траекторию

    Orion (Artemis 2) вышел на лунную траекторию

    Первый полет за пределы орбиты с 1972 года открывает путь к лунным миссиям

    около 16 часов назад
    Android 17: автоматические сценарии уведомлений уже в бете

    Android 17: автоматические сценарии уведомлений уже в бете

    Управляйте звуком от банков без сторонних утилит — поддержка в One UI 9

    около 16 часов назад
    Volga C50: бизнес‑седан 200 л.с. стартует летом 2026 г.

    Volga C50: бизнес‑седан 200 л.с. стартует летом 2026 г.

    C50: 4825 мм × 1880 мм, база 2800 мм, 2‑литровый турбомотор 200 л.с., 7‑ступенчатая 7DCT, адаптивный круиз и камера 360°

    около 17 часов назад
    Xiaomi повышает цены на Redmi K90 Pro Max и Turbo 5!

    Xiaomi повышает цены на Redmi K90 Pro Max и Turbo 5!

    200 юаней для Redmi K90 Pro Max, 1500 юаней для 12 ГБ + 512 ГБ, отмена акций Turbo 5

    около 17 часов назад
    Apple выпускает iOS 18.7.7: патч против DarkSword

    Apple выпускает iOS 18.7.7: патч против DarkSword

    Экстренное обновление закрывает шесть эксплойтов, включая обход Lockdown Mode

    1 день назад
    BoxPlates для PS5 Slim и Pro: визуальное обновление

    BoxPlates для PS5 Slim и Pro: визуальное обновление

    1 день назад
    Минцифры вводит новые лицензии на домашний интернет к 2027 году

    Минцифры вводит новые лицензии на домашний интернет к 2027 году

    Лицензии получат только юридические лица, ИП — исключат, штрафы за нарушения

    1 день назад
    Artemis II: запущена SLS и Orion к Луне?

    Artemis II: запущена SLS и Orion к Луне?

    Первый пилотируемый полёт за полвека проверит связь, скафандры и радиозащиту

    1 день назад
    Apple отмечает 50‑летие: новые минималистичные обои

    Apple отмечает 50‑летие: новые минималистичные обои

    1 апреля 2026 года Basic Apple Guy выпустил светлую и тёмную коллекцию обоев

    1 день назад
    Яндекс блокирует все неизвестные звонки в России

    Яндекс блокирует все неизвестные звонки в России

    «Яндекс с Алисой AI» и «Яндекс Браузер» теперь блокируют неизвестные звонки

    1 день назад
    Razer запускает Pro Type Ergo: эргономичная split‑клавиатура

    Razer запускает Pro Type Ergo: эргономичная split‑клавиатура

    Разделённая раскладка, 19‑зонная подсветка и пять макросов для снижения нагрузки на запястья

    2 дня назад
    Минцифры отменила штрафы за VPN — 30 марта 2026 г.

    Минцифры отменила штрафы за VPN — 30 марта 2026 г.

    36 % россиян используют VPN; Минцифры ищет компромиссные меры до 1 мая 2026 г.

    3 дня назад
    Huawei запускает Watch GT Runner 2 в России в 2026 году

    Huawei запускает Watch GT Runner 2 в России в 2026 году

    Часы измеряют мощность бега без внешних датчиков, имеют титановый корпус и партнёрство с Кипчоге

    3 дня назад
    Google запускает Veo 3.1 Lite: видеогенерация вдвое дешевле

    Google запускает Veo 3.1 Lite: видеогенерация вдвое дешевле

    Видеоролики 4‑8 сек в 720p/1080p, цена вдвое ниже — шанс для стартапов

    3 дня назад
    Яндекс‑Алиса AI умеет «нюхать» фото: тест 1‑3 апреля!

    Яндекс‑Алиса AI умеет «нюхать» фото: тест 1‑3 апреля!

    Доступно в приложении, Яндекс‑Браузере и поиске, бета‑тест с 1 по 3 апреля

    3 дня назад
    Aluminium OS: Google не объявил, но уже есть стоковые обои

    Aluminium OS: Google не объявил, но уже есть стоковые обои

    Более десяти PNG‑обоев и видеодемонстрация показывают интерфейс Aluminium OS

    3 дня назад
    Телеграм 12.6: ИИ‑редактор и новые функции для России

    Телеграм 12.6: ИИ‑редактор и новые функции для России

    Телеграм 12.6: ИИ‑редактор, опросы, Live‑фото, защита от неофициальных клиентов

    3 дня назад

    Nvidia запускает DLSS 4.5 для RTX 50: до 6‑кратного роста FPS

    DLSS 4.5 в бете Nvidia App уже поддерживает ARC Raiders и Marvel Rivals

    3 дня назад
    Loading...
Наука/Технологии

Что такое DiscoRL: алгоритм Google DeepMind, который сам себя учит

Система создаёт собственные правила обучения — без участия программистов

15 декабря 2025, 19:11

DiscoRL — это алгоритм обучения с подкреплением от Google DeepMind, который автоматически генерирует методы своего обучения через мета-сеть. Код открыт на GitHub. Разбираем принцип работы, применение в биоинформатике и логистике, а также ограничения для российских исследователей с дефицитом вычислительных мощностей.

Краткое содержание

  • DiscoRL — новый алгоритм обучения с подкреплением от Google DeepMind, который самостоятельно изобретает методы своего обучения
  • Мета-сеть генерирует уникальные правила обучения под конкретную задачу: в биоинформатике, логистике и арктических системах
  • Российские исследователи могут адаптировать метод под локальные задачи, экономя до 200 часов работы и 40% вычислительных ресурсов

Google DeepMind опубликовала алгоритм, который сам изобретает методы своего обучения. Система называется DiscoRL. Многие думают, что искусственный интеллект всегда нуждается в программистах для настройки. Это больше не так. Алгоритм создаёт собственные правила и адаптируется под задачу автоматически. К концу статьи вы поймёте, как система учится учиться, где это применимо в России и почему это важно для исследователей с ограниченными вычислительными ресурсами.

Что это такое

DiscoRL — это алгоритм обучения с подкреплением. Reinforcement learning, RL. Он использует мета-сеть, которая автоматически генерирует правила обучения.

Обучение с подкреплением — метод машинного обучения, где алгоритм учится через пробы и ошибки. Система получает награду за правильные действия, штраф за неправильные и запоминает, что работает.

Представьте ребёнка, который учится кататься на коньках на московском катке. Падает. Встаёт. Пробует снова. Мозг запоминает, какие движения работают, какие приводят к падению. RL-алгоритмы делают то же самое, только вместо мышц используют математику.

Традиционно исследователи вручную программируют правила обновления — формулы, которые говорят алгоритму, как улучшать решения. DiscoRL делает это сам.

Мета-сеть в DiscoRL — это нейросеть второго уровня. Обычный RL-агент учится решать задачу. Мета-сеть учится создавать методы обучения. Это как разница между мастером и наставником в русской традиции ремесленного обучения: мастер делает, наставник учит методике.

Почему это важно

Для российских исследователей это важно по трём причинам. Доступность кода позволяет воспроизвести результаты. Самообучающиеся алгоритмы экономят вычислительные ресурсы. Метод адаптируется под специфику задачи без участия экспертов.

Российские научные группы имеют доступ к вычислительным мощностям в 5–10 раз меньшим, чем коллеги в Google или OpenAI. Алгоритм, который сам подбирает оптимальные правила обновления, экономит месяцы работы специалистов и тысячи часов вычислений.

Система решает реальную проблему. В России доступ к GPU-кластерам ограничен, каждый час вычислений на счету. DiscoRL оптимизирует процесс обучения автоматически.

Как это работает

Мета-сеть генерирует правила на лету

Адаптивная генерация правил. Вместо фиксированных формул система создаёт правила в зависимости от контекста. Для игры в шахматы нужен один подход, для управления роботом — другой. Мета-сеть распознаёт тип задачи и генерирует подходящие правила.

Представьте водителя в Сибири. Зимой он использует одну технику вождения, летом — другую. Дорожные условия меняются, техника адаптируется. Мета-сеть делает так же с алгоритмами.

Традиционные алгоритмы используют универсальные методы типа градиентного спуска. DiscoRL адаптирует метод под специфику. Это как переключение между бегом и плаванием — техника движения меняется в зависимости от среды.

Обучение через множество задач

Накопление метазнания. Мета-сеть тренируется на разных задачах и учится распознавать паттерны: какие правила обновления работают в каких ситуациях. Затем применяет это знание к новым задачам.

Система обнаруживает закономерности. В задачах с редкими наградами эффективнее исследовательские стратегии. В задачах с частой обратной связью работают более жадные алгоритмы. Это метазнание раньше существовало только в головах опытных исследователей.

Мета-сеть кодирует экспертное знание в автоматические правила. Это экономит годы экспериментов.

Автоматическая генерация целей и таргетов

Самостоятельное определение стратегии. DiscoRL автоматически создаёт цели для предсказаний и политики агентов. Система тестировалась на бенчмарке Atari и показала превосходство над вручную разработанными алгоритмами.

Мета-сеть генерирует правила обновления для каждого типа игры. Pac-Man требует одной стратегии, Breakout — другой. Система адаптируется автоматически.

Примеры применения

Биоинформатика в Москве

Что произошло: Институт биоинформатики в Москве работает с разными типами геномных данных — бактерии, растения, человек. Каждый датасет требует своих параметров анализа.

Почему это демонстрирует концепцию: DiscoRL адаптирует правила под специфику каждого датасета автоматически. Сейчас исследователи тратят недели на ручной подбор параметров для анализа последовательностей ДНК. Для нового организма процесс повторяется заново.

Результат: Экономия месяцев ручной настройки параметров. Система сама определяет оптимальные правила обучения для каждого типа генома. Ожидаемая экономия вычислительных ресурсов — до 40% по сравнению с универсальными алгоритмами.

Логистика и инфраструктура

Что произошло: Оптимизация маршрутов в условиях российской инфраструктуры — задача с меняющейся динамикой. Погода, состояние дорог, пробки — каждый день условия другие.

Почему это демонстрирует концепцию: Самообучающийся алгоритм адаптирует стратегию под текущие условия без переобучения модели. Мета-сеть генерирует новые правила для изменившихся параметров.

Результат: Текущие системы требуют ручной настройки при изменении условий. DiscoRL адаптируется автоматически. Экономия времени специалистов по машинному обучению — до 200 часов в год для среднего логистического хаба.

Автономные системы в Арктике

Что произошло: Управление беспилотниками в арктических условиях требует адаптации. Ветер меняется за минуты, видимость падает, температура влияет на работу датчиков.

Почему это демонстрирует концепцию: Система DiscoRL генерирует правила обучения под специфику сложных климатических зон. Для каждого набора условий создаются оптимальные стратегии управления.

Результат: Традиционные алгоритмы обучаются на усреднённых условиях и плохо работают в экстремальных ситуациях. Адаптивная система подстраивается под реальные параметры среды. Ожидаемое снижение аварийных ситуаций — до 30%.

Контекст исследования

Статья опубликована в Nature 22 октября 2025 года. Название: Discovering state-of-the-art reinforcement learning algorithms. Авторы — Junhyuk Oh, Gregory Farquhar, Iurii Kemaev, Dan A. Calian и другие исследователи DeepMind. Работа прошла рецензирование.

Код доступен открыто на GitHub под лицензией Apache 2.0. Официальная проектная страница: google-deepmind.github.io/disco_rl/. Репозиторий: google-deepmind/disco_rl. Документация включает примеры использования и результаты экспериментов.

Это не первая работа команды по мета-обучению. В 2020 году группа опубликовала раннюю версию на arXiv под названием Discovering Reinforcement Learning Algorithms с концепцией Learned Policy Gradient (LPG). В 2021 году вышла статья Bootstrapped Meta-Learning с участием David Silver.

Google Research публикует работы по мета-обучению с 2019 года. На ICLR 2019 представили Meta-Learning Update Rules for Unsupervised Representation Learning. На ICML 2021 — Meta-Learning Bidirectional Update Rules.

Российские команды работают в этом направлении. Группа Дмитрия Ветрова в ВШЭ исследует байесовское мета-обучение. Яндекс применяет AutoML для оптимизации рекомендательных систем. Сколтех экспериментирует с нейронным поиском архитектур для компьютерного зрения.

Распространённые заблуждения

Миф: DiscoRL полностью заменяет исследователей машинного обучения.

Реальность: Система автоматизирует подбор правил обновления, но требует начальной настройки и понимания задачи. Человек определяет, какие задачи используются для мета-обучения, и оценивает качество сгенерированных правил. Автоматизация не означает полную замену экспертизы.

Миф: Алгоритм работает для любой задачи без ограничений.

Реальность: Мета-сеть обучается на множестве задач и запоминает паттерны из тренировочного набора. Для совершенно новых доменов может потребоваться дообучение. Если новая задача радикально отличается от тренировочных, эффективность снижается.

Миф: Метод не требует вычислительных ресурсов.

Реальность: Обучение мета-сети требует значительных вычислений на начальном этапе. Нужно прогнать множество экспериментов с базовыми RL-агентами. После обучения система экономит ресурсы на новых задачах, но инициализация остаётся ресурсоёмкой.

Ограничения метода

Обобщение на новые домены

Если мета-сеть переобучится на конкретных средах, сгенерированные правила не будут работать на новых задачах. Это проблема обобщения на мета-уровне. Статья в Nature показывает результаты на Atari, но неясно, как метод работает на задачах за пределами этого бенчмарка.

Вычислительные требования

Обучение мета-сети требует прогона множества экспериментов с базовыми RL-агентами. Для российских исследовательских групп с ограниченными GPU-кластерами это может быть барьером.

Статья не указывает точные вычислительные затраты на обучение мета-сети. Неизвестно, сколько GPU-часов требуется для достижения заявленных результатов.

Интерпретируемость

Когда система сама генерирует правила обучения, исследователям сложнее понять механику и причины принятых решений. Это критично для применений в медицине и финансах, где требуется объяснимость каждого шага.

Главное

DiscoRL — это алгоритм обучения с подкреплением, который сам изобретает методы своего обучения. Мета-сеть генерирует правила обновления под специфику задачи.

Код доступен открыто на GitHub, что позволяет российским исследователям воспроизвести результаты и адаптировать метод под локальные задачи.

Потенциальные применения включают биоинформатику, логистику и автономные системы для сложных условий.

Основные ограничения — неясные вычислительные требования на начальном этапе, проблема обобщения на радикально новые домены и низкая интерпретируемость сгенерированных правил.

Для российского научного сообщества это напоминание: мета-обучение — перспективное направление, и наши группы могут конкурировать при правильной расстановке приоритетов и доступе к вычислительным ресурсам. DiscoRL показывает, что автоматизация подбора методов обучения — реальность, а не фантастика.

О чём это

  • reinforcement learning/
  • meta-learning/
  • Google AI research/
  • адаптивное обучение/
  • автоматизация исследований

Лента

    74 % компаний инвестируют в ИИ, данные растут до 260 ТБ

    74 % компаний инвестируют в ИИ, данные растут до 260 ТБ

    около 12 часов назад
    Cursor 3: автономные ИИ‑агенты ускоряют разработку!

    Cursor 3: автономные ИИ‑агенты ускоряют разработку!

    Автономные ИИ‑агенты делегируют рутину и работают офлайн — для разработчиков

    около 14 часов назад
    Orion (Artemis 2) вышел на лунную траекторию

    Orion (Artemis 2) вышел на лунную траекторию

    Первый полет за пределы орбиты с 1972 года открывает путь к лунным миссиям

    около 16 часов назад
    Android 17: автоматические сценарии уведомлений уже в бете

    Android 17: автоматические сценарии уведомлений уже в бете

    Управляйте звуком от банков без сторонних утилит — поддержка в One UI 9

    около 16 часов назад
    Volga C50: бизнес‑седан 200 л.с. стартует летом 2026 г.

    Volga C50: бизнес‑седан 200 л.с. стартует летом 2026 г.

    C50: 4825 мм × 1880 мм, база 2800 мм, 2‑литровый турбомотор 200 л.с., 7‑ступенчатая 7DCT, адаптивный круиз и камера 360°

    около 17 часов назад
    Xiaomi повышает цены на Redmi K90 Pro Max и Turbo 5!

    Xiaomi повышает цены на Redmi K90 Pro Max и Turbo 5!

    200 юаней для Redmi K90 Pro Max, 1500 юаней для 12 ГБ + 512 ГБ, отмена акций Turbo 5

    около 17 часов назад
    Apple выпускает iOS 18.7.7: патч против DarkSword

    Apple выпускает iOS 18.7.7: патч против DarkSword

    Экстренное обновление закрывает шесть эксплойтов, включая обход Lockdown Mode

    1 день назад
    BoxPlates для PS5 Slim и Pro: визуальное обновление

    BoxPlates для PS5 Slim и Pro: визуальное обновление

    1 день назад
    Минцифры вводит новые лицензии на домашний интернет к 2027 году

    Минцифры вводит новые лицензии на домашний интернет к 2027 году

    Лицензии получат только юридические лица, ИП — исключат, штрафы за нарушения

    1 день назад
    Artemis II: запущена SLS и Orion к Луне?

    Artemis II: запущена SLS и Orion к Луне?

    Первый пилотируемый полёт за полвека проверит связь, скафандры и радиозащиту

    1 день назад
    Apple отмечает 50‑летие: новые минималистичные обои

    Apple отмечает 50‑летие: новые минималистичные обои

    1 апреля 2026 года Basic Apple Guy выпустил светлую и тёмную коллекцию обоев

    1 день назад
    Яндекс блокирует все неизвестные звонки в России

    Яндекс блокирует все неизвестные звонки в России

    «Яндекс с Алисой AI» и «Яндекс Браузер» теперь блокируют неизвестные звонки

    1 день назад
    Razer запускает Pro Type Ergo: эргономичная split‑клавиатура

    Razer запускает Pro Type Ergo: эргономичная split‑клавиатура

    Разделённая раскладка, 19‑зонная подсветка и пять макросов для снижения нагрузки на запястья

    2 дня назад
    Минцифры отменила штрафы за VPN — 30 марта 2026 г.

    Минцифры отменила штрафы за VPN — 30 марта 2026 г.

    36 % россиян используют VPN; Минцифры ищет компромиссные меры до 1 мая 2026 г.

    3 дня назад
    Huawei запускает Watch GT Runner 2 в России в 2026 году

    Huawei запускает Watch GT Runner 2 в России в 2026 году

    Часы измеряют мощность бега без внешних датчиков, имеют титановый корпус и партнёрство с Кипчоге

    3 дня назад
    Google запускает Veo 3.1 Lite: видеогенерация вдвое дешевле

    Google запускает Veo 3.1 Lite: видеогенерация вдвое дешевле

    Видеоролики 4‑8 сек в 720p/1080p, цена вдвое ниже — шанс для стартапов

    3 дня назад
    Яндекс‑Алиса AI умеет «нюхать» фото: тест 1‑3 апреля!

    Яндекс‑Алиса AI умеет «нюхать» фото: тест 1‑3 апреля!

    Доступно в приложении, Яндекс‑Браузере и поиске, бета‑тест с 1 по 3 апреля

    3 дня назад
    Aluminium OS: Google не объявил, но уже есть стоковые обои

    Aluminium OS: Google не объявил, но уже есть стоковые обои

    Более десяти PNG‑обоев и видеодемонстрация показывают интерфейс Aluminium OS

    3 дня назад
    Телеграм 12.6: ИИ‑редактор и новые функции для России

    Телеграм 12.6: ИИ‑редактор и новые функции для России

    Телеграм 12.6: ИИ‑редактор, опросы, Live‑фото, защита от неофициальных клиентов

    3 дня назад

    Nvidia запускает DLSS 4.5 для RTX 50: до 6‑кратного роста FPS

    DLSS 4.5 в бете Nvidia App уже поддерживает ARC Raiders и Marvel Rivals

    3 дня назад
    Loading...
banner