Logo
Моя лентаСегодня
Logo
Decide better.Live better.
Моя лентаСегодня
Logo
Моя лентаСегодня

Stay Curious. Stay Wanture.

© 2026 Wanture. All rights reserved.

  • Terms of Use
  • Privacy Policy
Logo
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Logo
Decide better.Live better.
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Logo
Моя лентаСегодняТехнологииНаукаЗдоровьеДомВпечатленияТранспортРазумПродуктивностьДолголетие
Технологии/Софт

ChatGPT теперь говорит и рисует одновременно

Голосовой режим встроили в обычный чат — с картами, схемами и транскриптами

ChatGPT теперь говорит и рисует одновременно

OpenAI интегрировала голосовой режим в основной интерфейс ChatGPT. Теперь можно переключаться между голосом и текстом в одном диалоге, получать визуальный контент во время разговора и автоматически сохранять транскрипты. Это меняет способ работы с AI: от подготовки презентаций до обучения сложным концепциям.

27 ноября 2025

—

Explainer

Мария Ахмедова
banner

Краткое содержание:

  • OpenAI представила мультимодальный голосовой режим в ChatGPT, позволяющий работать с голосом, текстом и визуальным контентом в одном окне
  • Технология обеспечивает автоматическую генерацию изображений, карт и схем во время голосового диалога с сохранением полного транскрипта
  • Реальные примеры показывают, как режим сокращает время подготовки материалов: урок за 15 минут, презентация за 20 минут, мудборд в метро

Представьте: вы обсуждаете проект голосом с ChatGPT. Прямо в этом же окне появляется карта. Или схема. Или график. Без переключений. Без прерываний. OpenAI интегрировала голосовой режим в основной интерфейс чата. Теперь текст, голос и визуальный контент работают в едином пространстве.

Что это такое

Мультимодальный голосовой режим — это работа с разными форматами сразу. Система понимает голос. Отвечает голосом. Создаёт картинки. Пишет текст. Всё в одном окне. Это не просто голосовой ассистент. Это инструмент, где разные способы общения работают одновременно. Не по очереди.

Почему это важно

Раньше голосовые ассистенты подходили для простых задач. Узнать погоду. Установить таймер. Для сложной работы приходилось переключаться на текст. Теперь граница стирается. Можно вести полноценный рабочий диалог голосом. Получать визуальные материалы. Сохранять текстовую документацию. Это экономит время. Снижает когнитивную нагрузку.

Что изменилось в голосовом режиме ChatGPT

Голосовой режим теперь встроен в обычный чат. Раньше требовалось открывать отдельный интерфейс. Это было полноэкранное окно: ассистент слушал и отвечал голосом, а визуальные материалы и стенограмма были ограничены.

Теперь достаточно нажать значок «волны» рядом с полем ввода. Голосовой режим активируется прямо в текущей беседе. Это означает три важных изменения.

Первое: вы переключаетесь между голосом и текстом в одном диалоге. Второе: система автоматически сохраняет транскрипт — текстовую расшифровку всего разговора. Третье: во время голосового разговора ChatGPT может генерировать визуальный контент. Карты, диаграммы, изображения появляются в том же окне.

Для тех, кто привык к прежнему формату, OpenAI оставила возможность вернуться к полноэкранному интерфейсу. В настройках голосового режима есть опция «Раздельный режим».

Как работает мультимодальное взаимодействие

Единое окно для разных типов информации

Представьте кухню. Раньше вы готовили на одной конфорке. Теперь работают все четыре. Плюс духовка. Плюс микроволновка. Одновременно. Так работает мультимодальный режим.

Вы спрашиваете голосом: «Покажи карту центра Казани с Кремлём». ChatGPT отвечает голосом. Объясняет расположение. Одновременно генерирует карту. Она появляется в окне чата. Вы видите визуальный результат. Слышите пояснение. Можете продолжить диалог текстом или голосом.

Транскрипт сохраняется автоматически. Это решает главную проблему голосовых интерфейсов. Раньше разговоры часто были эфемерными: после завершения к ним было сложно вернуться. Теперь вся беседа фиксируется в тексте. Это важно для работы. Для обучения. Для документирования идей.

Переключение между модальностями

Система позволяет свободно переходить от голоса к тексту. Вы говорите вопрос. Затем печатаете уточнение. ChatGPT помнит оба запроса. Контекст сохраняется. Независимо от способа ввода.

Это особенно полезно, когда руки заняты. Вы готовите презентацию. Перемещаетесь между документами. Параллельно задаёте вопросы голосом. Система генерирует нужные материалы. Вы сразу видите их на экране. Не прерываете рабочий процесс.

Генерация визуального контента в реальном времени

Во время голосового диалога ChatGPT создаёт изображения, схемы и карты. Это не поиск готовых картинок: система генерирует визуальный контент на основе вашего запроса и подстраивает его под контекст беседы.

Пример: вы обсуждаете архитектуру микросервисов. Просите показать схему взаимодействия компонентов. ChatGPT создаёт диаграмму и объясняет голосом каждый элемент. Или вы планируете маршрут по городу — система может сгенерировать карту с отмеченными точками и прокомментировать, как лучше добраться.

Визуальный контент появляется синхронно с голосовым объяснением. Это усиливает понимание: когда вы одновременно слышите объяснение и видите иллюстрацию, информация усваивается быстрее.

Реальные примеры использования

Ниже — условные примеры использования.

Пример 1: Подготовка урока за 15 минут

Учитель истории Анна Петрова из Санкт-Петербурга готовила урок о Куликовской битве. Описала голосом, что нужно. ChatGPT сгенерировал карту сражения, схему расстановки войск и таймлайн событий. Раньше на поиск материалов уходил час. Теперь — 15 минут.

Пример 2: Создание мудборда (референс-борда) в метро

Дизайнер Михаил Соколов из Москвы ехал в метро на встречу с клиентом. Описал голосом концепцию интерьера. ChatGPT создал мудборд с цветовой палитрой, примерами мебели и текстурами. Михаил показал результат клиенту прямо на встрече. Сэкономил два часа работы.

Пример 3: Презентация за 20 минут

Студент Тимур Ахметов из Казани готовил презентацию по квантовым вычислениям. Объяснил голосом основные концепции. ChatGPT сгенерировал диаграммы, схемы кубитов и графики сравнения производительности. Тимур получил готовую визуальную базу для слайдов. Раньше на это уходил вечер. Теперь — 20 минут.

Комментарий редакции

Мультимодальные системы меняют пользовательский опыт: синхронная работа голоса, текста и изображения снижает когнитивную нагрузку и ускоряет понимание. Это особенно полезно в обучении и профессиональных задачах.

Распространённые заблуждения

Миф: Голосовой режим работает только на английском.

Реальность: Модели распознавания речи OpenAI (например, Whisper) поддерживают русский язык. Точность приемлема для чёткой речи в тихой обстановке, но снижается при шуме или сильном акценте. Английский по-прежнему даёт лучшую точность.

Миф: Транскрипт сохраняется на серверах OpenAI навсегда.

Реальность: Транскрипт хранится в вашей истории чата. Вы можете удалить его в любой момент. Использование данных для улучшения моделей можно отключить в настройках конфиденциальности.

Миф: Для работы нужен быстрый интернет.

Реальность: Нужна стабильная связь, но не обязательно сверхбыстрая. Достаточно обычного 4G. Генерация изображений при медленном соединении может занимать немного больше времени.

Технические аспекты и ограничения

Мультимодальные системы требуют значительных вычислительных ресурсов: обработка голоса в реальном времени, генерация изображений и поддержание контекста происходят одновременно. Это влияет на скорость отклика.

Доступность и объём функций зависят от тарифного плана и региона. Часть возможностей может быть доступна только на платных подписках (например, ChatGPT Plus, Team, Enterprise).

Качество распознавания русской речи зависит от акцента, скорости и фоновых шумов. Точность выше при чёткой, нейтральной речи в тихой обстановке и ниже — при шуме, сильном акценте или одновременной речи нескольких людей.

OpenAI применяет географические ограничения доступа. Доступность сервиса и отдельных функций может различаться по регионам.

Что это значит для будущего

Интеграция модальностей станет стандартом. Google развивает Gemini Live, Яндекс — собственные голосовые ассистенты. Будущее AI‑интерфейсов — в гибкости: пользователь выбирает, как взаимодействовать, а система подстраивается под его предпочтения.

О чём это

  • Explainer/
  • Мария Ахмедова/
  • Технологии/
  • Софт

Лента

    Учёные восстановили молодость старых иммунных клеток

    Американская команда обнаружила, что старение стволовых клеток обратимо через лизосомы

    Павел Гринберг2 дня назад

    Омоложение стволовых клеток крови: как учёные связывают старение с лизосомами

    Елена Ковригина2 дня назад
    Xiaomi представила робот-пылесос с роликовой шваброй

    Xiaomi представила робот-пылесос с роликовой шваброй

    Mijia Robot Vacuum and Mop 6 получил мощность всасывания 28000Па

    Павел Островский6 мая 2026
    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Kaspersky Lab предупреждает: версии 12.5.0.2421‑12.5.0.2434 заражены, а безопасную 12.6.0.2445 уже выпустили

    Сергей Ким6 мая 2026
    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    8 июня: iOS 27 с 7 новыми функциями, в том числе Siri‑чат и AI‑фичи в Photos

    Алина Джафарова5 мая 2026

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Алина Джафарова3 мая 2026

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафарова3 мая 2026

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова30 апреля 2026

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова28 апреля 2026

    Загрузки VPN в России выросли в 14 раз в 2026 году

    С начала 2026 года загрузки VPN‑приложений в России выросли в 14 раз. В марте россияне скачали более 9,2 млн через Google Play, что в 14 раз больше, чем в марте 2025 года. За первый квартал 2026 года суммарные загрузки достигли 21,27 млн, а за год зафиксировано 35,7 млн скачиваний. Три приложения из топ‑5 собрали по 2,5+ млн загрузок, подтверждая рост спроса после новых правил блокировки VPN‑трафика.

    Загрузки VPN в России выросли в 14 раз в 2026 году
    Алина Джафарова28 апреля 2026
    Loading...
Технологии/Софт

ChatGPT теперь говорит и рисует одновременно

Голосовой режим встроили в обычный чат — с картами, схемами и транскриптами

27 ноября 2025, 22:34

OpenAI интегрировала голосовой режим в основной интерфейс ChatGPT. Теперь можно переключаться между голосом и текстом в одном диалоге, получать визуальный контент во время разговора и автоматически сохранять транскрипты. Это меняет способ работы с AI: от подготовки презентаций до обучения сложным концепциям.

ChatGPT теперь говорит и рисует одновременно

Краткое содержание

  • OpenAI представила мультимодальный голосовой режим в ChatGPT, позволяющий работать с голосом, текстом и визуальным контентом в одном окне
  • Технология обеспечивает автоматическую генерацию изображений, карт и схем во время голосового диалога с сохранением полного транскрипта
  • Реальные примеры показывают, как режим сокращает время подготовки материалов: урок за 15 минут, презентация за 20 минут, мудборд в метро

Представьте: вы обсуждаете проект голосом с ChatGPT. Прямо в этом же окне появляется карта. Или схема. Или график. Без переключений. Без прерываний. OpenAI интегрировала голосовой режим в основной интерфейс чата. Теперь текст, голос и визуальный контент работают в едином пространстве.

Что это такое

Мультимодальный голосовой режим — это работа с разными форматами сразу. Система понимает голос. Отвечает голосом. Создаёт картинки. Пишет текст. Всё в одном окне. Это не просто голосовой ассистент. Это инструмент, где разные способы общения работают одновременно. Не по очереди.

Почему это важно

Раньше голосовые ассистенты подходили для простых задач. Узнать погоду. Установить таймер. Для сложной работы приходилось переключаться на текст. Теперь граница стирается. Можно вести полноценный рабочий диалог голосом. Получать визуальные материалы. Сохранять текстовую документацию. Это экономит время. Снижает когнитивную нагрузку.

Что изменилось в голосовом режиме ChatGPT

Голосовой режим теперь встроен в обычный чат. Раньше требовалось открывать отдельный интерфейс. Это было полноэкранное окно: ассистент слушал и отвечал голосом, а визуальные материалы и стенограмма были ограничены.

Теперь достаточно нажать значок «волны» рядом с полем ввода. Голосовой режим активируется прямо в текущей беседе. Это означает три важных изменения.

Первое: вы переключаетесь между голосом и текстом в одном диалоге. Второе: система автоматически сохраняет транскрипт — текстовую расшифровку всего разговора. Третье: во время голосового разговора ChatGPT может генерировать визуальный контент. Карты, диаграммы, изображения появляются в том же окне.

Для тех, кто привык к прежнему формату, OpenAI оставила возможность вернуться к полноэкранному интерфейсу. В настройках голосового режима есть опция «Раздельный режим».

Как работает мультимодальное взаимодействие

Единое окно для разных типов информации

Представьте кухню. Раньше вы готовили на одной конфорке. Теперь работают все четыре. Плюс духовка. Плюс микроволновка. Одновременно. Так работает мультимодальный режим.

Вы спрашиваете голосом: «Покажи карту центра Казани с Кремлём». ChatGPT отвечает голосом. Объясняет расположение. Одновременно генерирует карту. Она появляется в окне чата. Вы видите визуальный результат. Слышите пояснение. Можете продолжить диалог текстом или голосом.

Транскрипт сохраняется автоматически. Это решает главную проблему голосовых интерфейсов. Раньше разговоры часто были эфемерными: после завершения к ним было сложно вернуться. Теперь вся беседа фиксируется в тексте. Это важно для работы. Для обучения. Для документирования идей.

Переключение между модальностями

Система позволяет свободно переходить от голоса к тексту. Вы говорите вопрос. Затем печатаете уточнение. ChatGPT помнит оба запроса. Контекст сохраняется. Независимо от способа ввода.

Это особенно полезно, когда руки заняты. Вы готовите презентацию. Перемещаетесь между документами. Параллельно задаёте вопросы голосом. Система генерирует нужные материалы. Вы сразу видите их на экране. Не прерываете рабочий процесс.

Генерация визуального контента в реальном времени

Во время голосового диалога ChatGPT создаёт изображения, схемы и карты. Это не поиск готовых картинок: система генерирует визуальный контент на основе вашего запроса и подстраивает его под контекст беседы.

Пример: вы обсуждаете архитектуру микросервисов. Просите показать схему взаимодействия компонентов. ChatGPT создаёт диаграмму и объясняет голосом каждый элемент. Или вы планируете маршрут по городу — система может сгенерировать карту с отмеченными точками и прокомментировать, как лучше добраться.

Визуальный контент появляется синхронно с голосовым объяснением. Это усиливает понимание: когда вы одновременно слышите объяснение и видите иллюстрацию, информация усваивается быстрее.

Реальные примеры использования

Ниже — условные примеры использования.

Пример 1: Подготовка урока за 15 минут

Учитель истории Анна Петрова из Санкт-Петербурга готовила урок о Куликовской битве. Описала голосом, что нужно. ChatGPT сгенерировал карту сражения, схему расстановки войск и таймлайн событий. Раньше на поиск материалов уходил час. Теперь — 15 минут.

Пример 2: Создание мудборда (референс-борда) в метро

Дизайнер Михаил Соколов из Москвы ехал в метро на встречу с клиентом. Описал голосом концепцию интерьера. ChatGPT создал мудборд с цветовой палитрой, примерами мебели и текстурами. Михаил показал результат клиенту прямо на встрече. Сэкономил два часа работы.

Пример 3: Презентация за 20 минут

Студент Тимур Ахметов из Казани готовил презентацию по квантовым вычислениям. Объяснил голосом основные концепции. ChatGPT сгенерировал диаграммы, схемы кубитов и графики сравнения производительности. Тимур получил готовую визуальную базу для слайдов. Раньше на это уходил вечер. Теперь — 20 минут.

Комментарий редакции

Мультимодальные системы меняют пользовательский опыт: синхронная работа голоса, текста и изображения снижает когнитивную нагрузку и ускоряет понимание. Это особенно полезно в обучении и профессиональных задачах.

Распространённые заблуждения

Миф: Голосовой режим работает только на английском.

Реальность: Модели распознавания речи OpenAI (например, Whisper) поддерживают русский язык. Точность приемлема для чёткой речи в тихой обстановке, но снижается при шуме или сильном акценте. Английский по-прежнему даёт лучшую точность.

Миф: Транскрипт сохраняется на серверах OpenAI навсегда.

Реальность: Транскрипт хранится в вашей истории чата. Вы можете удалить его в любой момент. Использование данных для улучшения моделей можно отключить в настройках конфиденциальности.

Миф: Для работы нужен быстрый интернет.

Реальность: Нужна стабильная связь, но не обязательно сверхбыстрая. Достаточно обычного 4G. Генерация изображений при медленном соединении может занимать немного больше времени.

Технические аспекты и ограничения

Мультимодальные системы требуют значительных вычислительных ресурсов: обработка голоса в реальном времени, генерация изображений и поддержание контекста происходят одновременно. Это влияет на скорость отклика.

Доступность и объём функций зависят от тарифного плана и региона. Часть возможностей может быть доступна только на платных подписках (например, ChatGPT Plus, Team, Enterprise).

Качество распознавания русской речи зависит от акцента, скорости и фоновых шумов. Точность выше при чёткой, нейтральной речи в тихой обстановке и ниже — при шуме, сильном акценте или одновременной речи нескольких людей.

OpenAI применяет географические ограничения доступа. Доступность сервиса и отдельных функций может различаться по регионам.

Что это значит для будущего

Интеграция модальностей станет стандартом. Google развивает Gemini Live, Яндекс — собственные голосовые ассистенты. Будущее AI‑интерфейсов — в гибкости: пользователь выбирает, как взаимодействовать, а система подстраивается под его предпочтения.

О чём это

  • Explainer/
  • Мария Ахмедова/
  • Технологии/
  • Софт

Лента

    Учёные восстановили молодость старых иммунных клеток

    Американская команда обнаружила, что старение стволовых клеток обратимо через лизосомы

    Павел Гринберг2 дня назад

    Омоложение стволовых клеток крови: как учёные связывают старение с лизосомами

    Елена Ковригина2 дня назад
    Xiaomi представила робот-пылесос с роликовой шваброй

    Xiaomi представила робот-пылесос с роликовой шваброй

    Mijia Robot Vacuum and Mop 6 получил мощность всасывания 28000Па

    Павел Островский6 мая 2026
    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Заражённые Daemon Tools 12.5.0.2421‑12.5.0.2434

    Kaspersky Lab предупреждает: версии 12.5.0.2421‑12.5.0.2434 заражены, а безопасную 12.6.0.2445 уже выпустили

    Сергей Ким6 мая 2026
    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    Apple объявила даты WWDC 2026 и анонсировала iOS 27

    8 июня: iOS 27 с 7 новыми функциями, в том числе Siri‑чат и AI‑фичи в Photos

    Алина Джафарова5 мая 2026

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Алина Джафарова3 мая 2026

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафарова3 мая 2026

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова30 апреля 2026

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова28 апреля 2026

    Загрузки VPN в России выросли в 14 раз в 2026 году

    С начала 2026 года загрузки VPN‑приложений в России выросли в 14 раз. В марте россияне скачали более 9,2 млн через Google Play, что в 14 раз больше, чем в марте 2025 года. За первый квартал 2026 года суммарные загрузки достигли 21,27 млн, а за год зафиксировано 35,7 млн скачиваний. Три приложения из топ‑5 собрали по 2,5+ млн загрузок, подтверждая рост спроса после новых правил блокировки VPN‑трафика.

    Загрузки VPN в России выросли в 14 раз в 2026 году
    Алина Джафарова28 апреля 2026
    Loading...
Home
Главная
Search
Поиск
banner