Wanture.

Decide better.

Live better.

Stay Curious. Stay Wanture.

© 2026 Wanture. All rights reserved.

  • Terms of Use
  • Privacy Policy
Технологии/Софт
Что такое новый голосовой режим ChatGPT

Как OpenAI объединила голос, текст и визуальный контент в одном окне чата

27 ноября 2025

—

Explainer

Мария Ахмедова
banner

ChatGPT теперь работает как мультимодальный помощник. Вы говорите — система отвечает голосом, показывает текстовую расшифровку и генерирует карты или схемы прямо в беседе. Больше не нужно переключаться между режимами. Разбираем, как работает интеграция голоса и визуализации, зачем это нужно и как использовать новый режим в работе и повседневной жизни.

image-72

Краткое содержание:

  • Мультимодальный голосовой режим ChatGPT объединяет голос, текст и визуальный контент в одном интерфейсе за доли секунды
  • Система автоматически генерирует визуальные материалы, синхронизированные с голосовым ответом, используя три координированные AI-модели
  • Технология стирает границы между форматами взаимодействия, делая AI естественным продолжением человеческих коммуникативных способностей

Вы говорите с ChatGPT голосом. Система отвечает. Одновременно на экране появляется карта, схема или диаграмма. Всё это происходит в одном окне чата.

OpenAI объединила голос, текст и визуальный контент в единый интерфейс. Многие думают, что это просто улучшенный голосовой помощник. На самом деле это новый способ взаимодействия с AI. К концу статьи вы поймёте, как это работает и где применимо.

Что это такое

Мультимодальный голосовой режим ChatGPT объединяет три способа общения в одном интерфейсе: голос, текст и визуальный контент. Это относится к категории мультимодальных AI-систем. Они обрабатывают несколько типов данных одновременно. Отличие от обычных голосовых помощников: система не просто отвечает голосом, а координирует разные форматы в реальном времени.

Как это работает

Активация режима

Откройте ChatGPT. Найдите значок волны рядом с полем ввода. Нажмите. Начинайте говорить.

Система преобразует звук в текст практически мгновенно. Отвечает голосом. Одновременно на экране появляется текстовая расшифровка.

Вы можете переключаться между голосом и текстом. Контекст сохраняется. ChatGPT помнит предыдущие реплики. Даже если вы начали голосом, а продолжили текстом.

Генерация визуального контента

Система анализирует контекст беседы. Вы спрашиваете про маршрут — появляется карта. Обсуждаете структуру данных — ChatGPT рисует схему. Говорите о погоде в Сибири — показывается карта с температурными зонами.

Визуальный контент создаётся параллельно с голосовым ответом. Это требует координации нескольких AI-моделей. Одна обрабатывает речь. Другая генерирует изображения. Третья следит за связностью беседы.

Представьте оркестр. Каждый инструмент играет свою партию. Дирижёр координирует звучание. Так же работают модели ChatGPT. Каждая выполняет свою задачу. Система объединяет результаты в единый ответ.

Сохранение расшифровки

Вся беседа сохраняется автоматически. Система записывает ваши реплики и свои ответы. Вы можете вернуться к любому моменту разговора. Прочитать текстовую версию.

Это работает как магнитофон. Он записывает и расшифровывает одновременно. Проговорили идею вслух во время прогулки — вернулись к компьютеру. Готовый текст уже ждёт.

Примеры использования

Планирование маршрута

Антон из Москвы спрашивает голосом: «Как добраться до Третьяковской галереи от метро Парк культуры?»

ChatGPT отвечает быстро: «Три варианта. Первый — пешком через Крымский мост, 15 минут. Второй — на троллейбусе номер Б, 8 минут. Третий — на метро с пересадкой, 12 минут».

На экране появляется карта с отмеченными маршрутами. Антон видит все варианты сразу. Выбирает пешую прогулку. Сохраняет расшифровку. Отправляет другу.

Объяснение технической концепции

Преподаватель из Санкт-Петербурга объясняет студентам архитектуру нейросети. Говорит в ChatGPT: «Покажи структуру свёрточной нейросети для распознавания изображений».

Система отвечает голосом. Описывает слои. Одновременно генерирует схему. Входной слой, свёрточные слои, пулинг, полносвязный слой.

Преподаватель использует схему в презентации. Расшифровка беседы становится основой для конспекта. Подготовка материала занимает значительно меньше времени.

Подготовка презентации

Консультант из Казани готовит слайды для клиента. Проговаривает структуру вслух: «Нужны три слайда. Первый — текущая ситуация на рынке. Второй — наше решение. Третий — ожидаемые результаты».

ChatGPT генерирует черновики визуализаций. Консультант корректирует детали текстом. Работа завершается быстрее обычного.

Распространённые заблуждения

Миф: Голосовой режим заменяет текстовый чат.

Реальность: Режимы дополняют друг друга. Вы можете начать голосом, продолжить текстом. Или наоборот. Контекст сохраняется.

Миф: Визуальный контент генерируется только по запросу.

Реальность: Система анализирует контекст автоматически. Если вопрос требует визуализации, ChatGPT создаёт её без явного запроса.

Миф: Функция доступна только на английском.

Реальность: Технология распознавания речи Whisper поддерживает русский язык. Это подтверждено технической документацией OpenAI. Однако доступность функции в России зависит от способа доступа к сервису.

Миф: Мультимодальность — это просто голос плюс картинки.

Реальность: Это координация нескольких AI-моделей в реальном времени. Система понимает, когда нужен текст, когда голос, когда визуализация. Выбирает подходящий формат автоматически.

Раздельный режим

Для тех, кто привык к автономному голосовому режиму, OpenAI оставила опцию «Раздельный режим» в настройках. Можно вернуться к прежнему формату. Это полезно, когда нужна только голосовая беседа. Без текстовой расшифровки. Или когда визуальный контент отвлекает.

Технические требования и доступность

OpenAI официально не раскрыла детали региональной доступности. Технология распознавания и синтеза речи компании (Whisper и TTS) поддерживает русский язык. Это подтверждено технической документацией.

Однако OpenAI формально не поддерживает Россию как целевой рынок. Прямой доступ к платным подпискам для российских пользователей ограничён.

Фактическая доступность голосового режима с визуальным контентом зависит от способа доступа. Учётной записи, метода оплаты, версии приложения. Информация о том, доступна ли функция всем пользователям или только подписчикам ChatGPT Plus и Enterprise, пока не уточнена. Обычно новые возможности голосового режима сначала появляются у платных пользователей.

Альтернативы в российском контексте

Существуют российские решения с мультимодальными возможностями. GigaChat от Сбера поддерживает голосовое взаимодействие и генерацию изображений. Система работает на русском языке без ограничений доступа.

Для пользователей, которым важна стабильная доступность, локальные альтернативы могут быть практичнее.

Экспертное мнение

Представьте разговор на кухне. Вы объясняете рецепт. Говорите. Показываете ингредиенты. Рисуете схему на бумаге. Используете все способы одновременно. Так же работает мультимодальный AI. Он не ограничен одним форматом.

Главный вывод

Мультимодальность становится стандартом для AI-ассистентов. Раньше мы выбирали: текст, голос или изображения. Теперь границы стираются. Система понимает контекст. Выбирает подходящий способ ответа. Это экономит время. Делает взаимодействие естественнее.

Понимание этого важно, потому что технология меняет способ работы с информацией. Следующий шаг — интеграция видео, жестов, эмоционального контекста. AI перестаёт быть инструментом. Становится естественным продолжением наших способностей.


Источники:

  1. OpenAI Technical Documentation: Whisper API (speech recognition) — https://platform.openai.com/docs/guides/speech-to-text
  2. OpenAI Technical Documentation: Text-to-Speech API — https://platform.openai.com/docs/guides/text-to-speech
  3. OpenAI Blog: ChatGPT Voice Mode Updates (2024) — https://openai.com/blog
  4. Интервью с Дмитрием Ветровым, научным руководителем направления AI в Сбере — РБК, октябрь 2024
  5. GigaChat Technical Specifications — Сбер, официальная документация

Примечание: Конкретные временные характеристики работы системы основаны на публичных демонстрациях функционала и могут варьироваться в зависимости от условий использования.

О чём это

  • Explainer/
  • Мария Ахмедова/
  • Технологии/
  • Софт

Лента

    article

    Елена Ковригинаоколо 11 часов назад

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Елена Абрамовичоколо 12 часов назад

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафароваоколо 18 часов назад

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова4 дня назад

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова6 дней назад

    Загрузки VPN в России выросли в 14 раз в 2026 году

    С начала 2026 года загрузки VPN‑приложений в России выросли в 14 раз. В марте россияне скачали более 9,2 млн через Google Play, что в 14 раз больше, чем в марте 2025 года. За первый квартал 2026 года суммарные загрузки достигли 21,27 млн, а за год зафиксировано 35,7 млн скачиваний. Три приложения из топ‑5 собрали по 2,5+ млн загрузок, подтверждая рост спроса после новых правил блокировки VPN‑трафика.

    Загрузки VPN в России выросли в 14 раз в 2026 году
    Алина Джафарова6 дней назад

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску

    Samsung готовит к летнему запуску в июле 2026 года три складных смартфона (Galaxy Z Fold 8, Z Fold 8 Wide и Galaxy Z Flip 8). Все модели получат встроенную магнитную систему, аналогичную MagSafe, что решит дефицит совместимых чехлов в России, где в первом квартале продано 29 000 складных устройств. Ожидается анонс 22 июля в Лондоне, детали надёжности шарнира пока не раскрыты.

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску
    Алина Джафарова6 дней назад

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней

    С 28 апреля Sony объявила, что цифровые лицензии для игр на консолях PS4 и PS5 будут проверяться каждые 30 дней. После мартовского обновления доступ к купленным онлайн‑играм будет отключаться до следующей синхронизации, если консоль не подключена к сети хотя бы раз в месяц. Физические диски не затронуты, а старые покупки остаются активными.

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней
    Алина Джафарова6 дней назад

    Биологический возраст: VO₂max ≥48 и HRV 50‑66 мс

    Глюкоза <5,0 ммоль/л, сон 7‑9 ч — путь к замедлению старения

    Тимур Красников6 дней назад

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC

    23 апреля 2026 г. на автосалоне в Пекине Rox Motor представила гибридный внедорожник Adamas — 1,5 л двигатель и два электромотора, суммарная мощность 476 л. с., запас хода 1 115 км по WLTC. Электрический диапазон 235 км, разгон 0–100 км/ч за 5,5 с, макс. 190 км/ч. Батарея 70 кВт·ч, быстрая зарядка 100 кВт 0–80 % за 29 мин. Компания объявила о локальном сборе, предзаказы с марта, ожидаются к концу года.

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC
    Виктор Морозов27 апреля 2026
    Loading...
Технологии/Софт

Что такое новый голосовой режим ChatGPT

Как OpenAI объединила голос, текст и визуальный контент в одном окне чата

27 ноября 2025, 22:34

ChatGPT теперь работает как мультимодальный помощник. Вы говорите — система отвечает голосом, показывает текстовую расшифровку и генерирует карты или схемы прямо в беседе. Больше не нужно переключаться между режимами. Разбираем, как работает интеграция голоса и визуализации, зачем это нужно и как использовать новый режим в работе и повседневной жизни.

image-72

Краткое содержание

  • Мультимодальный голосовой режим ChatGPT объединяет голос, текст и визуальный контент в одном интерфейсе за доли секунды
  • Система автоматически генерирует визуальные материалы, синхронизированные с голосовым ответом, используя три координированные AI-модели
  • Технология стирает границы между форматами взаимодействия, делая AI естественным продолжением человеческих коммуникативных способностей

Вы говорите с ChatGPT голосом. Система отвечает. Одновременно на экране появляется карта, схема или диаграмма. Всё это происходит в одном окне чата.

OpenAI объединила голос, текст и визуальный контент в единый интерфейс. Многие думают, что это просто улучшенный голосовой помощник. На самом деле это новый способ взаимодействия с AI. К концу статьи вы поймёте, как это работает и где применимо.

Что это такое

Мультимодальный голосовой режим ChatGPT объединяет три способа общения в одном интерфейсе: голос, текст и визуальный контент. Это относится к категории мультимодальных AI-систем. Они обрабатывают несколько типов данных одновременно. Отличие от обычных голосовых помощников: система не просто отвечает голосом, а координирует разные форматы в реальном времени.

Как это работает

Активация режима

Откройте ChatGPT. Найдите значок волны рядом с полем ввода. Нажмите. Начинайте говорить.

Система преобразует звук в текст практически мгновенно. Отвечает голосом. Одновременно на экране появляется текстовая расшифровка.

Вы можете переключаться между голосом и текстом. Контекст сохраняется. ChatGPT помнит предыдущие реплики. Даже если вы начали голосом, а продолжили текстом.

Генерация визуального контента

Система анализирует контекст беседы. Вы спрашиваете про маршрут — появляется карта. Обсуждаете структуру данных — ChatGPT рисует схему. Говорите о погоде в Сибири — показывается карта с температурными зонами.

Визуальный контент создаётся параллельно с голосовым ответом. Это требует координации нескольких AI-моделей. Одна обрабатывает речь. Другая генерирует изображения. Третья следит за связностью беседы.

Представьте оркестр. Каждый инструмент играет свою партию. Дирижёр координирует звучание. Так же работают модели ChatGPT. Каждая выполняет свою задачу. Система объединяет результаты в единый ответ.

Сохранение расшифровки

Вся беседа сохраняется автоматически. Система записывает ваши реплики и свои ответы. Вы можете вернуться к любому моменту разговора. Прочитать текстовую версию.

Это работает как магнитофон. Он записывает и расшифровывает одновременно. Проговорили идею вслух во время прогулки — вернулись к компьютеру. Готовый текст уже ждёт.

Примеры использования

Планирование маршрута

Антон из Москвы спрашивает голосом: «Как добраться до Третьяковской галереи от метро Парк культуры?»

ChatGPT отвечает быстро: «Три варианта. Первый — пешком через Крымский мост, 15 минут. Второй — на троллейбусе номер Б, 8 минут. Третий — на метро с пересадкой, 12 минут».

На экране появляется карта с отмеченными маршрутами. Антон видит все варианты сразу. Выбирает пешую прогулку. Сохраняет расшифровку. Отправляет другу.

Объяснение технической концепции

Преподаватель из Санкт-Петербурга объясняет студентам архитектуру нейросети. Говорит в ChatGPT: «Покажи структуру свёрточной нейросети для распознавания изображений».

Система отвечает голосом. Описывает слои. Одновременно генерирует схему. Входной слой, свёрточные слои, пулинг, полносвязный слой.

Преподаватель использует схему в презентации. Расшифровка беседы становится основой для конспекта. Подготовка материала занимает значительно меньше времени.

Подготовка презентации

Консультант из Казани готовит слайды для клиента. Проговаривает структуру вслух: «Нужны три слайда. Первый — текущая ситуация на рынке. Второй — наше решение. Третий — ожидаемые результаты».

ChatGPT генерирует черновики визуализаций. Консультант корректирует детали текстом. Работа завершается быстрее обычного.

Распространённые заблуждения

Миф: Голосовой режим заменяет текстовый чат.

Реальность: Режимы дополняют друг друга. Вы можете начать голосом, продолжить текстом. Или наоборот. Контекст сохраняется.

Миф: Визуальный контент генерируется только по запросу.

Реальность: Система анализирует контекст автоматически. Если вопрос требует визуализации, ChatGPT создаёт её без явного запроса.

Миф: Функция доступна только на английском.

Реальность: Технология распознавания речи Whisper поддерживает русский язык. Это подтверждено технической документацией OpenAI. Однако доступность функции в России зависит от способа доступа к сервису.

Миф: Мультимодальность — это просто голос плюс картинки.

Реальность: Это координация нескольких AI-моделей в реальном времени. Система понимает, когда нужен текст, когда голос, когда визуализация. Выбирает подходящий формат автоматически.

Раздельный режим

Для тех, кто привык к автономному голосовому режиму, OpenAI оставила опцию «Раздельный режим» в настройках. Можно вернуться к прежнему формату. Это полезно, когда нужна только голосовая беседа. Без текстовой расшифровки. Или когда визуальный контент отвлекает.

Технические требования и доступность

OpenAI официально не раскрыла детали региональной доступности. Технология распознавания и синтеза речи компании (Whisper и TTS) поддерживает русский язык. Это подтверждено технической документацией.

Однако OpenAI формально не поддерживает Россию как целевой рынок. Прямой доступ к платным подпискам для российских пользователей ограничён.

Фактическая доступность голосового режима с визуальным контентом зависит от способа доступа. Учётной записи, метода оплаты, версии приложения. Информация о том, доступна ли функция всем пользователям или только подписчикам ChatGPT Plus и Enterprise, пока не уточнена. Обычно новые возможности голосового режима сначала появляются у платных пользователей.

Альтернативы в российском контексте

Существуют российские решения с мультимодальными возможностями. GigaChat от Сбера поддерживает голосовое взаимодействие и генерацию изображений. Система работает на русском языке без ограничений доступа.

Для пользователей, которым важна стабильная доступность, локальные альтернативы могут быть практичнее.

Экспертное мнение

Представьте разговор на кухне. Вы объясняете рецепт. Говорите. Показываете ингредиенты. Рисуете схему на бумаге. Используете все способы одновременно. Так же работает мультимодальный AI. Он не ограничен одним форматом.

Главный вывод

Мультимодальность становится стандартом для AI-ассистентов. Раньше мы выбирали: текст, голос или изображения. Теперь границы стираются. Система понимает контекст. Выбирает подходящий способ ответа. Это экономит время. Делает взаимодействие естественнее.

Понимание этого важно, потому что технология меняет способ работы с информацией. Следующий шаг — интеграция видео, жестов, эмоционального контекста. AI перестаёт быть инструментом. Становится естественным продолжением наших способностей.


Источники:

  1. OpenAI Technical Documentation: Whisper API (speech recognition) — https://platform.openai.com/docs/guides/speech-to-text
  2. OpenAI Technical Documentation: Text-to-Speech API — https://platform.openai.com/docs/guides/text-to-speech
  3. OpenAI Blog: ChatGPT Voice Mode Updates (2024) — https://openai.com/blog
  4. Интервью с Дмитрием Ветровым, научным руководителем направления AI в Сбере — РБК, октябрь 2024
  5. GigaChat Technical Specifications — Сбер, официальная документация

Примечание: Конкретные временные характеристики работы системы основаны на публичных демонстрациях функционала и могут варьироваться в зависимости от условий использования.

О чём это

  • Explainer/
  • Мария Ахмедова/
  • Технологии/
  • Софт

Лента

    article

    Елена Ковригинаоколо 11 часов назад

    Редизайн иконок Google Workspace: от четырёхцветных контуров к градиентному различию

    Google заменил однообразные четырёхцветные иконки Workspace на градиентные, улучшив визуальное различие, ускорив поиск сервисов и повысив доступность для пользователей с ограниченным зрением.

    Елена Абрамовичоколо 12 часов назад

    Apple анонсировала iOS 27: дата выхода и новые функции

    WWDC 2026 (8 июня) анонсировал iOS 27 с Siri‑приложением и спутниковой связью

    Алина Джафароваоколо 18 часов назад

    iPhone 18 Pro получит переменную диафрагму и AI‑режим Siri в iOS 27

    Apple готовит переменную диафрагму и AI‑режим Siri в iPhone 18 Pro для iOS 27

    Алина Джафарова4 дня назад

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4

    27 апреля 2026 года компания vivo анонсировала в Китае бюджетные беспроводные наушники TWS 5i с автономией до 50 часов, Bluetooth 5.4, двойным подключением и быстрой зарядкой 10 минут = 4 часа воспроизведения. В России модель продаётся через параллельный импорт по цене 2200‑2800 рублей, без официальной гарантии, что усложняет сервисное обслуживание.

    vivo TWS 5i запущены: 50 часов работы, Bluetooth 5.4
    Алина Джафарова6 дней назад

    Загрузки VPN в России выросли в 14 раз в 2026 году

    С начала 2026 года загрузки VPN‑приложений в России выросли в 14 раз. В марте россияне скачали более 9,2 млн через Google Play, что в 14 раз больше, чем в марте 2025 года. За первый квартал 2026 года суммарные загрузки достигли 21,27 млн, а за год зафиксировано 35,7 млн скачиваний. Три приложения из топ‑5 собрали по 2,5+ млн загрузок, подтверждая рост спроса после новых правил блокировки VPN‑трафика.

    Загрузки VPN в России выросли в 14 раз в 2026 году
    Алина Джафарова6 дней назад

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску

    Samsung готовит к летнему запуску в июле 2026 года три складных смартфона (Galaxy Z Fold 8, Z Fold 8 Wide и Galaxy Z Flip 8). Все модели получат встроенную магнитную систему, аналогичную MagSafe, что решит дефицит совместимых чехлов в России, где в первом квартале продано 29 000 складных устройств. Ожидается анонс 22 июля в Лондоне, детали надёжности шарнира пока не раскрыты.

    Samsung готовит Galaxy Z Fold 8 Wide к летнему запуску
    Алина Джафарова6 дней назад

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней

    С 28 апреля Sony объявила, что цифровые лицензии для игр на консолях PS4 и PS5 будут проверяться каждые 30 дней. После мартовского обновления доступ к купленным онлайн‑играм будет отключаться до следующей синхронизации, если консоль не подключена к сети хотя бы раз в месяц. Физические диски не затронуты, а старые покупки остаются активными.

    Sony проверит цифровые лицензии PS4 и PS5 каждые 30 дней
    Алина Джафарова6 дней назад

    Биологический возраст: VO₂max ≥48 и HRV 50‑66 мс

    Глюкоза <5,0 ммоль/л, сон 7‑9 ч — путь к замедлению старения

    Тимур Красников6 дней назад

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC

    23 апреля 2026 г. на автосалоне в Пекине Rox Motor представила гибридный внедорожник Adamas — 1,5 л двигатель и два электромотора, суммарная мощность 476 л. с., запас хода 1 115 км по WLTC. Электрический диапазон 235 км, разгон 0–100 км/ч за 5,5 с, макс. 190 км/ч. Батарея 70 кВт·ч, быстрая зарядка 100 кВт 0–80 % за 29 мин. Компания объявила о локальном сборе, предзаказы с марта, ожидаются к концу года.

    Rox Motor представила гибридный Adamas: 476 л. с., 1 115 км WLTC
    Виктор Морозов27 апреля 2026
    Loading...
banner