casos-uso Destacada

Voz en tiempo real con Cerewro: habla con la IA y ejecuta acciones

La pestana Voz de Cerewro abre una sesion de audio bidireccional con OpenAI Realtime. Habla por el microfono, recibe respuestas de voz y ejecuta tools con tu confirmacion oral.

20 de May de 2026

Equipo Cerewro

voz realtime openai audio speech-to-text

Voz en tiempo real con Cerewro y OpenAI Realtime

La pestaña Voz de Cerewro abre una sesión de audio bidireccional con la API Realtime de OpenAI. Habla con la IA mediante el micrófono, recibe respuestas de voz natural y ejecuta tools como comandos, creación de archivos o búsquedas web con confirmación oral.

Cómo funciona la sesión de voz

Haz clic en la pestaña "Voz" de Cerewro
Se establece conexión con OpenAI Realtime API via WebSocket
El micrófono del navegador captura tu voz en tiempo real
OpenAI convierte el audio a texto y genera la respuesta
La respuesta se reproduce como audio en tu altavoz
Si la IA propone ejecutar una tool, puedes confirmar con voz

Ejemplo de interacción por voz

[TÚ]: "¿Cuánto espacio libre queda en el disco C?"
[CEREWRO VOZ]: "Voy a comprobarlo... El disco C tiene 47 GB libres de 512 GB totales."

Ventajas de la interfaz de voz

Ventaja	Descripción
Manos libres	Ideal cuando estás trabajando en otro proceso
Velocidad	Más rápido que escribir consultas complejas
Natural	Puedes interrumpir y reformular como en una conversación real
Accesibilidad	Facilita el uso a personas con dificultades de escritura

Requisito: La interfaz de voz requiere que el navegador tenga permiso para acceder al micrófono y que la instalación de Cerewro tenga configurada la clave API de OpenAI con acceso al modelo gpt-4o-realtime-preview.