Voz en tiempo real con Cerewro y OpenAI Realtime
La pestaña Voz de Cerewro abre una sesión de audio bidireccional con la API Realtime de OpenAI. Habla con la IA mediante el micrófono, recibe respuestas de voz natural y ejecuta tools como comandos, creación de archivos o búsquedas web con confirmación oral.
Cómo funciona la sesión de voz
- Haz clic en la pestaña "Voz" de Cerewro
- Se establece conexión con OpenAI Realtime API via WebSocket
- El micrófono del navegador captura tu voz en tiempo real
- OpenAI convierte el audio a texto y genera la respuesta
- La respuesta se reproduce como audio en tu altavoz
- Si la IA propone ejecutar una tool, puedes confirmar con voz
Ejemplo de interacción por voz
[TÚ]: "¿Cuánto espacio libre queda en el disco C?"
[CEREWRO VOZ]: "Voy a comprobarlo... El disco C tiene 47 GB libres de 512 GB totales."
Ventajas de la interfaz de voz
| Ventaja | Descripción |
|---|---|
| Manos libres | Ideal cuando estás trabajando en otro proceso |
| Velocidad | Más rápido que escribir consultas complejas |
| Natural | Puedes interrumpir y reformular como en una conversación real |
| Accesibilidad | Facilita el uso a personas con dificultades de escritura |
Requisito: La interfaz de voz requiere que el navegador tenga permiso para acceder al micrófono y que la instalación de Cerewro tenga configurada la clave API de OpenAI con acceso al modelo gpt-4o-realtime-preview.