Voz en tiempo real con Cerewro: habla con la IA y ejecuta acciones

La pestana Voz de Cerewro abre una sesion de audio bidireccional con OpenAI Realtime. Habla por el microfono, recibe respuestas de voz y ejecuta tools con tu confirmacion oral.

Voz en tiempo real con Cerewro y OpenAI Realtime

La pestaña Voz de Cerewro abre una sesión de audio bidireccional con la API Realtime de OpenAI. Habla con la IA mediante el micrófono, recibe respuestas de voz natural y ejecuta tools como comandos, creación de archivos o búsquedas web con confirmación oral.

Cómo funciona la sesión de voz

  1. Haz clic en la pestaña "Voz" de Cerewro
  2. Se establece conexión con OpenAI Realtime API via WebSocket
  3. El micrófono del navegador captura tu voz en tiempo real
  4. OpenAI convierte el audio a texto y genera la respuesta
  5. La respuesta se reproduce como audio en tu altavoz
  6. Si la IA propone ejecutar una tool, puedes confirmar con voz
Ejemplo de interacción por voz
[TÚ]: "¿Cuánto espacio libre queda en el disco C?"
[CEREWRO VOZ]: "Voy a comprobarlo... El disco C tiene 47 GB libres de 512 GB totales."

Ventajas de la interfaz de voz

VentajaDescripción
Manos libresIdeal cuando estás trabajando en otro proceso
VelocidadMás rápido que escribir consultas complejas
NaturalPuedes interrumpir y reformular como en una conversación real
AccesibilidadFacilita el uso a personas con dificultades de escritura
Requisito: La interfaz de voz requiere que el navegador tenga permiso para acceder al micrófono y que la instalación de Cerewro tenga configurada la clave API de OpenAI con acceso al modelo gpt-4o-realtime-preview.