🦞
Tutorial

Modo de Voz (Modo Hablar)

Mantén conversaciones de voz naturales con OpenClaw usando ElevenLabs TTS.

🎙️ ¿Qué es el Modo Hablar?

El Modo Hablar permite conversaciones de voz naturales con OpenClaw. Habla de forma natural y tu IA responde con voz realista impulsada por ElevenLabs.

Cómo funciona:

Escucha la palabra de activación o pulsar para hablarTranscribe el habla a texto (Whisper)Procesa con IA (Claude, GPT, etc.)Convierte la respuesta a voz (ElevenLabs)

El Modo Hablar requiere una clave API de ElevenLabs para texto a voz. La conversión de voz a texto usa Whisper (OpenAI o local).

Requisitos

Clave API de ElevenLabs

Requerida

Regístrate en elevenlabs.io

Plataforma

macOS, iOS, Android

La entrada de voz requiere apps nativas

Permisos

Acceso al micrófono

Conceder cuando se solicite

Pasos de Configuración

1

Obtener Clave API de ElevenLabs

Regístrate en ElevenLabs y obtén tu clave API:

  • Ve a elevenlabs.io y crea una cuenta
  • Navega a Perfil → Clave API
  • Copia tu clave API
2

Configurar OpenClaw

Añade la configuración de ElevenLabs a tu openclaw.json:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true
  }
}
3

Establecer Variable de Entorno

Alternativamente, establece tu clave API como variable de entorno:

export ELEVENLABS_API_KEY="your_api_key_here"
4

Iniciar Modo Hablar

Activa el modo hablar desde la app de barra de menú de OpenClaw o CLI:

  • Haz clic en el icono de OpenClaw en la barra de menú
  • Selecciona 'Iniciar Modo Hablar'
  • O ejecuta: openclaw talk
Opciones de Configuración Completas

Todas las opciones de configuración de voz disponibles:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true,
    "stability": 0.5,
    "similarityBoost": 0.75,
    "style": 0.5,
    "speakerBoost": true
  }
}
  • elevenlabs.apiKeyTu clave API de ElevenLabs
  • elevenlabs.voiceIdID de voz a usar (por defecto: Rachel)
  • elevenlabs.modelModelo a usar (eleven_monolingual_v1, eleven_multilingual_v2)
  • voice.wakeWordPalabra de activación (por defecto: 'Hey Claw')
  • voice.pushToTalkUsar pulsar para hablar en lugar de palabra de activación
  • voice.silenceTimeoutSegundos de silencio antes de detener (por defecto: 2)
Alias de Voz

Cambia entre diferentes personalidades de voz fácilmente.

{
  "talk": {
    "voiceId": "default",
    "voices": {
      "default": "EXAVITQu4vr4xnSDxMaL",
      "professional": "21m00Tcm4TlvDq8ikWAM",
      "friendly": "AZnzlk1XvdvUeBnXmlld",
      "narrator": "pNInz6obpgDQGcFmaJgB"
    }
  }
}

Voces Disponibles

Por defecto (Rachel)

Voz femenina cálida y natural

Profesional (Adam)

Voz masculina clara y autoritaria

Amigable (Bella)

Voz femenina casual y accesible

Narrador (Antoni)

Voz masculina profunda, estilo narrador

Cambia de voz diciendo 'Usar voz profesional' o configurándolo en el archivo de configuración.

Características por Plataforma

macOS
  • App de barra de menú con activación rápida
  • Atajo de teclado global para pulsar y hablar
  • Integración con audio del sistema
  • Detección de palabra de activación
iOS y Android
  • Entrada de voz en la app complementaria
  • Detección de palabra de activación en segundo plano
  • Soporte para auriculares Bluetooth
  • Retroalimentación háptica
Comandos de Voz

Controla OpenClaw con comandos de voz:

// Per-reply voice control
{
  "voice": "narrator",
  "speed": 1.1,
  "stability": 0.8
}

This response will be spoken in the narrator voice at slightly faster speed.

Comandos Disponibles

  • StopDetener la reproducción de voz actual
  • PausePausar y esperar más entrada
  • CancelCancelar la solicitud actual
  • RepeatRepetir la última respuesta
  • Slower/FasterAjustar la velocidad del habla
TTS para Mensajes

Configura texto a voz para mensajes entrantes:

{
  "tts": {
    "enabled": true,
    "mode": "tagged",
    "provider": "elevenlabs",
    "voiceId": "EXAVITQu4vr4xnSDxMaL"
  }
}

Modos TTS

always

Leer todos los mensajes en voz alta

Ideal para: Operación manos libres

inbound

Leer solo mensajes entrantes

Ideal para: Al enviar por otros canales

tagged

Leer mensajes etiquetados con @voice

Ideal para: Salida de voz selectiva

Proveedores Soportados

  • ElevenLabsElevenLabs (máxima calidad)
  • OpenAIOpenAI TTS (rápido, buena calidad)
💡 Consejos y Mejores Prácticas
  • Ambiente SilenciosoEl reconocimiento de voz funciona mejor en ambientes silenciosos con mínimo ruido de fondo.
  • Habla ClaramenteHabla a un ritmo normal. Pausar ligeramente entre oraciones mejora la precisión de la transcripción.
  • Usa AuricularesLos auriculares previenen el eco y mejoran la detección de la palabra de activación.
  • Revisa los CréditosElevenLabs tiene límites de uso. Monitorea tus créditos para evitar interrupciones.

¡Modo de Voz Listo!

Comienza a hablar con tu asistente de IA manos libres.