
El Servicio de voz de Microsoft Azure ofrece funciones avanzadas de voz a texto y texto a voz, traducción de voz y reconocimiento de hablantes, integrables en cualquier aplicación o dispositivo.
¿Qué es el Servicio de voz de Microsoft Azure?
El Servicio de voz de Microsoft Azure, parte de Azure Cognitive Services, proporciona capacidades avanzadas de voz a texto y texto a voz, traducción de voz, reconocimiento de hablantes y evaluación de pronunciación, con soporte para múltiples idiomas y regiones.
“Transforma tus aplicaciones con interacciones de voz naturales y precisas, impulsadas por la inteligencia de Azure.”
Beneficios del Servicio de voz
- Alta precisión: Transcripciones de voz a texto precisas y voces neuronales naturales.
- Personalización: Crea modelos y voces personalizadas para tu marca.
- Multilingüe: Soporte para numerosos idiomas y regiones.
- Flexibilidad: Implementa en la nube, en el perímetro o en nubes soberanas.

Escenarios de uso
El Servicio de voz de Microsoft se utiliza en diversos escenarios para mejorar la interacción con los usuarios:
- Subtítulos: Sincroniza subtítulos con audio, aplica filtros de blasfemias y admite escenarios multilingües.
- Creación de contenido de audio: Genera audiolibros, mejora chatbots y optimiza sistemas de navegación.
- Call Center: Transcribe llamadas en tiempo real, elimina datos personales y analiza sentimientos.
- Asistentes de voz: Crea interfaces conversacionales naturales para aplicaciones y dispositivos.
Microsoft implementa estas capacidades en productos como subtítulos en Teams, dictado en Office 365 y lectura en voz alta en Edge.

Capacidades principales
Voz a texto
La conversión de voz a texto transcribe audio en tiempo real o asíncronamente desde micrófonos, archivos o almacenamiento de blobs, con formato y puntuación automáticos.
- Características: Incluye diarización de hablantes para identificar quién habla y cuándo.
- Personalización: Crea modelos personalizados para entornos con ruido o jerga específica.
- Prueba sin código: Usa Speech Studio para probar la función sin registrarte.
Nota: Los modelos personalizados son privados y ofrecen una ventaja competitiva en escenarios específicos.
Texto a voz
La conversión de texto a voz genera voces neuronales similares a las humanas, ajustables mediante SSML para tono, velocidad y volumen.
- Voces preconstruidas: Voces naturales listas para usar (muestras).
- Voces personalizadas: Crea voces únicas para tu marca (muestras).
Traducción de voz
La traducción de voz permite la traducción multilingüe en tiempo real para voz a voz o voz a texto, ideal para aplicaciones globales.
Identificación de idioma
La identificación de idioma detecta idiomas hablados en audio, compatible con una amplia lista de idiomas admitidos.
Reconocimiento de hablantes
El reconocimiento de hablantes verifica e identifica a los hablantes por sus características de voz únicas.
Evaluación de pronunciación
La evaluación de pronunciación proporciona retroalimentación sobre la precisión y fluidez del habla, ideal para aprendizaje de idiomas.
Reconocimiento de intenciones
El reconocimiento de intenciones, combinado con LUIS, deriva intenciones de voz transcrita para actuar según comandos.
Opciones de implementación
El Servicio de voz puede implementarse en la nube, en el perímetro mediante contenedores, o en nubes soberanas (por ejemplo, Azure Government y Azure China) para cumplir con requisitos de seguridad y cumplimiento.

Integración en tus aplicaciones
Integra el Servicio de voz usando las siguientes herramientas:
- Speech Studio: Interfaz sin código para crear y gestionar proyectos de voz.
- Speech SDK: Soporte para múltiples lenguajes de programación y plataformas.
- Speech CLI: Herramienta de línea de comandos para funciones avanzadas sin código.
- REST API: Ideal para transcripción por lotes y reconocimiento de hablantes.
Cómo empezar
Explora inicios rápidos para aprender patrones de diseño y ejecutar código en menos de 10 minutos:
Ejemplos de código
Encuentra ejemplos de código en GitHub para escenarios comunes como reconocimiento continuo, transcripción por lotes y modelos personalizados:
- Muestras de voz a texto, texto a voz y traducción (SDK)
- Muestras de transcripción por lotes (REST)
- Muestras de texto a voz (REST)
- Ejemplos de asistente de voz (SDK)
Próximos pasos
Explora más sobre el Servicio de voz y sus precios para adaptarlo a tus necesidades.
Compartir:
