¿Qué es el servicio para voz a texto de Microsoft?

El servicio de voz Microsoft proporciona funciones de voz a texto y de texto a voz con un recurso de voz de Azure.

Puede transcribir voz a texto con alta precisión, producir voces de texto a voz con un sonido natural, traducir audio hablado y utilizar el reconocimiento del hablante durante las conversaciones.

Cree voces personalizadas, agregue palabras específicas a su vocabulario base o construya sus propios modelos. 

Ejecute Speech en cualquier lugar, en la nube o en el perímetro en contenedores. 

Es fácil habilitar la voz en sus aplicaciones, herramientas y dispositivos con Speech CLI , Speech SDK , Speech Studio o REST API.

Speech está disponible para muchos idiomas , regiones y puntos de precio.

Escenarios de habla

Los escenarios comunes para el habla incluyen:

  • Subtítulos : aprenda a sincronizar subtítulos con su entrada de audio, aplicar filtros de blasfemias, obtener resultados parciales, aplicar personalizaciones e identificar idiomas hablados para escenarios multilingües.
  • Creación de contenido de audio : puede usar voces neuronales para hacer que las interacciones con chatbots y asistentes de voz sean más naturales y atractivas, convertir textos digitales como libros electrónicos en audiolibros y mejorar los sistemas de navegación en el automóvil.
  • Call Center : transcriba llamadas en tiempo real o procese un lote de llamadas, elimine información de identificación personal y extraiga información como el sentimiento para ayudar con su caso de uso del centro de llamadas.
  • Asistentes de voz : Cree interfaces conversacionales naturales y similares a las humanas para sus aplicaciones y experiencias. La función de asistente de voz proporciona una interacción rápida y confiable entre un dispositivo y la implementación de un asistente.

Microsoft usa Speech para muchos escenarios, como subtítulos en Teams, dictado en Office 365 y lectura en voz alta en el navegador Edge.

Capacidades de voz

A continuación se proporcionan resúmenes de funciones de voz con enlaces para obtener más información.

Dictado a texto

Utilice la conversión de voz a texto para transcribir audio en texto, ya sea en tiempo real o de forma asíncrona.

 Consejo

Puede probar la conversión de voz a texto en Speech Studio sin registrarse ni escribir ningún código.

Convierta audio a texto desde una variedad de fuentes, incluidos micrófonos, archivos de audio y almacenamiento de blobs. Utilice la diarización del orador para determinar quién dijo qué y cuándo. 

Obtenga transcripciones legibles con formato y puntuación automáticos.

El modelo base puede no ser suficiente si el audio contiene ruido ambiental o incluye mucha jerga específica de la industria y del dominio. 

En estos casos, puede crear y entrenar modelos de voz personalizados con datos acústicos, de idioma y de pronunciación. 

Los modelos de voz personalizados son privados y pueden ofrecer una ventaja competitiva.

Texto a voz

Con texto a voz , puede convertir texto de entrada en voz sintetizada similar a la humana. 

Use voces neuronales, que son voces similares a las humanas impulsadas por redes neuronales profundas. 

Use el lenguaje de marcado de síntesis de voz (SSML) para ajustar el tono, la pronunciación, la velocidad de habla, el volumen y más.

  • Voz neuronal preconstruida: voces listas para usar altamente naturales. Consulte las muestras de voz neuronal preconstruidas aquí y determine la voz adecuada para las necesidades de su negocio.
  • Voz neuronal personalizada: además de las voces neuronales preconstruidas que vienen listas para usar, también puede crear una voz neuronal personalizada que sea reconocible y única para su marca o producto. Las voces neuronales personalizadas son privadas y pueden ofrecer una ventaja competitiva. Consulte las muestras de voz neural personalizadas aquí .

Traducción de voz

La traducción de voz permite la traducción multilingüe de voz en tiempo real a sus aplicaciones, herramientas y dispositivos. 

Utilice esta función para la traducción de voz a voz y de voz a texto.

Identificación de idioma

La identificación de idioma se utiliza para identificar los idiomas que se hablan en el audio en comparación con una lista de idiomas admitidos.

Utilice la identificación de idioma por sí misma, con reconocimiento de voz a texto o con traducción de voz.

Reconocimiento de orador

El reconocimiento de hablantes proporciona algoritmos que verifican e identifican a los hablantes por sus características de voz únicas. 

El reconocimiento del hablante se utiliza para responder a la pregunta «¿Quién está hablando?».

Evaluación de la pronunciación

La evaluación de la pronunciación evalúa la pronunciación del habla y brinda retroalimentación a los hablantes sobre la precisión y fluidez del audio hablado. 

Con la evaluación de la pronunciación, los estudiantes de idiomas pueden practicar, obtener comentarios instantáneos y mejorar su pronunciación para que puedan hablar y presentar con confianza.

Reconocimiento de intenciones

Reconocimiento de intenciones : utilice la conversión de voz a texto con comprensión del lenguaje (LUIS) para derivar las intenciones del usuario a partir del habla transcrita y actuar según los comandos de voz.

Entrega y presencia

Puede implementar características de voz de Azure Cognitive Services en la nube o en las instalaciones.

Con los contenedores , puede acercar el servicio a sus datos por motivos de cumplimiento, seguridad u otros motivos operativos.

La implementación del servicio de voz en nubes soberanas está disponible para algunas entidades gubernamentales y sus socios. 

Por ejemplo, la nube de Azure Government está disponible para las entidades gubernamentales de EE. UU. y sus socios. 

La nube de Azure China está disponible para organizaciones con presencia comercial en China. 

Para obtener más información, consulte Nubes soberanas.

Usa Speech en tu aplicación

Speech Studio es un conjunto de herramientas basadas en la interfaz de usuario para crear e integrar características del servicio de voz de Azure Cognitive Services en sus aplicaciones. 

Usted crea proyectos en Speech Studio usando un enfoque sin código y luego hace referencia a esos activos en sus aplicaciones usando Speech SDK , Speech CLI o REST API.

Speech CLI es una herramienta de línea de comandos para usar el servicio Speech sin tener que escribir ningún código.

La mayoría de las funciones en Speech SDK están disponibles en Speech CLI, y algunas personalizaciones y funciones avanzadas se simplifican en Speech CLI.

El SDK de voz expone muchas de las capacidades del servicio de voz que puede usar para desarrollar aplicaciones habilitadas para voz. 

Speech SDK está disponible en muchos lenguajes de programación y en todas las plataformas.

En algunos casos, no puede o no debe usar Speech SDK.

En esos casos, puede usar las API de REST para acceder al servicio de voz. 

Por ejemplo, use las API REST para la transcripción por lotes y las API REST de reconocimiento de locutores.

Empezar

Ofrecemos inicios rápidos en muchos lenguajes de programación populares. 

Cada inicio rápido está diseñado para enseñarle patrones de diseño básicos y ejecutar código en menos de 10 minutos. 

Consulte la siguiente lista para ver el inicio rápido de cada característica:

Ejemplos de código

El código de muestra para el servicio Speech está disponible en GitHub. 

Estas muestras cubren escenarios comunes como la lectura de audio de un archivo o transmisión, el reconocimiento continuo y de un solo disparo y el trabajo con modelos personalizados. 

Utilice estos enlaces para ver ejemplos de SDK y REST:

Próximos pasos

error: