Comunidad

OpenAI Whisper: Conoce qué es y cómo funciona esta IA para transcribir audios.

Cristian Elizalde

La inteligencia artificial ha irrumpido drásticamente en el sector colectivo el ciberespacio; sin embargo, ahora es posible transcribir archivos de audio a texto, una herramienta que, ciertamente, podría servir a los reporteros, periodistas o gente que busque dicho conocimiento.

Por tanto, a continuación te contaremos qué es y para qué sirve “Whisper”.

La inteligencia artificial (IA) de Open Ai, llamada “Whisper” acaba de presentar finalmente su versión 3 (V3), misma que ha llegado para ofrecer los mejores resultados, pues por medio de esta tecnología puedes transcribir de una manera muy sencilla audios.

Es decir: cuando subas un archivo de audio a tu sistema, este podrá analizar todo lo que se dice en el audio y escribir para ahorrar tiempo en la trascripción, según informó el portal de noticias Xataka.

Es menester señalar que, en su mayoría, las herramientas gratuitas clásicas suelen dar demasiados fallos, pues confunden palabras o colocan otras en un orden incorrecto; inclusive, inventando cifras o incluir pocas expresiones. Open Ai, por su parte, propone una herramienta sumamente fiable al momento de realizar transcripciones.

Whisper: así puedes utilizarlo.

Primero, es necesario responder ¿Qué es Whisper? , se trata de un “sistema de reconocimiento automático de voz” (ASR), mismo que está entrenado con más de 680,000 horas de datos supervisados multilinguües y multitarea, recopilados desde la web.

Asimismo, el programa no solo es capaz de convertir a texto lo que escucha, sino también de traducirlo al inglés en tiempo con resultados sumamente sorprendentes. La herramienta es sumamente precisa, reconoce la puntuación y es capaz de entender hasta las voces veloces y complejas.

Whisper: Cómo utilizarlo.

De momento, Whisper sigue siendo una herramienta difícil de utilizar y con un gran número de aplicaciones de inteligencia artificial, es necesario utilizar un programa como Google Colab, que permite a los usuarios “escribir y ejecutar código abierto de Python en el navegador”.

Aunque el proceso no es tan complejo como suena, sigue siendo engorroso sobre todo para quienes no son desarrolladores; pero, debido a que Whisper es un programa de código abierto, varios programadores han comenzado a crear aplicaciones más amigables impulsadas por Whisper que, una vez instaladas, te permiten probar las mieles de la transcripción de texto asistida por IA.

Aquí tienes una lista paso a paso de cómo se usa Whisper basándote en el texto que me has dado:

  • 1. Accede a la página web [replicate.com/openai/whisper], donde podrás usar Whisper sin necesidad de descargarlo ni instalarlo.
  • 2. Haz clic en el botón Upload y selecciona el archivo de audio que quieras transcribir. Puedes usar cualquier formato de audio compatible, como MP3, WAV o OGG.
  • 3. Espera a que el archivo se cargue y se procese. Verás una barra de progreso que te indicará el estado del proceso.
  • 4. Elige el modelo de Whisper que quieres utilizar. Puedes elegir entre el modelo v3 y sus diferentes versiones, como v3.1, v3.2 o v3.3. Cada versión tiene sus propias características y ventajas, que puedes consultar en la [página de Github] de Whisper.
  • 5. Haz clic en el botón Transcribe y espera a que el modelo genere la transcripción del audio. Verás el texto resultante en la parte inferior de la pantalla, junto con el tiempo que ha tardado el modelo en generarla.
  • 6. Si quieres, puedes editar el texto resultante, corrigiendo posibles errores o añadiendo puntuación. También puedes copiar el texto al portapapeles o descargarlo como un archivo de texto.
  • 7. Si quieres transcribir otro archivo de audio, puedes repetir los pasos anteriores. Si quieres usar un modelo diferente, puedes cambiarlo en el menú desplegable.

TE PUEDE INTERESAR: Sailoraiser: Así se vería la fusión de Sailor Moon con Hellraiser según una inteligencia artificial

Temas

Más Noticias