Audio a Texto con whisper v2

Última actualización el 2025-09-24 R, Python

Esta entrada es una actualización de del tutorial anterior que mostraba el paso a paso de transcripción de audios a textos con el modelo whisper. Esta actualización del código agrega la separación de párrafos por silencios (idealmente pensaba hacerlo con separación según hablantes pero es muy pesado para correrlo desde un entorno Colab gratuito) y el output en un archivo .docx (y no txt).

1. Pasos

Se usa el mismo entorno de ejecución de código que en la versión anterior (Google Colab) y el modelo medium, todo con código Python. Tenes que tener una cuenta de Google para poder abrir el cuaderno en el cual estará y se ejecutará el código.

I. Abrís este archivo denominado Audio_a_texto_v2.ipynb que contiene todas las líneas necesarias para hacer la transcripción.

II. Hacés una copia del archivo y le ponés el nombre que quieras Archivo -> Guardar una copia en Drive

III. Vas al panel de Herramientas, abrís Entorno de ejecución -> Cambiar tipo de entorno de ejecución -> T4 GPU IV. Creás una carpeta en tu Drive (carpeta raíz) que se llame Audios y una subcarpeta allí mismo que se llame Transcripciones (ojó que esto cambió de la versión anterior!, antes eran dos separadas). En la carpeta Audios ponés TODOS los audios que querés transcribir (acepta formatos .mp3, .mp4, .wav y .m4a).

V. Vas ejecutando de a uno los 5 pasos que aparecen en el código, apretando la la flecha circular en cada uno de los pasos. Cuando aparece un tick en verde, significa que esa celda ya fue ejecutada correctamente. El paso 1 te va a pedir que te loguees a la cuenta de Google ya que allí hará la conexión con el Drive y así accederá a tus archivos de audio. El paso 5 será el que más demore ya que es dónde se hacen efectivamente las transcripciones y su guardado en .docx en la carpeta Transcripciones.

Nota: si cerrás el archivo Audio_a_texto_v2.ipynb, cuando lo volvés a abrir, tenés que ejecutar todo de nuevo desde el Paso 1.

Voilá!

Ciencias sociales computacionales

Elina Gómez

Socióloga. MSc, PhD(c)

Socióloga

Audio a Texto con whisper v2

Elina Gómez

Socióloga. MSc, PhD(c)

Relacionado