Транскрибировать аудио в текст

Эта инструкция поможет сохранить аудио в текст с использованием инструмента Audacity.

Требования

Операционная система: Windows.
Программы: установленные Audacity, OpenVINO plugin и FFmpeg (инструкции ниже)
Доступ в интернет для загрузки утилит.
Права администратора (требуется установка в системные папки).
Диск: достаточно свободного места для файлов (модели в высоком разрешении могут быть большими).

Инструкция

Скачать audacity-win-<версия>-64bit.exe из последнего релиза https://github.com/audacity/audacity/releases/latest
Зеркало в GitHub
Скачать ffmpeg-<версия>-full_build-shared.zip из последнего релиза https://github.com/GyanD/codexffmpeg/releases/latest
Зеркало в GitHub
Скачать audacity-win-<версия>-64bit-OpenVINO-AI-Plugins.exe из последнего релиза https://github.com/intel/openvino-plugins-ai-audacity/releases/latest
Зеркало в GitHub
Установить Audacity запустив audacity-win-<версия>-64bit.exe
Распаковать ffmpeg-<версия>-full_build-shared.zip в папку C:\Program Files\ffmpeg\
Открыть командную строку (Win + R → cmd) и задать переменную среды ffmpeg
```
setx /M PATH "%PATH%;C:\Program Files\ffmpeg\bin"
```
Установить OpenVINO плагин запустив audacity-win-<версия>-64bit-OpenVINO-AI-Plugins.exe
Для лучшего распознавания выберите большую модель. Чем больше модель, тем дольше будет распознавание.
Настройте Audacity на использование ffmpeg, для поддержки форматов.
В Audacity выбрать Edit → Preferences → Libraries → Locate и указать папку с распакованным ffmpeg\bin\avformat-61.dll
Включите модуль OpenVINO в Audacity
Включить модуль в Audacity Edit → Preferences → Modules → mod-openvino: Enabled
Откройте аудио файл (File → Open) или запишите вокал в Audacity
Распознайте аудио в текст в Audacity 🎤→📝
Выделите весь трек (Ctrl+A) или нужный фрагмент Analyze → OpenVINO Whisper Transcription. Выберите подходящую модель распознавания и язык речи. Точность распознавания зависит от качества аудио и выбранной модели Whisper.
Сохраните текст в файл
После транскрибации текст появится в виде меток (Labels) на дорожке. Экспортировать текст выделив Transcription под звуковой дорожкой и нажать File → Export → Export Labels...

Источник 1

Источник 2